细履平沙 发表于 2016-12-10 18:49:25

数据挖掘基本功

关于数据挖掘,先给一个百度查到的定义:
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
用我自己的话简单的说,数据挖掘就是将历史积累的数据进行一定的处理,从中找到数据间规律的过程。对于发酵来说数据包括哪些:
1、培养基小试结果
2、种子测试结果
3、染菌记录和无菌后采取的措施
4、发酵过程数据。
5、冷却水使用记录
6、车间成本记录
7、车间电力消耗
8、等等。
希望进行数据挖掘的首要任务是数据的整理。控制的成功与不成功关键在于数据的真实性和数据的完整性。所以需要更多细致的工作。数据挖掘可以由车间的高级技术人员完成,也可以由公司的研发人员完成。

细履平沙 发表于 2016-12-10 18:55:15

数据的整理。数据一般是记录在纸上的,如果是手写的,转换成电子记录是前提。输入数据的时候,需要按照既定的格式完成。需要什么的数据,需要根据什么样的目的。很多人会以为数据挖掘是从中找到最好的结果,然后去模仿,但是这不是数据挖掘的目的,因为数据挖掘是发现数据间内在的规律,不是直观的找表面上的最优。当我们无法找到数据间内在的规律,只找一个最优的发酵单位的记录,然后按照上面去做,能成吗?答案是有可能,只是可能性与0接近。

细履平沙 发表于 2016-12-10 19:06:44

数据挖掘利用了来自如下一些领域的思想:
(1) 来自统计学的抽样、估计和假设检验,
(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
数据挖掘无论采取什么方法,都需要数据的真实有效。

细履平沙 发表于 2016-12-10 19:18:31

最常用的分析方法是聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。定义可能有点陌生,但是这是我们在车间最常用的方法,将产量高的罐批报放在一起,将产量低的罐批放到一起。然后大家一起讨论,看看差距在哪里。有人说高产量的罐批,初始的发酵单位高。于是大家再找更多批报来验证这个推论或结论。不管怎么说,这是一种最可靠的方法,可能对于发酵这样一个非常复杂的系统,聚类分析,也许是最简单有效的数据挖掘工具。

细履平沙 发表于 2016-12-10 19:26:40

人工神经网络是一种最有潜力挖掘发酵记录的工具。
随着AlphaGo在围棋领域战胜了顶级专业棋手李世石,让人充分认识到了其巨大的学习能力和判断能力。其实AlphaGo的内核就是人工神经网络技术。
人工神经网络(Artificial Neural Networks,ANN)系统是 20 世纪 40 年代后出现的。它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信 息存储、良好的自组织自学习能力等特点。BP(Back Propagation)算法又称为误差 反向传播算法,是人工神经网络中的一种监督式的学习算法。BP 神经网络算法在理 论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,在优化、信号处理与模式识别、智能控制、故障诊断等许 多领域都有着广泛的应用前景。

细履平沙 发表于 2016-12-10 19:28:49

无论怎样来进行数据挖掘都离不开计算机程序,而且因为发酵参数的多尺度,导致了计算量呈几何数据级上长,所以计算量的确很大。

细履平沙 发表于 2016-12-10 19:30:50

这个话题最好的作用是让工程师知道记录的珍贵,记录中可能隐藏着找到影响发酵结果关键因素。

vei_20004 发表于 2016-12-11 19:37:30

数据处理很关键,我们只能从发酵罐上的表象来发现,统计糖耗、产酸、泡沫、料液颜色、气味。
等方面。发酵是个动态过程,计算机模拟只能做个预测;

细履平沙 发表于 2016-12-13 09:07:52

在数据挖掘中可能出现非常诡异的结论,但是无论得出什么结论,最好要用试验验证一下。如果试验验证这种结论不可行,或与结论相反,可能是数据挖掘计算中,没有设置好边界条件,也就是优化的方向没有根据发酵规律进行规定。简尔言之:跑偏了。

fermenter 发表于 2016-12-17 11:27:36

经验很多时候比数据更可靠
页: [1] 2
查看完整版本: 数据挖掘基本功