有数UXSOW基于语义网的工业大数据分析平台
工业大数据与工业大数据分析内涵
工业大数据即工业数据的总和,我们把它分成三类,即企业信息化数据、工业物联网数据,以及外部跨界数据。其中,企业信息化和工业物联网中机器产生的海量时序数据是工业数据规模变大的主要来源。
就空间分布而言,工业大数据不仅存在于企业内部,还存在于产业链和跨产业链的经营主体中。企业内部数据,主要是指MES、ERP、PLM等自动化与信息化系统中产生的数据。产业链数据是企业供应链(SCM)和价值链(CRM)上的数据,主要是指企业产品供应链和价值链中来自于原材料、生产设备、供应商、用户和运维合作商的数据。跨产业链数据,指来自于企业产品生产和使用过程中相关的市场、地理、环境、 法律和政府等外部跨界信息和数据。
就产生主体而言,人和机器是产生工业大数据的主体。人产生的数据是指由人输入到计算机中的数据,例如设计数据、业务数据、产品评论、新闻事件、法律法规等。机器数据是指由传感器、仪器仪表和智能终端等采集的数据。当然,我们应该致力于推动数据的自动采集。
就数据类型而言,工业大数据可分为结构化数据、半结构化数据和非结构化数据。结构化数据即关系数据,存储在数据库里,可以用二维表结构来表达实体及其联系。不方便用二维表结构来表达的数据即 称为非结构化数据,包括办公文档、文本、图片、各类报表、图像、 音频、视频等。所谓半结构化数据,就是以XML数据为代表的自描 述数据,它介于结构化数据和非结构化数据之间。
工业大数据分析是利用统计学分析技术、机器学习技术、信号处理技术等技术手段,结合业务知识对工业过程中产生的数据进行处理、计算、分析并提取其中有价值的信息、规律的过程。
工业大数据分析的直接目的是获得业务活动所需各种的知识,贯通大数据技术与大数据应用之间的桥梁,支撑企业生产、经营、研发、服务等各项活动的精细化,促进企业转型升级。
工业大数据的分析要求用数理逻辑去严格的定义业务问题。由于工业生产过程中本身受到各种机理约束条件的限制,利用历史过程数据定义问题边界往往达不到工业的生产要求,需要采用数据驱动+模型驱动的双轮驱动方式,实现数据和机理的深度融合,能较大程度去解决实际的工业问题。
2 工业大数据分析类型
根据业务目标的不同,数据分析可以分成四种类型:
描述型分析:描述型分析用来回答“发生了什么”、体现的“是什么”知识。工业企业中的周报、月报、商务智能(BI)分析等,就是典型的描述型分析。描述型分析一般通过计算数据的各种统计特征,把各种数据以便于人们理解的可视化方式表达出来。
诊断型分析:诊断型分析用来回答“为什么会发生这样的事情”。针对生产、销售、管理、设备运行等过程中出现的问题和异常,找出导致问题的原因所在,诊断分析的关键是剔除非本质的随机关联和各种假象。
预测型分析:预测型分析用来回到“将要发生什么?”。针对生产、经营中的各种问题,根据现在可见的因素,预测未来可能发生的结果。
处方型(指导型)分析:处方型(指导型)分析用来回答“怎么办”的问题。针对已经和将要发生的问题,找出适当的行动方案,有效解决存在的问题或把工作做得更好。
与之相对应的数据应用可以分为以下五大类:
描述类(descriptive)应用:主要利用报表、可视化等技术,汇总展现工业互联网各个子系统的状态,使得操作管理人员可以在一个仪表盘(dashboard)上总览全局状态。此类应用一般不给出明确的决策建议,完全依靠人来做出决策。
诊断类(diagnostic)应用:通过采集工业生产过程相关的设备物理参数、工作状态数据、性能数据及其环境数据等,评估工业系统生产设备等运行状态并预测其未来健康状况,主要利用规则引擎、归因分析等,对工业系统中的故 障给出告警并提示故障可能的原因,辅助人工决策。
预测类(predictive)应用:通过对系统历史数据的分析挖掘,预测系统的未来行为。主要是利用逻辑回归、决策树等,预测未来系统状态,并给出建议。
决策类(deceive)应用:通过对影响决策的数据进行分析与挖掘,发现决策相关的结构与规律,主要是利用随机森林、决策树等方法,提出生产调度、经营管理与优化方面的决策建议。
控制类(control)应用:根据确定的规则,直接通过数据分析产生行动指令,控制生产系统采取行动。
3 工业大数据分析参考模型CRISP-DM
CRISP-DM 模型是欧盟起草的跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining)的简称。这个标准以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行等六个基本的步骤,如下图所示。在该模型中,相关步骤不是顺次完成,而是存在多处循环和反复。在业务理解和数据理解之间、数据准备和建模之间,都存在反复的过程。这意味着,这两对过程是在交替深入的过程中进行的,更大的一次反复出现在模型验证评估之后。如下图所示:
(1)业务理解
该阶段的目标是明确业务需求和数据分析的目标,将模糊的用户需求转化成明确的分析问题,必须清晰到计划采取什么手段、解决什么问题,要将每一个分析问题,细化成明确的数学问题,同时基于业务理解制定分析项目的评估方案。
(2)数据理解
该阶段是目标建立数据和业务的关联关系,从数据的角度去深度的解读业务。包括发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设;识别数据的质量问题;对数据进行可视化探索等。
(3)数据准备
该阶段的目标是为数据的建模分析提供干净、有效的输入数据源。首先基于业务目标筛选有效数据,筛选的数据能够表征业务问题的关键影响因素;其次对数据的质量进行检查和处理,处理数据的缺失情况、异常情况等;最后对数据进行归约、集成变换等,输出建模可用的数据源。
(4)数据建模
该阶段是基于业务和数据的理解,选择合适的算法和建模工具,对数据中的规律进行固化、提取,最后输出数据分析模型。首先基于 业务经验、数据建模经验、对业务问题进行逻辑化描述,探索解决问 题的算法,反复迭代选择一个最优算法方案;其次基于输入数据来加工关键的因子的特征变量,作为建模输入变量,建立有效可靠的数据模型。
(5)模型的验证和评估
首先从业务的角度评估模型的精度问题,是否能够满足现有业务的要求;其次分析模型的中影响因子的完备性,为模型的下一步迭代指明优化路径;最后考察模型的假设条件,是否满足实际落地的条件,为模型的部署进行可行性验证。
(6)模型部署
在该阶段中,首先要基于分析目标,制定模型的使用方案和部署方案,并提前为模型的部署做好环境的准备工作;其次为模型部署过程中出现的质量问题、运行问题、精度问题等,提前做好预备方案;最后基于模型试运行后的结果,制定模型的持续优化方案。
在该参考模型中,业务与数据的关系是什么呢?概括来讲,业务流程伴随着数据,流程即是数据的消费者,也是数据的生产者。数据跟着业务流程走,流程和数据是对偶关系。
在理想情况下,数据可以在赛博空间(Cyber Space)刻画出工业系统及其运行轨迹的完整映像。但是,在现实条件下,数据的种类、精度、频度、数量、对应的准确性等方面往往存在很多不理想的地方。这时,数据只能部分地刻画工业对象、也只能记录工业对象运行的部分痕迹。
实际工作中,不能单纯通过数据,理解工业对象及相关业务,而是要结合一定的专业领域知识,才能理解数据的含义。业务理解是数据理解的基础、是数据理解的起点;反过来,离开数据,人们对对象的理解将会是粗糙的、模糊的,不利于对系统和业务的精准控制和优化。所以,数据理解支撑对业务理解的深化。