601 Altair 数据科学产品及应用介绍_v2023
Altair 数据科学产品及应用介绍
DATA & AI TEAM
企业级工业数据平台架构

数据科学工作流程方案
Monarch
信息管理系统 ( PLM/ERP/MES/WMS/CRM… )
生产设备
数据准备
机器学习开发与评估
机器学习模型
模型部署和监控
数据存储
IOT 传感器
存储预测
实时数据流
实时数据流
本地数据源
数据科学在制造业的价值
推动收入、削减成本、管理风险
数据分析
数据分析是指 利用统计学和计算机技术对数据进行收集、处理、清洗、分析、可视化和解释 ,以获得有关数据的洞察和结论的过程。
数据分析可以用于 发现趋势、模式、异常和关联关系,帮助组织做出更加明智的商业决策 ,解决业务问题,提高效率和盈利能力。
数据分析涉及多个领域,包括 数据采集、数据清洗、数据转换、数据可视化、统计分析、机器学习、预测建模 等等。
什么是数据分析?
机器学习
机器学习是一种人工智能技术,它可以让 计算机通过学习数据来自主地进行决策和预测 。简单来说,就是 让计算机通过大量的数据来自我学习,并根据这些学习结果来做出判断和决策,而不需要明确地编写具体的指令或规则
什么是机器学习?
在制造业中,可以 使用机器学习算法来优化生产线的运行和效率。 例如,通过收集生产线上的传感器数据,如温度、压力、速度等, 建立机器学习模型来预测机器的故障和维护需求 ,从而避免机器停机时间过长,提高生产效率。另外,可以利用机器学习算法优化生产过程中的参数设置,如工艺参数、加工参数等,从而提高产品的质量和降低成本。
简单问题
业务问题
简单分析
复杂问题
数据分析
人工智能
机器学习
深度学习(方法)
复杂分析
其他
技术方向
业务方向
数据分析: 从业务的数据中发现并提出问题,是一种思维。
人工智能: 使机器像人一样去决策。
机器学习: 是实现人工智能的一种技术。
数据分析 & 机器学习 & 人工智能
自助式数据准备工具
© Altair Engineering, Inc. Proprietary and Confidential. All rights reserved.
Altair Monarch
Monarch 是什么?


Monarch 被 Gartner 评为“客户的选择”
总体评分是对现有客户对供应商产品满意程度的衡量。 Altair 在“客户的选择” 总体评分中获得了的 4.5 / 5 的高分 。
右图“客户之声”象限的右上方象限的供应商被认可获得 Gartner Peer Insights “ 客户的选择”称号
x 轴:评论覆盖率
y 轴:总体市场评级
面向企业的数据抓取,数据预处理平台
支持从多源异构中提取数据,并转化为结构化数据,再进行相关的数据处理。
Monarch 案例:高效抽取 PDF 数据
某公司员工每月报销数据都存储在半结构化的 PDF 文件中,客户希望将所有员工每月的报销数据抽取合并起来,并导出结构化数据,方便后续统计
Monarch for Excel & CSV Files
过去和现在
需要额外的 Excel 的工作
VLook Up
透视表
数据表
计算
宏
现在
不需要增加额外的 Excel 工作
由于 Monarch 的功能已增强 ;
清洗
丰富数据
混合
审计追踪
数据行
数据概览
Monarch Data Prep Studio – Excel 工作表设计



Fiserv DNA – ACH Balancing Process 2 of 2


Monarch Desktop – Data Prep Studio

Monarch 案例 : 连接多个 EXCEL 并做数据处理
某公司需要的建模数据来源零散,需要汇总连接多个 excel 表格,客户希望将尽可能多的变量都根据业务逻辑,汇总在一到两张宽表上,方便后续变量选择以及建模
Monarch 数据预处理
Monarch Server – Automator

Monarch Server: 目的驱动型 ETL 解决方案
可视化界面设置工作流程,功能节点以图形化的方式呈现,包括 数据导入 、 模型引用 、 数据分发 以及 数据导出 ,支持在界面中拖放和连接不同的组件来构建工作流程 ; 设定计划或触发式自动运行 Monarch 模型和工作区 ;
创建管理任务,配置好 LDAP 后,可一键完成邮件分发、通知发送等操作;
在使用之前需要准备数据
没有数据准备工具
使用数据准备工具
数据准备是一个迭代和敏捷的过程,用于为各种数据和分析用例寻找、组合、清理、转换和共享精心策划的数据集 -Gartner
在数据准备上花费 80% 时间的每位员工都存在显著的潜在成本。
独立数据准备与集成数据准备

为什么选择 Monarch
金融保险
制造医药零售
其他
信用卡对账
ATM 事务历史记录
贷款审批记录
账本对账
特殊格式报表
合规报告
设备离散数据文件输出
申述补贴
报销管理
问卷调查数据
广告营销分析
电子病历
自动化预处理
工资奖金单
人力资源分析
市场调查报告
多维数据整合
Monarch 解决方案显著降低了我们部门的手动数据输入的时间和精力,使我们能够专注于战略重点。
Derek Madison, Mastercard
预测性分析和数据科学平台
Altair ® RapidMiner
© Altair Engineering, Inc. Proprietary and Confidential. All rights reserved.
世界领先的数据科学平台
1,200,000+
社区成员
40,000+
全球使用机构
4,000+
学校
350+
全球代理
得到主要机构高度认可的解决方案。
全方位的分析。
支持云端 / 本地运行。
支持运行 SAS 语言。
可灵活使用。
高度性价比的许可模型。
可接入数据设备。
Turbo Prep—— 自动数据清洗
简化和加速数据预处理的过程 , 提供了一套直观的工具和交互界面,使用户能够轻松地进行数据清洗、转换和准备,以便更好地进行后续的分析和建模工作。
支持数据格式转换,支持 Normalization ,支持 PCA 等操作。
AutoML —— 自动机器学习
结合了自动化和智能算法,使用户能够快速、简单地构建高性能的机器学习模型,而无需进行繁琐的手动调优。支持自动化模型选择,自动化特征工程,自动化超参数调优,自动化模型评估和比较。
Workflow Designer—— 流程化建模
功能节点包括:数据连接、数据处理、模型构建、模型评估等
Workflow Designer—— 多种 算法集成
内置 167 常用算法模型,开箱即用
主流算法
决策树
线性回归
逻辑回归
随机森林
Bagging 装袋
Boosting
深度学习
……
支持多超参组合寻优
支持自定义超参数空间、步长
评估模型性能
最佳超参数组合
简单直观,找到最佳的超参数组合
Workflow Designer—— 超参网格搜索
更好地理解和分析数据
支持特征工程和模型评估
可视化用于结果解释和沟通
简单配置,生成可视化图形,有助于加深对数据和模型的洞察,并支持数据驱动的决策过程
Workflow Designer—— 可视化
RapidMiner Marketplace
在线市场,可以浏览和下载各种扩展和插件,这些扩展和插件由 RapidMiner 的开发者社区和第三方开发者开发和贡献。可以帮助用户实现更多复杂的数据分析任务、特定领域的分析需求或者增强 RapidMiner 的功能。
RapidMiner Radoop : 是一个无代码环境,用于设计高级分析流程,将计算推送到 Hadoop 集群。
Text Processing : 提供了用于标记化、词干提取、停用词过滤或 n-gram 生成的标准过滤器,以提供准备和分析文本所需的一切 。
Web Mining: Web 扩展提供对各种互联网资源的访问,例如网页、 RSS 源和 Web 服务。
Image Handling: 此扩展允许操作员处理图像数据。 从图像中提取文本、执行转换以及加载为示例集或张量对象,目前仅支持英语。
RapidMiner Studio 支持自定义扩展开发
RapidMiner Studio 具有高扩展性的特点,使用户能够根据自己的需求和特定的任务来扩展和定制平台功能;
途径 1 :使用 Java 编程语言来开发自己的扩展包,利用 RapidMiner Studio 的集成开发环境( IDE )来编写、调试和测试扩展包,从而快速迭代和优化;
途径 2 :通过自定义扩展工具( Custom Operators Extension ),将 python 模型内嵌在流程 (Process) 中,通过单击 Extensions / Create Custom extension 创建扩展。
RapidMiner Studio
RapidMiner AI Hub
系统集成
基于可扩展的微服务架构 。支持其他安全和集成功能,如单点登录和 LDAP 。
企业范围内的协作
项目管理工具,项目快照
用户和组访问管理、数据连接设置。
快速部署模型
将机器学习嵌入 实际 业务 , 可部署在企业内部或者云端 。设置计划处理并实时持续评分数据。
团队合作,模型开发,系统应用
RapidMiner AI Hub
模型共享和协作
团队成员可以轻松共享、重用和协作开发机器学习模型。可以跟踪和管理不同版本的模型,轻松切换和回滚到不同的模型版本
安全和权限管理
具有严格的安全和权限管理功能,确保只有授权用户能够访问和使用模型。用户可以定义和管理团队成员的访问权限,并保护模型和数据的安全性
计划 & 任务管理器
长时间运行的作业可以在服务器硬件上更快更有效地分派。工作任务可以按计划时间运行,也可以设置为由外部事件触发
模型部署
将模型以 API 或服务化的形式部署。通过 API ,其他系统和应用程序可以通过请求和响应的方式与模型进行交互,实现实时的决策和预测
模型版本管理
创建项目快照,快照将自动与 Project Server 共享并被保存在快照历史记录中;
选择不同版本快照,进行回滚
模型权限 管理
内容权限 ( Permitted Users & Group ):
有权查阅项目的内容;
管理权限 (Owners) :
有权更改 Project 相关设置;
更改 Owners 和 Permitted Users & Groups 列表;
删除 Project ;
设置运行模型训练任务
立刻运行、运行一次、周期性运行
支持特征工程和模型评估
可视化用于结果解释和沟通
创建任务运行计划
代码建模
代码线上运行: 云上代码仓允许用户在云端环境中运行代码,而无需在本地设置开发环境。用户可以随时随地访问并执行他们的代码,不受设备或地理位置的限制。
与 RapidMiner Studio 中的建模流程交互: 云上代码仓可以无缝与其内部的数据流程进行交互,用户可以在云端环境中运行、测试和部署他们的数据建模流程。
支持代码版本管理: 允许用户跟踪和管理他们的代码和应用程序的不同版本。提供了备份和回滚功能,以防止不必要的错误或丢失的代码,方便审查和追溯。
模型部署 —— 界面化部署,无需编码
部署路径
选择项目
自动更新
选择快照
API 访问权限
当模型被设置成定时训练后,每次训练得到的新的模型,会自动替换部署中的模型
包含要部署模型项目
URL 路径
Basic authentication :用户名,密码认证
AI Hub permissions : AI Hub 权限认证
Long-living API token : Token 认证
模型部署 —— 配置 API
选择部署流程
匹配 URL 参数和流程中的宏
选择依赖项
例如:在流程中定义了一个名为 number 值为 1 的宏,可通过 URL 将值传递给 number 这个宏
流程中使用的子流程、数据源、模型等依赖项
模型部署 —— Restful API 方式,供三方系统调用
部署完成的模型 URL
测试模型
Input Data :
JSON 格式数据
单行或者多行
认证方式
Output Data:
JSON 格式数据,包括原始传入数据和预测结果数据
单行或者多行
RapidMiner AI Hub
实时流数据可视化
Altair Panopticon TM
Panopticon 流数据分析平台 : 底层架构
读取数据
读取数据
订阅与发布
订阅
Panopticon Streams
订阅
Panopticon Streams
事件处理引擎
Altair Panopticon 演示视频
一个数据科学平台,面向所有人。
代码交互
自动化数据科学
可视化工作流
指导和互动体验 ,自动化数据学科 / 机器学习执行和最佳实践。
数据流的 可视化设计 和执行数据科学 / 机器学习功能的步骤。
开发 执行数据科学 / 机器学习任务的代码。
一个数据科学平台,面向所有人。
… 为您数据科学之旅的每一步提供支持
IoT
Altair RapidMiner Platform