使用MySQL HeatWave ML训练机器学习模型

ML技术的快速扩散、数据的爆炸性增长以及数据科学专业知识的短缺,使得业界面临着越来越具有挑战性的需求,以跟上快速开发和部署模型生命周期的步伐。各种应用程序、设备、传感器等生成的数据量和速度的增加,以及实时决策的需要,使得使用这些数据构建的机器学习模型发生频繁变化。需要生成具有高精度的模型,并在不断变化的数据上保持最新,以管理训练数据和推理数据之间的漂移。这样的快速模型开发周期需要高效和自动化的ML管道来准确地生成类似于手动生成模型的预测。

为给定数据集识别正确的模型,包括选择最佳算法、最佳行和特征集以及最佳算法超参数。有成百上千种可能的组合。传统的解决方案通过优化各种管道配置参数来有效地捕获这些参数之间的相关性来解决这个问题。这种方法往往是迭代的,需要评估大量的管道置换,这需要更长的时间,使得迭代管道不切实际。

MySQL HeatWave ML的训练时间平均比Redshift ML等竞争产品快25倍。在某些数据集中,它比RedshiftML快数百倍。与Redshift ML相比,随着集群大小的增加,MySQL热浪ML的伸缩性更好。此外,HeatWave中的ML功能是通过将其合并到数据库中来实现的。通过采用这种方法,数据不必从数据库中提取,而是留在数据库中,并且在不移动数据或模型的情况下执行训练、推理和解释活动。对于MySQL热浪的客户,使用热浪ML是免费的。

MySQL热浪ML是如何实现这种快速模型训练性能的?基于Oracle实验室多年的研究,MySQL HeatWave ML提出了一种新的无迭代机器学习管道,该管道不仅可以提供精确的模型,而且可以在更短的运行时间内跨服务器并行化。它通过消除迭代各种管道配置的需要来实现这些目标。MySQL HeatWave ML实现了一种前馈方法,其中每个管道阶段都基于Metalearn代理模型做出决策,该模型可以在构建最终模型之前预测候选管道配置性能。

下面列出的创新是MySQL HeatWave ML卓越的模型训练性能和准确性的关键。

创新

代理模型

代理模型使用来自公开可用数据集的一组数据集开发。我们利用metalearning通过在各种数据集和超参数上观察每个算法的行为来创建这些代理模型。生成每个ML的单个代理模型算法,以使其对任何从未见过的数据具有预测性。代理模型是性能预测器,用于所有管道阶段,以使ML管道无需迭代。

无迭代优化器

ML流水线阶段的无迭代序列,包括算法选择、自适应数据约简和超参数优化,这是同类中的第一个。每个管道阶段的优化结果是最终的,仅影响下游阶段。

自适应数据约简

沿行维度和特征维度选择数据集的代表性样本,并针对选定算法进行优化。自适应数据缩减加快了超参数优化,对模型的预测性能影响最小。

HyperGD

高度并行的基于梯度的超参数优化器,在不同的超参数维度上并行执行异步优化。

管道阶段

MySQL HeatWave ML管道由一组预定义的阶段组成,如图1所示。这些阶段使用代理模型来生成快速准确的模型。

数据预处理

它实现了常用的预处理步骤,包括缺失值插补、标签编码和归一化。

算法选择

该阶段包括算法选择,确定给定数据集的最佳算法。算法选择对整个流水线的性能至关重要。

MySQL HeatWave ML依靠代理模型为数据集选择最佳算法。代理模型充当给定算法在感兴趣数据集上的性能指标。它们的高度预测性有助于缓解分数下降,这通常与非迭代管道相关。

管道中的算法选择比穷举算法选择(管道在给定数据集上尝试所有算法)在运行时具有约4.5倍的优势。

自适应采样

该阶段使用自适应数据缩减,旨在减少数据集行数,并在不影响模型性能的情况下选择特征子集。此阶段提供的不平衡感知采样加速了后续阶段。行采样和特征选择都依赖于代理模型对样本和子集进行评分。

行采样-目标是在不牺牲模型质量的情况下,找到数据集的最小样本大小,用于后续管道阶段。

特征选择-特征选择的目标是找到代表原始数据集的数据集特征子集,并删除无关特征。

自适应数据减少将管道的平均运行时间减少了8.73%以上,同时平均得分提高了1.80%。对于大于3m单元格的大型数据集,这种分数提高和加速更为明显,加速率为35.98%,分数提高率为3.65%。

超参数优化

这是流水线的最后阶段,旨在微调所选算法的超参数。这一阶段往往是机器学习流水线中最昂贵的阶段。

典型的超参数优化器选择并评估一批超参数,等待所有评估完成,然后根据当前批次的结果选择下一批超参数值。这些评估中的每一个都称为试验,根据数据集和超参数的选择,每个试验都需要任意长的时间。

HyperGD是一种高度并行和异步的算法,它在搜索给定超参数以及跨其他超参数的试验期间并行化试验。它通过在启动任何新试验时异步收集和使用所有已完成试验的最佳超参数来实现高度并行。此外,它不会等待一批模型评估的所有结果完成。由于HyperGD中新的基于梯度的搜索空间缩减(GrSSR),这两种优化都是可能的。

由于HyperGD,测试分数比代理模型平均提高5.8%。

总之,MySQL HeatWave ML提供了一个快速准确的机器学习管道。MySQL HeatWave ML的模型训练平均比红移ML快25倍。通过代理模型、无交互优化器、自适应数据缩减和HyperGD等创新,实现了MySQL热浪ML管道的速度和准确性。

作者相关

Salil Pradhan

原文标题:Train your machine learning models 25x faster with MySQL HeatWave ML
原文作者:Salil Pradhan
原文链接:https://blogs.oracle.com/mysql/post/train-your-machine-learning-models-faster-with-mysql-heatwave-ml


免责声明:

1、本站资源由自动抓取工具收集整理于网络。

2、本站不承担由于内容的合法性及真实性所引起的一切争议和法律责任。

3、电子书、小说等仅供网友预览使用,书籍版权归作者或出版社所有。

4、如作者、出版社认为资源涉及侵权,请联系本站,本站将在收到通知书后尽快删除您认为侵权的作品。

5、如果您喜欢本资源,请您支持作者,购买正版内容。

6、资源失效,请下方留言,欢迎分享资源链接

文章评论

0条评论