欢迎光临三分快三
返回列表
您当前的位置:三分快三 > 三分快三走势 >
三分快三走势 数据科学家们会被 AutoML 代替吗?
发表于:2020-02-13 09:10 分享至:

原标题:数据科学家们会被 AutoML 代替吗?

AutoML是什么?现在有哪些可用的平台?以及数据科学家们所面临的最关键题目: 数据科学家们的末日就要来了吗?

作者 | @UT Austin

译者 | 王艳妮,责编 | 郭芮

以下为译文:

2018年,科技巨头Google和Microsoft向全世界推出了他们的AutoML服务:Google Cloud AutoML和Azure Machine Learning。从当时最先,人们对AutoML服务的迎接水祥和趣味就敏捷添长。

在此篇博文中,吾们将商议AutoML是什么,现在有哪些可用的平台,以及数据科学家们所面临的最关键题目:他们会被AutoML取代吗?

AutoML简介

挑到AutoML就不及不说到机器学习项主意生命周期,其中包括数据清洗,特征选择/工程,模型选择,参数优化,以及末了的模型验证。即使技术已经发展到了很高的水平,传统的数据科学项现在照样包含很多既耗时又重复的手动过程。

原料来源:R.Olson等(2016年)“Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science.”

AutoML一登场便能够自动完善从数据清洗到参数优化的整个过程。就时间的撙节和性能外现而言,它对机器学习项现在来说有着壮大的价值。

有哪些可用的AutoML平台?

1. Google Cloud AutoML

于2018年推出的Google Cloud AutoML倚赖其友益的用户界面和高性能外现而敏捷通走。下图展现了Google与其他AutoML平台的性能比较(蓝色是谷歌)。

原料来源:Tackling High-Value Business Problems Using AutoML on Structured Data (Cloud Next ‘19)

2. Microsoft Azure AutoML

同样发布于2018年的Azure AutoML为不熟识编程的用户挑供了透明的模型选择过程。

3. H2o.ai

“ H2O不息以来都是大周围地构建模型的推动者。这牵扯的可是数十亿项的索赔营业。仅行使标准的现成开源技术是无法做到这一点。” — H2o.ai

H2o成立于2012年,既挑供开源柔件包,又挑供名为Driverless AI的商业化AutoML服务。

自成立以来,H2o有着金融服务和零售等走业的普及营业。

4. TPOT

TPOT(基于树的管道优化工具,Tree-based Pipeline Optimization Tool)是一个由宾夕法尼亚大学开发的免费Python柔件包。固然免费,但功能专门富强,且在各栽数据荟萃均表现了特出的性能:Iris数据集的实在性约为97%,MNIST数字识别的实在性为98%,波士顿住房价格展望的实在性为10 MSE。(来源:TPOT文档)

AutoML与数据科学家

既然吾们已经清新了AutoML是什么以及有哪些可用的选择,接下来要谈到最关键的题目了:这些平台会取代人类数据科学家吗?吾们将从成本的角度来望待这个题目,并进走一次暗客马拉松(hackathon)来比较AutoML与人类的性能。

成本比较

按照Indeed.com的数据,在美国,数据科学家的平均年薪为121,585美元。同时,倘若公司采用AutoML来完善一份全职做事的义务(每周40幼时,每年52周),则费用在每年4,160美元至41,600美元之间,详细消耗取决于选择哪个平台。

实在,以上并不算是科学相符理的比较,由于吾们都清新,数据科学家的做事不光仅是运走模型。然而,这是一栽专门快速浅易的能表现出数据科学家和AutoML在成本方面差别的手段。

性能比较:Hackathon

吾们将议决一次两个数据集的暗客马拉松来不息比较AutoML平台和人类数据科学家的外现。在每个数据荟萃,一个由人类数据科学家构成的队伍将与AutoML平台竞争。两方都将进走数据处理,特征选择/工程三分快三走势,模型选择和参数调整三分快三走势,末了挑供一个具有预定性能指标的最佳展望效果。

Hackathon数据集1:快速约会(分类, classification) Hackathon数据集2:ASHRAE(回归, regression)

数据集1:快速约会数据集

数据集概述

这个数据集是从多个实验性质的快速约会参与者中间搜集的。在这些约会中三分快三走势,参与者们将填写一份调查外,其中包括他们的幼我新闻,以及他们憧憬的伴侣特质。例如,满分相等,他们如何评价本身的志向高矮,这个志向详细是什么运动,以及你期待伴侣的志向如何。这个数据集的现在标是把参与者的喜欢行为特征来展望这幼我是否能够匹配到伴侣。这是一个分类题目,把“匹配”行为吾们的因变量。

数据科学家进走的数据预处理和特征工程

为了获得比AutoML平台更优的效果,吾们必要对数据集进走特征设计,处理类不屈衡题目,处理缺失值,以及对分类变量实走one-hot encoding。由于数据是议决调查搜集的,所以吾们面临整个数据荟萃存在缺失值的题目。倘若参与者异国或者不情愿回答一道题目,他们就会直接空着。这些缺失值议决正当地进走估算平均值,中位数或多数来填补。数据在某些自变量之间具有共线性,所以某些变量会被舍用。只有29%的从属标签的二进制值为1,而其他标签的二进制值为0。为解决此题目,吾们行使了SMOTE(相符成幼批采样率,Synthetic Minority Oversampling Technique)。SMOTE从幼批类创建相符成样本而非浅易地复制数据。One-hot encoding变量在Google平台上尤其会遇到难得,由于该平台无法用能挑取有意义新闻的手段对它们分组。

现在,吾们将行使原首的以及特征工程之后的数据对Azure和Google两家AutoML平台的团体有效性进走分析。

数据科学家vs AutoML平台

数据科学家:吾们尝试了几栽分歧的模型,然后发现XGBoost和神经网络模型外现最益。吾们会查望AUC ROC分数,以便将吾们的模型效果与这些AutoML平台创建的模型进走比较。吾们XGBoost模型的AUC ROC得分为0.77,而神经网络模型的得分为0.74。

采用原首数据的AutoML平台:Google比Azure的XGBoost模型外现要更益一些。Google的AUC ROC得分为0.881,而Azure的AUC ROC得分为.865。Google平台不会向吾们泄漏哪栽模型被选为最佳,由于该新闻享有专利。另一方面,Azure会清晰通知您统统运走了多少个模型,每个模型的得分是多少,以及训练每统统个模型所消耗的时间。

采用处理后数据的AutoML平台:现在吾们想要测量模型在吾们特征工程后的数据集上的性能。有几件事情引首了吾们的仔细:Google的外现消极了,而Azure的外现有所挑高。如前所述,one-hot encoding对Google的AutoML来说是个题目,且平台的创建是为了实走其自身的特征工程。所以,为特征工程后的数据挑供one-hot编码的变量会降矮团体性能。Azure的外现从0.865挑高到0.885。

快速约会数据集之总结:

数据科学家能够议决向AutoML平台挑供经过良益特征工程后的数据集来挑供附添价值。 Azure平台在告知展望中行使了哪栽模型方面更添透明;Google的模型创建和选择新闻是享有专利的。 Google不及很益地处理one-hot编码的变量。

数据集2:ASHRAE

数据集概述

该数据集来自ASHRAE 能源展望Kaggle竞赛,请求参赛者开发出一个展望模型,用于测算1,449座修建物内的开水,冷水,蒸汽和电外读数。数据由修建物的元数据构成,其中包括平方英尺,建成年份和楼层数;仪外类型和带未必间戳的读数;以及天气数据(带时间戳的气温,云层遮盖,降水深度,风速,风向(度),海平面压力)。天气数据是由距离比来的气象站在站点级别搜集的。

数据科学家所做的数据预处理和特征工程

气象数据荟萃的缺失值是一个亟待解决的大题目,由于云层遮盖和降水深度这两项特征别离缺失了50%和35%的值。某些气象站点的云层遮盖和降水深度数据通盘缺失。为了克服这一窒碍,吾们尝试在气温,露水温度,风速和海平面压力这些包含很少null值的特征中插入缺失值,并行使这之后的数据为云层遮盖和降水量竖立展望模型。

吾们行使10倍交叉验证为每个特征选择了插值手段,并将其行使于吾们的训练以及测试数据。吾们运走了一系列模型来展望云层遮盖和降水深度,但未能找到一个有余实在的能用来生成缺失值的模型。按照阻隔将风向重构为一组分类变量,由于其主要的右偏,吾们把风速对数转换了。此外,吾们还构建了例如伪期,周末和吾们特征的滞后项等特征。统统,吾们在13个原首特征之上又添了19个特征,统统32个变量。

末了,吾们把一个气象站点搜集的变态天气数据删除了,然后向前,向后和逐渐选择来确定最佳的展望特征,终极用到了32个变量中的13个。

数据科学家vs AutoML平台

数据科学家:吾们为数据荟萃的每个修建物构建了一个轻度梯度添强模型(Light Gradient Boost model),而异国创建一个适用于一切修建物的通用模型,由于训练和测试集包含的修建物是相通的。议决这栽手段,吾们获得了0.773的RMSLE效果。

采用原首数据的AutoML平台:经过一个幼时的训练,Google Cloud的RMSLE为1.017;又经过了3幼时的训练,RMSLE优化了0.011。Azure的RMSLE为2.22,Google轻盈取胜。这个比较并不是很公平,由于吾们控制Azure只能行使随机森林,由于只有如许才能算出RMSLE。

采用处理后数据的AutoML平台:用Google Cloud运走处理后的数据,经过4个幼时的训练,吾们惊讶地发现Google Cloud的RMSLE为1.7。经过进一步调查,吾们发现吾们的特征选择手段按捺了AutoML的性能,由于AutoML平台会本身进走特征选择。吾们再次在两个平台上用一切的32个变量(而非仅仅13个)来运走处理后的数据。这一次,两个平台的性能都得到了升迁。一个幼时的训练以后,Google Cloud的RMSLE达到了0.755,四个幼时以后,达到了0.656,在数据科学家们的基础上有了庞大挑高!一幼时的训练后,Azure的RMSLE为3.826,四幼时后为3.653。

ASHRAE数据集之总结:

尽管AutoML是富强的展望工具,但它照样无法在数据预处理方面压服人类。 多花几个幼时来训练能够大大挑高AutoML平台的性能。 请批准AutoML平台代您选择特征;否则,您能够会主要控制平台的性能。 把数据科学家在营业题目方面的专科知识与AutoML的特征选择,特征预处理,模型选择,以及超参数调整功能相结相符,就会得到一栽富强的解决方案,可用于获得珍贵的洞察力和富强的展望效果。

结论和要点

末了,吾们想议决对三个题目的回答来给吾们的项现在划上句号。

AutoML会取代数据科学家吗?

答案是不会。

尽管AutoML拿手构建模型,但它们照样无法胜任大片面数据科学家的做事内容。对于营业题目,吾们照样必要数据科学家们来定义。吾们照样必要数据科学家们行使他们的周围知识来挑出更多有效的特征。现在来说,AutoML只能处理有限几栽类型的题目,例如分类和回归。现在,它们还无法竖立保举(recommendation)和排名(ranking)模型。最主要的是,吾们照样必要数据科学家们从数据中挑掏出具有可走性的洞见,而仅凭AutoML做不到这一点。

然而,AutoML对数据科学家们来说照样是个能为益处有关者们创造价值的富强工具。所以,接下来要问的一个主要题目是:吾们答该如何,以及在什么时候行使AutoML?数据科学家们什么时候能最大化地行使AutoML平台?

接下来吾们要挑一些能够值得思考的例子。

性能高于可注释性:

未必候,益处有关者们能够只关心模型的精度,而可注释性并不是要考虑的最关键因素。按照吾们的实验,把AutoML以及相符理的特征工程结相符到一首犹如能够达到令人舒坦的性能。但是,在吾们的示例中,可注释性仅限于两个平台的特征主要性。换句话说,倘若特征主要性足以解决您的题目,则各AutoML平台能够是您实现更高精度的准确选择。

生产速度:

Google和Azure两家都挑供了能方便地将模型安放到生产中的手段。例如,只需单击几下Google Cloud就能够进走批量展望和在线展望。它还批准您行使他们的API将模型安放到您本身的网站上。这些功能选项能够减轻数据科学家们的做事量并添快生产过程。

更益地行使您的时间:

数据科学家们肩上的义务太庞大了,压得人喘不过气。对别名数据科学家来说,时间能够是最珍贵的资源了。与益处有关者(产品经理,营业部分的员工,以及客户)开会,维护现有模型,搜集/清洗数据,为下一次会议做准备,以及等等其他事情会把您的镇日塞得满满当当。AutoML能够被当做一个撙节时间的益工具,由于您只需消耗几美元,点几下鼠标就能够训练出具有有余性能的模型。所以,您能够更凝神于那些能产生最大价值的义务(未必候花时间来准备一次精美的展现,比把模型的实在性挑高1%更添有价值)。

哪栽AutoML更益?

吾们总结了Google Cloud和Azure上的AutoML行使体验,接下来吾们商议一些细节。

用户体验:

在行使Azure时吾们遇到了一些舛讹。当吾们在用ASHRAE数据集(约2千万走,30列)训练模型时,三分之一的实验遭遇了战败。吾们控制了训练时间,来让两个平台具有可比性,但是犹如对于像ASHRAE如许的大数据集来说,一个幼时的时间控制会导致一些舛讹。但是,当运走较幼的数据集(如吾们的快速约会数据集)时,过程却很高效。相较而言,吾们在Google平台上异国遇到任何题目。

可注释性:

Google的AutoML用的是其享有专利的深度学习算法。所以,就可注释性而言,Google AutoML最多只能打印出特征主要性。另一方面,在Azure中,可注释性基本上取决于您行使什么模型。尽管并不是Azure中的一切模型都比Google的模型注释性更益,但Azure照样是更添变通的。例如,倘若您行使由Azure调整过的XGB模型,则能够下载模型并在上面运走SHAP,如许就能晓畅特征如何影响模型的输出。

在您尝试行使AutoML之前的一些挑示:

行使Google的AutoML时,把特征选择留给平台负责。如吾们的实验所示,在运走Google的AutoML处理数据集之前选择或删除特征会降矮性能。一个更益的手段是,在原首数据集上尽量多地增补您认为正当的特征,然后让Google的AutoML来选出最佳特征。

倘若您要处理的数据集很壮大,则Google的AutoML能够会是个更益的选择。倘若必须要用Azure平台,请务必竖立一个更宽松的时间控制(或直接不竖立任何控制)以防止湮没的舛讹。另一方面,倘若您的数据集相对较幼(少于一百万走),则Azure的外现能够会更益。

给列命名时不要添空格。在这两个平台上,倘若列名称中有空格,上传数据集时都会产生舛讹,所以请确保准确地给列命名!在Python中,提出行使下划线代替空格。

要熟识评估指标(evaluation metrics)。未必您能够找不到您想要用来训练模型的谁人指标,这栽情况下您就必要一个代理指标了。所以,晓畅每个指标的属性能够协助您选择评估指标,以及选择正当的AutoML平台。

原文:https://towardsdatascience.com/the-death-of-data-scientists-c243ae167701

为了助力对抗疫情,缩短线下人员起伏和荟萃,CSDN与 PyCon 官方授权的 PyCon中国社区配相符,举走「Python开发者日」在线系列峰会。议决精彩的技术干货内容、趣味多元化的在线互动运动等,让您 足不出户便可与大咖学习交流,共同渡过抗疫攻坚期。

  “你们小区有没有外来人员,都是从哪里来的,有多少人,小区采取了哪些防控措施,居民垃圾堆放点是否严格每日进行消毒处理?进出人员体温检测、登记台账请拿给我们看一下。”2月3日,新疆阿克苏市纪委监委第四联防联控监督检查组来到英巴扎街道新民家园小区询问、查看疫情联防联控要求落实情况。

■交易经验

原标题:湖南卫视“云录制”,两档创新节目受赞

眼前的你,是否正在居家隔离办公?不少小伙伴都说,工作开展受阻,加上疫情的各种信息扑面而来,让人心生抑郁——足不出户的日子,整个人都觉得好“丧”。