從事IT范疇任務(wù)二十年以來,我發(fā)明人工智能技巧慢慢從概念轉(zhuǎn)向現(xiàn)實(shí)——機(jī)械進(jìn)修技巧位于前沿,而且變得更容易于應(yīng)用,即便關(guān)于沒有專業(yè)常識(shí)的團(tuán)隊(duì)也是如斯。
跟著愈來愈多的團(tuán)隊(duì)?wèi)?yīng)用猜測(cè)模子,引導(dǎo)者和治理者必需認(rèn)識(shí)到能夠會(huì)歪曲團(tuán)隊(duì)任務(wù)成果的罕見成績(jī)。為了完成靠得住的機(jī)械進(jìn)修進(jìn)程,以下是要防止的九個(gè)罕見圈套,和可采取的最好理論辦法。
圈套1:抽樣誤差
任何機(jī)械進(jìn)修項(xiàng)目標(biāo)終點(diǎn)都是選擇練習(xí)數(shù)據(jù)。平日,組織機(jī)構(gòu)有一些可用的數(shù)據(jù),或許可以辨認(rèn)相干的內(nèi)部供給商,例如公營(yíng)企業(yè)或行業(yè)協(xié)會(huì)。這是成績(jī)開端的處所。
建模團(tuán)隊(duì)及其營(yíng)業(yè)資助商必需界說要應(yīng)用的數(shù)據(jù)集。選擇一個(gè)會(huì)曲解或低估現(xiàn)實(shí)案例的數(shù)據(jù)聚會(huì)會(huì)議很輕易惹起誤差,這會(huì)歪曲成果。例如,一個(gè)拜訪只選擇在特定地位行走的人群,但卻將他們看成安康人群的過度代表。
處理計(jì)劃:為防止采樣誤差,團(tuán)隊(duì)必需包管他們是真正地隨機(jī)選擇數(shù)據(jù),而不是僅僅由于應(yīng)用簡(jiǎn)略就應(yīng)用特定案例。關(guān)于指點(diǎn)有用的數(shù)據(jù)選擇而言,幻想數(shù)據(jù)集的清楚界說和模子的邏輯相當(dāng)主要。經(jīng)由過程在晚期階段與企業(yè)一切者協(xié)作,讓幾位評(píng)審人員驗(yàn)證選擇尺度,機(jī)械進(jìn)修團(tuán)隊(duì)可以確保他們的數(shù)據(jù)采樣辦法有效并靠得住。
圈套2:不相干的功效選擇
在很多情形下,因?yàn)樽兞窟x擇的纖細(xì)差異,建模師碰見了很多艱苦。很多技巧須要年夜量功效集來推進(jìn)進(jìn)修進(jìn)程。然則,為了搜集足夠的進(jìn)修數(shù)據(jù),確保您獲得了準(zhǔn)確且相干的功效能夠異常具有挑釁性。
處理計(jì)劃:構(gòu)建一特性能優(yōu)越的模子的進(jìn)程須要細(xì)心的摸索和剖析,以確保您選擇和設(shè)計(jì)恰當(dāng)?shù)墓πА6梅懂牶桶ㄖ黝}專家,是選擇準(zhǔn)確功效最主要的兩個(gè)驅(qū)動(dòng)身分。另外,諸如遞歸特點(diǎn)清除(recursive feature elimination,RFE),隨機(jī)叢林(random forest),主成份剖析(principal component analysis,PCA)和主動(dòng)編碼器等技巧有助于將建模任務(wù)集中在多數(shù)幾個(gè)更有用的功效上。
圈套3:數(shù)據(jù)泄漏
機(jī)械進(jìn)修團(tuán)隊(duì)能夠會(huì)有時(shí)地搜集建模數(shù)據(jù),應(yīng)用的尺度是團(tuán)隊(duì)試圖猜測(cè)成果的一部門,是以,模子會(huì)顯示出優(yōu)良到掉真的機(jī)能。例如,一個(gè)團(tuán)隊(duì)能夠毛病的包括了一個(gè)在旨在猜測(cè)疾病的模子中指導(dǎo)某些疾病醫(yī)治的變量。
處理計(jì)劃:建模團(tuán)隊(duì)必需細(xì)心構(gòu)建他們的數(shù)據(jù)集,在模子估量成果之前僅應(yīng)用練習(xí)時(shí)現(xiàn)實(shí)可用的數(shù)據(jù)。
圈套4:缺乏數(shù)據(jù)
在某些情形下,因?yàn)槿狈δ承┯涊d,數(shù)據(jù)聚會(huì)會(huì)議變得不完全。毛病地調(diào)劑該前提或假定沒出缺掉值,建模師能夠會(huì)對(duì)成果的認(rèn)知發(fā)生嚴(yán)重誤差。例如,缺掉的數(shù)據(jù)能夠其實(shí)不老是隨機(jī)的,例如,當(dāng)查詢拜訪受訪者不太能夠答復(fù)某個(gè)特定成績(jī)時(shí)。是以,均勻預(yù)算能夠會(huì)誤導(dǎo)模子。
處理計(jì)劃:假如您沒法設(shè)計(jì)培訓(xùn)籌劃以確保應(yīng)用完全的數(shù)據(jù)集,則可以采取統(tǒng)計(jì)技巧,包含拋棄缺掉值的記載,或應(yīng)用恰當(dāng)?shù)牟逖a(bǔ)戰(zhàn)略來預(yù)算缺掉的數(shù)據(jù)值。
圈套5:禁絕確的縮放和尺度化
構(gòu)建用于機(jī)械進(jìn)修任務(wù)的數(shù)據(jù)集平日須要團(tuán)隊(duì)搜集分歧類型的輸出端,這些輸出端有著分歧的權(quán)衡標(biāo)準(zhǔn)。在樹立模子之前,假如未能調(diào)劑變量的值以許可通用比例,線性回歸(linear regression),支撐向量機(jī)(support vector machine,SVN),或k近鄰(k nearest neighbors,KNN)等算法會(huì)遭到很年夜影響。這些成績(jī)的涌現(xiàn)在于規(guī)模年夜的話會(huì)招致功效的高度變更,是以,它們能夠變很多余。例如,假如您將二者都看成未處置的投入應(yīng)用,那末薪水的數(shù)據(jù)能夠會(huì)取得頻年齡更重的權(quán)重。
處理計(jì)劃:在開端樹立模子之前,您必需當(dāng)心地對(duì)數(shù)據(jù)集停止尺度化。您可以經(jīng)由過程經(jīng)常使用統(tǒng)計(jì)技巧(如尺度化或功效縮放)來轉(zhuǎn)換數(shù)據(jù)集,這取決于數(shù)據(jù)的類型和團(tuán)隊(duì)的首選算法。
圈套6:疏忽異常值
忘卻異常值能夠會(huì)對(duì)模子的機(jī)能發(fā)生嚴(yán)重影響。例如,像AdaBoost如許的算法會(huì)將異常值視為艱苦情形,并將不恰當(dāng)?shù)臋?quán)重放在恰當(dāng)?shù)牡匚簧希鴽Q議計(jì)劃樹更寬容。另外,分歧的用例須要分歧的離群值處置。例如,在發(fā)明訛詐行動(dòng)的情形下,應(yīng)重點(diǎn)存眷存款中異常值。
處理計(jì)劃:要處理此類成績(jī),您的團(tuán)隊(duì)?wèi)?yīng)當(dāng)應(yīng)用建模算法,它可以或許準(zhǔn)確處置異常值,或許在建模前過濾異常值。優(yōu)越的開始在于讓您的團(tuán)隊(duì)做一個(gè)初步檢討,以肯定數(shù)據(jù)中能否存在異常值。最簡(jiǎn)略的辦法是審查數(shù)據(jù)的圖標(biāo)或檢討任何數(shù)值,它們能夠是幾個(gè)尺度差,或更闊別均勻值的數(shù)值。
圈套7:盤算毛病功效
當(dāng)一個(gè)團(tuán)隊(duì)為建模供給投入時(shí),微分進(jìn)程中的任何毛病都能夠會(huì)為模子帶來誤導(dǎo)性輸出。毫無破例,不管團(tuán)隊(duì)若何構(gòu)建,模子都出人意料地發(fā)生了弗成靠的成果。這個(gè)成績(jī)的一個(gè)例子是,一個(gè)團(tuán)隊(duì)弱化了一個(gè)依附于盤算的應(yīng)用率的信譽(yù)評(píng)分猜測(cè)模子,由于這個(gè)團(tuán)隊(duì)包含來自負(fù)用申報(bào)的不活潑商業(yè)信息。
處理計(jì)劃:建模師必需細(xì)心檢討團(tuán)隊(duì)若何獲得數(shù)據(jù)。癥結(jié)的動(dòng)身點(diǎn)是要懂得哪些功效是原始格局,哪些是經(jīng)由設(shè)計(jì)的。自此,建模師便可以在停止建模之前檢討衍生功效的假定和盤算。
圈套8:疏忽多線投入(multi-collinear inputs)
應(yīng)用數(shù)據(jù)集而不斟酌多重共線性猜測(cè)因子(multi-collinear predictors)是誤導(dǎo)模子建構(gòu)的另外一種方法(多線性輸出的存在乎味著兩個(gè)或多個(gè)變量之間存在著很高的相干性)。成果使其很難辨認(rèn)任何一個(gè)變量的影響。在這類情形下,選定功效的渺小變更會(huì)對(duì)成果發(fā)生嚴(yán)重影響。這個(gè)成績(jī)的一個(gè)例子是,告白預(yù)算和流量作為猜測(cè)變量出現(xiàn)共線性。
處理計(jì)劃:檢測(cè)多重共線性的簡(jiǎn)略辦法是盤算一切變量對(duì)應(yīng)的相干系數(shù)。以后您就有諸多選擇來處理任何肯定的共線性成績(jī),如修建構(gòu)圖或刪除冗余變量。
圈套9:有效績(jī)效KPI
當(dāng)建模數(shù)據(jù)各類過程進(jìn)入均衡狀況時(shí),年夜多半建模算法表示最好。當(dāng)數(shù)據(jù)顯示不屈衡時(shí),權(quán)衡模子機(jī)能的準(zhǔn)確目標(biāo)變的相當(dāng)主要。例如,均勻背約率為1.2%。一個(gè)模子的精確度能到達(dá)98%,猜測(cè)在一切情形下都不會(huì)產(chǎn)生變更。
處理計(jì)劃:除非可以選擇生成更平衡的練習(xí)集,或應(yīng)用基于本錢的進(jìn)修算法,選擇營(yíng)業(yè)驅(qū)動(dòng)的績(jī)效目標(biāo)是最好的處理計(jì)劃。關(guān)于超越精確度的模子的績(jī)效有著各類辦法,如準(zhǔn)確度,召回率,F(xiàn)1得分和受試者任務(wù)特點(diǎn)(receiver operating characteristic,ROC)曲線。選擇最適合的器量尺度將指點(diǎn)建模算法毛病最小化。
從堅(jiān)實(shí)的基本開端
因?yàn)榧记珊蛯?duì)象的提高,機(jī)械進(jìn)修培訓(xùn)項(xiàng)目比以往更輕易履行。然則,要取得靠得住的成果須要對(duì)數(shù)據(jù)迷信和統(tǒng)計(jì)學(xué)道理有深刻的懂得,如斯能力確保團(tuán)隊(duì)從一個(gè)堅(jiān)弗成摧的底層數(shù)據(jù)集開端,這邊是勝利的基本。
Pejman Makhfi是Credit Sesame的首席技巧官。Credit Sesame是一個(gè)教導(dǎo)信貸和小我財(cái)政網(wǎng)站,為花費(fèi)者供給收費(fèi)的信譽(yù)評(píng)分辦事。