Introduction
數據集的目標值(target)是一個連續型的值,便是一個回歸問題
回歸問題應用於房價分析、銷售額預測、貸款額度
回歸:在具有線性關係的點中,尋找一種能預測的趨勢
回歸演算法為迭代演算法(訓練結果會使預測結果越來越好)
訓練時會產生誤差且知道誤差,在訓練的過程中不斷地減少誤差
機器學習-演算法-隨機森林(random forest)
隨機森林(random forest)在機器學習中,隨機森林是一個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定
如果訓練了五個樹其中有四個樹的結果為True,一個的結果為False,那麼最終的結果為True(投票決定)
機器學習-演算法-決策樹(decision tree)
Introduction程序設計中的條件分支結構就是if-else結構,最早的決策樹就是利用這類結構分割數據的一種分類學習方法
去找到高效的決策順序
特徵的先後順序
機器學習-模型的選擇與調校參數
交叉驗證(cross validation)
目的:為了讓被評估的模型更加準確可信
觀察模型穩定性的一種方法
交叉驗證通常搭配網格搜索一起使用
將訓練數據分成n等分,以下圖為例:讓其中一等分當作驗證集 其他則為訓練集,總共驗證5次(組),每次更換不同的驗證集,得到5組模型的結果,求出準確率的平均值作為最終結果,又稱5折交叉驗證
機器學習-分類模型評估
Introduction
前面對兩種分類模型皆調用score()方法查看準確率,其就是一種對模型的評估,
返回預測結果正確的百分比
sklearn還存在許多對預測模型評估的方法皆收錄在sklearn.metrics中
這一章節只著重在對分類模型的評估
還有其他對分類模型評估的指標包括 精確率(precision) 與 召回率(recall)
機器學習-演算法-Naive Bayes Classifier
Introductionnaive:假設特徵與特徵之間是相互獨立的較常用於文檔的分類,求出一個文本佔不同類別的概率多少,並找出最大的概率
例如在獲得一文檔時,文檔為科技類別的概率
使用sklearn.naive_bayes.MultinomialNB
機器學習-轉換器&估計器(Transformer & Estimator)
轉換器(transformer)
從原數據集經過轉換器轉為預處理數據集
為一實現特徵工程的APIIntroduction之前所使用數據轉換的流程如下
實例化(實例化的就是一個轉換器類(transformer))
調用fit_transsform(X)方法
機器學習-數據集(dataset)
Introduction在對model進行訓練及評估時不能使用同樣的數據集即便是同一數據集也需劃分成訓練集與測試集
訓練集與測試集的比例為75%:25% (仍可隨自己的需求自由劃分)
訓練集用於訓練構建模型
測試數據則用於模型檢驗使用,用於評估模型是否有效
機器學習-特徵工程-降維
Introduction降維不是將array的維度減少(3D陣列->2D陣列),而使指將特徵的數量減少
有些特徵與目標值較無關係,會選擇將此特徵剃除,稱之為降維
拋棄掉對模型帶來負面影響的特徵
得到一組"特徵間相互獨立(不相關)"主變量的過程