Introduction
- 數據不給力,再高級的算法都沒有用
Data Mining 五大流程
1. 獲取數據
2. 數據預處理
從數據中檢測、糾正或刪除損壞、不正確或不適用的記錄之過程。
面臨問題
- 數據類型不同,有的是文字有的是數字,有的為時間序列
- 有的是連續型變量,亦有可能是離散型變量
- 數據質量不好,有噪聲、有異常值、有缺失、有錯誤
- 數據量太大或太小
目的
讓數據適應模型,匹配模型需求
3. 特徵工程
將原始數據轉換為更能代表預測模型的潛在問題特徵的過程
- 原始數據不一定能引導模型算出最好的結果
- 通過挑選相關特徵、組合特徵、提取有效特徵及創造特徵等手法來實現
- 創造特徵通常以降維演算法的方式實現
面臨問題
- 特徵之間有相關性
- 特徵和標籤無關
- 特徵太多或太小
- 特徵無法表現出應有的數據現象、無法展示數據的真實面貌
目的
- 降低計算成本
- 提升模型上限
- 至少保證模型在一個比較好的水平
- 降噪:剔除有不良影響的特徵
- 至少保證模型在一個比較好的水平
4. 建模
測試模型並預測結果
5. 模型上線
在真實狀況中去驗證模型效果