這兩個禮拜實作機械學習和深度學習下來給我很大的震撼和感想........發現這裡面的學問比我想的要來的深.....
1. 在Kaggle網站或政府公開的數據庫,其實都是經過部份的專業紀錄和整理過的,所以已經經過初步的專家篩選或經驗法則,認為這些資料是有相關的.......因此比較容易找到相關的影響因子.......但是如果你要自己命題,你就得自己去洞察和分析你要預測的資料和你假設的因子是否有相關才能去跑迴歸預測
2. 上週拿到了測試資料庫之後,滿心歡喜的把SQL Server, Anaconda(Python)安裝起來,開始整理資料,當時就決定選擇報價單的資料來做預測......
我一剛開始的假設是: Y(單位利潤) = ax(對客戶的報價) - bx2(工廠的每小時人工費用) - cx3(主料成本) - dx4(副料成本) - ex5(佣金) - fx6(管銷費用) - gx7(加工成本)
想的很美好,實作很殘酷.......資料預整理就花了許多時間,因為有Null值和許多0值,資料不精準,因此就得補0或排除,接下來就是做相關性分析...........結果,跑出來有影響的結果竟然只有一項因子有高度負相關,其他的因子相關的影響都很低,可能是數值佔比很低或超過二層以上的間接相關......跑深度學習,竟然沒有預測出來......(不知是否採用錯誤的模型),跑機械學習的迴歸預測,竟然只有20%的準確率
3. 重新檢視發現似乎少了一些因素,另外有些是獨立不相關的因素,並無法歸納出一個線性迴歸預測.......
舉例來說: 單位利潤 = 客戶的報價 - (各項成本的總和), 但卻又不是都是正相關的關係,因為如果成本很高,可能有兩個結果,其中客戶報價高於總成本=>賺錢,客戶報價小於總成本=>賠錢,又總成本低的話,如果客戶願意出的報價更低,一樣賠錢,因為兩個是相互影響的因素,因此這樣的假設可能會有問題,要加入更多的分析因素或拆分個別的分析簡化模型才能預測
4. 目前打算分兩個方向來處理
a. 因為報價無法操之在我,所以我就先算出總成本的影響因素的預測,先預測產品的類型,生產的區域,不同的客戶等非數值型的分類來預測,看是否能能找出主要的成本影響因子來預測成本
b. 獲利當然也可能和產品類型或不同成本的海外工廠生產都有關係,或不同客戶可以出的價格是有影響的........
當一個問題太複雜時,就只有繼續拆分成較小的問題或找更多的影響因子來分析,才可能有機會產生模型........
哈,該回去和這些資料奮鬥了.......改天再分享
留言列表