前天第一次上去參賽,用隨機森林法獲得的分數約0.16749 排名第3336名(準確率83.3%), 第二次搞錯stacking的用法,選用的是分類器,不是迴歸,結果分數慘變0.7多
學習到 連續值採用的是回歸,如房價預測, 但不連續的則是分類器,就是辨識,如辨識座頭鯨,貓狗,數字,所以工具不能用錯
接下來開始重新review相關的因子,結果在昨天早上獲得了0.15915(84.1%預測準確),進步到3169名,有點高興也有點挫折,因為預測的準確度0.001就會差個好幾名
每次都只能進步10幾名到幾10名,接下來遇到撞牆期,我使用了各種的預測迴歸來練習,線性迴歸 0.71,非線性迴歸-1.52(負的是甚麼意思?氣死), XGB迴歸0.882,隨機森林0.86 Knn迴歸0.73,脊迴歸單次方項0.826
脊迴歸多次方向 0.21,LASSO迴歸0.844, LASSO高次方項 0.634 ,Elastic 迴歸 0.822,決策樹 0.768 ,最後還採用了stacking的迴歸(數種回歸預測的共同預測)練習分數高達0.98但是實際跑測試資料分數才0.163
請注意:練習的分數是預測準確率,但比賽的分數是0~1之間,越接近0越準,昨天用滿了10的資料上傳評分都在0.16XX也就是準確率83.XX%排迴,沒有超過我昨天早上的分數0.15915 (84.1%)
今天下午又想到了調整了訓練集的資料,重新訓練,採用最高的XGB和隨機森林及Stacking預測,終於拿到0.15504 (84.5%)的分數,成績進步到3006名......但又卡關了遇到了瓶頸......
3006/4402 = 68.28% 還是沒進入前50%,我有很深的感慨,原來花時間學習可以學會一門工具,到要到專家或專業,每前進一小步就會更加的困難,預測準確率都是用0.00001在算的
這次可能拿不到證書了,得再花時間深度鑽研,明天開始要先練習其他的機器學習和深度學習工具,來試試數字辨識,
留言列表