責任編輯:admin123 閱讀量:4299次 發(fā)表時間:2022-01-18 18:01:50
ROC曲線來歷:相傳在第二次世界大戰(zhàn)期間,雷達兵的任務之一就是死死地盯住雷達顯示器,觀察是否有敵機來襲。理論上講,只要有敵機來襲,雷達屏幕上就會出現(xiàn)相應的信號,但是實際上,有時如果有飛鳥出現(xiàn)在雷達掃描區(qū)域時,雷達屏幕上有時也會出現(xiàn)信號。這種情況令雷達兵煩惱不已:如果過于謹慎,凡是有信號就確定為敵機來襲,顯然會增加誤報風險;如果過于大膽,凡是信號都認為飛鳥,又會增加漏報的風險。為了研究每個雷達兵預報的準確性,雷達兵的管理者匯總了所有雷達兵的預報特點,特別是他們漏報和誤報的概率,并將這些概率畫到一個二維坐標里面。由于每個雷達兵的預報標準不同,且得到的敏感性和特異性的組合也不同。將這些雷達兵的預報性能進行匯總后,雷達兵管理員發(fā)現(xiàn)他們剛好在一條曲線上,這條曲線就是我們經(jīng)常在醫(yī)學雜志上看見的ROC曲線。
ROC曲線(receiver operating characteristic curve):即接受者操作特性曲線。我們根據(jù)學習器的預測結(jié)果,把閾值從0變到最大,隨著閾值的增大,學習器預測正例數(shù)越來越少,直到最后沒有一個樣本是正例。在這一過程中,每次計算出靈敏度和特異性,分別以它們?yōu)闄M、縱坐標作圖,就得到了ROC曲線。
AUC面積(area under curve):為ROC曲線下與坐標軸圍成的面積,這個面積數(shù)值 ≤ 1。由于ROC曲線一般都處于y = x這條直線的上方,所以AUC的取值范圍在0.5和1之間。我們往往使用AUC值作為模型的評價標準是AUC值越大,對應的模型效果更好。
準確率(accuracy)=(TP+TN)/(TP+TN+FP+FN),即被預測正確的樣本與所有預測樣本的比。
靈敏度(sensitivity)= TP /(TP+FN)×100%,即正確判斷陽性的概率。
特異性(specificity)= TN /(FP+TN)×100%,即正確判斷陰性的概率。
陽性預測值(PPV)= TP /(TP+FP)×100%,即被正確預測的陽性樣本與所有預測為陽性樣本的比。
陰性預測值(NPV)= TN /(FN+TN)×100%,即被正確預測的陰性樣本與所有預測為陰性樣本的比。
AUC面積用于模型性能的判斷
AUC值為ROC曲線所覆蓋的區(qū)域面積,顯AUC越大分類器分類效果越好。
AUC = 1,是完美分類器,采用這個預測模型時,能得出完美預測。絕大多數(shù)預測的場合,不存在完美分類器。
0.5 < AUC < 1,優(yōu)于隨機猜測。這個模型設置合適的閾值,能有預測價值。
AUC = 0.5,跟隨機猜測一樣(例:丟硬幣),模型沒有預測價值
AUC < 0.5,比隨機猜測還差,但只要總是反預測結(jié)果而行,模型就優(yōu)于隨機猜測。