比赛提供了4000多个病人的新冠肺炎患者的肺部影像,因为一个病人可能有多张影像,照片有约5500张,其中少部分有用图像识别的方框标出肺炎位置。
赛选手的目标:
比赛开始时数据标注有误,导致很多选手不满弃赛。虽然数据量少,质量也差,最终结果却没有大的shakeup我的排名是32名,获得银牌一枚
Map是一个非常诡异的判断标准
以至于最后提交时提交都成了这样
四分类:
id,PredictionString 00188a671292_study,negative 0.840249 0 0 1 1 typical 0.278024 0 0 1 1 indeterminate 0.371947 0 0 1 1 atypical 0.277659 0 0 1 1
目标检测:
id,PredictionString f6293b1c49e2_image, opacity 0.24799 688 1416 1347 1976 opacity 0.21650 661 1003 1305 1922 opacity 0.17933 2207 1466 2863 2008 opacity 0.11744 2421 1491 2829 1882 opacity 0.11233 668 936 1146 1575 opacity 0.09901 928 1492 1411 1877 opacity 0.09123 791 1605 1259 1963 opacity 0.09113 683 1112 1072 1745 opacity 0.08826 2431 1530 2940 2072 opacity 0.08656 938 1271 1519 1963 opacity 0.08370 2067 1200 2775 2054 opacity 0.08369 787 1515 1557 2057 opacity 0.07770 611 1210 1051 2034 opacity 0.07399 636 1562 1166 2030 opacity 0.07264 2022 1624 2796 2099 opacity 0.07117 2261 1516 2724 1864 opacity 0.06971 768 838 1425 1676 opacity 0.06937 2366 1212 2880 1907 opacity 0.06781 2464 1538 2751 1795 opacity 0.06582 778 1255 1266 1857 opacity 0.06121 800 1186 1222 1549 opacity 0.05923 2213 1317 2763 1811 opacity 0.05374 705 1637 1344 2140 opacity 0.05219 807 1692 1132 1943 opacity 0.05066 766 861 1137 1369
我的大方向:在这次比赛中能够通过改模型结构来提分
首先我复现了hengck的整体baseline,然后弄了一个yolo来做目标检测,最开始单独弄了一个efficientNet来做none的分类。
很快我就放弃了单独none的分类,改用negative来当作none
因为efficientnetv2一直过拟合,试了加dropout,droppath,梯度聚集等方法,最后才发现是数据自增设置的不对。
Top方案都总结到了这里:https://github.com/mrzhuzhe/pepper/blob/master/kaggle-beginner/compete/covid-rew.md
比赛结束后我去看了NYC的自监督学习的课程
也仔细看了一下Top方案的代码,看到他们很多都用了RSNA VIN Chexpert的方案,因此也仔细看了一下这些比赛的top方案
大的方向主要集中在下面几个方向吧
总体来说: