近日,我院2022级地理科学专业本科生庄耀杰,在方建副教授与沈定涛副研究员的指导下,以第一作者身份在水文水资源领域国际权威期刊《Journal of Hydrology》(中科院一区Top)发表了题为“Integrating social media data and machine learning methods for flash flood susceptibility mapping in China”的研究论文。

山洪灾害存在突发性强,发生尺度小的特征,卫星与水文站难以准确观察与记录山洪灾害事件。为克服上述难题,研究团队尝试从社交媒体数据入手,收集了2012年至2023年的中国山洪灾害社交媒体数据,利用爬虫程序获取了近30万条与山洪相关的内容,经过数据清洗后,构建了山洪灾害数据集。山洪灾害的发生机理复杂,大部分研究只考虑了自然因素或人文因素的影响,研究团队收集了包含自然与人文方面的16种山洪影响因子数据,经过相关性计算与特征排序筛选后,构建出山洪灾害影响因子指标体系。进一步使用了ANNOA和MK趋势检验分析过去十二年的山洪时空变化特征,并利用五种机器学习算法(随机森林、SVM、朴素贝叶斯、XGboost、ANN)分别构建了五个山洪易发性评估模型,绘制了中国山区山洪易发性分布图并计算了各个影响因子的重要性。通过计算各模型预测结果的置信区间与AUC,比较验证了各个算法的有效性,计算绘制了各个模型的学习曲线,验证了社交媒体数据对于构建机器学习模型的可靠性。所有的机器学习算法中,XGboost算法构建的模型精确度最高,道路密度、日均最大降水量、砂土比例与平均台风频次是重要性最高的影响因子,四川西部、云贵高原与浙江山区是山洪易发性最高的区域。

图1 2012-2023年中国山洪时空特征

图2 五种机器学习算法得出的山洪易发性分布图及ROC曲线(a为随机森林、b为朴素贝叶斯、c为ANN、d为XGboost、e为SVM)
该研究的科学意义在于验证了社交媒体数据在灾害研究领域的可靠性,同时将自然影响因子与人文影响因子综合考虑,并提出了如“平均台风频次”“人类足迹”等创新影响因素,加上多种机器学习算法的使用,共同提高了模型的精确度,同时也揭示了不同机器学习算法在该领域的适配性。根据影响因子的重要性,结合实际情况,为山洪易发性较高的区域提出了防治建议。在坚持可持续发展的时代背景下,该研究为平安中国的建设与防灾减灾工作提供了可靠数据与创新研究方法。
此项成果彰显了学院在学科建设和本科生人才培养方面的卓越成效,论文作者包括2022级自然地理专业本科生宫拓实,2022级地理科学专业本科生唐维敔、陈心怡,2021级地理科学专业本科生林三茗和2023级研究生张益菡。
通讯员:庄耀杰
编辑:刘新星
审读:刘目兴、方建