新闻网讯 12月15日,《自然-机器智能》(NatureMachine Intelligence)发表了由我校人工智能与自动化学院发起,英国剑桥大学、美国斯坦福大学、约翰霍普金斯大学、MD安德森肿瘤医院,同济医学院附属同济医院、附属协和医院,国家药物筛选中心等国内外权威科研机构联合发展的联邦学习(Federated learning)开源医学人工智能(AI)计算框架(Unified CT AI Diagnostic Initiative UCADI)。
人工智能技术正在变革传统医疗。但当前人工智能模型普遍泛化性差:模型在训练过的数据集上表现优异,但是对于未曾见过的数据,表现差别大。这个根本性的缺陷导致AI技术在医学、医疗应用中表现出的局限性,甚至安全问题更加突出。由于医疗数据受到个人隐私,知识产权,数据尺寸等多方面的限制,无法实现大范围、集中式的数据融合,当前医学人工智能模型通常只能在有限,甚至单一的数据集上训练。因此在这样条件下构建的医疗AI模型应用范围十分有限。
为解决这个根本性问题,我校人工智能与自动化学院夏天教授与白翔教授团队提出基于联邦学习(Federated learning)开源医学人工智能计算框架(UCADI)。此架构在保证数据安全与隐私前提下,无需传输数据,能在不同物理地点共享训练医学数据,构建泛化性强的医学AI模型。基于UCADI,夏天与白翔教授团队联合同济医学院附属同济医院、附属协和医院,武汉天佑医院,武汉中心医院,武汉儿童医院,国家药物筛选中心与英国剑桥大学医学中心(维护全欧盟新冠影像数据,包括全英23家医院)发起国际新冠影像数据的协同AI模型研发工作,实现真正全球分布式共享医学数据AI模型训练与构建。
基于中英23家医院近万张的胸部CT扫描数据,研究团队验证了UCADI能够在保证用户数据隐私的情况下,多快好省地进行人工智能辅助诊断模型的训练和推理,实现跨国多中心的新冠病毒智能诊断。基于UCADI训练的AI新冠诊断模型相对于单个医院数据训练出的模型,不仅对新冠辅助诊断性能远超,同时在多个不同医院的验证数据集上表现出良好的泛化性与鲁棒性。
团队进一步分析了模型的可解释性和不确定性,团队验证了训练的AI模型能够捕捉到类似磨玻璃样阴影、小叶间隔增厚等新冠病人独有的CT特征。对于各国医院影像数据差异性的问题,团队最后基于3DDenseNet。作为模型框架基础,不仅是因为其较好的泛化性能,同时模型尺寸偏小,非常方便联邦学习中进行传输。在此基础上,团队应用CycleGAN在增强和平扫的CT间进行转换,进一步扩展了有效数据集大小,取得了模型预测性能上的改善。
此工作中,UCADI框架初步展示了对于全球新冠的整合能力,基于全球范围数据构建的新冠诊断预测模型完全向全球开放使用,各国医疗机构可以在此基础上,利用UCADI进一步共享、更新、演进、优化预测模型。例如,剑桥大学和世界卫生组织10月份在德国新设立的疫情智能防控中心(WHO Hub for Pandemic and Epidemic Intelligence)已经开始进合作工作,基于本工作的现有模型,重点发展AI诊疗模型对识别新变种Omicron的诊断能力。同时,UCADI框架完全开源,可用于其他类型医疗数据,在保证数据安全性的前提下,形成医疗数据的有效贡献,发挥医疗数据的价值,为未来的跨国智能诊断系统的研究与发展提供了基础设施。为发展真正能够广泛使用的医学AI模型奠定了实现基础。