知识库挖掘与语义压缩(2020-2024)
以知识图谱(KG)为代表的符号化知识表示与推理技术发展迅速,知识库(KB)的构建得以加速。但是KB的质量参差不齐,大体量的数据也给高阶知识的抽取提出了更高的要求。本项目改进已有的规则挖掘技术并将其应用在形式更加丰富的知识库中,使得挖掘过程更聚焦知识语义本身。通过与数据估计方法结合,提升整体算法在大数据量中的运行效率。此法挖掘得到的高阶语义不仅可以帮助我们更好地认识与管理现有知识库,还可以实现知识库的压缩、融合、预测与纠错。
- 在基于关系数据模型(Relational Data Model)的知识库中挖掘一阶逻辑规则(First-order Logic Rule)。将挖掘的规则替代可以被逻辑推理(Logic Entailment)的内容,从而实现知识库的语义压缩。
- 将问题形式化并证明其复杂度为Fixed-parameter intractible。
- 优化自顶向下的规则挖掘算法(Top-down Logic Rule Mining)并优化搜索空间,在挖掘同等表达力(Expressiveness)的规则时,速度提升两个数量级。
- 优化算法底层数据结构实现,使挖掘速度平均提升20x,内存占用减少95%
- 基于知识库数据特征进行统计估计,提升挖掘算法剪枝效率,将搜索分支数量从多项式级降低至常数级。在同等挖掘效果的前提下,速度可提升70x。
- 提出基于知识结构相关性(Structural Correlation)的负采样(Negative Sampling)以及样本权重算法,并将其应用于逻辑规则挖掘。在同等挖掘效果的前提下,速度提升200%,负样本空间缩减至原先的不足0.01%。
基于符号逻辑的深度语义知识库(浦江计划)(2019-2021)
知识的表示方法经历了从符号到数值再到符号的发展过程。当前的符号化表示方式主要体现为知识图谱(KG)的大规模应用,但是KG为了获得更高的计算性能牺牲了大部分表达能力。虽然如此,鱼龙混杂的知识获取渠道仍然给当前知识图谱的构建带来了不小的数据质量问题。本课题通过从一般到特殊的方式总结当前知识表达的模式,从自然语言文本挖掘获取结构化知识并构造知识库,利用形式化推理与验证的工具自动检测知识中的错误,并通过与外部系统的交互纠正错误,从而提升知识库的质量,再帮助提升挖掘质量,实现高可靠知识库的自主迭代。
- 设计医学领域知识结构(Knowledge Schema),并将以此结构标记(自动+人工)的自然语言文本提取为具有递归结构的深度语义的领域知识库。知识库包含5800+种常见疾病及其分型,涵盖内科、皮肤科、泌尿科等科室。
- 将知识库内容形式化为一阶逻辑表达式,通过SMT求解器(Z3)找出矛盾,并逆向还原为文本标记和知识提取过程中的错误,提高知识质量。
- 实现基于TF-IDF和朴素贝叶斯的交互式问诊推理算法进行疾病诊断,并给出推理依据。该诊断算法已应用于山西省人民医院的自助问诊舱,top3诊断准确率90%,单舱单日服务患者150+。
AI+医疗(2018-2024)
在2018-2024年间,与导师孙炜教授共同创办“因何(上海)科技有限公司”,并担任CTO。在此期间内,带领多个项目组进行研发与开发,主要产品“因何偶医自助诊断舱”已经在山西省人民医院部署交付投入使用。此期间内的主要项目包括:
☉ AI+健康档案管理系统(2022-2024)
- 创建大模型Agent将文字病历进行分割并提取其中的关键信息。提取结果形成结构化健康档案,基于已有病历数据进行健康档案的创建、更新、转移。根据健康档案信息,结合医学诊断系统自动分析用户的的健康状况,生成健康画像,实现风险预警,帮助用户进行健康管理。交付系统原型。
- 职责:项目预研,原型系统开发
☉ AI+医学诊断系统(2018-2022)
- 与医院内部系统对接(如HIS),将患者现病史与既往史、舱内便携检测设备数据、院内检验化验数据合并分析,生成诊断报告和预填写的病历记录发送到院内数据库,并推送对应医生端系统。交付智能医学诊断系统,自助挂号系统,数据可视化系统。
- 职责:系统架构设计,需求工程,原型开发,团队管理(算法研究员2人,算法工程师2人,软件工程师7人,硕士生3人)
☉ 医学知识库构建流水线(2018-2020)
- 创建用于表示医学知识的递归结构,构建数据处理流水线和框架,生成和更新医学知识库。交付:医学知识库(内科、皮肤科、泌尿科),原始与补充标记数据,医学文本标记语言模型。
- 职责:系统架构设计,系统开发,团队管理(算法研究员3人,软件工程师3人,医疗从业者5人,硕士生10人)
☉ 文本标记平台(2018-2020)
- 团队内部进行高效的文本标记和处理的工具平台。将自然语言文本的自动标记与人工审核结合,提供统一的数据处理流程和简便的标记操作方法。交付文本标记平台。
- 职责:系统架构设计,原型开发,前端组件开发,团队管理(软件工程师2人,硕士生4人)
大数据处理与异常检测(2015-2018)
- 将数据集分割为若干不相交子集,分析各个子集中数据的统计分布特征,利用统计距离将这些统计特征归约为一维数据点,从而将 Collective Anomaly 归约为低维 Point Anomaly 进行检测,并根据数据的正负标签估计最优检测阈值。F1-score可达95%。
- 通过定制Hadoop与Apache Pig的Map-Reduce方法,将大数据流水线中的Provenance以及必要的中间结果进行存储,并将这套标准实现为一套通用框架。实现基于ELO的评分机制以定位异常的数据处理组件。这套系统在非阻塞(Non-blocking)情况下的性能损失小于10%。