医学知识图谱是医学领域中的一种新兴技术,它是基于大数据和人工智能技术,通过对海量医学文献、病例、病人数据等进行深度学习和分析,构建出完整的医学知识图谱。目前,医学知识图谱已经在国内外多个医疗机构和企业应用,并取得了良好的效果,一起来看看吧。
![医学知识图谱 医学知识图谱构建](https://wimg.puchedu.cn/uploads/2023/05/image-702.png)
医学知识图谱1
医学知识图谱构建
本文将医学知识图谱构建技术归纳为五部分,即医学知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑性和表达能力,并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识。借助知识推理,推出缺失事实,自动完成疾病诊断与治疗。质量评估则是保障数据的重要手段,提高医学知识图谱的可信度和准确度。
1.1 医学知识表示
知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程,主要研究计算机存储知识的方法, 其表示方式影响系统的知识获取、存储及运用的效率。然而医学数据种类繁杂,存储方式不一,电子病历格式和标准不同,经常涉及交叉领域等特点,导致医学领域与其他领域在知识表示方面有所差异,同时也给医学领域的知识表示带来极大的挑战。
早期医疗知识库运用的知识表示方法有:谓词逻辑表示法,产生式表示法,框架表示法,语义网表示法等等。比如, SNOMED-CT,早期的 MYCIN 系统,大肠杆菌数据库 EcoCyc等。随着知识图谱中知识增长、关系复杂化,这些方法由于表示能力有限且缺乏灵活性,不再作为主要的知识表示方法,更多是作为医学知识表示的辅助或补充。
本体表示法以网络的形式表示知识,即以(实体 1,关系, 实体 2)三元组来表示相关联的两个节点(实体),在知识图谱提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区别:本体关注的是实体固有特征,比后者更聚焦,更深入,因而也具有更大的发展潜力。而本体的描述语言也多种多样:主 要有RDF和RDF-S、DAML、OWL等。使用本体表示医学术语可以提升数据整合能力:建立强大、可互操作的医疗信息系统;满足重用共享传输医疗数据的需求;提供基于不同语义标准的统计聚合。医学领域本体的构建,需要深入分析医学术语的结构和概念,才能将晦涩甚至是跨语言的医学知识有效地表达出来。目前的医学知识本体库有:医学概念知识库LinkBase,TAMBIS本体库(TaO)等等。
知识图谱的节点个数影响着网络的结构复杂度及推理的效率和难度。知识表示学习借助机器学习,将研究对象的语义信息表示为稠密低维向量,有效解决数据稀疏问题,从而提升知识融合和推理性能[。低维向量表示是一种分布式表示 (distributed representation),它模仿人脑中使用多个神经元存储对象的工作机制,使用多维度向量表示对象的语义信息。知识表示学习中的代表模型有:结构化表示法(Structure Embedding,SE),单层神经网络模型(single layer model,SLM),隐变量模型(latent factor model,LFM),基于TransE的翻译模型等等。这些模型考虑实体间的协同性和计算开销,用向量表示实体,再对表示实体的向量或关系进行相应的矩阵变换,提出评价函数来衡量实体间的相关性,并为 之后的知识补全和推理提供重要参考。Kleyko 等人证明了分布式表示方法表示医学图像进行分类精度能够与最佳经典方法相同;Henriksson 等人对比使用多种知识表示方法表示 EHR 中 4 类记录:诊断记录,药物使用记录,治疗方法和病程记录。显然,知识表示学习无疑为医学知识图谱的知识表示开辟了新 思路。
1.2 医学知识抽取
医学知识图谱的构建主要是从非结构化数据中人工或自动地提取实体、关系和属性。人工提取是通过专家依据一定规则收集并整理相关信息,提取知识。目前通过人工构建的医学知识库包括临床医学知识库、SNOMED-CT、ICD-10 等。自动提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术,从数据源中自动提取出知识图谱的基本组成元素。自动构建医 学知识库的典型例子有一体化医学语言系统 UMLS。人工提取的代价太大,知识的自动提取是目前重点的研究方向,也是将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中抽取知识和信息,包括实体、关系和属性抽取。
1.2.1 实体抽取
识别文本中的生物医学实体,其目的在于通过识别关键概念进一步提取关系和其他信息,并将识别的概念以标准化的形式表示出来。医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体。本节将医学实体的抽取方法归纳为三类:基于医学词典及规则的方法、基于医学数据源的统计学和机器学习方法以及深度学习方法。
1)基于医学词典及规则的方法
该方法通过人工定义规则和模式匹配生成词典或使用现有医学词典从语料中抽取医学实体,该方法是具有挑战性的。首先,目前没有完整的字典囊括所有类型的生物命名实体,所以简单的文本匹配算法是不足以应对实体识别的。其次,相同的单词或短语其意义可根据上下文的改变而指代不同的物体(如,
铁蛋白可以是生物物质或实验室测试方法)。再次,许多生物或 药物实体同时拥有多个名称(如 PTEN 和 MMAC指代相同的基因)。因此,基于医学词典及规则只在最早期被广泛使用。 Friedman等通过自定义语义模式和语法来识别电子病历中的医学信息。Wu等人使用了 CHV和 SNOMED-CT两个医学词典得到了不错的实验结果。虽然该方法能达到很高的准确度,但无法彻底解决上述问题,也过分依赖专家编写的词典和规则,无法适应医学领域词汇不断涌现的现实情况。
2)基于医学数据源和数学模型的机器学习方法
该方法通过使用统计学和机器学习方法,结合医学数据源的特点训练模型,进行实体识别。在英文医学实体抽取方面, 最具代表性的标注语料是 I2B2 2010发布的英文电子病历标注语料。另外,还有 SemEval、NTCIR等评测,以及 NCBI语料库等,都提供了英文医学实体标注数据。
目前常用方法有隐马尔可夫模型(HMM),条件随机场模 型(CRF),支持向量机模型(SVM)等。Kazama 等人使用 SVM模型进行生物医学命名实体识别,引入了 POS,词缓存,无监督训练得到的 HMM状态等特征。该方法在 GENIA 语料库中准确率高于最大熵标记方法,并能较高效地应用于大规模语料集。Zhou等人通过一系列特征训练 HMM 模型,包括词的构成特征,形态特征,POS,语义触发,文献内名称别名等。其识别准确率达66.5%,在 GENIA语料库中的召回率达66.6%。 综合以上方法,Chen 和 Friedman利用MEDLEE系统来识别与生物医学文本中与表型信息相对应的短语。该系统使用自然语言技术来识别期刊文章摘要中存在的表型短语。生物医学的实体识别常常可使用较小的表型相关术语的知识库。Chen 和 Friedman自动导入与语义类别相关的数千个 UMLS 术语,如细胞体功能和细胞功能障碍,以及哺乳动物本体中的几百个术语;并手动添加了几百个术语。实验结果表明,其实体识别准 确率达 64.0%,召回率达 77.1%。虽然结果不高,但为之后的研究人员提供了一条可行的思路。
在医学领域,命名实体识别的痛点在于数据质量的良莠不齐以及人工标注的专业性要求高。目前有专门研究如何降低对于数据标注依赖的研究,其原理主要是利用海量未标注数据持续提升模型性能,从小样本中进行学习,自我探索逐步学习新知识,形成一个交互学习过程。
3)深度学习方法
深度学习近年来开始被广泛应用于命名实体识别,最具代表性的模型是2011年Collobert提出的一个深层神经网络模型,其效果和性能超过了传统算法。Sahu等人所提出的 CNN 与 RNN 级联的方法生成词嵌入特征,其结果优于目前最好的算法且不需要过多的特征工程。 在医学领域,We 等人基于CRF和双向RNN生成特征, 再使用SVM 进行疾病命名实体识别。目前医学信息命名实体识别任务中最主流的深度学习模型是 BiLSTM-CRF 模型,Jagannatha等人对比了 CRF,BiLSTM,BiLSTM-CRF 三种模型,以及一些它们的改进模型,在英文电子病历命名实体识别的效果,实验结果表明所有基于 LSTM 的模型都比 CRF效果更好,并且 BiLSTM 结合 CRF 模型能够进一步提高评测结果 2%-5%的准确率。
1.2.2 实体抽取
本文将医学实体关系抽取归结为两类: a)同类型医学实体层级关系抽取,如疾病的“肠胃病-慢性胃炎”等;b)不同类型关系抽取,如“疾病-症状”等。
1)同类型医学实体层级关系抽取
同类型医学实体层级关系相对较为单一,主要是 is-a 和 part-of关系。由于医学有其严谨的学科体系和行业规范,因此此类关系往往在医学词典、百科、信息标准中进行。 ICD-10、SNOMED等医疗词典或医疗数据库重点关注医学专业术语、受限词汇的分类和概念标准化工作,权威且涵盖范围广,在数量和质量上都有所保障,被医疗行业广泛认可,是抽取层级间实体关系的首选来源。针对具体的医疗词典、知识库提供的数据格式和开放 API 接口,可通过爬虫、正则表达式、D2R映射等技术从中抽取分层结构,抽取三元组来匹配、 添加上下位关系。
2)不同类型医学实体关系抽取
不同类型医学实体间的语义关系识别大致基于两大不同数据源而实现。一是百科或其他结构化数据源,如 Medline,UMLS 等;二是半结构化的电子病历。
医学实体类型相对有限(主要是疾病、症状、治疗、药品等),目前通常在两个实体间预定义好要抽取的关系类型,再将抽取任务转换为分类问题来处理。如何预定义实体关系目前尚未有统一的标准,这取决于医学知识图谱构建过程中模式图的设置、实体识别情况、语料来源、构建目的及应用场景等,如 在 I2B2 2010 评测中,将电子病历中的实体关系分成了医疗问题与医疗问题、医疗问题与治疗、医疗问题与检查三类。
近几年,Uzuner 团队在句子层面抽取了六类医疗实体关系,使用实体顺序和距离、链接语法和词汇特征来训练 6 个 SVM 分类器,通过对比实验,指出词汇特征在实体关系识别中 的重要作用。在此基础上,基于Medline 摘要,Frunza 等抽取了疾病、治疗间的三种关系,并引入 UMLS 生物和医疗实体特征,取得了不错的实验结果。而 Abacha 等在同样的任 务中使用人工模板和 SVM 的混合模型,取得了 94.07%的平均 F值。该研究指出,在样本数较少时,模板匹配方法起主要作用,而面向海量样本时则 SVM 起主要作用。
此外,在关系识别的分类方法对比研究中,Bruijn 等人在 I2B2 2010 评测中对比研究了有监督分类和基于 Self-training 的半监督分类的表现,表明了UMLS、依存句法分析结果和未标记数据对关系识别有着显著影响。除了预定义关系然后转换为分类任务来处理的方法,还有少量研究采用了模板匹配、统计共现等方法来抽取关系。如在 Medline 摘要中通过统计基因名的共现来提取关系,并根据共现矩阵生成了关系图,或在 Medline 摘要中通过语法依赖树进行图的模式匹配,进而抽取因果关系。
1.2.3 属性抽取
属性抽取是指对属性和属性值对(attribute-value pair, AVP)的抽取,其中属性的抽取是指为医学实体构造属性列表,如药品的属性包括适应症、禁忌症等。属性值的抽取是指为各实体附加具体的属性值,如阿莫西林是青霉素过敏者禁用。常见的抽取方法包括从开放链接数据提取、从结构化数据库提取、从百科类站点提取、从垂直网站进行包装器归纳、以及利用模式匹配从查询日志中提取等。对于医学知识图谱来说,主要通过上文提及的医学词典和主流医学站点来进行。值得一提的是,前者关于属性和属性值对的描述相对比较稀疏(特别对于中文领域),因此需从主流医学站点进一步抽取整合。
对于 AVP 结构化程度比较高的网站,如维基百科、A+医 学百科6等,有规整的信息框(InfoBox),可以方便地爬取识别InfoBox 部分,直接提取该实体对应的属性名和属性值,置信度高,但规模较小。而对于更多形式各异、半结构化的医药站点和垂直文本来说,通常是构建面向站点的包装器,从待抽取 站点采样并标注几个典型的详细页面(Detailed Pages),利用这些页面通过模式学习自动构建出一个或多个类 Xpath 表示的模式,然后将其应用在该站点的其他详细页面中从而实现自动化 的 AVP 抽取。
1.3 医学知识融合
知识融合是高层次的知识组织,使不同来源的知识在同一框架规范下进行数据整合、消歧、加工、推理验证、更新等 步骤7,目的是解决知识复用的问题,增强知识库内部的逻辑性和表达能力。针对知识图谱中不同粒度的知识对象,知识融合 可细分为实体对齐、知识库的融合等。
1.3.1 实体对齐
医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。 医学实体在不同的数据源中存在严重的多元指代问题,例如阿奇霉素在百度百科中被称为希舒美,在 A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。 因此实体对齐是医学知识融合中非常重要的一步。实体对齐是判断多源异构数据中的实体是否指向真实世界同一对象的过程。
现有的对齐算法有成对实体对齐与集体实体对齐两类。成对实体对齐方法只考虑实例及其属性相似度,包括基于传统概率模型的实体对齐方法和基于机器学习的实体对齐方法。前者以Fellegi等人将基于属性相似性评分的实体对齐问题转换为分类问题的工作为基础,至今仍应用于很多实体对齐工作中;后者常用的对齐方法有分类回归树算法、ID3 决策树算法、SVM 分类方法、集成学习框架等基于有监督学习的方法和无监督学习下的层次图模型等基于无监督学习的方法。
集体实体对齐在成对实体对齐的基础上在计算实体相似度时加入了实体间的相互关系,分为局部集体实体对齐与全局集体实体对齐。前者典型算法是使用向量空间模型和余弦相似度计算实体相似性,准确率不高,但召回率和运行速度比较可观。后者通过不同匹配决策之间的相互影响来调整实体间的相似度,又分为基于相似性传播和基于概率模型的集体实体对齐方法。基于相似性传播的方法通过初始匹配以“bootstrapping” 方式迭代地产生新的匹配[。Lacoste-Julien 等人在此基础上提出的 SiGMa 算法更适合大规模知识库,但需要一定的人工干预。基于概率模型的方法通过为实体匹配关系和决策建立复杂的概率模型,包括关系贝叶斯网络模型、LDA 分配模型、CRF 模型和 Markov逻辑网模型等,可以提高匹配效果,但效率还有待提高。
当来自不同知识源的数据出现数据冲突时,需要考虑知识源的可靠性以及不同信息在各知识源中出现的频度等因素。阮彤等人]在构建中医药知识图谱时对数据源的可信度进行评分,结合数据在不同来源中出现的次数,对数据项进行排序, 并补充到相应的属性值字段中。
随着知识库规模扩大和实体数量的增加,知识库中的实体对齐越来越受到重视,如何准确高效地实体对齐是未来知识融 合的研究重点之一。
1.3.2 知识库融合
构建知识库时需求和设计理念不同会导致知识库中数据的多样性和异构性。对于庞杂的医疗知识来说,当前多数知识库都是针对某个科室或者某类疾病或药物来构建的,比如脾胃病 知识库[60]、中医药知识图谱等,若要得到更完善的医疗知识图谱,需要对不同的医疗知识库进行融合以及将尚未涵盖的知识和不断产生的新知识融合到已有的知识图谱中。医疗知识图谱的构建是一个不断迭代更新的过程。
知识库融合的研究工作始于“本体匹配”,初期针对本体类别的语义相似性进行匹配。随着知识库规模扩大和结构复杂化,类别、属性以及实体和它们之间的相互关系等也成为考虑的因素。Suchanek 等人提出的基于概率的知识融合算法PAIRS以两个知识库作为输入,能够高效地跨本体同时对齐类别、实例、属性和关系。但 PARIS 需要一定的人工参与。由于人类的精力和认知有限,自动地从 Web 中获取知识并进行融合十分必要。Dong 等人提出了将以消除歧义的三元组的形式从整个网络中提取事实与使用 PRA 和神经网络模型两种方法从 Freebase 图得到的先验知识融合在一起的知识融合方法, 可达到自动构建 Web 规模的概率知识库的水准,提升了效率。
在医疗领域,Dieng-Kuntz 等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次。Baorto 等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到 MED( Medical Entities Dictionary),同时建立审计流程以保证引入数据的一致性。
目前医疗领域知识图谱的融合技术虽有一些有意义的尝试,但仍需要大量人工干预,高效的知识融合算法有待进一步研究。医疗领域的知识图谱也可以考虑采用众包的方式进行知识融合。
1.4 医学知识推理
推理是从已有知识中挖掘出隐含信息,而知识推理更注重知识与方法的选择与运用,尽量减少人工参与,推出缺失事实,完成问题求解。在医学知识图谱中,知识推理帮助医生完成病患数据搜集、疾病诊断与治疗,控制医疗差错率。然而,即使对于相同的疾病,医生也会根据病人状况作出不同的诊断,即
医学知识图谱必须处理大量重复矛盾的信息,这就增加了构建医学推理模型的复杂性。 传统的知识推理方法有基于描述逻辑(Description Logic, DL)推理,基于规则推理(Rule-based Reasoning,CBR)与基于案例推理(Case-based Reasoning,CBR)等等。Bousquet C 等人使用基于 DAML+OIL 描述逻辑执行术语推理来改进药 物警戒系统中信号检测;Chen R 等人采用 RBR 方法开发出糖尿病诊断系统以提供用药建议;CARE-PARNER 系统则是基于CBR给出诊断结果与治疗方案等等。
传统的知识推理方法虽在一定程度推动医疗诊断自动化进程,但是也存在学习能力不足,数据利用率不高,准确率待提升等明显缺陷,远未达到实际应用的要求。面对日益增长的医疗数据,诊断时不可避免地会出现信息遗漏,诊断时间延长等 问题。而人工智能,尤其是人工神经网络(Artificial Neural Networks,ANNs)拥有从海量数据挖掘有用信息的天然优势。 ART-KNN(ART-Kohonen neural network)与 CBR 相结合可以提高后者在推理故障情况的效率和准确度。神经张量网络模型(neural tensor networks)在 FreeBase 等开放本体库上对未知关系推理的准确率可达 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知识库(PIDD)中使用了遗传算法 (Genetic Algorithm,GA)和反向传播网络(Back Propatation Network,BPN)的混合模型,诊断准确率提高 7%左右。
与深度学习将知识图谱作为数据源不同,基于图的推理则将知识图谱视为图,以实体为节点,以关系或属性为边,利用关系路径来找到节点间的多步路径,Path Ranking 算法,PTransE就是利用这样的原理来推断实体间的语义关系。图数据库使知识图谱能以图的数据结构进行存储,与传统数据库相比,前者在高维度关联查询的效率明显提高。然而图数据库尚未成熟,暂无法完成太复杂的知识推理。较为流行的图 数据库有 Neo4j,Titan,OrientDB和 ArangoDB等。王昊奋等人在医疗质量与患者安全辅助监控系统中,就将医疗本体的数据存放在 AllegroGraph 图数据库中。
与通用知识图谱相类似,医学知识图谱也还有对跨知识库知识推理、基于模糊本体的知识推理等问题的研究。
1.5 质量评估
数据的质量直接影响数据的运用,质量评估是保障数据的重要手段,可以量化数据质量,筛选出置信度高的数据。医学诊断对数据和医学知识图谱的可信度和准确度提出了更高的要求。质量评估并不是构建医疗知识图谱的最后一步,而是贯穿 在知识图谱的整个生命周期:早在 2013 年本体峰会(Ontology Summit2013)就对本体的生命周期的各个阶段所要进行的评估工作做了相关的说明。
目前,知识图谱/本体的评估方法可分为四大类:基于黄金 标准的方法,基于本体任务/应用的方法,数据驱动的方法,和基于指标的方法。对比了这几种本体评估方法。
具体到医学领域,本体评估方法因应用场景而异:Clarke 等人使用基于任务评估方法来分析基因本体的从 2004 至 2012 年的性能;Bright 等使用本体设计原则和领域专家审查意见 作为指标来评估本体在抗生素决策支持系统中的效果;Gordon 等通过将电子病历,诊断案例和临床实践等来构造“黄 金标准”来评估,改进传染疾病本体 BCIDO等。为方便用户进行本体评估和加快本体评估自动化进程,本体评估工具封装了评估方法。不同的工具从不同的视角对本体的不同指标进行评估。针对评估的侧重点,选择合适的工具才能对本体作出 符合应用要求的评估。
比较常用的本体评估工具有:ODEval,OOPS,OntoManager,Core等。除了医学本体,医学知识图谱还涵盖其他复杂多样的信息,因此,质量评估还包括对数据质量, 专家信息,知识库等方面进行评估。
相比通用领域的知识图谱,医学领域的知识图谱评估存在以下特殊性:a)鉴于医学的严谨性,评估往往综合多种方法进行多角度的评估,如 Bright 等利用本体设计原则和领域专家审查来进行等级评估; b)往往需设置等级较高的警告(alerts),如与处方相关的警报包括抗生素-微生物不匹配警报、用药过敏 警报、非推荐的经验性抗生素治疗警报、治疗方案-症状间不匹配警报等;c)除了从形式方面评价知识图谱以外,也注重于检验知识差距,因为知识的全面性和准确性将直接影响临床决策支持的置信度。此外,医学知识图谱是融合计算机科学等众多学科的交叉学科,评价指标不能简单地照搬某个的学科的指标,而是应该综合考虑众多因素。知识图谱/本体评估方法如下表所示:
因此,除了借鉴通用知识图谱质量评估方法,Ammenwerth E 等人结合医学本身的特点,就评价医学知识图谱时面临的评价对象的复杂度,评价指标与利益相关者的关系,评价动机三 大问题出发,分别提出解决方案。
不难看出,医学知识图谱质量评估的研究主要集中在方法,工具以及数据的研究这三方面。然而,现有的质量评估缺乏系统化,鲜有从医学领域特性的角度对知识图谱进行综合评估,多是借鉴通用的质量评估方法从微观上去评估某一项指标,具有分散性,片面性。
医学知识图谱2
医疗行业的 四座大山:
1、医疗信息化的发展有20多年的历史,期间出现多条发展路线,使得采集数据不连续或维度单一,数据价值大打折扣;
2、数据分散在很多业务系统,数据掌握业务商手中,不同业务商的数据标准结构不同,造成数据的清洗、整理非常困难;
3、不同医院、不同医生对病情的描述方式存在差异,计算机无法理解这些表达,需要对采集到的数据进行标准化处理,标准化的过程非常困难;
4、对数据进行充分挖掘、转化为知识,尤其在数据体量非常庞大的情况下,也存在很大的困难。
以前由专家收集整理信息的建设方式消耗巨大的资金与时间, 至今仍没有一个较为完整的医学知识图谱。中文医学术语建设更是严重落后于发达国家,严重阻碍了医疗大数据技术的发展。除此之外,还有医疗本身的局限性。如医学临床指南,对疾病临床治疗过程如果严格按照指南来做,哪怕出现了差错,从法律的角度,承担的责任也比较有限;如果没有按照指南来做,产生了差错,那责任就会比较大,所以医学临床指南的加入在智能化的过程中会非常重要。互联网上存在很多 半结构化的医学临床指南,比如 丁香园、名医百科、中华医学会、医脉通,经常会公布一些指南。
从技术角度来看,由于医学名词的领域性和专业性,基于模板的抽取是很多医学图谱构建过程中使用的方法,这类方法简洁可控,容易冷启动,准确率可控,通用性也不错。 不足是:模板产生困难、覆盖率不高,而且容易产生语义漂移,需要做边界控制,最后是计算复杂度高。这是目前这种计算框架的优劣。在图谱结构构建中抽象本体,归纳实体可以从疾病、症状、检查、检验、体征、药品等维度考虑,包括医生、科室、医院都可以囊括近来。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”。疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等。
医学数据处理中 指代消解、实体消歧的工作量不比一般行业少。期刊论文,病程记录,不同医院,不同医生,表达习惯千差万别,比如发热、发烧、高烧、低烧、 39 度,医生想要表达的就是发烧,但是计算机理解不了。所以数据的标准化,是数据实体化的关键。医疗知识图谱的难点还在于AI 的基础能力,如自然语言处理、计算速度,模型适配。
医学知识图谱3
医学知识图谱应用
随着人们对健康问题的愈发重视,医疗保健费用、需求的增长与优质医疗资源不足之间的矛盾亟待解决。对此,由于近几年人工智能的飞速发展以及精准医疗、智慧医疗的提出,医学知识图谱应用正受到国内外企业、学界的广泛关注,有望带来更廉价、高效、精准的医疗建议和诊断。本文可以从已有的医学知识图谱的应用中一窥其巨大潜力。
2.1 医疗信息搜索引擎
传统的医疗搜索引擎需要对百亿计的医疗相关网页进行检索、存储、处理,但难以理解用户的语义查询。而基于医学知识图谱的搜索,不仅提供用户网页间超链接的文档关系,还包 括不同类型实体间丰富的语义关系。
知识图谱对于传统信息搜索的优化主要体现在查询扩展,从知识图谱中抽取与查询相关的若干实体及实体关系和属性进行扩展查询,以更好的理解用户的查询需求。Aronso 等人较早将信息检索技术结合 UMLS 进行查询扩展,并应用于医学文献检索。 Díazgaliano 等人在生物医学信息搜索中加入了医学本体 MeSH来进行查询扩展,包含同义、近似同义和密切 相关概念的实体和关系,改进了信息检索的效果。Huang 等人在医学本体的基础上,使用 LSA 自动挖掘实体间的语义关系,如药物诱导疾病关系、药物间相互作用关系等,对实体关系、实体-实体的查询进行了扩展。中国中医科学院的贾李蓉 等于 2002 年开始研制中医药学语言系统,构建了包含12万多个概念、60余万术语以及127余万语义关系的中医药知识图谱。它通过在检索系统中嵌入“知识卡片”以及一个“知识地图”展示系统,将中医领域概念可视化,用户可以选择其中 的概念开始构造查询或搜索。
目前,国外典型的医疗专用搜索引擎有 WebMd8、 OmniMedicalSearch 9 、 Healthline10等 。 其 中 WebMd 和 OmniMedicalSearch 分别属于全文索引和目录索引类型的传统 搜索引擎,Healthline 是一个基于知识库的医学信息搜索引擎, 其知识库涵盖超 850,000 项医疗元数据和 50,000 条相互关联 的概念。Google 率先提出将知识图谱应用于搜索,在医疗搜索 应用上,当用户搜索疾病或症状时,Google 提供超过 400 种健康状况的数据,通过一张信息卡片,给出典型症状以及如是否严重、是否具有传染性、影响哪些年龄段的人等细节信息。而国内主流医疗搜索引擎有搜狗名医、360良医,这两者都是结合了元搜索索引方式和知识库的搜索引擎,聚合权威的知识、医疗、学术网站,为用户提供包括维基百科、知乎问答、国际 前沿学术论文等权威、真实内容。
基于知识图谱的搜索引擎已成为现今搜索引擎的主要形式,其技术框架也在不断改进和完善。目前的医疗搜索引擎主要受限于医学知识图谱的知识数量和质量,构建完备的医学知 识图谱是其关键。
2.2 医疗问答系统
问答系统也是知识图谱的典型应用场景。目前在基于知识图谱的问答系统中采用的方法主要包括:基于信息提取的方法,利用问句信息结合知识库资源获取候选答案;基于语义解析的方法,将自然语言问句解析成一种逻辑表达形式,通过这种结构化表达从知识库中寻找答案;基于向量空间建模的方法,使用向量空间描述自然语言问句以及知识图谱中的实体和关系,通过机器学习、深度学习等方法生成问答模型进行回答。
早期的医疗问答系统的研究主要集中于信息检索、提取和摘要技术。知识图谱概念的提出,致使问答系统研究热点转移到基于知识图谱的问答系统研究。Terol等人使用了 UMLS 以及 WordNet 两种知识库,设置了 10 类医学问题类型,利用自然语言处理技术的应用来生成和处理问题的逻辑形式, 从知识库中提取答案。Abacha 等人对比了基于医学本体的 医疗问答系统,结合医学本体、领域知识,NLP 相关技术和语义关系,实现了一个医疗自动问答系统。华东理工大学阮彤、 王昊奋等人与上海曙光医院合作构建了包括疾病库、证库、
症状库、中草药库和方剂库的中医药知识图谱,并基于该知识图谱进行中医药问答和辅助开药。该系统通过基于知识图谱的分词、模板匹配、模板的翻译执行来回答概念、实体、属性、属性值的模板组合问题,并将图谱中存储的数据自动转换成推理引擎适用的推理规则,再结合医生工作站传来的病人事实数据,辅助医生开方。
在医疗垂直领域的问答系统研究中,受限于现有医学知识图谱的推理能力,以及医学知识表示的复杂性,尚未出现重大的突破。而反观开放领域,对特定领域专业知识要求不高的情 况下,IBM 的 Watson 系统、微软的小冰都是融合传统问答系统和知识图谱的成功案例。
2.3 医疗决策支持系统
借助医疗知识图谱,医疗决策支持系统可以根据患者症状描述及化验数据,给出智能诊断、治疗方案推荐及转诊指南,还可以针对医生的诊疗方案进行分析、查漏补缺,减少甚至避免误诊。
Ángel 等人设计了一个本体驱动的,基于逻辑推理和概 率统计优化的医学鉴别诊断系统 ODDIN,系统的知识库框架包含一个逻辑规则知识库和一个医学本体知识库,在逻辑规则知识库中,定义了四种逻辑规则,而医学本体知识库则是综合了 多个医学本体资源,支持多种本体表示形式,包括 RDF、RDFS、 OWL 和 SPARQL,诊断方法的核心是基于贝叶斯理论进行改 进。Martnez-Romero 等人[106]设计的 iOSC3 系统是一个基于本体针对急性心脏病进行智能监控和诊断的系统,该系统分析患 者的状况并提供最佳治疗方案的建议,其知识库由 OWL 本体 和表示专家知识的一组 SWRL 规则所构成。王昊奋、张金康等人通过搜集中文开放链接数据中的医疗信息(ICD9、ICD10 等)和主流医学站点中的医疗知识(39 健康网、寻医问药等)构建了医疗知识图谱,并将其应用于上海林康医疗信息技术有限公司的医疗质量与患者安全辅助监控系统和处方审核智能系统中,前者基于知识图谱来进行抗生素不合理使用的监控、危
急值预测,后者快速判断处方为合理、疑似不合理和不规范处 方,从而促进用药的合理性。
将知识图谱应用于医疗决策是目前的研究热点。但是,在实际应用中,主要存在着两方面的问题:一是缺少完备的全科医学知识图谱,二是医疗决策的可靠性。对于前者,目前基于知识图谱实际应用的医疗决策系统,主要还是针对于特定疾病类型的决策,无法广泛应用,如 IBM 的 Watson Health 主要面向肿瘤和癌症的决策支持,基于巨大的知识库和强大的认知计算能力,为临床医师提供快速的、个性化的循证肿瘤治疗方案。对于后者,医疗决策是直接关系到使用者的身体健康问题,依靠人工智能进行医疗决策对结果的准确性和可靠性有更高的要求。现阶段,基于知识图谱的医疗决策只是扮演着支持和辅助的角色。
3 挑战及研究展望
知识图谱是语义网与知识库的融合与升华。知识图谱的优势是具备强大的语义处理与开放互联能力。对医学领域而言,由于其专业性、规范性、术语有限性等特点,可以从医学词典、医学标准、电子病历等来源获取到高质量数据;另外在科教行业中,存在着知识管理、语义检索、商业分析、决策支持等需
求,医学知识图谱的研究能推进海量数据的智能处理,催生上层智能医学的应用。医学知识图谱是大数据与医学的结合,将 成为知识图谱和大数据智能的前沿问题。
1)人工智能
人工智能,尤其是深度学习已经在计算机视觉、语音识别、机器翻译等领域超越了传统算法,而其在医学领域中的知识融合与推理等方面的研究潜力还有待挖掘。拥有强大学习能力的深度学习与有着丰富数据储备的知识库相结合,将逐步扩展认 知能力,为大规模知识图谱找到更宽广的应用场景。
2)复杂多样的数据源(跨语言,开放域)
互联网和电子病例带来了医疗数据的爆炸性增长,然而这些数据在语种、主题、存储等方面都存在较大差异。现有的研究成果多集中在特定数据集上,普遍存在算法准确率低、限制条件多、扩展性差等问题,同时知识复用、实体消歧等问题也有待进一步研究。跨语言医学知识图谱成为当前的研究热点, 我国的研究者更应发挥自身在中文信息处理方面的优势。
3)众包技术
众包反馈机制不仅可以有效提高数据质量,还能作为质量评估的重要补充。众包平台与知识库的有机结合,能够修 正机器无法识别的错误,提高知识图谱的质量与性能。39 健康网,寻医问药网的问答区都有专业人士在线解答问题;A+医百科中的药物信息由医学研究者共同编辑完成。而另一方面,如何评估和保障提交结果的质量,也开始受到国内外学者的关 注。
4)可视化
知识图谱可视化的真正意义在于让人直观地了解推理的过程与结果。而医学知识图谱可视化站在医生或病人的立场,寻求最佳的知识展示方案:病人能够理解诊断结果,医生能够利 用知识图谱的动态推理过程作出合理诊断。
医学知识图谱4
医学本体构建
网络上文本数据的爆炸式增长,以及对本体需求的增加,促进了语义网络的发展,使得基于文本的本体自动构建成为一个非常有前途的研究领域。文本本体学习是一种以机器可读形式(半)自动地从文本中提取和表示知识的过程。本体被认为是在语义网络上以更有意义的方式表示知识的主要基石之一。
2.1 本体构建定义及任务
万维网联盟(World Wide Web Consortium,W3C)将本体论定义为用于描述和表示知识领域的术语。本体是一个数据模型,它表示一组概念以及一个域中这些概念之间的关系。
本体构建可以定义为从头创建本体或重用现有本体以丰富或填充现有本体的迭代过程。构建本体的过程包括以下6个任务:
·指定一个域以创建定义良好的术语和概念;
·识别域中的关键术语、概念及其关系;
·建立或推断描述域结构属性的规则和公理;
·使用支持本体的表示语言(如资源描述框架(resource description framework,RDF)、资源描述框架模式(resource description framework schema,RDFS)或网络本体语言(Web ontology language,OWL))对构建的本体进行编码(表示);
·将构建的本体与现有本体结合(如果现有本体可用);
·通过使用通用和特定的评估度量来评估构建的本体[2]。
2.2 医学本体构建难点及现有技术
随着对许多医学本体构建研究的深入,目前医学本体库的构建主要存在以下难点。
首先应该尽可能减少在本体构建过程中的人为干预。目前实现本体构建过程的完全自动化是不现实的,怎样减少人为干预是目前医学本体构建的一个难点和热点。20xx年,Mazen A等人[3]提出了一种新的本体自动生成框架,即链接开放数据项目授权的生物医学本体自动生成(linked open data approach for automatic biomedical ontology generation,LOD-ABOG)方法。
与现有框架相比,参考文献[3]的评估结果显示,大多数本体生成任务的结果有所改善。该参考文献提出的LOD-ABOG框架表明,现有的LOD源和技术是一个很有前途的解决方案,可以在更大程度上实现生物医学本体生成和关系提取过程的自动化。另外,与现有的框架在本体开发过程中需要领域专家的参与不同,该参考文献提出的方法只要求领域专家在本体构建周期结束时参与到本体的改进中。
20xx年,Lytvyn V等人[4]提出了从自然文本中提取知识的方法和算法(包括一个基于本体引入的概念、关系、谓词和规则的多层次过程),建立了一种基于本体的本体开发方法,该方法利用现有本体对文本文档进行分析,构建了命名和本体术语体系。这使得本体开发过程自动化成为可能。
再者,由于医学信息的特殊性,对医学信息的匿名化处理在本体构建过程中也是一个难点。20xx年,Polsley S等人[5]提出一种可识别被映射到本体论术语的受保护健康信息(protected health information, PHI)的方法,临床专家使用数百份医学文献对该方法进行了评价,F1分数达98.8%,在后续处理中保留语义信息具有一定的前景。但该方法仍有较大的局限性,需要不断地进行优化。
医学知识图谱5
1. 知识图谱概念
知识图谱广义概念:作为一种技术体系,指大数据知识工程的一系列代表性技术的总称。
知识图谱狭义概念:作为一种知识表示形式,知识图谱是一种大规模语义网络,包含实体、概念及其之间的各种语义关系。如下图中的二甲双胍知识图谱片段。
2. 国外医学知识图谱
UMLS:由美国国家医学图书馆自1986年起研究和开发的一体化医学语言系统,包含超级词表、语义网络、专业词典和词汇处理工具。其规模:语义网络包含133种语义类型,54中语义关系。超级叙词表包含300多万概念,1300多万概念名称。
SNOMED CT:2002年1月,SNOMED首次发布,它由两大医学术语SNOMED RT与CTV3合并而来,国际版SNOMED CT在每年的1月和7月更新一次。SNOMED CT核心构建是概念、描述(术语)和关系。其规模:目前包含19种语义类型,50多种语义关系,35万概念,120万描述(术语),110万关系。
3. 国内医学知识图谱
CUMLS:由中国医学科学院医学信息研究所基于UMLS开发的中文一体化医学语言系统,包含医学词表、语义网、构建工具与平台。其规模:共收录医学主题词3万余条、入口词3万余条、医学术语10万余条、医学词汇素材30万余条。
医药卫生知识服务系统:由中国医学科学院医学信息研究所承建,通过对资源的深度挖掘和关联分析,建设了知识图谱、知识脉络分析等特色知识服务和应用。其规模:已发布疾病和药品领域知识图谱,其中疾病涵盖心脑血管疾病、呼吸系统疾病、免疫系统疾病、消化系统疾病、肿瘤等。
中医药知识图谱:中国中医科学院中医药信息研究所依托中医药学语言系统(TCMLS)构建了中医药知识图谱。其类型包括:基于中医药学语言系统的知识图谱、中医美容知识图谱、中医养生知识图谱、中国临床知识图谱。
OpenKG:由中国中文信息学会倡导的中文领域开放知识图谱社区项目,主要工作内容包括:http://OpenKG.CN(开放图谱资源库)、cnSchema(中文开放图谱Schema)和Openbae(开放知识图谱众包平台)。
02医学知识图谱的领域特征和应用需求
1. 医学知识的特点
医学术语多样性:不同知识源对同一个概念采用了不同术语进行表达。比如:糖尿病又可称为消渴症、消渴、DM等。
精度要求高:医学知识专业性强,医学应用场景容错率低,因此医学知识图谱的精确度要求高。
复杂度高:医学是经验总结的科学,医学概念的内涵往往比较丰富,且有些医学知识复杂很难用简单三元组表达。
2. 医学知识图谱应用场景
医学知识图谱的不同应用场景需求侧重点也有所不同,需要最大化的满足才能提高图谱的适用性。如下所示:
3. 定制化解决方案
为满足行业深度应用需求,医学知识图谱构建时需引入更多定制化解决方案
医学知识图谱6
医学命名实体识别
3.1 命名实体识别定义
命名实体识别(named entity recognition,NER)又称专名识别,指识别文本中具有特定意义的实体(主要包括人名、地名、机构名、专有名词等)。
通常包括两部分:
·一是识别实体边界;
·二是确定实体类别(人名、地名、机构名或其他)。
英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),因此识别实体边界相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,实体边界的识别更加困难。
3.2 医学命名实体识别难点及现有技术
与传统的命名实体识别相比,医学名词实体一般比较长,长实体名词常常包含多个名词实体,造成医学实体边界识别的难度较大。此外,医学名词存在大量的同义词替换、缩写以及一词多义现象,加大了确定实体类别的难度。
针对医学实体中大量同义词替换以及大量缩写的问题,20xx年Kato T等人[7]提出了一种共享和学习标签组件嵌入的方法,通过对英语和日语细粒度NER进行实验,证明了该方法比标准序列标记模型性能更好,特别是在低频标签情况下。
为了解决医学名词实体较长、识别边界困难的问题,20xx年,Tan C Q等人[8]提出了边界感知的神经网络模型来预测实体的类别信息。该模型可以先定位出实体的位置, 然后在对应的位置区间内进行实体类型的预测。在公开的嵌套NER数据集上,该模型取得了超越以往方法的效果,并在预测上取得了更快的速度。
另外,大多数NER系统只处理平面实体,忽略了内部嵌套实体,导致无法捕获底层文本中的细粒度语义信息。为了解决这个问题,20xx年Ju M Z等人[9]提出了一种新的神经模型,通过动态叠加平面NER层来识别嵌套的实体。模型将长短时记忆(long short term memory,LSTM)层的输出合并到当前的平面NER层中,为检测到的实体构建新的表示,并将它们提供给下一个平面NER层。模型动态地堆加平面NER层,直到没有提取任何外部实体。该模型针对特定数据集(具有多种类别和嵌套的实体)具有较好的实验效果。
对于医学实体中常见的一词多义现象,20xx年Pham T H等人[10]在细粒度NER任务中进行了多任务学习和语境化单词表征的有效性研究,并研究了多任务序列标记的不同参数共享方案、神经语言模型学习和不同单词表示设置下的学习。最终得到的最佳模型不需要任何额外的人工操作来创建数据和设计特征, F1分数达到83.35%。
Luo Y等人[11]提出了一个增加了上下文表示层次的模型:句子级表示和文档级表示。在句子级,考虑到单个句子中单词的不同贡献,通过标签嵌入注意机制来增强从独立的双向长短时记忆(bidirectional long short term memory,BiLSTM)学习到的句子表征。
在文档级,采用键值存储网络记录对上下文信息相似度敏感的单个单词的文档感知信息。在基准测试的实验结果数据集(CoNLL-2003和Ontonnotes 5.0英语数据集,CoNLL-2002西班牙语数据集)上获得了最先进的结果。
3.3 医学命名实体识别常用数据集
医学命名实体识别较常用的数据集主要有以下几种,见表2。
3.4 挑战及未来研究方向
(1)多类别实体在不同语境、不同词性、不同类别下的应用
语言的博大精深、丰富多彩正是语言的魅力所在,但对于机器来说,丰富多彩的语言使语言的使用规则变得更加复杂,很难归纳和总结。将机器语言变得更加智能,理解多类别的实体在不同语境、不同词性及不同类别下的应用是一个重要的研究方向。
(2)嵌套实体的研究
在医学领域中,实体嵌套的现象非常常见,绝大部分医学长实体中会存在实体嵌套,如何更有效地识别实体嵌套是医学命名识别实体领域必须面对且具有重要意义的问题。
(3)实体识别与实体关系抽取的结合
输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组。这可以克服实体识别模块的错误引起的错误传播,重视两个子任务之间存在的关系,使信息抽取任务完成得更加准确高效,但同时也可能会有更复杂的结构,因此如何用更简单的结构实现实体识别和实体关系抽取的结合将是之后的研究重点。
医学知识图谱7
数研院医学知识图谱构建
1. 模型建立
医学领域的知识图谱由于其知识专业性强,行业通常采用自上而下的方式,先构建Schema,再抽取知识。
数研院医学知识图谱Schema主要参考了UMLS语义网络、cnSchema等。相关数据涉及四大领域:疾病、药品、手术操作、检验检查。当然我们在知识图谱的构建过程中,会根据抽取和应用的实际情况,不断完善和优化Schema。数研院医学知识图谱于20xx年8月首次发布Schema,目前包含72种语义类型、493种语义关系。
Schema分别用于指导“七巧板”医学本体术语集和“汇知”医学知识图谱的构建,完善医学知识表达的体系。我们之所以在一个模型指导下构建两个知识库,是为了解决不同的问题。“七巧板”采用本体解决与逻辑定义(即内涵定义)相关的关系,以及层次关系。“汇知”采用语义网络解决可能性、经验性的关系,并且无层次关系。具体请看下图:
2. “七巧板”本体术语集构建
本体术语集的构建整体有6个步骤,依次如下所示:
Step1:确定领域范畴。当前我们以满足临床诊疗需求为切入点,开始尝试构建医学知识图谱。主要涉及范围:疾病、症状、体征,手术操作、检验检查,药品,人体形态结构,基因,医疗器械。
Step2:选取合适的知识源。充分收录行业现行标准、教科书、指南等权威知识源,并同时补充临床病历、互联网诊疗中的术语等。
Step3:梳理重要术语。梳理领域中的重要术语,并由领域专家进行语义层面的实体归一,完成概念化。相关流程如下所示:
Step4:建立关系。“七巧板”医学本体术语集的核心构建包括:概念、术语、关系及映射。如下图所示:
充分保留知识源中的已有层级关系,通过机器推理、人工添加的方式进行优化。挖掘知识源中的属性关系,并通过机器推荐、人工添加进行补充。制定明确的映射规则,采用机器推荐、专家审核的方式建立映射。
Step5:存储和浏览。采用关系型数据库,分为概念表、术语表、关系表、映射表进行存储,且保留历史痕迹。术语浏览器实现术语集构建的快速查找,并可按需实现子集定制。
Step6:平台及工具支撑。自研的知识库维护平台(CoWork),内嵌术语集研制规则,支持多人共同协作。CoWork中“七巧板”的功能
CoWork中术语集编辑器可实现概念层面的编辑功能需求,并支持多人同时在线协作,协作方式为不创建分支,采用编辑锁。术语映射工具利用算法推荐,调高映射效率。目前“七巧板”术语集收录97万概念、123万术语和292万关系,包含疾病、操作、药品等语义类型。我们在持续进行更新维护,按季度发布,每季度第一个月20号发布新版本。
3. “汇知”图谱构建
“汇知”知识图谱的构建有五个步骤,分别如下:
Step1:选取合适的知识源。选取临床指南、临床路径、医学书籍文献等权威知识源,并同时补充医学百科类知识。简言之,即非结构化知识源+半结构化知识源+结构化知识源。
Step2:知识抽取。具体内容包括:实体识别和关系抽取。
实体识别通过基于规则的命名实体识别+专家审核提高标注效率,产生的标注数据用于训练深度学习模型。
医学知识图谱8
医学实体关系抽取
4.1 实体关系抽取定义
实体关系抽取是指从一个句子中抽取出关系三元组,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来信息抽取的兴起,实体关系抽取进一步得到广泛的关注和深入的研究。
4.2 医学实体关系抽取难点及现有技术
与一般的实体关系抽取相比,生物医学领域语料库的建设很复杂,且需要大量的人力、物力,对参与人员的专业背景要求高,因此使用仅有的医学知识来自动构建大规模的语料库对于医学实体关系的抽取十分重要。此外,医学实体之间普遍存在重叠关系,这给关系抽取的准确性带来较大的干扰。
现有的医学关系抽取方法大多需要复杂的特征工程,越来越多的学者采用深度学习方法进行关系的抽取,但大多采用的是流水线的方法,没有充分利用实体信息,且容易导致错误的传递。最后,医学关系的跨度较大,句子级的抽取不能满足要求。
为了自动构建大规模的语料库,20xx年Li Y等人[12]提出了一种全新的轻量级神经网络框架来解决远程监督关系抽取问题,以弥补以往选择的不足,使用《纽约时报》(New York Times,NYT)数据集进行实验,结果表明该方法在AUC和Top-n精度指标方面都达到了较先进的性能。20xx年He Z Q等人[13]设计了一个新的状态表示形式,它考虑了句子嵌入、关系嵌入以及所选的正向实例的嵌入,该方法解决了远程监督方法中的错误标签问题,同时提升了词袋水平的关系提取效果。Chen D Y等人[14]提出了通过多代理强化学习模型来重新标记噪声训练数据,并共同提取实体和关系的新方法。他们在两个真实的数据集上对该方法进行了评估,结果证明,该方法可以显著提高提取器的性能,并实现有效的学习。
针对医学实体间普遍存在重叠关系这一问题,20xx年Zeng D J等人[15]重新研究了基于复制机制的关系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取实体和关系的多任务学习复制模型(copy mechanism for multi-task learning,CopyMTL)。该模型利用多任务的学习框架来识别多词实体,通过提高实体识别精度来提升关系抽取的效果,从而达到了较理想的效果。
20xx年Nayak T等人[16]提出了使用编码器-解码器体系结构共同提取实体和关系的方法。该方法使用一种用于关系元组的表示方案,使解码器能够像机器翻译模型那样一次生成一个单词,并且仍然可以找到句子中存在的所有元组,它们具有不同长度的完整实体名称,并且具有重叠的实体。对NYT数据集进行的实验表明,该方法明显优于所有以前的模型。
为了减少深度学习方法关系抽取中错误的传递,20xx年Eberts M等人[17]提出了一种混合模型,包括基于转换器的编码层、LSTM实体检测模块、基于强化学习的关系分类模块。实验结果表明,与基线方法相比,该混合模型在关系和实体提取方面表现更好。
20xx年Bansal T等人[18]提出了一个新的模型——同时神经实体-关系连接器(simultaneous neural entityrelation linker,SNERL)。首先使用自注意力机制来捕获文本中每个实体提及的上下文表示;然后使用这些上下文表示来预测提及水平的实体分布和提及对水平的关系分布;最后针对每个提及对,将这些预测概率进行组合,并合并到文档级别,以获得预测关系三元组的最终概率。
实验结果表明,SNERL模型在CDT和CDR这两个生物医学数据集上的表现达到了最优的效果,并且可以大大改善系统的整体召回率,同时避免了级联错误。
针对医学关系跨度大的问题,20xx年Nan G S等人[18]提出潜在结构优化(latent structure refinement,LSR)模型,以端到端的方式构造一个文档级图谱来推理句间关系,通过迭代优化策略,模型能够动态构建潜在结构,以改善整个文档中的信息聚合。该模型在生物医学领域的两个文档级关系抽取数据集上取得了较好的效果。
4.3 医学实体关系抽取常用数据集
医学实体关系抽取较常用的数据集主要有以下几种,见表3。
4.4 挑战及未来研究方向
(1)加强语料库建设
相对于无监督学习方法,有监督学习方法有更好的准确性和稳定性,而构建良好的语料库是有监督学习方法得以开展的关键前提。
(2)利用联合学习方法更好地提取文本中的关系
现有的联合学习方法大多存在不同的问题,例如不能很好地识别医学文本中的重叠嵌套关系,但是联合学习方法可以充分利用实体与关系之间的交互信息,且普遍证明比流水线方法更有效,因此应该着力提升联合学习方法中识别重叠嵌套关系的能力,使联合学习方法更有效。
(3)实现跨句子或文档级关系抽取
医学文本中的关系往往不在一个句子中,而是跨句子的,因此关系抽取模型不应该仅仅满足于句子级的抽取,应该进行更广范围的关系抽取。
(4)解决远程监督学习的问题,提升远程监督的效果
医学领域语料库较小,远程监督方可以有效地解决这个问题,但是远程监督方法中存在错误标签等问题,会影响模型效果。未来可以着重解决远程监督中的错误标签问题,使用远程监督方法可以省去人工标注数据的工作。
医学知识图谱9
知识图谱(Knowledge Graph)的概念由谷歌 2012 年正式提出,旨在实现更智能的搜索引擎,并且于 2013 年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。
知识图谱本质上是一种叫做语义网络(semantic network)的知识库,即具有有向图结构的一个知识库;图的结点代表实体(entity)或者概念(concept),而图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。
目前而言,知识图谱领域我们更能够看到和接触到的内容中,做的比较好的是医疗领域的UMLS(统一医学建模语言),可以作为我们构建知识图谱的时候,一个比较好的参考。统一医学语言系统( Unified Medical Language System,UMLS) 是美国国立医学图书馆( National Library of Medicine,NLM) 于1986 年开始建设的一体化医学知识语言,具有集成性、跨领域和工具化的特点。UMLS 在信息检索( Information Retrieval) 、自然语言处理( Natural Language Processing) 、电子病历( Electronic Patient Records) 、健康数据标准( Health Data Standards) 等方面得到了广泛的研究和应用。NLM 应用UMLS 的系统和项目主要有PubMed,提供对Medline 和其他相关数据库的免费检索; NLM Gateway,提供对NLM 多个系统的集成检索,包括Medline、OLD Medline、LocatorPlus、PubMed、AIDS Meetings、HSRProj 和MedlinePlus 等。
UMLS中对于语义类型、语义关系、本体对象的定义和表示,可以作为我们非常好的参考,对于医学领域是一个很好的行业标准,对于其他领域,是一个很好的跨域参考标准。
关于知识图谱的存储,首先明确一个原则,没有图数据库之前,知识型的内容,同样有处理办法,因此图数据库只是知识图谱存储的方式之一。任何一种问题,都有不止一个解决方案,只是方案之间有着不同的优势而已。知识图谱的存储方式,在不同时期,不同场景下有不同的技术方案,有着明显的时间特征和场景特征。常用的知识图谱的方式包括:关系型数据(RDBMS)、三元组(RDF)和图数据库(Graph DB)。
图数据库之间各有优劣,Neo4j可视操作,文档支持,企业服务支持做的比较好,是无绝对开发能力团队的首选,同时因为社区版本的免费,特别适合新手学习。Titan是基于分布式存储模式提交下的开源系统,适合存储体量比较大需求场景,但是已经很久没有更新,适合技术团队能力比较强的组织采用。
医学知识图谱10
医学实体链接
6.1 实体链接定义
由于语言表达的多样性、歧义性以及上下文关联,语言理解面临巨大的挑战。语言理解主要包括语法解析、语义解析和特定的知识表示或其中的某个片段。而在知识图谱中主要涉及的技术即实体理解或实体链接技术,将现实世界中的知识映射到现有知识图谱中的实体,进而用现有知识图谱进行表示,达到理解的目的。在实体链接任务中输入的是实体的指代和上下文以及待链接的知识库,输出的是指代所对应的知识库中的实体。
实体链接(或实体规范化、实体消歧)指将文本中的短语(提及范围)映射到结构化源(如知识库)中的概念。提及范围通常是一个词或短语,描述一个单一的、连贯的概念。
6.2 医学实体链接的难点及现有技术
(1)联合在命名实体识别和实体链接中建模
在知识库构建中,实体识别是实体链接的前提,实体识别可为实体链接提供更多有效的信息。实体链接与实体识别联合学习可减少工作量。实体识别与实体链接任务联合解决既能提高命名实体识别的性能,也能提高实体链接的性能,是当前研究的重点和难点。
20xx年,Lou Y X等人[29]提出了一种基于转换的联合疾病实体识别与规范化模型,将输出构造过程转化为一个渐进的状态转换过程,允许使用非局部特征。实验表明,与其他方法分开执行任务相比,联合框架实现了更高的性能。与其他先进的方法相比,该方法更具优势。
20xx年,Zhao S D等人[30]提出了一个新的具有显式反馈策略的深层神经多任务学习框架,用于联合实体识别和实体规范化建模。该方法利用多任务学习对两个任务进行一般表示,在保持任务之间相互支持的同时,成功地将跨体系结构的任务转换为并行的多任务设置。实验结果表明,在两个公开的医学文献数据集上,该方法比当时最先进的方法表现得更好。
20xx年,Luo Z H等人[31]开发了pyMeSHSim软件包,这是一个用于生物医学文本挖掘的集成、轻量级和数据丰富的Python包。作为第一个一站式医学主题词(medical subject heading,MeSH)工具包,它集成了生物NER、规范化和比较功能。pyMeSHSim嵌入了一个自制的数据集,其中包含主标题(main heading,MH)、补充概念记录(supplementary concept record,SCR)及其在MeSH中的关系。
基于该数据集,pyMeSHSim实现了4种基于信息内容的算法和一种基于图谱的算法,可用于度量两个网格术语之间的语义相似度。结果表明,使用pyMeSHSim识别的网络术语和以前手工识别的网络术语的语义相似度高达0.89~0.99。PyMeSHSim有望在生物信息学、计算生物学和生物医学研究中作为一种强大的工具得到广泛的应用。
(2)医学实体语义模糊
基于研究和医学文献分析发现,相同疾病名可能以多种不同的形式出现,比如同义词替换(如“脑中风”“脑卒中”)、疾病名称前的简短描述修饰语(如“大面积心脏病发作”),这些均会造成医学实体语义的复杂多变。近年来针对这个问题的实体链接研究较多。
20xx年,Cho H等人[32]联合解析同义词和缩写词的领域特定词典及基于神经网络算法组合的大量未标注数据,该联合方法的精确度显著提高。
20xx年,Gorrell G等人[33]提出了一个新的系统Bio-YODIE。Bio-YODIE有两个主要的组成部分,首先,资源准备步骤将运行时所需的UMLS和其他信息资源处理为高效的形式,尽可能多地提前完成工作,以尽量减少运行时的处理;其次,流程本身对文档进行了注释,这些文档包括UMLS概念唯一标识符以及来自UMLS的其他相关信息。基于文本工程的通用结构(general architecture for text engineering,GATE),YODIE最初是一个通用的域系统,引用了DBpedia。BioYODIE是该系统的生物医学版本,它继承了一般领域的研究历史。与MetaMapLite的不同之处在于, 消除歧义是Bio-YODIE中的优先事项。Bio-YODIE已被集成到CogStack中,并在大规模临床应用中得到广泛应用。
20xx年,Wright D[34]提出了一个深度连贯模型NormCo,它考虑了实体提及的语义,以及单个文档中提及的主题连贯性。NormCo在两个疾病标准化语料库上的预测质量和效率方面优于当时最先进的基线方法,并且至少在准确性和标记文档的F1分数方面表现同样出色。
20xx年,Mondal I等人[35]提出了一种基于候选知识库条目与疾病描述相似度的排序方法,探讨了域内子词级信息处理疾病规范化任务的能力。该方法利用由疾病描述m、阳性候选qp、阴性候选qni组成的三元组(qp, m, qni)进行候选排序,引入了一个稳健的、可移植的候选生成方案,该方案不使用手工编制的规则。在标准基准NCBI疾病数据集上的实验结果表明,该系统在很大程度上优于先前的方法。
20xx年,Zhu M等人[36]提出了一种潜在类型实体链接模型LATTE,该模型通过对实体提及和实体的潜在细粒度类型信息进行建模来改进实体链接。与以前直接在实体提及和实体之间执行实体链接的方法不同,LATTE在没有直接监督的情况下联合执行实体对齐和潜在的细粒度类型学习。大量的实验结果表明,该模型比几种先进的技术具有显著的性能改进。
(3)公开医学数据集较小
在医学领域,对数据进行标签标注是一项费时费力的大工程。因此目前所有的实体链接公开数据集都是小规模的,如何在小规模数据集上进行高质量的实体链接是目前研究的一个难点。
20xx年,Rajani N F等人[37]提出使用精确聚焦的辅助特征来克服医学领域的这些挑战,这些辅助特征可以从少量数据中形成分类边界。该模型优于多个基线水平,并在多个医学数据集上更新了最优结果。
医学知识图谱11
知识图谱的构建包括三个步骤:
(1)信息抽取:从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
(2)知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
(3)知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中, 以确保知识库的质量。新增数据之后,可以进行知识推理、拓展现有知识、得到新知识。
医学知识图谱12
医学知识图谱存储的难点及现有技术(以图数据库为例)
(1)复杂关系的可视化
在医学知识中,实体之间的关系经常是错综复杂的,这使得将复杂关系能够更好地可视化成为研究的一个难点。
当前,新的蛋白质和基因序列的数量呈爆炸式增长,这使得对其生物学特性的有效表征和分析变得越来越复杂。20xx年, Hu G M等人[42]提出了一个基于网络的图数据库工具SeQuery,通过整合序列结构和功能信息,直观地可视化蛋白质组/基因组网络。用GPCR2841数据集进行的序列测试表明,SeQuery能正确识别查询到的100个蛋白质序列中的99个。SeQuery非常适用于其他生物网络,可以通过添加更多的生物数据库来扩展SeQuery。
(2)用户友好的查询方式
知识图谱的存储是为了让用户更好地使用和查询知识,让用户的查询更简单便捷一直是知识图谱存储的关键和难点。
结直肠癌(colorectal cancer,CRC)是常见的癌症类型之一,它的发生与基因和细胞表观遗传机制的放松有关。20xx年,Balaur I等人[43]提出了图数据库EpiGeNet,用于存储和查询在结直肠癌发生的不同阶段观察到的分子事件(遗传和表观遗传)之间的条件关系。
piGeNet增强了探索与结直肠癌进展相关的研究方面的查询能力,EpiGeNet框架提供了更好的管理和可视化数据的能力,特别是针对结直肠癌的发生和发展的分子事件。
基因组技术的最新进展使得从结核分枝杆菌分离物中产生大量成本效益高的“组学”数据成为可能,然后可以通过许多异构的公开可用的生物数据库共享这些数据。尽管碎片化管理很有用,但它对研究人员联合查询利用数据的能力产生了负面影响。20xx年,Lose T等人[44]提出了抗结核病NeoDB(一个整合的结核分枝杆菌经济学知识库)。基于Neo4j,将标签属性图模型绑定到合适的本体,从而创建抗结核病NeoDB。抗结核病NeoDB使研究人员能够通过链接著名的生物数据库和发表文献中的结核分枝杆菌变体数据来执行复杂的联合查询。
(3)认证和加密形式的安全保障
隐私是医院在发布涉及个人敏感信息的数据时应保留的一个重要因素。研究寻求在不侵犯个人信息保密性的情况下向公众发布数据的解决方案。对数据进行处理,可以在维护基本信息的同时安全地发布数据。20xx年,Saranya K等人[45]提出了一种基于事务图的自适应概率安全处理方法,用于医疗环境中的安全处理。该方法首先为每个用户交互生成交互图,并在此基础上估计每个交互项的收敛性和偏差测度。基于这些值,该方法计算了一个概率矩阵,并在这个矩阵的基础上生成本体。实验结果表明,所提方法可以产生有效的安全处理和数据发布结果。
7.3 挑战及未来研究方向
·医疗数据类型种类繁多,现有图数据库系统支持过多数据组织的形式,但不清楚在一些情景中哪个是最好的。如何根据数据的不同选择合适的系统和图模型是未来一个很重要的问题。
·医疗数据大多独立分布在不同的医疗机构,数据的分布式存储对医疗数据的存储与分析至关重要。目前还没有为图数据库开发拓扑感知或路径感知的数据分布方案,特别是在最近提出的数据中心、高性能计算网络拓扑和路径体系结构的背景下。因此,未来数据的分布式处理将是一个亟待解决的问题。
·很少有研究使用不同类型的硬件结构、加速器和硬件相关设计(如FPGA、与网络接口卡相关的设计、硬件交互等),但这对于大规模医疗数据的存储也是不可缺少的重要一环。
医学知识图谱13
医学知识的特点
1、医学术语多样性:不同知识源对同一个概念采用了不同术语进行表达。比如:糖尿病又可称为消渴症、消渴、DM等。
2、精度要求高:医学知识专业性强,医学应用场景容错率低,因此医学知识图谱的精准度要求高。
3、复杂度高:医学是经验总结的科学,医学概念的内涵往往比较丰富,且有些医学知识复杂很难用简单三元组表达。
深度应用驱动的医学知识图谱构建
医学知识图谱模型建立
1、数研院医学知识图谱Schema主要参考了UMLS语义网络相关数据涉及四大领域:疾病、药品、手术操作、检验检查。当然我们在知识图谱的构建过程中,会根据抽取和应用的实际情况,不断完善和优化Schema。数研院医学知识图谱于20xx年8月首次发布Schema,目前包含72种语义类型、493种语义关系。
2、Schema分别用于指导“七巧板”医学本体术语集和“汇知”医学知识图谱的构建,完善医学知识表达的体系。我们之所以在一个模型指导下构建两个知识库,是为了解决不同的问题。“七巧板”采用本体解决与逻辑定义(即内涵定义)相关的关系,以及层次关系。“汇知”采用语义网络解决可能性、经验性的关系,并且无层次关系。
医学知识图谱14
医学知识图谱应用
8.1 基于医学知识图谱的问答
医学知识图谱与问答系统的融合是目前极具挑战性的研究方向,同时也是典型的应用场景。基于知识图谱的医疗问答系统可以快速响应医患用户提出的问题,并给出准确、有效的解答。下面将从问答系统的实现方法、实际应用、关键挑战3个方面进行阐述分析。
(1)实现方法
本文参考了近3年的研究进展,总结出医疗领域基于知识图谱的问答系统主要有两种实现方法:检索式和生成式。其中,检索式主要面向系统构建的知识图谱,生成式主要面向系统收集的问答库数据,表8列出了可用于构建基于知识图谱的医疗问答系统的数据来源。
检索式方法就是将用户的问句转化为知识库的查询语句,再将查询的结果转化成自然语言返回给用户,其一般流程由语义提取、问题匹配以及答案查询3个部分组成,如图2所示。
语义提取指从用户提出的问句中提取出涉及的医学实体、关系等语义信息,主要包括实体识别和关系抽取两部分,可以采用词典匹配、传统机器学习、神经网络甚至平台工具(如哈尔滨工业大学语言云平台)等方法。参考文献[46]基于自定义词典的Jieba分词匹配获得问句中的实体。
参考文献[47]中的DIK-QA系统使用BiLSTM-CRF神经网络模型抽取问句中的医疗实体,并在该模型中引入注意力机制,以提高实体识别的准确度。参考文献[48]借助哈尔滨工业大学语言云平台的LTPParser接口进行句法分析,将结果与词库内的实体进行比对,从而获取比对成功的实体和关系。
问题匹配旨在识别问句的意图,将问题进行分类,匹配预先制定的问题模板,一般采用匹配算法、TextCNN分类算法、SVM分类器等方法。Huang M X等人[47]采用AC多模式匹配算法将问句匹配到不同的问题类型上。
参考文献[38]结合术语频率-逆文档频率(term frequency–inverse document frequency,TFIDF)算法和word2vec词向量生成句子向量,匹配最相似的问题模板,根据模板的语义及问题中的实体到知识图谱中检索答案。参考文献[49-50]均采用TextCNN分类算法实现问句类型的分类。谢刚等人[51]利用支持向量机模型对问题进行主题分类和意图识别。
答案查询即根据问题模板将问题转化成查询语句,然后在知识图谱中查询问题的答案,主要通过查询语句直接检索答案或者通过推理规则得出答案。曹明宇等人[38]使用Cypher语言在Neo4j图形数据库中查询答案。参考文献[48]根据问题模板生成完整的SPARQL语言,并在甲状腺知识图谱内进行查询。Bo L等人[52]使用Elasticsearch查询语言,配合简单的辅助推理算法,给用户匹配相关症状,搜索可能的疾病,并推荐适当的诊断方法。
而生成式方法则利用相关模型,根据输入的问题生成答案或者直接检索问答库,其既需要医疗领域问答对语料数据,也需要知识图谱的实体及关系数据,主要采用神经网络进行模型训练。参考文献[53]使用基于LSTM的Seq2Seq模型构建答案生成模型。参考文献[54]将记忆神经网络作为智能问答的算法模型,将知识库的知识存储在模型中,可在网络中直接调用。
(2)实际应用
虽然我国医疗问答系统起步较晚,但国内已有不少科技公司在市面上推出自主研发的医疗问答系统。如诺华制药携手腾讯合作推出的“护心小爱(AI)”,该平台以微信小程序为载体,通过对话机器人为心衰患者提供针对常规医疗问题及日常生活问题的答疑解惑,以及科学的健康资讯。再如北京慧医明智科技有限公司旗下的“慧医大白”,其使用知识图谱、语义理解和对话管理等技术手段,通过与用户进行多轮问答,了解用户的具体病症,最终提供健康评估和健康行为建议。
而在问答系统起步较早的国外市场,最出名的面向医学领域的智能问答系统是IBM的“沃森医生(Dr.Watson)”,其学习了海量的医疗数据,包括领域内的顶尖文献、诊断报告、电子病历甚至医学影像等医疗信息,利用自身庞大的知识库为患者提出的医学问题提供最佳的答案。
(3)关键挑战
目前,国内医疗问答系统的研究发展仍然存在许多的挑战,下面列举了3个主要的关键挑战。
一是针对非医学专业人员的信息需求问题,由于他们的医学专业知识不强,无法准确描述具体问题,在获取答案时会存在一定程度的困难。
二是中文领域问答系统研究不足,主要体现在3个方面:
.缺乏高质量医学领域的语料资源;
.国内医学名词术语标准化还存在整体规划缺乏、权威术语标准数量不足以及更新不及时等问题;
.构建中文领域的医学智能问答系统的工具和方法不成熟。
三是医疗问答准确性问题,提高问答系统的准确性仍然是研究的热门方向。
8.2 医疗用药推荐系统
(1)简介
医学上的用药推荐与一般的推荐算法不同,一般的推荐算法是根据用户的历史记录,利用数学算法推测出用户可能的需求,已被广泛应用于电商等互联网场景。而用药推荐则是基于循证医学的原则,结合患者的具体患病情况以及医学专业知识,推荐适合的用药方案。一般的推荐算法的推荐结果对准确率的容忍度较高,即使部分推荐结果与用户需求不符,也能够接受。但用药推荐在实际应用中要求达到百分之百的准确率,即药品一定能够起到作用,且不能产生不良反应或药品间的相互作用。
知识图谱能够更加清晰准确地表达疾病与药品之间的适应关系以及药品间的相互作用,基于知识图谱的用药推荐与其他人工智能方法相比,能够取得更好的效果。目前基于知识图谱的用药推荐研究进展与其他基线水平相比有所提升,但还无法达到实际应用的要求。
(2)方法
目前医疗用药推荐系统使用的方法主要有以下两种。
第一种是图卷积网络的方法,即在图上使用卷积神经网络。20xx年Shang J Y等人[55]通过一个存储模块将药物相互作用(drug-drug interaction,DDI)的知识图谱集成为一个图形卷积网络,并将纵向患者向量建模作为查询,该方法在所有有效性度量方面都优于所有基线方法,并且在现有电子健康记录(electronic health record,EHR)数据中实现了3.60%的DDI率降低(即推荐药品之间有相互作用的概率降低3.6%)。20xx年,Wang S S等人[56]提出了一种针对药物组合预测(medicine combination prediction,MCP)的图卷积强化学习模型。其将MCP任务转换为无序马尔可夫决策过程(Markov decision process,MDP)问题,并设计了一个深度强化学习机制来学习药物之间的相关性和不良相互作用。相比于GAMENet,CompNet在Jaccard和F1分数标准上分别提高了3.74%、6.64%。20xx年,Kwak H等人[57]构造了一个药物疾病图谱,使用图神经网络学习节点表示,根据学习到的节点表示来预测药物节点和疾病节点是否具有药物不良反应(adverse drug reaction,ADR)关系。与其他算法相比,该模型的接受者工作特征曲线下的面积(area under curve of receiver operating characteristic,AUROC)和精度召回率曲线下的面积(area under curve of precision recall curve,AUPRC)性能分别提高到0.795和0.775。
第二种是知识图谱嵌入的方法,包括将实体和关系转化为连续的向量空间,从而简化操作,同时保留知识图谱的原有的结构。20xx年Wang M等人[58]构建了患者疾病-药品图谱,将其嵌入低维空间后,进行用药推荐。首先构建疾病和药品图谱,通过EHR分别连接疾病和药品图谱,形成两个二分图,通过患者数据将两个二分图连接起来,并构建了一个高质量的异构图,该方法的预测准确度(即Jaccard系数)、药物相互作用发生率、冷启动(即没有患者数据时的使用)、临床专家评分均高于基线水平。20xx年Wang X Y等人[59]构建了疾病-药品图谱,将其嵌入低维空间后,进行用药推荐,并提出一种基于知识图谱嵌入增强主题模型(knowledge graph enhanced topic model,KGETM)的中药推荐模型。在中药基准数据集上的实验结果表明,该方法优于当时最新的方法,中药知识图嵌入在中药推荐中有很好的应用前景。
(3)研究方向
医学知识图谱在用药推荐系统应用领域的未来研究方向主要有以下几方面。
.构建完整的医学知识图谱。人类对疾病与药品的认识是动态变化的,结合疾病、症状、药品、药品间的相互作用及患者的临床数据、患病的时间序列信息等,构建一个完整的医学动态知识图谱,确保知识的完整性、准确性和时效性。
.知识图谱嵌入学习是将实体和关系映射到低维连续向量空间的表示方法,在保留知识图谱结构信息的同时,还能够改善数据稀疏问题,提高计算效率,因此在进行后续用药推荐任务之前,先对知识图谱进行表示学习是很有必要的。
.考虑到构建动态医学知识图谱的必要性,而目前大多数知识嵌入表示研究建立在静态的知识图谱上,如何对动态知识图谱进行有效的知识表示是一个待解决的问题。将图时空网络与动态知识图谱相结合的知识嵌入表示用于用药推荐是一个颇具价值的研究方向。
医学知识图谱15
背景技术:
知识图谱是一种图结构的知识库,属于知识工程的范畴。不同于普通知识库,知识图谱融合所有学科,将不同来源、不同类型、不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度、更深度的知识体系并不断扩充。其本质上是将领域知识数据体系化、关系化,并以图的方式将知识可视化。简单来说,知识图谱是基于信息系统建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的动态发展规律。
目前临床医学领域中的病症、疾病即诊疗手段之间通常存在着错综复杂的关系,而现有的关系模型的数据存储模式固定,形式单一,缺乏直观性和灵活性,不适用于规模数量大或具有结构化层次的医学知识的表达,不便于医学知识体系内容的扩充,也不能为医护人员提供直观的参考。
技术实现要素:
有鉴于此,本发明的目的在于提供一种精准医学知识图谱构建方法和装置,便于大规模数量的医学知识的表达,为医学人员提供更直观的参考,从而减少医疗事故的发生,提高医疗服务质量。
第一方面,本发明实施例提供一种精准医学知识图谱构建方法,包括:
确定构建精准医学知识图谱需要的至少一个基础元素;
针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息;
根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息;
根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系;
根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。
可选地,所述针对确定的每个所述基础元素,基于预设的基础元素与子元素的映射关系、子元素与医学属性信息的映射关系,确定该基础元素的数据框架,包括:
针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;
针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;
根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。
可选地,还包括:
将确定的各基础元素的数据框架以及循证临床注释模型以二维表的形式存储。
可选地,所述根据各个基础元素的数据框架、各个数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:
将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;
根据所述图数据构建所述精准医学图谱。
可选地,所述根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:
根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。
第二方面,本发明的实施例提供一种精准医学知识图谱构建装置,包括:
第一确定单元,用于确定构建精准医学知识图谱需要的至少一个基础元素;
第二确定单元,用于针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息;
提取单元,用于根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息;
第三确定单元,用于根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系;
第四确定单元,用于根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。
可选地,所述第二确定单元具体用于:
针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;
针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;
根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。
可选地,所述第二确定单元还用于,将确定的各基础元素的数据框架以二维表的形式存储;
第三确定单元还用于将循证临床注释模型以二维表的形式存储。
可选地,所述第四确定单元具体用于:
将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;
根据所述图数据构建所述精准医学图谱。
可选地,所述第四确定单元具体用于:
根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。
根据本发明的技术方案,确定构建精准医学知识图谱所需要的至少一个基础元素,确定各基础元素的数据框架,构建循证临床注释模型,最终建立精准医学知识图谱,使得大规模医学知识的表达更加直观,提高医护人员的效率,减少医疗事故的发生,提高医疗服务质量。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种精准医学知识图谱构建方法的流程图;
图2为本发明实施例提供的一种精准精准医学知识库结构的示意图;
图3为本发明实施例提供的一种精准医学知识图谱构建装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种精准医学知识图谱构建方法的流程图。如图1所示,该方法始于步骤s110。
在步骤s110中,确定构建精准医学知识图谱需要的至少一个基础元素。
在步骤s120中,针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息。
在步骤s130中,根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息。
在步骤s140中,根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系。
在步骤s150中,根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。
可选地,根据预设的筛选标准,从精准医学知识结构中,确定构建精准医学知识图谱需要的至少一个基础元素。
在执行步骤s110时,可通过对精准医学知识结构的构成特征进行分析研究,基础元素在临床层面或组学层面的指标影响因素,确定四个基础元素。
可选地,所述基础元素至少包括疾病元素、药物元素、生物标记物元素、组学变异元素。
可选地,在执行步骤s120时,所述针对确定的每个所述基础元素,基于预设的基础元素与子元素的映射关系、子元素与医学属性信息的映射关系,确定该基础元素的数据框架,包括:
针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;
针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;
根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。
精准医学的本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个体化精准治疗的目的,提高疾病诊治与预防的效益。
具体地,以肺癌为例说明,不同的肺癌类型对药物的响应、临床诊疗方法都存在差异。而在组学方面,癌基因和抑癌基因作为多数靶向药物的靶标,其不同组学层面的变异,如脱氧核糖核酸(dna)层面的单核苷酸变异、插入缺失、拷贝数变化、甲基化等,核糖核酸(rna)层面的表达水平变化和融合变异等,蛋白层面的表达变化,都会影响患者对靶向药物的敏感性、化疗药物的药效、以及预后效果;另外药物代谢酶类、药物转运体、和药物靶标相关基因的胚系多态性变异,也会造成不同患者个体在药物代谢快慢、所需药物剂量、不良反应、及药效等方面的差异。为了正确刻画不同的变异对不同的肺癌类型、不同药物的临床影响,实现对患者个体组学变异的正确临床解读,整合肺癌相关科研文献研究结果、监管机构的审批结果、临床指南等信息,构建结构化循证肺癌精准精准医学知识库,形成肺癌的精准医学知识图谱,实现自动化的肺癌患者个体组学变异数据的循证临床解读。以下进行详细叙述。
具体地,参考图2,在建立疾病元素的数据框架时,以肺癌为例进行说明,参照mesh对不同类型肺癌的命名与分类,采用层级树状分类法确定每个框架间的从属关系,构成肺癌疾病的框架网络。不同类型的肺癌(如小细胞肺癌)由其对应的框架来存储相关医学属性信息,框架名即该疾病名称。每种肺癌类型的医学属性信息为医学主题词表标识(meshid)、别名、症状、常见病因描述、常见诊断方法描述及对应的数据类型限制等,即确立相对应的槽及侧面。槽值、侧面值等内容的填充参考医学主题词表(mesh)、在线《人类孟德尔遗传》(omim)、疾病本体(diseaseontology)、国家癌症研究词典(ncithesaurus)等数据库,按照该产品开发标准作业程序(sop)进行格式化、标准化,并以自己的语言进行中英双语表述。在线《人类孟德尔遗传》(omim)用于持续更新的关于人类基因和遗传紊乱的数据库。
在建立药物元素的数据框架时,参考药物库(drugbank)进行药物命名填充,药物的相关结构化描述(槽及侧面)为参考药物库标识(drugbankid)、别名、靶标、类型、作用机制、副作用等及对应的数据类型限制等。槽值、侧面值等属性内容填充参考药物库(drugbank)、丙氨酸氨基转移酶(act)等数据库,按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述,以储存肺癌相关的药物的信息知识,框架名即药物名。
在建立生物标记物(biomarker)元素的数据框架时,用以储存收录的生物标记物相关信息知识。肺癌相关生物标记物的命名采用国际人类基因命名委员会(humangenenomenclaturecommittee,hgnc)和人类染色体命名符号与核型式(iscn)标准,包括基因、假基因、信使rna(mrna)、非编码rna、蛋白、核型等类型。框架名即生物标记物名,生物标记物的医学属性信息(槽及侧面)为美国国家生物技术信息中心在线资源检索器标识(entrezid)、别名、生物标记物类型、基因类型、所处染色体、在染色体上的物理位置、所处dna链(正链/负链)、参考基因组版本、功能类别、简述、机制描述等。槽值、侧面值等属性信息内容填充参考美国国立生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)、英国韦尔科姆基因会桑格研究所基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营的生物信息数据库(ensemble)、科研文献等的相关内容,按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述。
在建立组学变异(variation)数据框架时,用以存储收录的组学变异相关信息。每个组学变异关联变异所处的生物标记物,并根据变异的组学层级及其类型的不同、采用层级树状分类确立框架间的从属关系,如组学变异分为dna、rna、蛋白三个水平,其中,dna水平上的组学变异有单核苷酸变异、插入缺失、基因拷贝数变异(copynumbervariations,cnv)、结构性变异、甲基化等,rna水平上的组学变异有差异表达、融合等,蛋白水平上的组学变异有差异表达等。组学变异的医学属性信息(槽值)为关联的生物标记物、dna链、所处染色体、变异的物理位置、参考基因组版本及变异的分子机制描述。不同水平不同类型的组学变异因其特征不同,其框架内定义的槽和侧面也不同。以单核苷酸变异为例,其定义的槽和侧面包括转录本、参考序列、变异后序列、编码序列变化、氨基酸变化、所处/相邻外显子、单核苷酸多态性参考文献(refsnp)等描述,而多态性单核苷酸变异还包括变异在不同人群中的发生率;融合变异模型还包括5’基因和3’基因的转录本、观察到的外显子、插入序列、断点位置等。槽值、侧面值等内容的填充根据所收录循证文献提及的组学变异,选择相适配的框架,从ncbi、ensembl、单核苷酸多态性数据库(dbsnp)、癌症体细胞变异目录(cosmic)、遗传药理学和基因组药理学数据库(thepharmacogenetics&pharmacogenomicsknowledgebase,pharmgkb)等公共组学数据库中抽取整合相关属性信息填入槽中,槽值、侧面值等皆通过为朔开发的算法、依照hgvs组学变异命名标准对其进行了错误校正和标准化、归一化处理。
参考文献(reference)框架一般用以储存收录的参考文献相关信息。框架名即参考文献名,参考文献的医学属性信息(槽及侧面)为:文献的题目、作者、年代、出版社、证据等级、美国公共医学数据库标识(pubmedid)、文献研究的疾病、人群、关键词、文献链接、文献简介、在知识库中所关联的框架等。槽值、侧面值等属性信息内容填充参考美国国立生物技术信息中心(ncbi)、ensemble、相关文献等内容,按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述。
建立治疗方案(treatment)数据框架时,用以存储收录的治疗方案相关信息。主要有美国食品药品管理局(fda)、中国国家食品药品监督管理总局(cfda)已审批通过的方案、美国国立综合癌症网络(nationalcomprehensivecancernetwork,nccn)指南中的方案、专家共识及处于临床研究阶段但已有显著效果的治疗方案的相关信息。治疗方案包括靶向治疗、内分泌疗法等生物疗法,以及与生物疗法联合生物疗法、生物疗法联合化疗等的联合方案。框架名为治疗方案名,治疗方案的结构化属性描述(槽及侧面)为适应症、疾病分期、应用患者、客观响应率等相关信息。按照产品开发sop进行格式化、标准化,并以自己的语言进行中英双语表述。
建立联合组学变异(combinedvariation)数据框架时,用以存储组学变异的联合关系。多个组学变异的发生对临床的联合影响包括并发协同(“与”关系)和替代相似(“或”关系)两种联合类型,如,一个同一生物标记物上多个位点的单核苷酸变异都有相同的表型影响,则这些变异为”或”关系。构建的联合变异框架网络兼容“与”和“或”两种类型,包括同一层次、同一类型的联合变异;同一层次不同类型的联合变异;不同层次的联合变异及药物基因组学的星型基因型表示法。可通过转换可将受检者个体的组学变异转换为药物基因组学的星型基因型,并与知识库中收录的联合组学变异名进行匹配。
建立循证临床医学注释(annotation)模型时,依据循证精准医学知识库,存储组学变异对临床表型(如生物体外在表现出来的功能等)的影响信息。根据对肺癌进行分子检测的临床应用环境的不同,肺癌相关组学变异对临床表型的影响包括组学变异对生物疗法(包括靶向药物、内分泌药物、免疫疗法等)的易感性、药物代谢动力学、药效动力学、预后的影响四种类型。
基于不同类型的影响,构建相适配的临床注释模型,关联循证依据(相关文献、指南等)中证实的疾病、药物和具体的组学变异。对循证注释的结构化属性描述(槽及侧面)包括循证医学证据等级(临床试验、队列研究、病例对照等)、样本量、样本人群、临床指标等。
生物疗法的易感性注释模型包括dna组织来源、对药物的敏感、可能敏感、可能耐药、耐药的等级划分、包括总生存期、客观缓解率、无进展生存期等指标在内的循证依据结果描述。
药物代谢动力学注释模型包括预先设置的证据等级、遗传药理学和基因组药理学数据库(pharmgkb)中临床注释等级、代谢类型(超快代谢、快代谢、正常代谢、中间代谢、慢代谢)划分、药物剂量升高或降低的划分、包括剂量、血药浓度等指标在内的药代动力学描述。
药效动力学注释模型包括证据等级、pharmgkb中临床注释等级、药物效率提高或降低的划分、不良反应风险增加或降低的等级划分、包括抗性风险、不良反应、生存期等指标在内的药效动力学描述。
预后注释模型包括预后好或坏的等级划分、包括总生存期、客观缓解率、无进展生存期等指标在内的循证依据结果描述。
信息来源包括美国国立综合癌症网络(nccn)、临床药物基因组学实施联盟(clinicalproblemsindexofcomplexity,cpic)、荷兰遗传药理工作组(dpwg)指南和生物医学文献期刊等,通过自然语言处理工具可自动化搜索、定位、分类美国公共医学数据库(pubmed)中的文献,遵循“引用>试验设计*>样本大小>杂志影响因子>杂志”的文献选取原则和sop结构化抽取循证证据,进行标准化、归一化,并以相应的语言进行中英双语表述。对于研究结果相矛盾的文献,采取在循证依据结果描述中同时呈现的原则。
基于上述基础要素框架、基础要素的联合框架、关联基础要素的循证临床注释模型,根据其名称(框架名、槽名、侧面名)、内容(槽值和侧面值)的相互关联整合形成循证结构化精准医学知识图谱。每个实体具有唯一确定的标示符,每个框架刻画实体内在属性,循证关系连接实体,刻画它们的关联。并提供时态数据刻画知识图谱的时态信息,包括知识的生成时间、在特定时间的状态和版本等。
可选地,该方法还包括:
将确定的各基础元素的数据框架以及循证临床注释模型以二维表的形式存储。
可选地,所述根据各个基础元素的数据框架、各个数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:
将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;
根据所述图数据构建所述精准医学图谱。
可选地,所述根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱,包括:
根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。通过上述方式构建的精准医学知识图谱,采用非关系型数据存储模式,为医护人员提供更直观的参考,从而降低医疗事故的发生。
图3为本发明实施例提供的一种精准医学知识图谱构建装置的结构示意图。如图3所示,该装置包括:第一确定单元310、第二确定单元320、提取单元330、第三确定单元340、第四确定单元350。
第一确定单元310,用于确定构建精准医学知识图谱需要的至少一个基础元素。
第二确定单元320,用于针对确定的每个所述基础元素,基于预设的基础元素、子元素、医学属性信息的映射关系,确定该基础元素的数据框架,所述数据框架包括与基础元素相关的至少一个子元素和与每个子元素相关的医学属性信息。
提取单元330,用于根据确定的各个基础元素的数据框架,从预设的精准医学知识库提取各个基础元素的数据框架之间的关系信息。
第三确定单元340,用于根据确定各个所述数据框架、各个基础元素的数据框架之间的关系信息,基于预设的循证精准医学知识库,确定至少一个循证临床注释模型,所述循证临床注释模型为对相关数据框架的临床注释,所述循证数据库表征数据框架、各个基础元素的数据框架之间的关系信息以及循证临床注释之间的映射关系。
第四确定单元350,用于根据各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,构建精准医学知识图谱。
可选地,所述第二确定单元320具体用于:
针对确定的每个所述基础元素,基于预设的基础元素和子元素的映射关系,确定与该基础元素匹配的至少一个子元素;
针对确定的每个子元素,基于预设的子元素与医学属性信息的映射关系,确定该子元素的医学属性信息;
根据所述基础元素、确定的所述至少一个子元素和各个子元素的医学属性信息,针对每个基础元素,确定该基础元素的数据框架。
可选地,所述第二确定单元320还用于,将确定的各基础元素的数据框架以二维表的形式存储;
第三确定单元340还用于将循证临床注释模型以二维表的形式存储。
可选地,所述第四确定单元350具体用于:
将存储的包括各基础元素的数据框架以及循证临床注释模型的二维表转化为图数据;
根据所述图数据构建所述精准医学图谱。
可选地,所述第四确定单元350具体用于:
根据确定的各个基础元素的数据框架、各个基础元素的数据框架之间的关系信息以及各个循证临床注释模型,以各个基础元素的数据框架的标识或各个循证临床注释模型的标识作为节点,以各个基础元素的数据框架之间的关系信息作为有向线段,构建精准医学知识图谱。
本发明实施例所提供一种精准医学知识图谱构建装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
以上就是医学知识图谱的全部相关内容了,医学知识图谱的出现,不仅仅是医疗行业的一次技术革新,更是推动人工智能与医学深度融合的重要里程碑。在未来,随着医疗大数据的不断积累,医学知识图谱将会变得越来越完善和精准,成为医生们的得力助手,为人类健康事业的发展注入新的活力。
本内容由学无止jin收集整理,不代表本站观点,如果侵犯您的权利,请联系删除(点这里联系),如若转载,请注明出处:https://wenku.puchedu.cn/22078.html