中药药性指中药的性能,是对中药作用性质和特征的高度概括,也是阐明中药疗效机制的理论依据。中药药性作为中医理论体系的重要组成部分,主要包括四性(四气)、五味、归经、升降浮沉及毒性等内容[1]。传统的中药药性理论由于受到古代医家认识水平的限制,因此更偏向于主观性,然而部分古代医家对药性的细化程度已经有了初步的认识和描述,如大热、微温、大寒、微寒等概念在一定程度体现了药性的定量化[2]。随着现代科学技术的发展,许多新技术方法应用中药量化领域,使得中药药性理论得到快速的发展[3-4]。
本研究主要结合统计学方法及机器学习,以中药的化学元素为基础,运用非参数检验、二元Logistic回归、决策树、神经网络等方法,分析不同分类方法的预测准确率,从而为后期中医临床处方的客观化和标准化提供具有可行性的思路与方法。
基于文献计量学分析,本研究采用管竞环主编的《中药理论量化与应用研究》[5]作为数据来源(管竞环教授团队对其临床常用的105味中药的微量元素进行数据分析和提取),选取文献中公开的中药化学元素信息进行数据处理和分析。《中药理论量化与应用研究》中记录研究者从药材产地获取道地药材,委托专业机构鉴别药材的真伪,并对药材进行清洗、风干、切片、碾碎获得备用标本,使用电感耦合原子发射光谱法[6](inductively coupled plasma-atomic emission spectrometry,ICP-AES)测量中药标本的化学元素含量。对文献中的中药化学元素数据进行提取和整理,并将数据录入到Excel表格中,形成初步中药化学元素数据库。随后对元素数据进行核对,进一步明确每味中药所对应的元素数据与来源数据一致。将药性的分类数据列入表中,并核对药性的分类是否正确。在药性的二分类变量中,数值“0”与标签“否”代表药物不具有该药性,数值“1”和标签“是”代表药物具有此药性。使用IBM SPSS Statistics 26软件进行统计分析,对中药药性和化学元素进行单因素分析(两独立样本非参数检验)、多因素分析(二元Logistic回归分析)、机器学习分析(决策树与人工神经网络分析),对分析结果进行检验和对比,分析不同模型的预判准确率及变量对模型的重要性。采用Microsoft Office Excel(v.2016)对化学元素的数据源进行录入及整理,同时作为中介软件对SPSS的分析结果进行导入及处理,制作表格及部分图片。本研究采用二分类方法对目标中药的化学元素数据库进行提取,获取中药主要化学元素的量化数据源。对单个中药药性和化学元素进行非参数检验,将非参数检验所获得的具有统计学意义的关联化学元素作为下一步药性分析的自变量。通过二元Logistic回归分析、决策树算法、人工神经网络等统计学分析及机器学习方法获得与药性具有关联的化学元素,对因变量(药性)及自变量的关联性进行预判。运用此类算法得到中药的四气、五味、归经等药性的相关变量的判别率及函数变量系数,并比较不同方法的判别效果。本研究对中药药性进行统计,获得四气、五味、归经的药性变量。从《中药理论量化与应用研究》中获得含有105味中药、42种化学元素的初步元素数据库。将每一个药性作为一个数据表,每个数据表包含105味中药及每味药物所包含的42种化学元素,共获得22个数据表。105味中药分别是肉桂子、桑葚子、巴戟天、白花蛇舌草、厚朴、虎杖、槐米、黄柏、黄连、黄藤、黄芩、火麻仁、桔梗、橘红、金樱子、九节菖蒲、菊花、连翘、白木耳、白芍、白术、白芷、覆盆子、高良姜、葛根、狗脊、瓜蒌皮、红豆蔻、红花、红蚤休、柏子仁、北沙参、草果、草乌、柴胡、车前子、川芎、郁李仁、云木香、泽泻、浙贝母、天南星、土茯苓、党参、地肤子、独活、鹅不食草、鄂贝母、防己、佛手、佛手花、凌霄花、豆蔻壳、肉豆蔻、枳壳、羌活、龙胆草、麻黄、麦冬、密蒙花、明党参、木通、牛蒡子、牵牛子、秦皮、秦艽、蛇床子、生半夏、生地黄、生附子、升麻、使君子、紫苏子、太子参、桃仁、天麻、乌药、吴茱萸、五味子、细辛、仙茅、香橼皮、小茴香、辛夷、苦杏仁、玄参、元胡、鸦胆子、砂仁壳、砂仁、山茱萸、山柰、川楝子、刺蒺藜、生大黄、丹参、牡丹皮、肉苁蓉、当归、紫草、茯苓、茺蔚子、菟丝子、葶苈子、槟榔。42种元素分别是Be、Si、V、Cu、Sr、Hg、Pr、Tb、Yb、F、P、Mn、Zn、Cd、Bi、Nd、Dy、Lu、Na、Cl、Fe、As、Sb、Y、Sm、Ho、Mg、K、Co、Se、I、La、Eu、Er、Al、Ca、Ni、Br、Ba、Ce、Gd及Tm。管竞环教授团队[7-9]通过SPSS分别对105味中药的42种元素进行分布检验,发现42种元素在每味药物中的分布均为偏态分布,不能使用正态分布的分析方法对数据进行统计分析。3.2.1 两独立样本非参数检验 单因素分析可以初步探索预测变量与响应变量的关系,并且当样本量不是很大的时候可以通过单因素分析删除部分无关的预测变量。本研究中化学元素的总体分布为非正态,故使用非参数检验中的曼-惠特尼U检验。通过该检验得到化学元素与因变量的相关性,将在各个药性二分类变量(“是”与“否”)中差异具有统计学意义(P<0.05)的变量列于表中。本研究以四气的寒性,五味的苦味,归经的脾经为例具体分析。如表1~3所示,与寒性具有统计学意义的独立相关因素有Be、Sr、Ca、La;与苦味有统计学意义的独立相关因素有Mn、Ni、K、Ca、V、Si、Co、Zn;与脾经有统计学意义的独立相关因素有Ni、Bi、Co、Be、Eu、Ce、Nd、V、Pr、Sm、La、Dy。每个药性其他不显著相关元素不列于表中,但不能说明这些元素与药性变量无相关性。通过单因素分析得到与因变量具有统计学意义的关联性自变量,将筛选出来的自变量作为预测变量进入到后面的预测模型中。3.2.2 二元Logistic回归分析 将105味中药的42种元素数据变量用IBM SPSS Statistics 26软件进行二元Logistic回归分析,以四气、五味、归经的22个变量作为因变量,以42种化学元素建立二元Logistic回归方程模型。以寒性、苦味、脾经为例,列出具有统计学意义的化学元素及各药性的分析结果。在四气药性中,寒性方程中的变量见表4。在寒性预测模型中,具有统计学意义(P<0.05)的影响元素有Si、Co。由表5可知,寒性“否”的预测准确率为92.2%,“是”的预测准确率为80.5%,总体准确率为87.6%。在五味药性中,苦味方程中的变量见表6。苦味的回归模型显著影响因变量的元素有P、V、Fe、Co、Br、Y、Dy、Ho。由表7可知,苦味“否”的预测准确率为91.8%,“是”的预测准确率为91.1%,总体准确率为91.4%。在归经药性中,脾经方程中的变量见表8。脾经的回归模型中,显著影响因变量的元素有Ni、I、La、Ce、Pr、Dy、Ho。由表9可知,脾经“否”的预测准确率为95.3%,“是”的预测准确率为85.4%,总体准确率91.4%。3.2.3 决策树分析 在四气药性中,寒性有6个解释变量:Be、Sr、Ca、La、Si、Co。寒性的决策树预测模型第1层按La拆分,即分类树的2个初始分支的一级分裂,La变量标准化的重要性为100%。Sr是二级分裂的决定因素,变量标准化的重要性为35.9%。Si和La是三级分裂的决定因素,Si变量标准化的重要性是38.0%。其余变量的重要性如图1所示。树模型的分类正确率见表10,训练集的准确率为77.8%,检验集的准确率为69.7%。五味药性中,苦味的解释变量是Mn、Ni、K、Ca、V、Si、Co、Zn、P、Fe、Dy、Ho、Br、Y。决策树预测模型的第1层按Si拆分,Si变量标准化的重要性为95.9%。Ca、P是二级分裂的决定因素,变量标准化的重要性分别为39.8%、30.4%。Fe是三级分裂的决定因素,Fe变量标准化的重要性是100%。苦味决策树模型训练集的预测准确率为87.7%,检验集的预测准确率为65.0%。归经药性中,脾经的解释变量是Ni、Bi、Co、Be、Eu、Ce、Nd、V、Pr、Sm、La、Dy、I、Ho。决策树预测模型的第1层按Ni拆分,变量标准化的重要性为100%。I是二级分裂的决定因素,变量标准化的重要性是56.9%。Bi是三级分裂的决定因素,变量标准化的重要性是89.9%。脾经决策树模型训练集的预测准确率为78.1%,检验集的预测准确率为62.5%。3.2.4 人工神经网络分析 将药性作为因变量,化学元素作为自变量,选用系统自动的多层感知器神经网络模型进行数据分析。协变量的重标度方法为正态化,隐藏层激活函数为双曲正切,输出层激活函数为Softmax。在四气药性中,寒性神经网络有6个输入节点,1个隐含层神经元,2个输出节点。自变量与决策树模型一致。重要性从大到小排列依次是Co(0.228)、Be(0.204)、Ca(0.185)、La(0.180)、Si(0.121)、Sr(0.083),标准化重要性分别是100.0%、89.3%、81.1%、79.0%、52.9%、36.3%。寒性模型总体预测准确率见表11,训练集的预测分类准确率为72.1%,检验集的预测分类准确率为54.5%。五味药性中,苦味人工神经网络有14个输入节点,5个隐含层神经元,2个输出节点。自变量重要性从大到小排列依次是K、Mn、Ca、V、Si、Ni、Dy、P、Co、Fe、Zn、Br、Y、Ho,各变量标准化重要性分别是100.0%、85.1%、83.5%、64.4%、60.1%、42.3%、38.4%、37.1%、34.7%、32.3%、22.9%、22.6%、19.6%、14.1%。苦味模型训练集的总体预测分类准确率为73.7%,检验集总体预测分类准确率为72.4%。归经药性中,脾经神经网络有14个输入节点,2个隐含层神经元,2个输出节点。自变量重要性从大到小排列依次是Bi、Ni、I、Dy、Co、V、Be、Eu、Ce、Nd、La、Sm、Pr、Ho,各变量标准化重要性分别是100.0%、94.4%、84.4%、55.3%、49.1%、35.5%、33.4%、26.7%、21.3%、19.8%、18.4%、13.9%、13.2%、4.7%。脾经模型训练集的总体预测分类准确率为74.0%,检验集总体预测分类准确率为67.9%。3.2.5 判别分析 判别分析是一种分类方法,指在已知判别的情况下,对未知类别的观测量归类到已知类别的多元分析法[10]。本研究采用Fisher判别分析法,对寒性药物进行判别。因Fisher判别分析属于分类判别,故需对数据进行标准化处理,等级范围为1~10个等级,等级差相等,并将元素数值取整数(四舍五入)。对北沙参、浙贝母、丹参、黄连、白芍、柴胡、黄芩、白花蛇舌草、菊花、连翘、枳壳11味寒性药进行训练,并对麦冬、大黄2味寒性药进行预判。训练过程中,因没有寒性分级为2、3、8级的药物,因此分级为寒性等级1、4、5、6、7、9共6个等级组别。判别中给予4个函数进行预判,各函数特征值如图2所示,函数1能较好地判别变量的数值。分类变量之间,同一类别的变量间距离越近、不同类别间的变量距离越远,说明分类特征越明显。函数分类如图3所示,在函数1所在的横轴上,各类别变量间的组质心距离较远,函数1分类更具有显著性。Fisher判别分析结果如表12所示,该判别方法将未分组的麦冬、大黄2味药分别判为4组和6组,即2味中药的寒性量化整数值分别为4和6,这与临床用药经验比较相符。且该判别分析对初始分组案例中的72.7%的变量进行了正确分类。中药药性在临床运用中常遇到不统一甚至相反的问题。如枸杞在《药性论》中被记载其味甘,平。《本草蒙筌》则记载其味甘、苦,气微寒,无毒。《景岳全书》言其味甘、微辛,气温。同一种药就有3种说法,对于中医药的运用及传承造成阻碍。另一方面,自然界植物药、动物药数以万计,中药成分复杂,配伍灵活多变,在与不同药物联合使用时效果可能会起到相反的作用,如中药“十八反”“十九畏”等情况。对于未知药物四气、五味、归经的判断不能简单的一言概之,需要经过数据分析、实验探索才能取得人们认可。自机器学习算法面世以来,基于机器学习探究微量元素与中药联系的研究已较为成熟。如刘进等[11]应用支持向量机预测中药药性,发现Ca、Fe元素对温热药识别较敏感。但该研究数据有限,仅纳入7种元素进行预测研究,样本量较少,存在一定的限制。杨波[12]从有机成分、无机成分着手,研究中药药性与化学成分的相关性。2011年,龙伟[13]提出“计算中药学”的理念,旨在通过计算科学、数理统计学以及药物化学等现代科学技术方法来解决中药问题。其通过原创的重心处理技术,结合化学描述符计算和支持向量机算法构建了预测率超过80%的中药寒热预测系统。多项研究表明,机器学习对中药药性研究可提供较大帮助[14]。本研究前期基于文献计量学,研究人员纳入了管竞环教授团队的文献数据进一步分析。经过单因素分析获得药性的相关因素,并将相关因素运用到分类预测模型中。通过二元Logistic回归[15]、决策树[16]、人工神经网络分析[17],揭示了中药药性与化学元素间存在一定联系,并获得不同模型的自变量重要性及分类正确率。研究中将训练集和测试集的100余味中药微量元素数据输入SPSS,系统将70%数据作为训练集,30%数据作为测试集。本研究将因变量(药性)与自变量(化学元素)输入软件,运用不同分类方法对同一个药性进行分类。由于方法不同,SPSS系统形成的模型方程不尽相同,自变量也有所不同。通过观察,发现同一个药性(如寒性)的不同分类方法所得出的关键自变量(化学元素)有一部分相同,可以认为这些相同的自变量与因变量存在较紧密的联系。从分类准确率来看,决策树与人工神经网络训练集的准确率均高于检验集。在这2种方法的比较中,决策树训练集、检验集平均分类准确率均高于人工神经网络。二元Logistic回归分类的准确率虽高于人工神经网络和决策树,但二元Logistic回归没有区分训练集和检验集。本研究将中药的药性及化学元素的数据库导入SPSS软件,选用系统判别分析方法,药性选入分组变量,定义范围是1~10,42种元素数据放入自变量,统计量函数系数选择Fisher和未标准化,运行软件可获得四气、五味、归经等药性变量的典型判别函数和Fisher线性判别函数。并基于函数特征值、判别结果调整参数。在后续研究中可采用德尔菲法邀请具有20年以上中药临床运用经验的专家,对判别出的中药药性、归经进行合理性评判,从而调整预测方程与判别系数。本研究表明,通过ICP-AES提取中药中的微量元素,基于机器学习算法预测、判别药物药性,从而解决文献记载矛盾、未知药物药性判断的难题。是一种行之有效的科学方法。其不仅能让临床医师迅速识别中药的药性,指导用药。也给研究者提供更多的理论依据及实验数据。但该研究也存在一定的局限性,所纳入的数据来源是管竞环教授基于实验室研究所获得的元素数据,中药样本量偏少,数据量不足,但数据较为完整、规范、统一,可以在后期的研究中对更多中药的微量元素进行分析提取,扩大中药的微量元素数据,使研究的样本量更加丰富。来 源:徐钦涌,黄志帮,姚思梦,陈远方,宁小英,侯政昆,陈新林.基于化学元素的部分中药药性量化方法的比较研究 [J]. 中草药, 2024, 55(17): 5964-5971.