军事医学科学院生物医学统计咨询中心 胡良平
--------------------------------------------------------------------------------
在实验研究中,因素一般分为2种情形,即实验因素和区组因素(即重要的非实验因素)。实验因素是研究者希望着重考察的同类实验条件的总称,如某临床医师希望同时比较功能接近的A、B、C 3种抗菌素治疗某病的疗效之间的差别是否具有统计学意义,则“抗菌素的种类”就是该临床试验研究的实验因素,A、B、C 3种抗菌素中的任何一种,就是“抗菌素的种类”的具体表现,称为该实验因素的“水平”。若在临床试验中发现,即使用的是同一种抗菌素,在不同“性别”和不同“年龄”患者身上,表现出来的疗效相差也比较大,就说明“性别”与“年龄”对药物疗效的合理评价有一定的影响作用,统计学认为,“性别”与“年龄”是此项临床试验不可忽视的重要非实验因素,简称为区组因素。在一项实验研究中,一旦通过预实验确定实验因素和区组因素后,在安排实验时就应对这些因素有计划地安排,使它们的效应能真实地反映出来,这个过程就称为“确定实验设计类型”。
很多科研工作者在其论文中经常写道:“本文采用的统计分析方法为两因素方差分析”。其实,这种说法是不够正确的。因为“两因素方差分析”包含2方面的含义:
第一,实验研究中涉及2个因素。两因素在实验中可以有多种不同的排列方式:因素的水平组合可以是全面的,也可以只是其中的部分组合。施加于实验的顺序可以是同时的,也可以是有先后顺序的。对观测结果的影响可以是地位平等的,也可以是有主次之分的。因素的各水平组合条件下可以做独立重复实验,也可以不做独立重复实验。故要想对这些问题给出简明扼要地回答,最好的办法是明确交代所采用的“实验设计类型”,因为正确描述实验过程的设计类型已隐含了上述信息的绝大部分,不要仅告知实验中所涉及的因素的个数。
第二,采用的统计分析方法是参数检验中最常用的方差分析。方差分析的本质是对所求得的总离均差平方和进行合理的分解。应根据实验中所安排的实验因素、区组因素和实验因素之间的某些交互作用进行分解,这些项中应包括哪些,完全取决于前面所讲的“实验设计类型”。也就是说,不同的实验设计类型,进行方差分析时,从总离均差平方和中分解出来的项数是不同的,有时,由分解结果构造方差分析的检验统计量F的方法还会有所不同。所以,笼统地说用了“方差分析”是不妥的,必须指明对应的实验设计类型和定量资料是否满足方差分析所要求的前提条件。
与“两因素方差分析”对应的正确表述方法为:“因本文中的定量资料满足参数检验的前提条件(即独立性、正态性和方差齐性),故采用了两因素XX设计定量资料的方差分析”。不仅如此,还应在论文中呈现关于资料前提条件的假设检验结果和与特定设计类型对应的定量资料的方差分析结果,即应给出检验统计量的值和具体的P值。
如果在实验研究中,涉及2个实验因素,建议分别按以下4种情形来考虑:
1. 当这2个实验因素之间存在不可忽视的交互作用时,两因素各水平组合条件下至少要做2次或2次以上独立重复实验,其具体的实验设计类型可能有以下几种:即两因素析因设计、两因素系统分组(或叫嵌套)设计、两因素分割(或叫裂区)设计、两因素正交设计、两因素均匀设计、两因素反应曲面设计等。
2. 当2个实验因素之间不存在交互作用(由专业知识和预实验结果来决定)时,若在两因素全部水平组合中任取一种作为实验条件,都有理由保证多次独立重复实验结果之间的精确度很高(即实验的重现性好),若时间紧、人力和经费少,此时在两因素各种水平组合条件下可以不做独立重复实验,其实验设计类型通常叫做“无重复实验的两因素设计”。
3. 当两因素中有一个为实验因素,另一个为区组因素,且每个区组是由多个条件接近的不同个体组成时,称为“随机区组设计(也叫做配伍组设计)”。
4. 当两因素中有一个为实验因素,另一个为区组因素,且每个区组是由一个个体身上同一个定量指标的多个测量值组成时,称为“具有一个重复测量的单因素设计(因为“重复测量”已隐含了一个区组因素)”。
下面通过临床研究实例着重介绍情形4的设计类型及其常见错误辨析。
【例1】 某医师对15例贫血患儿,在枸橼酸铁铵加维生素C治疗前后测得血红蛋白含量(g%),设计与资料见表1。采用配对设计定量资料t检验处理该定量资料。
【差错辨析与释疑】这种实验设计很象自身配对设计,事实上,它正是自身配对设计的扩大形式。但将其视为自身配对设计,选用自身配对设计定量资料的t检验处理,就不够恰当。因为此法每次只能处理2个时间点上的数据,而对其他时间点上的数据视而不见,这必然使实验数据的利用率大为降低。另外,假设检验时,检验统计量的自由度很小,结论可信度低。这样会破坏原先的整体设计,无法正确揭示随时间的推移,定量指标的动态变化规律。
要想找到处理此定量资料的正确的统计分析方法,首先要正确判定与该定量资料对应的实验设计类型,然后,检验其是否满足参数检验的前提条件。
实验设计类型的判定:本例中每例患者都在4个不同时间点上被重复观测“血红蛋白含量”这一个定量指标的数值,故这是一个“重复测量的设计”。由于该名称不够具体,还未交代清楚试验中总共涉及几个实验因素,在重复测量的方向上有几个因素。不难看出,在重复测量的方向上只有一个“时间”因素,而在表格的左边还有一个反映患者个体差异的因素(即区组因素)。因为“重复测量”已隐含“区组因素”,故与此定量资料对应的正确的实验设计类型名称为“具有一个重复测量的单因素设计”,这里的“单因素”就是在重复测量方向上的“时间”因素,它也是该例中唯一需要考虑的实验因素。
前提条件的检验:由于重复测自同一个个体的多个数据之间具有不相等的相关性,即相邻时间点之间的相关性密切,两时间点之间相隔得越远,相关性越小。显然,这一条不符合参数检验的“独立性”要求。检验各时间点之间是否满足独立性要求的检验方法称为球性检验。若能通过此检验,则可将此设计近似视为“随机区组设计”,再检验“正态性和方差齐性”,若也能通过检验,便可采用随机区组设计定量资料的方差分析方法处理该定量资料,否则,需要采用严格的具有一个重复测量的单因素设计定量资料的方差分析处理为宜。
【例2】 某医师收集了14例男性白血病患者6种癌基因的数值,设计与资料见表2。该医师采用配对设计定量资料t检验处理该定量资料。
【差错辨析与释疑】配对设计定量资料t检验在应用时应满足以下几个条件:①实验所对应的设计类型的确为配对设计。②检测的必须是同一个定量指标。③各对数据的差量近似服从正态分布。显然,此例至少不满足前2个条件,因此,原作者的处理方法是错误的。另外,该定量资料所对应的实验设计类型与例1不同。因为该表格中的6列数据是6个不同定量指标的观测值,而不是同一个定量指标的6次重复测量结果。实际上,相当于只在一个时间点上,同时检测6个定量指标的数值,故这个定量资料所对应的实验设计类型应叫做“单组设计”,其定量资料的完整名称为单组设计六元定量资料,若此定量资料满足参数检验的前提条件,其对应的统计分析方法应叫做“单组设计定量资料六元方差分析”。
【例3】 某人测得某地29名儿童的血中血红蛋白(Y)与钙(X1)、镁(X2)、铁(X3)、锰(X4)及铜(X5)的含量,设计与资料见表3。该研究者采用配对设计定量资料t检验处理该定量资料。
【差错辨析与释疑】本例的实验设计类型看上去也象是“具有一个重复测量的单因素设计”,因为从每位儿童身上重复观测了6个定量数据。仔细一看,每行上的6个定量数据是6个不同的定量指标的取值,而且,这些定量指标之间在专业上有一定的联系,故特别类似例2,只不过在例2中,6个定量指标是“地位平等的”,它们都是“癌基因”。而在该例中,若结合专业需要,人们常希望根据各X的取值去预测Y的取值,故这是一个“回归分析问题”。具体地说,由于表格中含有5个自变量(X1~X5),一个因变量(Y),希望研究Y随各X变化的规律,需要建立Y倚各X变化的线性回归方程,其统计分析方法称为“多重线性回归分析”。具体实施时,可采用筛选自变量的回归分析技术,如逐步回归分析法、最优回归子集法等。
若上述各情形下收集的定量资料不满足特定设计类型定量资料方差分析的前提条件时,只有随机区组设计定量资料可采用Friedman秩和检验,其他情形需要借助高级统计软件包中的近似校正处理或复杂的混合效应模型处理。