本文字〡12图〡预计阅读25分钟
在医学科研领域,经常需要分析二分类变量(如:生存与死亡、阳性与阴性、发病与未发病、感染与未感染、暴露于未暴露)或者多分类变量(如:疾病转归,治愈、无效、死亡;体重情况,偏瘦、正常、肥胖;根据损伤程度分级的结局指标,如结核性胸腔积液胸膜粘连程度、视网膜出血程度、早产儿脑室缺血程度;以及一些可进行多水平分类的生理生化、免疫指标等,如血压值、血镁值、血脂和胆固醇等)与一组自变量之间的关系,此时,因变量为分类变量,已经不满足前面学习的多重线性回归的使用条件,可以考虑Logistic回归模型。
学习目录
Logistic回归模型概念
Logistic回归模型类型
Logistic回归模型用途
Logistic回归模型应用条件
Logistic回归模型检验假设
Logistic回归模型自变量筛选
Logistic回归模型参数
Logistic回归模型自变量形式
Logistic回归模型诊断、拟合效果和优度
Logistic回归时单因素分析
1Logistic回归模型
能否参照多重线性回归模型,建立分析上述分类资料分析的模型?如果可以,需要解决两个问题:(1)模型左侧取值区间问题;(2)曲线关联问题。
以二分类因变量为例,无论出现阴性结果或者阳性结果的概率都在0≤P≤1之间,而从下面的多重线性回归方程可以看出,右侧取值在(-∞,+∞),如果左侧为分类因变量的出现某种结果的概率,那么左右取值范围就不相符。另外,分类因变量和自变量的关系也不呈线性关系,而是S型曲线关系,无法满足线性回归前提假设。
为了解决上述两个问题,统计学家提出了logit变换,取出现阳性结果和阴性结果的概率比值(Odds)的对数,In(Odds)。
以Logit(P)为因变量,建立与P个自变量的logistic回归模型,如下所示:
上面公式也可变换为以下两种形式:
2Logistic回归模型类型
依据研究设计不同,可分为非条件logistic回归模型和条件logistic回归模型;采用配伍设计的目的是控制混杂因素,通过匹配后使得病例组、对照组的其他特征同质化,以消除混杂的影响。
依据因变量类型(水平数量),又可分为二分类logistic回归模型和多分类logistic回归模型;二分类logistic回归也称二元logistic回归、二项logistic回归。
此外,根据多分类因变量是否有序,又可以分为多分类有序logistic回归模型和多分类无序logistic回归模型。
Logistic回归模型分类
3Logistic回归用途
(1)校正混杂因素,在生物医学研究领域,观察对象的某一结局(如生存与死亡、阳性与阴性等)会受到多种因素综合作用的影响,包括研究因素与混杂因素,混杂因素的存在会扭曲疾病和暴露之间的关联性或扭曲某研究因素效应大小,可能带来偏倚,甚至得出错误结论。
在设计阶段之初,可以通过分层、匹配和随机设计等手段避免混杂因素。在数据统计分析阶段,可以通过倾向性匹配得分、工具变量和交互效应分析,达到控制混杂的目的。
采用logistic回归分析,将研究因素、混杂因素及其交互作用均体现于模型中,基于效应估计值改变量的方法,可在校正混杂因素的作用下,研究结局变量与主要因素间的联系。
(2)筛选危险(或保护)因素,与校正混杂因素相比,筛选因素要复杂一些,比如某医生要研究宫颈癌患者临床病理因素对其预后的影响、冠状动脉狭窄程度与冠心病发病之间的关系研究,这里可以明确研究因素分别为病理因素、冠状动脉狭窄程度,混杂因素可能有年龄、性别、生活方式以及治疗因素等,如果要真实反映研究因素与结局指标的关系,就需要对混杂因素进行校正。
如果某医生要研究宫颈癌患者预后的影响因素、冠心病发病的影响因素,收集的自变量都属于探索性因素,在设计阶段,根据理论基础和专业知识、文献回顾可以将对结局可能有影响的变量纳入方程,在统计分析时可以采用logistic回归分析,按照事先设定的自变量筛选策略,剔除无统计学意义的变量。
(3)预测与判别,非条件logistic回归在临床预测与判别分析中应用比较广泛,对于队列研究和现况调查研究,如果通过假设检验,确定所建立的回归方程能很好地解释变量间的关系,且结果具有较好的拟合优度,则给定自变量数值时,可通过非条件logistic回归方计算出相应的概率预测值,从而对个体的结局类别作出概率性的判断。
对于病例对照究,虽然也可利用非条件logistic回归建立概率模型,但是,需对常数项进行校正方能用于预测与判别;对于条件logistic回归,由于回归模型不能估计常数项β0,其结果只能帮助分析变量的效应,不能用于预测与判别。logistic回归模型用于预测和判别文献如下:
[1]王剑,朱萱,刘志坚,etal.Logistic预测模型对失代偿期肝硬化预后的临床价值研究[J].中国实用内科杂志,(1):57-60.
[2]陈俊强,詹文华,何裕隆,etal.胃癌淋巴结转移预测的Logistic回归分析[J].中华胃肠外科杂志,,8(5):-.
[3]马国胜,张东,彭彩丽.多因素Logistic分析对急性重症脑血管病患者死亡风险的预测[J].中国实用神经疾病杂志,(11).
[4]王庆亮,李晓杰,胡昆鹏,etal.无创性预测乙肝肝硬化门脉高压性胃病的Logistic回归模型[J].中华医学杂志,,95(18).
[5]王洲,马传栋,殷洪年,etal.CT扫描阴性时肺癌纵隔淋巴结转移的临床预测-Logistic回归分析[J].中华胸心血管外科杂志,,16(5).
[6]杨霞,刘义兰,陈冬娥,etal.ICU综合征多因素Logistic回归分析及风险模型的建立[J].中国实用护理杂志,,25(31):48-50.
[7]周岩冰,张坚,李世宽,etal.胃癌术后并发症多因素Logistic回归分析及风险模型的建立[J].中华普通外科杂志,,22(3).
[8]朱新艳,耿京,唐军.超声联合IOTA简易标准及Logistic回归模型对卵巢交界性肿瘤预测价值[J].中国超声医学杂志,,32(10):-.
[9]雷李智,许乙凯,侯美蓉,etal.前列腺影像报告和数据系统联合前列腺特异性抗原的Logistic回归模型评价外周带前列腺癌的诊断效能[J].南方医科大学学报,(8).
[10]陈涛,蒋忠胜,李敏基,etal.马尔尼菲蓝状菌病预后危险因素Logistic回归分析及预后模型的建立[J].中国皮肤性病学杂志,,32(5):-
Logistic回归模型预测文献(可左右滑动查看)
4Logistic回归应用条件
logistic回归模型应用条件如下所示(以二分类为例):
Logistic回归模型应用条件(以二分类因变量为例)
各观测值是否独立在设计方案时就可以判断,但是容易忽视一些现象,比如:某县CDC要在某高中调查学生烟草使用行为,采用多阶段整群随机抽样方法调查,尝试筛选高中学生使用烟草的危险因素,由于学生之间相互影响,个体观测互不独立,因此还不能采用logistic回归模型,除了此类情况,还有某些传染病的发病因素研究。
除了上述五个条件,我们还有