如何开展先单后多线性回归?
来源:哔哩哔哩     时间:2023-07-08 11:48:33

2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法   

线性回归是一种常用的统计分析方法,用于建立自变量和因变量之间的线性关系模型。当知道两个变量间存在相关关系时,我们时常想进一步去探讨是否可以通过其中一个变量的数值定量的去预测另外一个变量的数值。

经典案例:父亲身高与儿子身高存在相关关系,是否可以通过父亲身高预测儿子的身高?


【资料图】

这类问题在统计学上常采用线性回归的方法来解决。这类文章一般的统计报告框架主要包括3部分内容:统计描述、相关性分析和先单后多线性回归。

多因素线性回归,常见的统计学方法是先单因素,再多因素的分析理念。这种理念,严格符合“严进宽出”的思维:筛选变量纳入多因素回归模型。

实际中,许多人习惯性使用SPSS开展线性回归,但是SPSS需要手动绘制三线表,麻烦得很!而R语言虽然可以解决这个难点但具有一定的门槛。想要又简单无门槛,又能一键生成三线表,来看看这个工具吧——风暴统计智能在线免费统计分析平台!

本文主要内容包括:

1.案例文献解读

2.实操数据集介绍

3.风暴统计复现先单后多线性回归

语言软件复现先单后多线性回归

1、案例文献解读

通过中国人民解放军空军医大学第一附属医院的一篇核心期刊的文章,为大家简述一下线性回归分析文章的统计分析框架。

(1)变量说明

这是一篇现况研究,探究缺血性脑卒中多病共存患者的出院准备度水平及其影响因素,共收集256例缺血性脑卒中多病共存住院患者为研究对象,下表为可能影响患者出院准备度的一般资料。

(2)统计方法

作者使用SPSS 软件进行数据的录入与分析。定量数据使用均数、标准差描述,不同特征的出院准备度得分采用中位数和四分位间距进行描述。采用Pearson相关分析检验出院准备度与出院指导质量的相关性;采用非参数检验法(Mann-Whitney U检验、Kruskal-Wallis检验)进行单因素分析;多因素分析采用多重线性回归法;检验水准为α=。

(3)统计结果

①统计描述+单因素分析

这篇文章的统计分析框架就是比较典型的线性回归文章的分析框架。由于结局是定量数据,无分组变量,表1进行了变量的描述统计与单因素分析。单因素分析结果显示,不同年龄、合并症数量的患者出院准备度得分差异具有统计学意义(P<)。进一步两两比较,年龄≥75岁组与55~64岁组之间有统计学差异(P=);合并症数量为1~2种组与3~4种组之间存在统计学差异(P=)。

②相关性分析

本研究出院指导质量得分与出院准备度得分呈正相关(r=,P=)。

③多重线性回归分析

考虑单因素分析纳入的变量过少,本研究结合临床专业知识将所有相关变量作为自变量,以出院准备度总分作为因变量进行线性回归分析。多重线性回归分析的结果显示合并症数量、文化程度、出院指导质量总分及BMI值最终进入了回归方程,对模型的解释力为%。

这篇文献的线性回归分析则采用了先单后多的统计分析设计,先对自变量进行单因素分析,将有意义的变量纳入到多因素线性回归中,并且结合专业知识将其他变量纳入进行分析。

2、实操数据集介绍

我们使用R语言MASS包自带数据集birthwt作为实操数据集。这是一份于1986年在在马萨诸塞州收集的与婴儿出生体重低相关的危险因素的数据。以定量数据出生体重(bwt)作为结局变量,探讨下列因素对出生体重的影响。可能的影响因素如下:

下面将结合本数据分别通过风暴统计智能在线免费平台与R语言软件来进行先单后多线性回归分析复现,方便大家对两种方法的特点有更加直观的认识!

3、风暴统计复现先单后多线性回归

第一步:输入网址,打开“风暴智能统计”——“线性回归分析”

第二步:导入整理好的数据,目前支持10M以内的csv格式数据

第三步:点击“快速线性回归分析”——选择因变量和自变量,在多因素回归设置中选择单因素分析P值<时开展多因素回归,右侧直接显示批量单因素回归法的结果

第四步:导出统计分析报告——一键导出word版三线表结果

风暴统计结果展示如下,直接生成word版三线表,高效快速,结果还比较美观!

4、R语言软件复现先单后多线性回归

第一步:安装并加载R包

("autoReg")

library(autoReg)

autoReg包,一款功能十分强大的R包,加gaze函数即可快捷完成基线表的制作,还可以直接一行代码输出单因素+多因素回归分析(支持线性模型、广义线性模型和比例风险模型)的表格。

第二步:导入整理好的数据

setwd("D:/R")#设置工作空间,将要导入的csv格式数据放在工作空间文件夹中

BWT<-("")

第三步:autoReg包做先单后多线性回归分析

#函数表达式:

#linfit<-lm(y~x1+x2+x3+x4+x5……,data=数据集名)

#linreg<-autoReg(linfit,uni=TRUE,multi=TRUE,threshold=)

#uni为T指输出单因素模型结果,multi为T输出多因素模型结果,threshold纳入多因素回归模型的条件

linfit<-lm(bwt~age+lwt+race+smoke+ptd+ht+ui+ftv,data = BWT)

linreg<-autoReg(linfit,uni=T,multi=T,threshold=)

linreg#展示结果

以上风暴统计平台和R语言软件先单后多线性回归结果对比完全一致,这也是由于平台的构建依托于R代码进行分析,可见风暴统计平台分析结果十分规范可靠,同时操作过程也十分的简便,相较于R语言的使用门槛那真的是低太多了。结果直接一键输出word三线表,方便又快捷,大家进行统计分析时不妨一试!

关键词:

新闻推荐