缘起
LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator,是一种采用了L1正则化(L1-regularization)的线性回归方法,本号前期发过多篇专题:
临床,近年已经进入爆发模式。Lasso回归也频频见于文中,松哥本期给大家总结整理LASSO在临床中的常见几种用法
预测模型
用法一:
这也是最常见的用法,采用LASSO进行回归,根据10重交叉验证,筛选得到最优的模型,也就是拿到筛选得到的预测因子。
然后用筛选得到的因子,继续做后续的多因素Logsitic回归或者多因素COX回归,得到最终的临床预测模型,用于后续的区分度、校准度、临床实用度以及Nomogram的制作。
Nomogram-Based Prediction of the Risk of Diabetic Retinopathy:
A Retrospective Study
如上述这篇文章,采用LASSO回归,对19个预测因子进行筛选,最终选得7个预测因子。然后对7个预测因子构建多因素Logistic回归模型。
然后作者就基于这7个因素,构建了Nomogram,并进行了后续3个度的评价。
用法二:
当我们研究的因素较多
几种常见的预测模型
,可以先进行单因素Logistic或COX回归,先筛选一批可能的预测因子;
然后再采用LASSO回归进行筛选,将筛选得到的预测因子,再次进行多因素Logistic或COX回归,确定最终模型。如下这篇文章所述:
文章:Nomogram for predicting overall survival in stage II-III colorectal cancer
作者单变量分析发现59个因素,基于专业有加上5个P>0.05的因素(大家可以学习这种表达,有的时候我们建模,发现某个专业上有意义的变量,却没有进入多因素分析阶段,可以通过这样的表述把加进去),共64个因素。
然后对这个64因素
几种常见的预测模型
,进行LASSO筛选,发现了6个系数不为零,也就是有意义的预测因子。
作者对这6个预测因子,做了多因素COX回归,最终发现4个因子。
最终构建的最优模型如下,共4个因子。
然后构建了4个因子的Nomo图,以及后续的3个度的验证,就不说了!
用法三:
这种用法相对少见,就是直接用LASSOLOGIT或者LASSOCOX进行变量筛选,筛选后,用最小误差解,构建模型,无需在对LASSO筛选得到的多个因子,在进行多因素的Logistic或COX进行分析。
精鼎原创,欢迎转发,未经允许,谢绝转载!