这样拿差异基因集做肿瘤诊断模型不是明知故
差异基因分析确实是人尽皆知了,不管是表达芯片还是RNA-seq测序拿到的表达矩阵,都可以走差异分析策略,哪怕是蛋白质组和代谢组拿到的矩阵,也是如此,其实图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文就明白了;
解读GEO数据存放规律及下载,一文就够解读SRA数据库规律一文就够从GEO数据库下载得到表达矩阵一文就够GSEA分析一文就够(单机版+R语言版)根据分组信息做差异分析-这个一文不够的差异分析得到的结果注释一文就够但是同样的也带来了一个问题,就是常规分析已经引起不了大家的兴趣,没办法脱颖而出,发文章就很困难。虽然说可以去找其它分子,比如circRNA,lncRNA,miRNA,但最终仍然是差异分析,火山图,热图,区别就是多了一个靶基因。
但是我看了一个年8月的文章,题目是:Genome-widestudyofsalivarymicroRNAsaspotentialnoninvasivebiomarkersfordetectionofnasopharyngealcarcinoma,最后的落脚点居然是把统计学显著的差异基因拿去区分肿瘤样本和正常样本,也就是诊断模型,diagnosticbiomarker.
第一个数据是miRNA芯片,22newlydiagnosedNPCpatientsand25healthycontrols芯片有humanmiRNAprobes.,但是本次实验合格的只有miRNAs筛选统计学显著的miRNA阈值是:P??0.05andfoldchange
??1.5得到4个上调,47个下调的miRNAs,热图展现。进一步缩紧阈值,P??0.01and
foldchange
??2,得到12miRNAs后续分析第二个数据是qRT-PCR,8NPCpatientsand8healthydonors,针对12miRNAs。神奇的诊断模型
作者就直接拿这12个miRNAs来构建模型,discovery数据集就是miRNA芯片(22newlydiagnosedNPCpatientsand25healthydonors),然后validation数据集就是qRT-PCR数据(8NPCpatientsand8healthydonors)。
结果当然是出奇的好:
ForthismiRNApanel,wewereabletoreachadiscriminatorypowerofAUC?=?0..Whenscoringwiththe6mostalteredmiRNAs,theaccuracywashighwithanAUCof0..Thispilotstudywasdesignedasaninitialsteptowarddevelopingclinicallyapplicablediagnosticbiomarkers.如下图,效果是相当的好:
诊断模型效果很好因为是miRNA研究,所以文章里面有两个略显凑数的miRNA靶基因的网络图,很简单就可以使用cytoscape绘制。
这个模型好的,让我有点意外,其实关于NPC这个癌症的miRNA研究也有不少,如果我是审稿人,我会让研究者去处理几个公共数据库数据集,看看他们得到的这12个或者6个miRNA的诊断模型好使不!
学徒作业我前面的教程:多个数据集整合神器-RobustRankAggreg包,提到了大家可以处理数据集:GSE,GSE,GSEandGSE,尝试合并多个gse数据集,定位最后的差异基因,这个作业可能对大家来说有一点难度。
我这个时候出一个简单的作业,大家从数据集:GSE,GSE,GSEandGSE,随便做一个差异分析兴趣top10的上下调基因,去另外一个数据集作为诊断模型,看看AUC效果咋样!
文末友情推荐要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:
数据挖掘学习班第4期(线上直播3周,马拉松式陪伴,带你入门)生信爆款入门-第6期(线上直播4周,马拉松式陪伴,带你入门)如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你
生信技能树不点赞也不打赏,为什么呢?
- 上一篇文章: 猪肉结块长脓包是被打了激素真相是hel
- 下一篇文章: 没有了