Workshop第三十一期肿瘤驱动

时间:2021-4-23来源:病例原因 作者:佚名 点击:

Drivermutation识别方法(部分)简介背景

众所周知,癌症的发生主要是由于突变的累计引起的,但是癌症细胞中有着成千上万的突变,并不是所有突变都对肿瘤的演化具有促进作用。我们把对癌症发展具有正向作用的突变定义为“drivermutation",其他突变定义为”passagemutation"。因此从大量的mutations中鉴别drivermutation对于癌症的治疗是十分重要的。

目前识别drivermutation的方法大致可以分为两类:1.基于突变频率2.基于功能影响评分

基于突变频率的方法最适合于寻找频繁发生的driver事件,而应用于罕见的driver事件时性能较差。相比之下,基于功能影响的方法无法找到人们对基因组元素了解不足或注释不明确的驱动因素。

方法

今天主要介绍两种方法,Driverpower和ActiveDriverWGS。

1.Driverpowerimage-第一步首先是筛选排除的区域image-第二步是使用GBM建模,或者使用随机套索+GLM

1.GBM:使用的XGBoost算法

先来举个例子,我们要预测一家人对电子游戏的喜好程度,考虑到年轻和年老相比,年轻更可能喜欢电子游戏,以及男性和女性相比,男性更喜欢电子游戏,故先根据年龄大小区分小孩和大人,然后再通过性别区分开是男是女,逐一给各人在电子游戏喜好程度上打分,如下图所示。

img

训练出了2棵树tree1和tree2,类似之前gbdt的原理,两棵树的结论累加起来便是最终的结论,所以小孩的预测分数就是两棵树中小孩所落到的结点的分数相加:2+0.9=2.9。爷爷的预测分数同理:-1+(-0.9)=-1.9。具体如下图所示:

img

XGBoost的核心算法思想基本就是:

不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数最后只需要将每棵树对应的分数加起来就是该样本的预测值。

以负泊松对数似然为目标函数,以元素的ln(N*L)作为偏移量

N是样本数量,L是元件长度

2.随机套索+GLM

使用随机套索进行特征选择

X是特征矩阵,w是权重矢量,α是正则化参数,bi是比例因子。

用GLM预测BMR

y是观察到的突变计数,y是估计的突变计数。我们使用二项式GLM通过logit链接函数获得y^,即

其中Xselect是所选特征矩阵,β是回归系数向量。

第三步,使用观测的突变数量与预测的突变数量进行负荷测试,并执行多次测试矫正第四步,根据功能影响得分对近显著的element(q0.25)调整观察到的突变计数

ForCDS,CADD(SNVsandindels,v1.3),DANN(SNVs)andEIGEN(SNVs)scoreswereused.CADDindelscoresweregeneratedwiththeCADDwebinterfaceforallobservedindelsinthePCAWGdataset.Forsplicesite,CADDandDANNscoreswereused.Fornon-codingelements,theCADD,DANNandLINSIGHT(SNVsandindels)scorewereused.

首先,检索数据集中所有观察到的突变的原始分数。其次,所有原始分数都通过**

**转换为phred-like分数,其中Nm是观察到的具有分数的突变数。第三,对于每个基因组元素,其功能评分S计算为:

Si是第i个样本的平均功能影响评分。

最后一步是通过功能调整的突变计数,然后进行多次测试校正,重新评估近乎重要元素的重要性Driverpower的安装和运行

安装

#[Optional]CreateanewenvironmentforDriverPowercondacreate--namedriverpower#[Optional]Activatetheenvironmentcondaactivatedriverpower#SetupBiocondaChannelsifnotsetbefore#

转载注明  http://www.mlhjsy.com/blyy/10235.html

首页| 网站简介| 发布优势| 广告合作| 隐私保护| 服务条款| 合作伙伴| 网站地图| 版权申明

版权所有 脂肪瘤网站 
Copyright 2012-2020 All Rights Reserved.