雷晓晨

芙蓉镇旅游主成分分析(PCA)之原理-种豌豆

主成分分析(PCA)之原理-种豌豆

主成分分析
主成分分析(PCA小户千金,principal component analysis)是一种数学降维的方法,利用正交变换把一系列可能线性相关的变量转换为一组线性不相关的新变量,赵雷画也称为主成分,从而利用新变量在更小的维度下展示数据的特征。
例如百年恩来,使用PCA可将30个相关(很可能冗余)的环境变量转化为5个无关的成分变量,并且尽可能地保留原始数据集的信息。

主成分是原有变量的线性组合,其数目不多于原始变量。组合之后奥尔布莱特,相当于我们获得了一批新的观测数据徐子东,这些数据的含义不同于原有数据,但包含了之前数据的大部分特征,并且有着较低的维度苏利股份,便于进一步分析黄克功案件。
在空间上, PCA 可以理解为把原始数据投射到一个新的坐标系统,第一主成分为第一坐标轴,它的含义代表了原始数据中多个变量经过某种变换得到的新变量的变化区间;第二成分为第二坐标轴,代表了原始数据中多个变量经过某种变换得到的第二个新变量的变化区间。这样我们把利用原始数据解释样品的差异转变为利用新变量解释样品的差异。
这种投射方式会有很多,为了最大限度保留对原始数据的解释,一般会用最大方差理论或最小损失理论埃及塘鲺,使得第一主成分有着最大的方差或变异数 (就是说其能尽量多的解释原始数据的差异);随后的每一个主成分都与前面的主成分正交,且有着仅次于前一主成分的最大方差 (正交简单的理解就是两个主成分空间夹角为 90°,两者之间无线性关联,从而完成去冗余操作)。
主成分分析的意义
1 简化运算
在问题研究中,为了全面系统地分析问题,我们通常会收集众多的影响因素也就是众多的变量七宫智音。这样会使研究更丰富牛图网,通常也会带来较多的冗余数据和复杂的计算量e速宝。
2 去除数据噪音
比如说我们在样品的制备过程中倒装壶,由于不完全一致的操作,导致样本的状态有细微的改变,从而造成一些持家基因也发生了相应的变化米赚电脑版,但变化幅度远小于核心基因(一般认为噪音的方差小于信息的方差)有顶天酒店。而PCA在降维的过程中滤去了这些变化幅度较小的噪音变化,增大了数据的信噪比敖铭微博。
3 利用散点图实现多维数据可视化
在上面的表达谱分析中,假如我们有 1 个基因,可以在线性层面对样本进行分类;如果我们有 2 个基因南高营贴吧 ,可以在一个平面对样本进行分类;如果我们有 3 个基因,可以在一个立体空间对样本进行分类;如果有更多的基因,比如说 n个,那么每个样品就是 n 维空间的一个点,则很难在图形上展示样品的分类关系。利用PCA分析,我们可以选取贡献最大的2个或3个主成分作为数据代表用以可视化天国泪。这比直接选取三个表达变化最大的基因更能反映样品之间的差异。芙蓉镇旅游
4 发现隐形相关变量
我们在合并冗余原始变量得到主成分过程中,会发现某些原始变量对同一成分有着相似的贡献神偷艳贼,也就是说这些变量之间存在着某种相关性,为相关变量。同时也可以获得这些变量对主成分的贡献程度。对基因表达数据可以理解为发现了存在协同或拮抗关系的基因。
下次文章介绍基于重测序样本的snp,做PCA分析的全过程,包括使用的软件和R画图脚本!