1. 相关性分析
2. 层级聚类
介绍
根据指定的相似度或距离定义计算出类之间的距离
大致过程:
1.将每一个元素单独定为一类
2.重复:每一轮都合并指定距离(对指定距离的理解很重要)最小的类
3.直到所有的元素都归为同一类
层级聚类,使用Python的scipy.cluster包
详细文档:
https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html
输入
表格文件: 矩阵表格
例如
#OTU_ID C1 C2 C3 C4 C5 C6
var0 77 14 89 64 52 50
var1 7 31 38 55 60 30
var2 29 41 94 64 49 9
......
聚类数:
得到的类的个数
聚类方法:
依据对相似度(距离)的不同定义,将聚类方法分为三种
complete:Complete-linkage,要比较的距离为元素对之间的最大距离
average:Group average,要比较的距离为类之间的平均距离
single:Single-linkage, 要比较的距离为元素对之间的最小距离
距离算法:
距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。
可以使用该距离来确定特征之间的相似性,距离越小特征越相似。
对于距离的度量,可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型
euclidean
欧氏距离度量两个实值向量之间的最短距离。
由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量
缺点:
1.距离测量不适用于比2D或3D空间更高维度的数据。
2.如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜
braycurtis
基于物种的丰度信息计算,是生态学上反应群落之间差异性常用的指标之一
manhattan
曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的
缺点:
不如高维空间中的欧氏距离直观;没有显示可能的最短路径
hamming
汉明距离衡量两个二进制向量或字符串之间的差异
如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1
缺点:
距离测量只能比较相同长度的向量,它不能给出差异的大小
chebyshev
切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离
切比雪夫距离只有非常特定的用例,因此很少使用
minkowski
闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例,同时提供高灵活性。
可以选择 p 值来找到最合适的距离度量
缺点:
为了找到正确的p值需要进行多次计算
cosine
余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。
余弦相似度通常用于与数据大小无关紧要的高维
缺点:
不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异
jaccard
杰卡德距离 用于确定两个样本集之间的相似性
两个集合 A 和 B 的交集元素在 A,B 的并集中所占的比例,称为两个集合的杰卡德相似系数
杰卡德距离与杰卡德相似系数相反,用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度
canberra
被认为曼哈顿距离(Manhattan Distance)的加权版本