NewMer-帮助文档

1. 相关性分析

2. 层级聚类

介绍

根据指定的相似度或距离定义计算出类之间的距离大致过程： 1.将每一个元素单独定为一类 2.重复：每一轮都合并指定距离(对指定距离的理解很重要)最小的类 3.直到所有的元素都归为同一类层级聚类，使用Python的scipy.cluster包详细文档： https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html

输入

表格文件：矩阵表格例如 #OTU_ID C1 C2 C3 C4 C5 C6 var0 77 14 89 64 52 50 var1 7 31 38 55 60 30 var2 29 41 94 64 49 9 ...... 聚类数：得到的类的个数聚类方法：依据对相似度（距离）的不同定义，将聚类方法分为三种 complete：Complete-linkage，要比较的距离为元素对之间的最大距离 average：Group average，要比较的距离为类之间的平均距离 single：Single-linkage，要比较的距离为元素对之间的最小距离距离算法：距离度量用于计算给定问题空间中两个对象之间的差异，即数据集中的特征。可以使用该距离来确定特征之间的相似性，距离越小特征越相似。对于距离的度量，可以在几何距离测量和统计距离测量之间进行选择，应该选择哪种距离度量取决于数据的类型 euclidean 欧氏距离度量两个实值向量之间的最短距离。由于其直观，使用简单和对许多用例有良好结果，所以它是最常用的距离度量缺点： 1.距离测量不适用于比2D或3D空间更高维度的数据。 2.如果我们不将特征规范化和/或标准化，距离可能会因为单位的不同而倾斜 braycurtis 基于物种的丰度信息计算，是生态学上反应群落之间差异性常用的指标之一 manhattan 曼哈顿距离也被称为出租车或城市街区距离，因为两个实值向量之间的距离是根据一个人只能以直角移动计算的缺点：不如高维空间中的欧氏距离直观；没有显示可能的最短路径 hamming 汉明距离衡量两个二进制向量或字符串之间的差异如果两个向量相同，得到的距离是0之间，如果两个向量完全不同，得到的距离是1 缺点：距离测量只能比较相同长度的向量，它不能给出差异的大小 chebyshev 切比雪夫距离也称为棋盘距离，因为它是两个实值向量之间任意维度上的最大距离切比雪夫距离只有非常特定的用例，因此很少使用 minkowski 闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例，同时提供高灵活性。可以选择 p 值来找到最合适的距离度量缺点：为了找到正确的p值需要进行多次计算 cosine 余弦相似度是方向的度量，他的大小由两个向量之间的余弦决定，并且忽略了向量的大小。余弦相似度通常用于与数据大小无关紧要的高维缺点：不考虑大小而只考虑向量的方向。因此，没有充分考虑到值的差异 jaccard 杰卡德距离用于确定两个样本集之间的相似性两个集合 A 和 B 的交集元素在 A，B 的并集中所占的比例，称为两个集合的杰卡德相似系数杰卡德距离与杰卡德相似系数相反，用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度 canberra 被认为曼哈顿距离（Manhattan Distance）的加权版本

木牛零码

木牛零码

1. 相关性分析

2. 层级聚类

介绍

输入