聚类分析
- 聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。
- 对样本进行分类称为 Q 型聚类分析,对指标进行分类称为 R 型聚类分析。
Q 型聚类分析
- 样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。
一个事物常常需要用多个变量来刻画。
用距离来度量样本点间的相似程度,下面的定义是我们所熟知的,它满足正定性、对称性和三角不等式。
记 Ω 是样本点集,距离 d(⋅,⋅) 是 Ω×Ω→R+ 的一个函数,满足条件∶
d(x,y)d(x,y)d(x,y)d(x,y)≥0,x,y∈Ω.=0当且仅当 x=y.=d(y,x),x,y∈Ω.≤d(x,z)+d(z,y),x,y,z∈Ω.
- 闵氏(Minkowski)距离:聚类分析中对于定量变量最为常用
dq(x,y)=[k=1∑p∣xk−yk∣q]q1,q>0
其中x=[x1x2⋯xp]T;y=[y1y2⋯yp]T.
当 q=1,2 或 $q \to
- 类与类间的相似性度量