聚类分析

  • 聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。
  • 对样本进行分类称为 QQ 型聚类分析,对指标进行分类称为 RR 型聚类分析。

QQ 型聚类分析

  1. 样本的相似性度量
    要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。
    一个事物常常需要用多个变量来刻画。
    用距离来度量样本点间的相似程度,下面的定义是我们所熟知的,它满足正定性、对称性和三角不等式。
    Ω\Omega 是样本点集,距离 d(  ,  )d(·\;,\;·)Ω×ΩR+\Omega × \Omega \to R^+ 的一个函数,满足条件∶

d(x,y)0,x,yΩ.d(x,y)=0当且仅当 x=y.d(x,y)=d(y,x),x,yΩ.d(x,y)d(x,z)+d(z,y),x,y,zΩ.\begin{align*} d(x,y) & \geq 0, \quad x,y \in \Omega. \\ d(x,y) & = 0 \quad \text{当且仅当 } x = y. \\ d(x,y) & = d(y,x), \quad x,y \in \Omega. \\ d(x,y) & \leq d(x,z) + d(z,y), \quad x,y,z \in \Omega. \end{align*}

  • 闵氏(Minkowski)距离:聚类分析中对于定量变量最为常用

dq(x,y)=[k=1pxkykq]1q,q>0d_q(x,y) = \left[ \sum_{k=1}^{p} |x_k - y_k|^q \right]^{\frac{1}{q}}, \quad q > 0

其中x=[x1x2xp]T;y=[y1y2yp]T\mathbf{x} = \begin{bmatrix} x_1 & x_2 & \cdots & x_p \end{bmatrix}^T; \quad \mathbf{y} = \begin{bmatrix} y_1 & y_2 & \cdots & y_p \end{bmatrix}^T.
q=1,2q=1,2 或 $q \to

  1. 类与类间的相似性度量