聚类结果的好坏取决于该聚类方法采用的相似性比较方法,选择的聚类方法应能再现内在的分类组,且对一个数据组内的错误或异常值比较敏感。
系统聚类的相似性(类与类之间的距离)比较方法有许多种,例如最长距离法两类之间的距离用两类间最远样本的距离来表示,它是空间扩张的、最短距离法两类之间的距离以两类间的最近样本的距离来表示,它是空间压缩的、重心距离法两类间的距离以重心之间的距离表示。具有非单调性、类平均法两类间的距离以各类元素两两之间的平均平方距离来表示,具有空间保持及单调性和离差平方和法两类之间的平方距离用两类归类后所增加的离差平方和表示。聚类过程中使类内各指标的方差最小,类间的方差尽可能大,也具有单调性等。