当两两文件只有一个相同的关键词时,会产生大量两两相似的文件,造成丛集数突然下降太多,导致被老板问了不清楚,现在终于知道了,  为什么会如此了!

2:090CYCU5396027.key&3:090SCU00121027.key=0.04=最小的丛集聚集
5:091HCHT0657025.key(1)&25:093CYU00442003.key(1)=0.04
5:091HCHT0657025.key(1)&27:093FCU05146024.key(1)=0.04
7:091NCKU5159057.key(1)&58:094NCKU5028087.key(1)=0.04
17:092NPUST489044.key(1)&45:093NCTU5159046.key(1)=0.04
17:092NPUST489044.key(1)&60:094NCKU5159054.key(1)=0.04
17:092NPUST489044.key(1)&74:094NTUS5489088.key(1)=0.04
25:093CYU00442003.key(1)&46:093NCTU5429034.key(1)=0.04
27:093FCU05146024.key(1)&58:094NCKU5028087.key(1)=0.04
28:093FJU01685014.key(1)&46:093NCTU5429034.key(1)=0.04
42:093NCTU5124056.key(1)&57:094NCKU5028061.key(1)=0.04
44:093NCTU5146011.key(1)&45:093NCTU5159046.key(1)=0.04
44:093NCTU5146011.key(1)&74:094NTUS5489088.key(1)=0.04
50:093NDHU5159027.key&63:094NCU05063010.key=0.04最小的丛集聚集
57:094NCKU5028061.key(1)&58:094NCKU5028087.key(1)=0.04

这样子,程式得要改写了,不然无法合理解释这么多的两两相似文件该依照什么规则来聚集了!