天晚上季青临打电话提醒他时他才想想起,要不然都快忘记了。
他们小组分到的课题是文本分类与聚类。
“分类”的英文叫classification,是利用机器学习中使用的最多的一大类算法,通常也把分类算法叫“分类器”。
这个说法其实非常形象,就是一个黑盒子,有个入口,有个出口,在入口丢进去一个“样本”,在出口期望得到一个分类的“标签”。
比如,一个分类器可以进行图片内容的分类标签,我们在“入口”丢进去一张桃谷绘里香的照片,在“出口”得到“女优”这样一个描述标签。
这就是一个分类器最为基本的分类工作过程。
而“聚类”英文叫Clustering,这个用专业术语来解释有些麻烦,我们可以把它叫做“物以类聚”。
打个比方,我们在小时候被父母用看图说话的方式来教咿呀学语的时候就有过类似的体会了,图片上画了一只猴子,于是我们就知道了这是一只猴子;
图片上画了一辆汽车,于是我们就了解了,这是一辆汽车,等等。
等我们上街或者去动物园的时候,猴子不是画上的猴子,而且各种各样的猴子也长得各