文章关键词提取最简单经典的算法。
首先给出TF-IDF的计算公式:
TF-IDF = TF * IDF
TF = 文章的某个词频 = 某个词出现的次数 / 所有词出现的总次数
IDF = 逆文档频率 = log(语料库的文档总数 / (包含该词的文档数 + 1)) // log函数防止IDF值太小而溢出为0, +1是防止某个词在所有文档中都没出现
算法核心:
- 采用TF(词频)突出单个词的重要性
- 采用IDF(逆向文档频率)强调词频低,但重要的词
- TF-IDF排序后的TopN个关键词最能代表该文档
PS:分词工具采用结巴分词 https://github.com/fxsjy/jieba
2015-04-07