博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
tf-idf
阅读量:6034 次
发布时间:2019-06-20

本文共 356 字,大约阅读时间需要 1 分钟。

文章关键词提取最简单经典的算法。

首先给出TF-IDF的计算公式:

TF-IDF = TF * IDF

TF = 文章的某个词频 = 某个词出现的次数 / 所有词出现的总次数

IDF = 逆文档频率 = log(语料库的文档总数 / (包含该词的文档数 + 1)) // log函数防止IDF值太小而溢出为0, +1是防止某个词在所有文档中都没出现

算法核心:

  • 采用TF(词频)突出单个词的重要性
  • 采用IDF(逆向文档频率)强调词频低,但重要的词
  • TF-IDF排序后的TopN个关键词最能代表该文档

 


 

PS:分词工具采用结巴分词 https://github.com/fxsjy/jieba

2015-04-07 

转载于:https://www.cnblogs.com/dmjason/p/4399581.html

你可能感兴趣的文章
Sym System Recovery 2013 ( 備份 操作 )
查看>>
学习jquery mobile
查看>>
如果你写PHP, 请多注意自己是否有良好的习惯
查看>>
罗森伯格成功部署印度某著名港口光纤基础设施
查看>>
How to Setup Apache encrypt SSL on Ubuntu 18.04
查看>>
集线器、路由器、交换机、第三层交换技术
查看>>
【Java集合源码剖析】ArrayList源码剖析
查看>>
我的友情链接
查看>>
关于jfreechart中文标题乱码的解决 /usr/share/fonts/truetype/ /usr/share/fonts/truetype/
查看>>
网页的学习语言将仿佛使你生活更动人
查看>>
C++静态变量内存分配,编译阶段,解密
查看>>
Gartner:XenServer你是领导者!
查看>>
我的友情链接
查看>>
专业程序员必知必会的技巧:驯服复杂代码
查看>>
android ndk cmake Invalid Android ABI
查看>>
centos 配置双机ssh信任
查看>>
nginx配置.htaccess伪静态
查看>>
如何用标签打印软件制作物料标识卡
查看>>
雷林鹏分享:二级目录配置CI应用
查看>>
雷林鹏分享:CodeIgniter 防止跨站请求伪造攻击
查看>>