TF-IDF关键词用法
什么是TF-IDF关键词?
tf关键词=某个关键词在文中出现的次数=某个词在文中出现的次数/文章的总次数
(语料文档总数/(包含该词文档数+1))
语料文档总数可以理解为:互联网中的文档索引总数,这是一个常量,是一个固定值,也是无限大,比如搜索“家居服”,百度出现了64600000个。
包含该文档数可以理解为:搜索引擎收录得页面总数量,如下图,+1是因为不能让分母为0。
搜索婵之云家居服优化出现了72800个相关页面,这就是包含该词的文档总数。
词频(tf)*逆文档频率(idf)
一头雾水了?让我们举个例子,通俗易懂的说明一下问题。
词频(tf)举例:假如一篇关于“婵之云家居服”的文章的总词语数是1000个,而“婵之云家居服”出现了10次,那么词频为:1%。
结论和应用:
一般来说tf-idf值越小,包含该词的文档总数越大,则越不好竞争。
相反包含该文档总数越小则越好竞争。
提升tf-idf关键词的办法,就是增加tf关键词密度,但是一定要自然而不能乱堆砌关键词。
搜“华安笔记”关注我