语义分析在搜索引擎分词技术中的运用
一直在关注Google SEO的动向,研究英文SEO,虽然我以前接触过SEO中的分词技术(分词技术是跟我以前的总经理赵总学习的。),现在在网上学习SEO的时候,看到分词技术的知识,比较敏感,仔细看了一下这篇分词技术的文章,感觉还行,和大家一起分享一下:
今天在爱心SEO的博客中看到关于搜索引擎动态分词技术的剖析的文章,写的不错下面我们把它分享给大家!
机器要辨认一篇文章的意义,必然触及到语义,分词相关的辨认技术。句子,词语,字是构成一篇文章的根本单位。固然百度谷歌都是运用的全文检索系统,不过还是需求分词。
当今主流的分词技术有三品种别,有应用词库的,有基于词频统计的,有基于语义了解的。第一种是目前曾经比拟成熟的分词技术了,百度谷歌都在用,缺陷是必需有足够强大的词库,分词速度还普通,正确率还行;第二种完成起来是最简单的,以标点符号为分割线,最小单位为一个字,最大单位为两个标点符号之间的一切字,统计呈现相同的字或词的概率,正确率略微低点;第三种是目前为止还未呈现勉强的处理计划的技术,汉语的强大让这个选项不停的被夭折。
心爱喜欢应战,百度谷歌正在用的词库分词技术就不用多说了,不懂的本人网上找材料去,只需有足够的词库,就能搞死它;第二种是完成起来最简单的一种,更不用说了,没难度;要说就说第三种,基于语义辨认的分词技术。
升华一下,传统的语义辨认分词技术并未触及到关键的一点:动态化。解释下,什么是动态化的语义辨认分词技术:比方一句话“”,机器辨认这句话的时分,先从主谓宾的角度把这句话剖开,在此根底之上再分词,最后分离两者的结果辨认这句话的意义。动态化的完成就在主谓宾的分析和词库的变化上面。简单点说就是任何一个分词算法里的变量的变化就会直接影响最终分词的结果。或者还是不了解怎样回事?
继续分析。“我真的十分喜欢做SEO这个东西。”这句话先停止主谓宾划分,结果为我,做,SEO。然后分词,SEO这个词的权重最高,以SEO为界线,划分这个句子为,我真的十分喜欢做,这个东西。然后再分,我,做,东西。就这么在有辨认最高权重的词的技术之下,一步步拆分。
为什么要用动态的语义辨认分词技术而不用第一种靠词库来分词的技术?它们不都需求用到词库么?问得太好了,第一种靠词库来分词的技术只能是在词的根底上以一个词为单位为用户提供包含这个词的搜索结果,顶多也就还能提供同义词的结果,而这个曾经不能满足现代网民的需求了。而靠语义辨认分词技术跟第一种分词技术最大的区别就在于机器也能了解到抓取回来的文章的意义了。机器能看懂文章的意义是很可怕的事情,这么可怕的事情,正在发作。
分词技术是搜索引擎存在的一项非常重要的技术,分词技术直接影响排名的结果,所以我们无论是做中文SEO的,还是英文SEO的,无论是谷歌SEO还是百度SEO,都必须要接触分词技术的,有更多关于分词技术方面的心得,可以一起交流!
评论 (0)