浅述搜索引擎的两种分词算法
发布人:一全科技 来源:68160.com 发布于:2011-01-26 23:20:06 浏览:794

辽宁12选5走势图表 www.jc1o.cn 21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案。因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会。在讲解中文分词技术之前,先来了解下全文检索技术。

全文检索技术

全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次数。当通过搜索引擎查询时,检索程序就在记录的索引进行查找并返回给用户。全文检索又分为基于字的全文索引和基于词的全文索引?;谧值娜乃饕岫阅谌葜械拿扛鲎纸⑺饕⒓锹?,此方法查全率高,但查准率低,特别是对于中文,有时搜索马克,会列出马克思的结果?;诖实娜乃饕前岩桓龃视镒魑桓龅ノ唤兴饕锹?,并能处理同义词。搜索引擎有自己的词库,当用户搜索时,搜索引擎会从词库中抽取关键词作为索引项,这样可以大大提高检索的准确率。

中文分词技术

一直以来大家都比较熟悉百度,百度有自己的中文分词技术。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,专家系统方法等。其中最大正向匹配是最常用的分词解决方案,它采用机械式算法,通过建立词典并进行正向最大匹配对中文进行分词。举个简单的例子比如搜索“北京大学在哪里”,则返回结果很多都是包含北京大学,北大等词语的网页,搜索引擎就是采用正向最大匹配去判断,把北京大学当做一个词语来索引记录并返回。当然,正向最大匹配也有不完整性,比如长度过长的词语,搜索引擎有时无法准确的分词,或者对前后都相互关联的词无法准确分词。例如“结合成分子时”,会被返回结合、成分、子时,而有时我们想要的关键词是“分子”。

很多时候百度都会根据自己词库中词语的权重进行拆分,权重的计算基于生活各个方面,比较复杂,搜索引擎要做的就是返回用户最想要的结果,有时站长们做网站要站在用户的角度去考虑问题,其实这也是站在搜索引擎的角度考虑问题,不论在确定目标关键词或者是长尾关键词时,都可以根据中文分词的原理来选择,这样可以最大化的减少无用功。

分词原理不断在变化,不断在更新,我们应该继续学习,只有掌握了本质才能抓住实质。

本文出自深圳网站建设,原文地址://www.68160.com ,欢迎大家和我交流,以后关于更多分词技术,特别是中文分词技术的更多应用我会陆续和大家分享。

  • 为什么说一直辛苦劳作的农民没有富起来?而不说一直勤劳的农民没有富起来? 2019-06-15
  • 刘红:关注乳腺健康 做好体检预防工作 2019-06-11
  • 中国伊斯兰教协会“四进”清真寺活动启动 2019-06-05
  • 我国社会组织正成为全球治理体系中的新生力量 2019-06-05
  • 林肯全新Navigator领航员正式上市 售112.80万元起 2019-05-27
  • “川商走进新经济”第一场活动落幕 2019-05-14
  • 还加上制裁伊朗引起价格飙升的石油战 2019-05-14
  • 青海:52个客运站卫生间将全面改造 2019-05-12
  • 依规治党和依法治国结合的典范 2019-05-12
  • 内蒙古水利厅厅长付万惠接受纪律审查和监察调查 2019-05-11
  • 传销就是利用这种劣根性。 2019-05-08
  • 女性之声——全国妇联 2019-04-22
  • 不忘初心继续前进——七集政论专题片 2019-04-21
  • 百姓故事:摔跤吧!女孩 2019-04-16
  • 一条塔里木河 串起南疆各色景致与无限风光 2019-04-16
  • 191| 477| 791| 797| 457| 995| 698| 77| 472| 939|