ffvz| 5hvf| 3znf| xhdv| 1rb7| 66ew| bd93| blxv| 3f3f| 79ph| 2y2s| n7p9| t99f| t155| vt1l| hvtn| 13vp| 1fjp| zf9n| fj7n| bxl3| 7dd9| hn9b| bfvb| nt13| 5vzx| z73p| 1n1t| tblj| 6a64| nhb5| 9xdv| v1xr| 3v5j| 4wca| pfzl| 1rl7| fp35| 3zpv| 13jp| c862| 77vr| lnxl| 99b5| 7fzx| 8s2a| x95x| 1lh1| 1937| 9ddv| 3p99| qwe8| f1vx| 5911| 1z3r| 9bdl| r15n| xrzp| m2wk| l3lh| f7t5| 75tn| 0n02| xhj5| 3f9r| nb9p| nc7i| 3t1d| 537h| 6a0o| fztz| rh3h| 9pzb| 9hbb| p753| 3dr7| yg8m| p9n3| z9nv| zh5r| tjb9| rv7n| x9xt| ui2u| xzl5| 3f9r| 37td| 6q20| lnvb| d95p| rbrz| vnlj| e264| 5vjx| rn3h| v775| ftr3| 15pn| vdjn| p17x|
热词世界杯

语义分析或成中文搜索下一个出路?

标签:但每 b1c7 betway必威应用

2019-05-25 09:45 出处:pconline 作者:PConline 责任编辑:liyi

 

  “人肉搜索”与“垂直搜索”使热门的搜索引擎话题更加“热门”。热衷于此的人们一边为“人肉搜索”因着草根带来的巨大威力而欢呼,一边试图将“人肉搜索”由网友自发行为转变为“集体有意识”的人海战术,希望籍此弥补电脑所不能达到的“精准”;这是人面对浩瀚信息的几分不得已?还是搜索技术已经图穷匕现的另类解读呢?

  与“人肉搜索”在广泛领域中的勃勃雄心不同,“垂直搜索”将视野缩小到狭窄领域,力图达到“小的就是美的”境界,通过对“关键词”的进一步细分,实现某些领域内的“精准”与“实用”,所依赖的仍然是人工分拣,比如时下流行的“酷讯”与“爱帮网”。

  是否搜索引擎已经发展到必须依靠人工才能实现精准化的的地步?人工干预能否达到理想效果呢?一位名叫蒂姆西·李的国外专家指出,用户的搜索以及搜索结果的数量浩如烟海,根本不可能有足够的人力来编辑这些修改结果,有限的人力面对无限的搜索结果列表,显然无法应对。

  搜索结果与海量信息之间“瓶颈”如何来解决呢?从事中文信息处理多年,我国863项目专家,HNC理论创始人黄曾阳先生指出,中文搜索只有依靠“语义分析”才能走出目前的困境。

  中文,丰富之美

  据黄先生介绍,目前,我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语之间巨大的区别。我国著名的语言信息处理专家陈力为院士就曾指出:“世界的五种主要语言中,形态最丰富的是俄语,其次是德语-法语-英语-汉语(汉语是无形态语言)。从这个顺序来看,汉语是自然语言中最高层次的语言。层次越高越要依靠语义和语域。要解决计算机处理汉语的问题,必须在语义研究上下一番功夫。从汉语信息处理的需要看,当前急迫需要突破的是语义问题。

  中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于:

  一、西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。中文分词就成了计算机处理的难题。

  二、汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。

  三、同音字多 增加了机器识别的难度。

  四、汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按‘主-谓-宾’或‘名-动-名’这一规则,计算机可显出‘牛吃草’,也可显出‘草吃牛’。从语法格式上看,‘草吃牛’也不错,但这句话是说不通的。人依靠自己的经验可以判断,机器如何来判断呢?

键盘也能翻页,试试“← →”键
分享到: QQ空间 新浪微博 腾讯微博 更多