NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模型,从HMM到CRF,分词精度都在不断提高,下面我就简单介绍下基本的分词算法。
继续阅读
-
Recent Articles
Recent Comments
分类
链接表
其他操作
NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模型,从HMM到CRF,分词精度都在不断提高,下面我就简单介绍下基本的分词算法。
继续阅读
最近看到flash-gear上你可以上传图片,然后自动帮你生成拼图,而且还能选择块的大小,话说,如果块很小,人力去拼图还真有些崩溃,于是本着geek的原则,打算用程序来搞一搞。
继续阅读
以前一直不明白lock free是什么,后来发现原来是完全理解错了概念,lock free看到大家有的翻译为无锁,有的翻译为锁无关,其实用不用锁和lock free是不相关的,用了锁也可能是lock free,而不用锁有可能不是lock free。
继续阅读
昨天在hacker news上看到regex golf,这里可以做几道很有趣的正则表达式的题,做题过程中有的需要用到不匹配这种匹配,比如说我需要匹配不包含某个单词的串。
继续阅读
中文自然语言处理最首要的就是要中文分词了,现在而言效果最好的还是要算crf了,具体可以查看Stanford NLP,不过鉴于crf速度比较慢,而且咱对其还没有完全的理解,所以这里就没有比较crf算法了。这里主要比较的是最大匹配算法,隐马尔可夫,uni-gram,和一种character based generative model这四种进行比较。
当时yahoo以3000万美元的价格收购了summly的消息传出来之后,貌似大家都比变的对自动摘要产生了极大的兴趣,关于自导摘要wiki这里有很详细的介绍,一般自动摘要比较常用的一个是摘取文章中的关键词,另一个则是摘取文章中的关键的句子,在这里我主要是介绍用textrank算法来搞句子的摘取。