浅谈中文分词

HMM_and_CRF

NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模型,从HMM到CRF,分词精度都在不断提高,下面我就简单介绍下基本的分词算法。
继续阅读

, , 38 comments

程序解决flash-gear的拼图问题

2014-03-04 18:42:41的屏幕截图

最近看到flash-gear上你可以上传图片,然后自动帮你生成拼图,而且还能选择块的大小,话说,如果块很小,人力去拼图还真有些崩溃,于是本着geek的原则,打算用程序来搞一搞。
继续阅读

16 comments

lock free的理解

its-lock-free

以前一直不明白lock free是什么,后来发现原来是完全理解错了概念,lock free看到大家有的翻译为无锁,有的翻译为锁无关,其实用不用锁和lock free是不相关的,用了锁也可能是lock free,而不用锁有可能不是lock free。
继续阅读

5 comments

正则表达式中的不匹配

regular_expressions

昨天在hacker news上看到regex golf,这里可以做几道很有趣的正则表达式的题,做题过程中有的需要用到不匹配这种匹配,比如说我需要匹配不包含某个单词的串。
继续阅读

, 8 comments

几种中文分词算法的比较

logo-static

中文自然语言处理最首要的就是要中文分词了,现在而言效果最好的还是要算crf了,具体可以查看Stanford NLP,不过鉴于crf速度比较慢,而且咱对其还没有完全的理解,所以这里就没有比较crf算法了。这里主要比较的是最大匹配算法,隐马尔可夫,uni-gram,和一种character based generative model这四种进行比较。

继续阅读

, , 9 comments

自动摘要算法

news

当时yahoo以3000万美元的价格收购了summly的消息传出来之后,貌似大家都比变的对自动摘要产生了极大的兴趣,关于自导摘要wiki这里有很详细的介绍,一般自动摘要比较常用的一个是摘取文章中的关键词,另一个则是摘取文章中的关键的句子,在这里我主要是介绍用textrank算法来搞句子的摘取。

继续阅读

, , 5 comments

美东两周游记

Camera 360

最近两周去美国东部转了转,7号北京走的,23号回到的北京,这之间去了纽约,波士顿,尼亚加拉瀑布,费城,华盛顿,玩的还是很开心的,记录一下过程,也对之后有兴趣去美国东部玩的同学有所帮助吧。
继续阅读

11 comments