isnowfy

浅谈中文分词

2014 年 04 月 18 日 isnowfy algorithm, program

NLP（Natural language processing）自然语言处理一直都是比较热门的领域，现在不管是搜索，推荐神马的基本都需要和nlp打交道，而中文的nlp处理的第一步就是分词了，所以中文分词一直扮演者举足轻重的角色。当然了，分词的算法也是层出不穷，从最初的字典匹配到后来的统计模型，从HMM到CRF，分词精度都在不断提高，下面我就简单介绍下基本的分词算法。
继续阅读 →

ir, math, nlp 38 comments

程序解决flash-gear的拼图问题

2014 年 03 月 04 日 isnowfy program, 谜题

最近看到flash-gear上你可以上传图片，然后自动帮你生成拼图，而且还能选择块的大小，话说，如果块很小，人力去拼图还真有些崩溃，于是本着geek的原则，打算用程序来搞一搞。
继续阅读 →

python 16 comments

lock free的理解

2014 年 02 月 27 日 isnowfy program

以前一直不明白lock free是什么，后来发现原来是完全理解错了概念，lock free看到大家有的翻译为无锁，有的翻译为锁无关，其实用不用锁和lock free是不相关的，用了锁也可能是lock free，而不用锁有可能不是lock free。
继续阅读 →

5 comments

正则表达式中的不匹配

2013 年 12 月 22 日 isnowfy program

昨天在hacker news上看到regex golf，这里可以做几道很有趣的正则表达式的题，做题过程中有的需要用到不匹配这种匹配，比如说我需要匹配不包含某个单词的串。
继续阅读 →

re, 正则 8 comments

几种中文分词算法的比较

2013 年 12 月 10 日 isnowfy algorithm, program

中文自然语言处理最首要的就是要中文分词了，现在而言效果最好的还是要算crf了，具体可以查看Stanford NLP，不过鉴于crf速度比较慢，而且咱对其还没有完全的理解，所以这里就没有比较crf算法了。这里主要比较的是最大匹配算法，隐马尔可夫，uni-gram，和一种character based generative model这四种进行比较。

继续阅读 →

ir, math, nlp 9 comments