Search Engine and Project Yana

Posted by Cofyc, on March 5, 2008, 12:03 am,

最近几天不能上网,到让自己沉下心来,认真地写了几天代码。主要是,在学习Zend Framework中的Lucene部分时,觉得很有意思。让我对Search Engine的实现充满的兴趣,于是研究了一下中文分词算法的实现。并花了几天时间,基于ZF 的Lucene Search API,写了一个mini blog search(可在Project Yana获取代码,站点未放置在网络上,因为还只是个玩具)。

    主要是核心的中文分词算法不是很好,因为对分词还没有多少理论研究,只写了一个最基础的查词典算法。一些搜索引擎论文中有提到一个RMM算法,尝试写过,但还没有通过实践的检验,还有对词尾检测技术、知识纠错、歧义处理等等概念完全没有头绪!

    不过,对中文分词兴趣到是越来越大了,这里是我对这个的思考。以及我所写的blog search项目地址:http://code.google.com/p/yana,希望,在中文分词算法等获得交流。

    此外,对使用C语言独立实现一个具有基本功能的搜索引擎很有兴趣,这是我目前很想实现的目标。在此之前,或许我应该对Apache的Project Lucene(http://lucene.apache.org/)有足够的了解吧。

 

Elsewhere:(自言自语)

Don't force others, even if you are creator of them.
做了一个梦,有一些有意思的事,但最后在梦中与人发生矛盾。大体上,是对一件事的看法产生激烈的矛盾,但具体不记得了。只是,醒来之后,留下这句话在脑海中。
从这句话中,也许我想说的意思是:即使它是你创造的,你也不能强迫它。这也许就像:上帝创造了人,但上帝是不能也不该强迫人类的。

Don't rely on others, they are always unreliable.
不要依赖他人,这是我对自己的告诫。做任何事情的时候,都不要对他人有过多的期待。如此想后,事情将会简单许多了。

I am selfish.
对自己永远是很自私的,我不该在这点上欺骗自己。

Don't stop, when you see the road toward paradise.

不要因为疲惫与麻烦,而停止在通向天堂的道路上。

0 comment  - Tags: search engine, lucene, project yana, private, myself

Except where otherwise noted, content on this site is licensed under a Creative Commons Attribution 3.0 License
Powered by Project Neverland, Theme modified from gluedideas