Manual Search

Posted by Cofyc, on May 10, 2008, 1:05 pm

花了一晚上,写了一个Manual Search站点,索引了一些我常用了手册,方便自己查找资料。

本地搭建了一个,网络上也有一个副本:http://xman.peterfu.net.

现在支持如下搜索语法:

  1. 搜索所有手册:[search terms];比如:xmalloc
  2. 搜索指定手册:[search terms] in:[field];比如:preg_match in:php
  3. 搜索多个手册:[search terms] in:[fields];比如:install in:httpd,svn

目前索引的手册有: gcc, httpd(Apache), libc(GNU C Library), php, svn, zf(Zend Framework)

;-)

-------

今天太阳真不错,我要晒太阳~。

还要好好做毕设,加油!

2 comments - Tags: manual, search, apache, svn, zend framework, gcc, gnu c library

虚假的镜子

Posted by Cofyc, on May 7, 2008, 9:05 pm

梁文道在演讲中有谈到,我们常常将他人当作镜子,来认识自己。

仅对于这点,结合自身,我深有感触。而且很糟糕的是,许多时候,并不愿去真实地去了解他人。而只是想去认识自己,他人到底是如何的,并不重要,甚至毫不关心。但这样幻想出来的镜子,又是否能反映出真实的自己了?或许许多时候,仅只在迷恋于虚假镜子中的自己罢了。

0 comment - Tags: 梁文道, mirror

4月26号,梁文道在华科的演讲录音和文字稿

Posted by Cofyc, on May 7, 2008, 7:05 pm

资讯:第1363期 梁文道:在反华浪潮与狂热民族主义之间(化成天下)

http://www.univs.cn/newweb/univs/hust/2008-04-27/837018.html

演讲录音:http://202.112.28.132/hust/lecture/1363.mp3

演讲文字稿:http://blog.ifeng.com/article/1435037.html(一位网友听打的)

 

昨天,才知道这个信息,不幸错过了现场聆听的机会,虽然要有华科的学生证才能进去;-)。不过好在现今这个社会科技足够发达,以至思想有着广泛的传播渠道。

0 comment - Tags: 梁文道, lecture, 演讲

寻找踏实的土地

Posted by Cofyc, on May 3, 2008, 11:05 pm

常常觉得,在生活里,特别是情感上,都一直在寻找一些可依赖、可依靠的对象,来支撑自己,不然会十分地茫然无助。而当这种需求得不到满足的时候,往往会导致一些无聊、偏激的行为。比如,会做些没有道理的事情。这是为什么?

    无论正确与否,无论盲目与否,都不可否认的是,我一直在对一些可依靠的事物或者力量的代表强烈地需求着。而那可依靠的事物或者力量的代表具体是些什么了?

    教义,佛、道?规则、学说?智者,对的事情?却也说不清楚。但可以确定的是,这种类似不断寻找踏实的土地的行为,让我觉得真的很累

2 comments - Tags: seek, faith, believe

拼音的故事

Posted by Cofyc, on May 1, 2008, 11:05 pm

昨晚和今早在中央七台看了上下两集《拼音的故事》(见证)的节目,解答了我不少关于拼音的疑惑。

   因为我们知道拼音所使用的是拉丁字母(罗马字),不是汉字。这些字母不是中国人发明的,于是就有一个疑惑,以前的中国人是怎么记录汉字的读音的了,那时候并没有这些字母啊? 又是什么时候开始使用拉丁字母的拼音方案的了?

    这期节目主要由汉语拼音改革委员会委员周有光来讲述。103岁的老人,回忆如昨日,口齿十分清晰,真是相当地佩服!看完之后,对拼音的由来也就十分清楚了。(呃~,我真喜欢这样的节目!)

以下是一些整理:

    在古代,主要使用两种方法注音:一种是使用同音字注音,既用一个大家熟知的字去注同音的生僻字,但是若没有同音的字或者同音的字也十分生僻,就没有办法了。另外一种,是反切法,既用两个汉字来给另一个汉字注音,反切上字与所注字的声母相同,反切下字与所注字的韵母和声调相同。比如,“红”可由“胡(hu)”“笼(long)”来反切。

    但是,这两种方法都十分地不方便,因为这两种办法十分难以掌握,所以在古代进行汉字学习,没有老师或者其他人带领下,是更本没有办法进行的。而普通人识字的难度,就导致了文化交流障碍,基础教育的普及度不高。

    历史上,也有些根据汉字的语音分析,而得出的注音方案,一般都是在汉字基础上,也没有广泛使用,没有解决基本问题。古代学习汉字,都是从朗读百家姓、三字经开始,这些就是古代的识字启蒙教材。

    到明朝末年,西方传教士逐渐来中国传教,为了更好地学习中文汉字,曾使用了拉丁字母为汉字注音。1605年,意大利耶稣会传教士利玛窦在北京出版了《西字奇迹》,其中有4篇汉字文章加了拉丁字母的注音。这是最早用拉丁字母给汉字注音的出版物。但这是为了西方人来学习汉字所写,而不是为了中国人(百度知)。

    而中国人自己的汉语拼音运动,到清朝末年的切音运动才开始的。因为当时甲午战败,签订了丧权辱国的《马关条约》。一些有识之士、爱国人士思考,为什么会失败?因为外国人的船舰炮利。为什么外国人船坚炮利?因为外国科技发达。为什么外国的科技发达?因为外国的人们普遍教育好。为什么他们的教育好?因为他们有更好的罗马字(拉丁字母)切音方法,作为沟通的语言文字十分易学,基础教育好。

    所以,就得出了必须加强中国的基础教育。而加强基础教育的最大难题,就是中文汉字难学、难认、难记,为天下语言之至难也。于是,就开始改革,首先是言文合一,既废除了文言文,而采用白话文教学。其二,就是研究中文的注音方案。

    此后,当时国内的语言学家、更行各业的人士,研究了许多注音方案。其中,有一种有一位从日本回国的学者,当时提出的是采用日本的方式(50音图),来对汉字注音。既根据汉字的特点,来自创字母,进行注音。也有采用拉丁字母的;也有采用拉丁字母+自创字母的。甚至,当时有激进人士主张废除汉文这个老寿星,而直接学习Esperanto(世界语)。代表人物是钱玄同,认为汉字的改革,既要完完全全使用罗马字母。当然,这个自然会受到严厉的批评。(很难想象,汉语或汉字被废除了的中国)

    这段时期,主要产生了一种由37个注音字母,来对汉字注音的系统。这些字母都由汉字笔画演变而来的,不作为汉字使用。也产生了国语罗马字注音方案,使用的是罗马字母(拉丁字母)(与现代的汉语拼音并不完全相同)。这些国语罗马字并没有在推广开来,但后来一直在台湾使用。

    现代的汉语拼音改革在新中国成立之后,当时苏联曾十分想让中国采用斯拉夫字母(苏联自己也在拉斯夫化),但是中国外交官陈毅以“中国对此十分不熟悉,而且东南亚的华人华侨只了解拉丁字母,国际上也不通用”等理由将这一提议推了回去。开始,毛泽东想采用民族的形式,但进展的十分不顺利。最后毛泽东同意采用拉丁字母,毕竟这些字母现存在那里,作为许多国家的字母,使用得十分广泛,(日本的五十音图也有对应的罗马字),利于与国际交流。

    历经几年时间完善,由周有光等人设计了现在所使用的拼音方案,并在全国推广。这套《现代拼音方案》完全使用国际通用的26个字母,没有添加任何字母。只添加一些附加符号,主要是四种声调符号和字母ü上的两点符号。顺序和发音也尽量贴近拉丁字母的发音。

    现在看来一切都是十分正确的,不然无论是使用民族形式,或者不用拉丁字母而用其他字母,或者用拉丁字母但修改增添字母。在今天,计算机社会、国际化环境下,都会产生不必要的麻烦。比如,键盘就需要自创键盘,而不能采用通用的标准键盘了。

    周有光,最后评价说拼音的作用类似润滑剂,用于辅助汉字体系,有了它,很大程度降低了汉字的学习难度。

continue...

0 comment - Tags: pinyin, story

Bit/Pixel Perfection

Posted by Cofyc, on April 29, 2008, 2:04 am

我们知道电脑里一切的最小单位是Bit(比特),每一Bit有两个取值,0和1。Bit间最基本的逻辑运算有与、或、非三种。另外,电脑终端屏幕显示的最小单位是Pixel(像素),每一Pixel的取值范围有限。可通过RGB、HSB模式精确控制每一个像素的颜色。

    于此可知,如果要达到完美,需要在每一Bit(比特)、每一Pixel(像素)上做到足够完美。或者说,想要完美,就必须追求每一Bit(比特)、每一Pixel(像素)上的足够完美。

0 comment - Tags: bit, pixel, perfect

Xapian and Chinese Indexing&Searching

Posted by Cofyc, on April 27, 2008, 7:04 pm

Xapian is an Open Source Search Engine Library, released under the GPL. It's written in C++, with bindings to allow use from Perl, Python, PHP, Java, Tcl, C# and Ruby (so far!)

Xapian is a highly adaptable toolkit which allows developers to easily add advanced indexing and search facilities to their own applications. It supports the Probabilistic Information Retrieval model and also supports a rich set of boolean query operators.

If you're after a packaged search engine for your website, you should take a look at Omega: an application we supply built upon Xapian. Unlike most other website search solutions, Xapian's versatility allows you to extend Omega to meet your needs as they grow.

-- www.xapian.org

一个开源搜索引擎库。基于GPL发布,C++语言所写。通过SWIG可与Perl,Python、PHP等绑定。

研究了两天,挺有趣的东西。操作、索引的思路与Lucene有点差别。Xapian是基于概率模型,而Lucene是基于向量模型。Xapian内置只支持English、Danish、French、Spanish等类似的语言,不支持使用汉字的中文。但目前中文资料实在太少了,现在还没弄清楚如何自己写stemmer。还只能预先对中文进行分词并用空格分隔后,将其当作一个个英文单词,并使用英语的stemmer来索引。不过这样,到也能达到索引效果。

这里有一篇文章,是讲使用Xapian来进行中文索引和搜索的:Chinese Xapian Indexing and Searching continue...

0 comment - Tags: xapian, chinese, Forbidden Kingdom, 功夫之王, Jet Li, Jackie Chan, Michael Angarano, 李冰冰, 刘亦菲