floss

Nutch (search engine) + ภาษาไทย

posted on 07 Feb 2007 16:12 by veer
ผมลองเอา Nutch ที่เป็น search engine ในโครงการ Apache Lucene ที่มีทั้ง web crawler, indexer, searcher และ web interface ในตัว มาลองใช้ดู ปรากฎว่ามันใช้ภาษาไทยไม่ค่อยจะได้ ปัญหาในจุดแรกเลยก็คือ indexer ซึ่งก็แก้ได้เลยการสร้าง Thai Analyzer Plugin สำหรับ indexer ขึ้นมา โดยเอา French Analyzer Plugin (ที่ไปเรียก French Analyzer Plugin ใน Lucene) มาแก้อีกที

ไม่รู้จะ upload patch ไว้ที่ไหนผมเลยเปิด issue ใหม่ใน JIRA เลย https://issues.apache.org/jira/browse/NUTCH-441 เข้าไปโหลดได้เลยนะครับ

มีปัญหานิดหน่อยว่า ต้องใช้ lucene-analyzers-nightly.jar แทน lucene-analyzers-2.0.0 เพราะว่า lucene 2.0.0 ยังไม่มี Thai Analyzer ผมก็ copy มาทับซะก็เป็นอันใช้ได้

แต่ว่าเจอปัญหาอีกนิดคือมันใส่ lang=en ใน URL ให้อัตโนมัติ ถ้าแก้แบบเฉพาะหน้าก็ใช้ lang=th ไปแทนก็ใช้ได้ :-P

edit @ 2007/02/07 22:05:40
edit @ 2007/02/08 16:50:03
edit @ 2007/02/08 17:43:26
ก่อนหน้า Java ของ Sun จะกลายเป็นซอฟต์แวร์เสรี มีเงื่อนไขหลายอย่างที่ทำให้เราไม่อยากใช้ Java เช่น
  • ติดตั้งยาก เพราะว่าใช้ apt-get install จาก repository หลักของ Debian ไม่ได้ เงื่อนไขนี้ก็ดูจะเปลี่ยนไป เพราะดูเหมือนว่ามีคนกำลังทำ package สำหรับ openjdk บน debian อยู่ ประเด็นเรื่องติดตั้งยากก็อาจจะหมดไป ต่อไปก็อาจจะเป็นไปได้ด้วยว่า Netbeans หรือโปรแกรมอื่นๆ ที่ใช้ Java ก็จะติดตั้งบน Debian ง่ายไปด้วย
  • ปัญหาว่า Sun จะหยุดแจก Java ก็หมดไปเพราะความที่เป็นซอฟต์แวร์เสรี คนอื่นก็เอาไปพัฒนาต่อ และแจกจ่ายได้อย่างเสรี ข้อนี้ก็น่าเป็นห่วงน้อยลงมาก
ต่อไปนี้โลกของซอฟต์แวร์เสรี และตลาดแรงงานก็คงจะอยู่ใกล้กันมากขึ้น เพราะว่านักพัฒนาซอฟต์แวร์เสรีก็น่าจะใช้ Java มากขึ้น แรงงานที่เขียนคุ้นเคยกับ Java อยู่แล้วก็มีเยอะ รวมทั้งนักศึกษา นักเรียน ที่อยากจบไปทำงาน โดยใช้ Java ก็มีอยู่มากมาย ก็เป็นไปได้ว่าเขาเหล่านั้น ซักวันหนึ่งก็อาจจะมาร่วมผลิตซอฟต์แวร์เสรี โดยอาจจะมีแนวคิดแบบซอฟต์แวร์เสรีที่เน้นเรื่องเสรีภาพ หรือจะคิดแบบโอเพนซอร์สว่าร่วมกันทำแล้วทุกคนเหนื่อยน้อยลงและได้ประโยชน์ก็ตาม
edit @ 2006/12/04 11:02:17