NLP

Lattice ของการตัดคำ

posted on 08 Mar 2006 00:39 by veer in NLP
เมื่อวานคุณโนเด้ถามว่ารูปแบบ ข้างล่างนี้ มันจะเป็น lattice ได้เหรอ?
ต่อให้มันเป็นมันจะเป็น lattice แบบไหน แบบที่เป็นตาข่าย ตาม sense
ธรรมดา หรือว่าจะเป็น lattice ทางคณิตศาสตร์? แม้แต่ lattice ทางคณิตศาสตร์ ก็ยังมีหลายแบบอยู่ดี




ในเบื้องต้นจากที่อ่านๆ ดู ผมคิดว่ารูปข้างบนน่าจะคล้ายๆ Hasse diagram ของ lattice ที่เป็น partially order set หรือ poset .......


ใน Hasse diagram จุดแต่ละจุดแทนสมาชิกของ poset โดยที่เส้นที่ลากจาก x ขึ้นไปหา y
ข้างบน แทนความหมายว่า x < y และไม่มี x < z < y เครื่องหมาย < มันแทนลำดับใน
poset อะนะครับ x < y คงจะแทนความหมายว่า x มาก่อน y ด้วย
แต่ๆๆๆๆ ในรูปข้างบนเราต้อง rotate รูป 90 องศาก่อน ถึงจะมองเป็น Hasse diagram ได้
โดยที่ partial order ของ poset ในที่นี้คือ ลำดับก่อนหลังของคำที่เกิดในเอกสาร เช่น
โรค < รา, โรค < น้ำค้าง, โรค < เกิด เป็นต้น
ลำดับก่อนหลังในเอกสาร มันก็มีคุณสมบัติ reflexive antisymmetric และ transitive ด้วย?
มันก็น่าจะเอามาเป็น partial order ให้ poset ได้


poset ของเราก็น่าจะเป็น lattice ด้วย เพราะว่า หา infimum และ supremum ได้
ซึ่งได้แก้ ตัว S และ E ที่เราแอบใส่ไปนั่นเอง

สรุปว่ารูปนั้นมันก็คล้ายๆ ว่าจะเป็น diagram อะไรบางอย่างของ lattice ได้มั้ง -_-!

ป.ล. article นี้เห็นตัวอย่างชัดดี R Sproat, C Shih, W Gale, N Chang. A stochastic finite-state word-segmentation algorithm for Chinese. Computational Linguistics. 1996