วันจันทร์ที่ 12 ตุลาคม พ.ศ. 2552





โครงการเทคโนโลยีร้อยสัมพันธ์ข่าวบนเว็บ
สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์

ปัจจุบันอินเทอร์เน็ตเป็นเครื่องมือที่ใช้แพร่หลายในการเผยแพร่ข้อมูลข่าวสาร ตัวอย่างที่น่าสนใจอันหนึ่งก็คือ การเผยแพร่ข้อมูลข่าวออนไลน์ของสำนักพิมพ์ต่างๆบนอินเทอร์เน็ต โดยเนื้อหาข่าวเหล่านี้มีประโยชน์มากในการทำให้เรารู้ถึงสถานการณ์ปัจจุบันในสังคมของเรา อย่างไรก็ตามเพื่อให้เราสามารถใช้เนื้อหาข้อมูลได้อย่างมีประสิทธิภาพและประสิทธิผลนั้น เราจำเป็นต้องจัดการกับปัญหาต่างๆ เช่น ปัญหาแรกคือการที่เรามีข่าวออนไลน์มากมาย แต่เรามักจะไม่มีเวลามาอ่านข่าวพวกนี้ ปัญหาที่สองคือ ข่าวแต่ละชิ้นอาจจะไม่สมบูรณ์ในเนื้อหา ไม่ชัดเจนหรือไม่ถูกต้อง ทำให้เราเข้าใจสถานการณ์ผิดได้ ปัญหาที่สามคือ มันยากสำหรับเราที่จะจับความสัมพันธ์ระหว่างข่าวต่างๆทีมีความเกี่ยวข้องกัน เพราะข่าวพวกนี้บางครั้งถูกนำเสนอแยกๆกันโดยปราศจากความสัมพันธ์ หรือถ้ามีก็เป็นความสัมพันธ์ที่เกิดจากคนใส่ให้ด้วยมือ ปัญหาที่สี่คือ ปัจจุบันยังไม่มีวิธีการที่จะสรุปสถานการณ์ที่เกี่ยวข้องกับหัวข้อที่เราสนใจ เช่น สรุปเกี่ยวกับบุคคลคนหนึ่งที่เราสนใจหรือสรุปเกี่ยวกับสถานที่แห่งหนึ่งที่เราสนใจ เป็นต้น ในงานวิจัยและพัฒนานี้เราได้นำเสนอกรอบวิธีการ ในการนำเอาเทคโนโลยีปัญญาประดิษฐ์ (artificial intelligence) โดยเฉพาะการทำเหมืองข้อความ (text mining) มาใช้ในการสร้างชุดเครื่องมือที่ช่วยเราได้สารสนเทศได้รวดเร็วจากข่าวจำนวนมหาศาล
หัวข้อวิจัย 3 อย่างในโครงการนี้คือ (1) การนำเสนอเทคนิคในการจัดเก็บข่าวในรูปแบบโครงสร้างที่เป็นมาตรฐาน, (2) การศึกษาวิธีการสกัดข้อสารสนเทศโดยสกัดเอาส่วนที่เป็นใจความสำคัญออกจากเนื้อความ, (3) การนำเสนอวิธีการทางสถิติและวิธีการเรียนรู้ของเครื่องจักร (machine learning) มาค้นพบความสัมพันธ์ที่แฝงอยู่ระหว่างข่าวชิ้นต่างๆ หรือ เอ็นทิตี (entities) ต่างๆ โดยในหัวข้อวิจัยแรก เราได้พัฒนามาตรฐานการจัดเก็บข้อมูลเพื่อให้เก็บข้อมูลข่าวในลักษณะโครงสร้างเพื่อเพิ่มประสิทธิภาพของการดึงข้อมูลมาใช้ ในหัวข้อวิจัยที่สอง เราได้นำวิธีการใช้กฏหรือวิธีการเชิงสถิติ มาใช้ในการสกัดดึงเอ็นทิตีที่เป็นใจความสำคัญ ได้แก่ บุคคล สถานที่ องค์กร วันเวลา การกระทำ ออกจากเนื้อความ นอกจากนี้ได้ทำการศึกษาการตรวจจับหาคำที่ไม่อยู่ในพจนานุกรมออกมาอย่างอัตโนมัติ ส่วนในหัวข้อที่สามนั้น เราได้ศึกษาวิธีการค้นหาความสัมพันธ์ระหว่างข่าวชิ้นต่างๆ หาความสัมพันธ์ระหว่างเอ็นทิตี และประเมินคุณภาพของความสัมพันธืที่ค้นพบ วิธีการที่นำเสนอในงานวิจัยนี้สามารถนำไปประยุกต์ใช้ในการหาความสัมพันธ์ระหว่างข่าวเหมือนในหลายแหล่ง แล้วทำการหาส่วนที่เหมือน ส่วนที่ต่างกัน ส่วนที่เสริม และส่วนมี่แย้งกันระหว่างข่าวสองชิ้น เราสามารถนำข้อมูลเหล่านี้มาใช้ในระบบย่อความข่าวที่ได้จากหลายแหล่งข้อมูลได้อย่างมีประสิทธภาพและประสิทธิผล เพื่อหาความสัมพันธ์ที่ซ่อนอยู่ในข่าวเหล่านั้น
ปัจจุบันระบบของเรา (URL: allnews.in.th) มีฟังก์ชั่นงานหลักอยู่ 3 อย่างคือ (1) การแสดงคำสำคัญในข่าว, (2) การแสดงระดับความสำคัญของข่าวแต่ละชิ้น, (3) การแสดงความสัมพันธ์ระหว่างข่าว โดยระบบได้ออกแบบมาจัดการกับข่าวจาก 24 สำนักพิมพ์ ได้แก่ เดลินิวส์ (www.dailynews.co.th), ข่าวสด (www.khaosod.co.th), ประชาชาติ (www.prachachat.net), มติชนออนไลน์ Matichon (www.matichon.co.th), ไทยรัฐ (www.thairath.co.th) เป็นต้น และได้เน้นข่าวใน 10 หมวดใหญ่คือ การเมือง เศรษฐกิจ การศึกษา บันเทิง กีฬา ต่างประเทศ วิทยาการไอที อาชญากรรม ภูมิภาค อื่นๆ ปัจจุบัน ระบบได้เปิดให้บริการที่ allnews.in.th ในหน้าแรกจะแสดงข่าวเด่นประจำวัน และข่าวที่เด่นในแต่ละหมวด นอกจากนี้สำหรับแต่ละข่าว เราได้ใส่รายการข่าวที่เหมือนกัน คล้ายกันอยู่หลังย่อความของข่าวนั้นๆ ทางซ้ายมือจะมีคำสำคัญที่เด่นในช่วงเวลานั้นๆ โดยขนาดตัวอักษรที่แสดงจะใหญ่เล็กตามระดับความสำคัญ
ในอนาคตอันใกล้ เราวางแผนที่จะใส่ฟังก์ชันในการสรุปความ การหาความต่างและความเหมือนระหว่างข่าว การแสดงการเปลี่ยนแปลงวิวัฒนาการของสถานะการณ์ข่าว และอินเทอร์เฟสที่สะดวกง่ายมากกว่าระบบปัจจุบัน


รูปที่ 1: ข่าวเด่นประจำวันนี้

รูปที่ 2: ข่าวและข่าวที่เกี่ยวข้อง

รูปที่ 3: รายการคำเน็มเอ็นทิตีที่สำคัญในลักษณะก้อนเมฆ

สถานที่ติดต่อ

สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์


ชื่อโครงการ

โครงการเทคโนโลยีร้อยสัมพันธ์ข่าวบนเว็บ
สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์
ลักษณะโครงการ
โครงการวิจัยและพัฒนาที่อยู่ระหว่างการดำเนินการ
คณะวิจัยคือ อาจารย์และนักศึกษาในภาควิชาเทคโนโลยีสารสนเทศ คอมพิวเตอร์และการสื่อสาร และนักวิจัยจากบริษัท Thoth Media
URL ของโครงการ
http://allnews.in.th/





ผู้ประสานงาน
รศ. ดร. ธนารักษ์ ธีระมั่นคง
นางสาวณิชนันทน์ กิตติพัฒนบวร
นายณัฐพงศ์ ทองเทพ
สถาบันเทคโนโลยีนานาชาติสิรินธร, ศูนย์บางกะดี
131 หมู่ 5, ถนนติวานนท์, สวนอุตสาหกรรมบางกะดี ต. บางกะดี
อ.เมือง จ. ปทุมธานี 12000
โทรศัพท์. +66 (0) 2501 3505-20 (ต่อ 2004, 2002, 2012)
โทรสาร: +66 (0) 2501 3524
อีเมล: thanaruk@siit.tu.ac.th

ไม่มีความคิดเห็น:

แสดงความคิดเห็น