Abstract
บทความนี้นำเสนอกระบวนการใหม่ของการแยกประโยคโดยใช้วิธี graph-based ranking algorithms
เราได้ทำการประเมิณวิธีที่ใช้นี้โดยเปรียบเทียบกับวิธีที่ถูกตีพิมพ์แพร่ก่อนหน้าวิธีนี้
1 Introduction
Graph-based ranking algorithm เช่น Klein-berg’s HITS algorithm (Kleinberg, 1999) หรือ Google’s PageRank (Brin and Page, 1998) ได้ถูกใช้กันอย่างแพร่หลายกับงานด้าน citation analysis, social networks,และการวิเคราะห์โครงสร้าง link ของ www
Graph-based ranking algorithm นั้นทำงานโดยการเลือกเอา vertex ที่สำคัญๆ ที่ได้จากการสร้างกราฟ โดยการคำนวนจากข้อมูลในลักษณะ recursive จากข้อมูลทั้งหมด แทนที่จะใช้เพียงการคำนวนจากข้อมูลเพียงส่วนใดส่วนหนึ่งของข้อมูลเท่านั้น
แนวความคิดลักษณะนี้ สามารถนำไปประยุกต์ใช้ในการแยกคำศัพท์ออกจาก natural language document ซึ่งผลลัพท์ที่ได้ จะอยู่ในรูปแบบ graph-based ranking model ซึ่งถูกเรียกว่า TextRank (Mihalcea and Tarau, 2004) ซึ่งถูกนำไปใช้กันอย่างแพร่หลายในแอพพลิเคชั่นประเภท natural language processing ซึ่งใช้การประมวลผลจากเนื้อหาทั้งหมดในการทำ local ranking/selection decisions เช่น วิธีการ text-oriented ranking สามารถนำไปประยุกต์เป็นวิธี tasks ranging from automated extraction of keyphrases หรือวิธี extractive summarization and word sense disambiguation(Mihalcea et al., 2004).
ในบทความนี้ เราจะพิสูจน์ทฤษฎีโดยการกำหนดขอบเขตด้วยวิธี graph-based ranking algorithms และทำการประเมินผลการแยกคำในบริบท ซึ่งเราจะแสดงให้เห็นว่าผลลัพท์ที่ได้นั้นสามารถเทียบเคียงกับวิธีที่ถูกตีพิมพ์แพร่ก่อนหน้าวิธีนี้ได้
2 Graph-Based Ranking Algorithms
2.1 HITS
2.2 Positional Power Function
2.3 PageRank
2.4 Undirected Graphs
2.5 Weighted Graphs
3 Sentence Extraction
4 Evaluation
Discussion.
5 Related Work
6 Conclusions
References
S. Brin and L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1–7).
DUC. 2002. Document understanding conference 2002. http://www.nlpir.nist.gov/projects/duc/.
P.J. Herings, G. van der Laan, and D. Talman. 2001. Measuring the powerof nodes in digraphs. Technical report, Tinbergen Institute.
J.M. Kleinberg. 1999. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632.
C.Y. Lin and E.H. Hovy. 2003a. Automatic evaluation of summaries using n-gram co-occurrence statistics. In Proceedings of Human Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May.
C.Y. Lin and E.H. Hovy. 2003b. The potential and limitations of sentence extraction for summarization. In Proceedings of the HLT/NAACL Workshop on Automatic Summarization, Edmonton, Canada, May.
R. Mihalcea and P. Tarau. 2004. TextRank – bringing order into texts.
R. Mihalcea, P. Tarau, and E. Figa. 2004. PageRank on semantic net-works, with application to word sense disambiguation. In Proceedings of the 20st International Conference on Computational Linguis-tics (COLING 2004), Geneva, Switzerland, August.
G. Salton, A. Singhal, M. Mitra, and C. Buckley. 1997. Automatic text structuring and summarization. Information Processing and Management, 2(32).
S. Teufel and M. Moens. 1997. Sentence extraction as a classification task. In ACL/EACL workshop on ”Intelligent and scalable Text summarization”, pages 58–65, Madrid, Spain.
Technical Term
- citation analysis
- social networks
- การวิเคราะห์โครงสร้าง link ของ www
- vertex
- natural language document
- graph-based ranking model
- TextRank
- local ranking/selection decisions
- text-oriented ranking
- tasks ranging
- tasks ranging from automated extraction of keyphrases
- extractive summarization and word sense disambiguation
- automatic unsupervised sentence extraction
- text summarization
- state-of-the-art systems
ไม่มีความคิดเห็น:
แสดงความคิดเห็น