Tag

,

Text summarization adalah salah satu cabang dari information extraction, metode ini meringkas dokumen teks digital secara otomatis. Metode ini merupakan cara efektif untuk mendapat informasi dari data digital yang dewasa ini semakin membludak. Pasti kita malas klo harus baca keseluruhan dokumen untuk mendapat ide utama dari dokumen itu. Semua pekerjaan yang monoton itu akan dilakukan oleh text summarizer dan hasilnya hanya setengah atau sepertiga dari dokumen aslinya (ada juga yg berupa keyword). Ada 2 pendekatan dalam text summarization ini, NLP (Natural Language Processing) dan IR (Information Retrieval), sebagian besar digunakan IR karena kecepatan komputasinya dibandingkan NLP, lagipula perkembangan NLP belum begitu pesat dan signifikan. IR lebih banyak menggunakan statistik sedangkan NLP menggunakan analisis semantik. Ada 2 cara dalam meringkas yaitu abstraction dan extraction, abstraction dilakukan oleh manusia untuk menggabungkan konsep, mis. apel, jeruk, mangga, jambu ->buah-buahan, sedangkan extraction hanya mereduksi jumlah kata mis. hanya mengambil kata yang penting saja. Saat ini lebih banyak dilakukan extraction karena kemudahannya dibandingkan abstraction (biasanya menggunakan WordNet).

Di Indonesia sendiri topik ini belum mendapat perhatian, sedangkan di Amerika topik ini sudah mulai ramai jadi bahan penelitian sejak tahun 50-an. Contoh aplikasinya sudah bervariasi dari single-document sampai multi-document, domain-independent sampai domain-dependent, dan sudah pula yang dapat diterapkan pada multi-language document contohnya SUMMARIST. Saat ini topik ini masih jadi bahan penelitian dan akan terus-menerus mengalami perbaikan, antara lain dengan menggabungkan beberapa metode IR dan NLP juga machine learning.

Saya pikir topik ini menarik dan mungkin bisa menjadi inspirasi bagi para pembaca. Saya sendiri mengambil topik ini untuk Tugas Akhir dan saya mengambil pendekatan IR dengan metode sentence compression, yaitu mereduksi panjang kalimat.