Lesson learned from TA

Setelah diselingi beberapa (sok gaya, padahal cuman 2 :p) proyek, TA saya mengalami beberapa kemajuan (tapi lambat kayak siput). TA saya mengambil topik Text Summarization, salah satu bidang aplikasi NLP, metode yang dipake Sentence Compression dengan Noisy-Channel Model. Text Summarization itu intinya meringkas teks (bisa lihat post saya sebelumnya ‘Mau tau soal Text Summarization?’), klo Sentence Compression itu memotong kata pada level kalimat sehingga yang tertinggal itu cuma yang pentingnya aja, syaratnya kata-kata penyusun diambil dari kalimat asal (ga ada yang ditambahin), urutan kata tetap dan kata-kata itu harus penting dan tetap gramatikal. Cara kerja NCM itu menganggap kalimat panjang = kalimat pendek + noise, tugas utamanya itu membuang noise sehingga kalimat pendek dapat ditemukan, framework NCM itu pake probabilistik. Noisy Channel Model itu punya 3 model yaitu:

  1. Source Model, memberi nilai probabilitas untuk string pendek P(s), faktor penyusun source model itu PCFG dan bigram (bentuk khusus n-gram atau 2-gram).
  2. Channel Model, memberi nilai probabilitas untuk setiap string pendek s yang mungkin diperluas menjadi string panjang t, P(t|s).
  3. Decoding, mencari string pendek yang memaksimalkan nilai P(s|t) ekivalen P(s).P(t|s), dengan kata lain pake Bayes Rule.

Klo mekanisme detilnya gak akan saya tulis disini hehe :p.
Oya sebelumnya mau cerita dulu gimana caranya dapet corpus (data training), jadi pas saya baca paper referensi utama TA saya, si penulis eksperimen pake Ziff Davis corpus. Setelah saya cari di internet ternyata susah banget dapetnya klopun ada gak ada yang gratis😐. Akhirnya saya pun coba-coba email si penulis (Mr.Knight and Mr.Marcu) and guess what? they gave the corpus right away!!. Ziff Davis corpus hari itu sudah di tangan plus hasil eksperimen paper kedua bule itu dengan Noisy-Channel Model (alhamdulillah and thank you for both Mr.Knight and Mr.Marcu :D). Selama pengembangan klo ada kesulitan saya email aja Mr.Knight dan biasanya di-reply hari itu juga, kayaknya dipermudah banget (alhamdulillah), Pak Dwi (pembimbing), Bu Masayu (penguji) dan Bu Ayu (dosen IF tempat saya konsultasi soal NLP) juga banyak banget bantuin TA saya (makasih banyak….hehe). Berhubung memang TA saya belum ada yang pernah bikin dan state of the art Text Summarization, jadi emang butuh banyak bantuan sesepuh hehe :p.

Saya beruntung soalnya tiap nemu masalah, selalu dapet solusi gak lama setelahnya. Setelah dilakukan eksperimen ke corpus Ziff-Davis (yang berisi pasangan summary buatan manusia dan teks mengenai produk penjualan komputer), saya pun membandingkan hasilnya dengan hasil eksperimen paper yang dikasih kedua profesor bule itu, dan lagi-lagi saya diberi kemudahan hasilnya sebagian besar sama. Memang ada yang berbeda soalnya di paper mereka pake data Penn Tree bank yang harus dibeli dan kita disini gak sanggup bayar ($500 per CD). Walau eksperimen dah dibikin, TA belum bisa dibilang beres karena masih harus bungkus-bungkus dan yang paling bikin males…..buku TA hiks. Banyak pelajaran yang diambil selama TA ini antara lain:

  1. Melatih kesadaran diri, karena gak ada deadline pasti semua itu tergantung kita mo cepet atau lambat.
  2. Belajar teknik menulis ilmiah, nah ini dia karena saya kena batunya banget, slama ini klo laporan slalu minimalis :p
  3. Jadi aware soal penelitian di univ-univ luar negeri dan salut ama profesor-profesor mereka yang antusias dalam menjawab keingintahuan kita dan bersedia membantu (walau kita cuman mahasiswa dari negeri antah berantah hahaha :p).
  4. Jadi sadar klo etos meneliti di Indonesia khususnya ITB masih belum ada apa-apanya klo dibandingkan ama univ di luar negeri, buktinya text summarization di luar negeri dah jadi topik penelitian dari puluhan tahun yang lalu dan menghasilkan teknik-teknik yang makin sekarang makin canggih sedangkan di ITB kayaknya baru jadi wacana dan baru sekarang2 jadi topik penelitian.

to be continued…(dilanjutin klo dah mo lulus hahaha:D)

4 Komentar

Filed under Pengalaman

4 responses to “Lesson learned from TA

  1. nomer 4 : umur IF juga kan masih muda mi, dan rata-rata dosennya lagi pada studi lanjut atau baru pulang. selama foundernya yang aktif pun tinggal sedikit. lainnya lagi, alumni S1 IF jarang yang mau lanjut ke S2 IF bwt ngelanjutin riset bersama dosen. jadi selama ini di IF memang yang banyaknya baru S1 saja.

  2. miakamayani

    Iya juga sih, mungkin mahasiswa IF dikit yang tau soal riset dosen2 di IF, saya pun baru tau pas mau lulus haha

  3. pemula

    permisi mba,,
    saya mahasiswa yg ingin mengambil skripsi mengenai text summarization.
    saya ada sedikit kesulitan mengenai algoritma yg akan digunakan.
    kira2 algoritma apa saja yg bisa digunakan utk text menerapkan text summarization tersebut ?

    • miakamayani

      waduh algoritma mah banyak banget (saya juga gak hapal),,mending cari-cari dulu sendiri terus pilih satu yang menurut kamu prospektif :p. Saya sendiri pake Noisy-Channel Model, tapi ntah sekarang udah ada yang lebih canggih atau belum. Maaf cuma bisa bantu segini…

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s