Pernahkan kita mendengar executive summary? Laporan tahunan yang memilik ribuan halaman yang membuat buku laporan bisa untuk ngebunuh anjing dapat diringkas menjadi satu lembar. Namun, lembaran tersebut tidak mengurangi makna dari laporan tersebut. Itulah yang dimaksud dengan ringkasan atau summarization. Di dalam search engine, para pengembang sistem pencarian menggunakan metode ini untuk memberikan ilustrasi dari dokumen yang menjadi hasil query.
Pada text summarization, terdapat dua paradigma: Abstraksi dan Ringkasan. Ringkasan merujuk kepada kalimat-kalimat penting pada dokumen yang kemudian kalimat-kalimat tersebut drangkai menjadi suatu cerita. Abstraksi adalah perumusan kalimat atau beberapa kalimat yang dibuat berdasarkan pemikiran dari penulis. Abstraksi berbentuk hampir sama dengan resume sehingga kita akan memahami isi dari dokumen tanpa harus membaca secara keseluruhan. Antara ringkasan dan abstraksi, metode ringkasan lebih mudah karena kita dapat membuat ringkasan dari pembobotan kalimat secara statistik sedangkan metode abstraksi sulit dilakukan karena menggunakan metode sematik atau memahami maksud dari makna dokumen. Penelitian tentang abstraksi sedang ditekuni di beberapa topik penelitian salah satunya Knowledge Graph. Well, saya tidak akan fokus di bidang abstraksi, karena pembahasannya akan sangat panjang. hhe.
Pada peringkasan, hal pertama yang harus dilakukan adalah melakukan parsing kalimat. Hal ini penting karena kita ingin menampilkan kalimat mana saja yang mewakili suatu paragraf. Pemarsingan pada kalimat tidaklah mudah. Ada beberapa pertimbangan dalam memparsing kalimat seperti tanda titik, koma, dan sebagainya. Setelah melakukan parsing, dilakukan pembobotan terhadap kalimat yang telah diparsing. Untuk metode pembobotan, belum ada kaidah yang baku dan paling bagus. Salah satunya Linear Feature Combination.
W(u) = α.Location(u) + β.Phrase(u) + γ.Theme(u) + δ. Term(u) + . . .
w(u) adalah bobot untuk kalimat ke-u. Nilai α, β, γ, dan δ serta Location(u), Phrase(u) ditentukan oleh developer. Google memiliki nilai-nilai α, β, γ, dan δ sendiri yang dirahasiakan. Istilahnya mah, kombinasi nilai tersebut adalah resep dapur dari Google. Berapa banyak parameter yang digunakan pun tidak ada aturan yang baku. So, yang masih mau penelitian di bidang ini, masih ada ruang dan peluang yang besar koq.
Text summarization termasuk kedalam golongan supervised sehingga ia membutuhkan data training. Tujuannya adalah untuk menentukan nilai alpha, beta, gamma, dan delta. Data training yang digunakan adalah pasangan dokumen dengan ringakasan dokumen yang telah dianggap benar. Penentuan nilai tersebut dapat menggunakan regresi linear.
contoh:
Kalimat:
Ancaman krisis pangan sudah di depan mata dan bakal dirasakan rakyat bila pemerintah tidak segera turun tangan untuk memperbaiki
sektor pertanian yang juga mengalami krisis. Tanda akan krisis pangan sudah tampak dan diungkapkan Jafar Hasnah dalam acara sosialisasi program perluasan areal tanam tahun 2004 di Balikpapan. Salah satu ancaman bagi stabilitas pangan nasional, antara lain,
adalah semakin menyempitnya lahan pertanian akibat alih fungsi untuk perumahan dan tempat usaha lain, seperti pabrik dan
pergudangan. Selain itu, irigasi pertanian di berbagai daerah semakin tidak mendapat perhatian dalam hal perawatan sehingga di sana-sini retak, bocor, dan tidak lagi efektif untuk mengalirkan air ke petak-petak areal pertanian.
Tabel menunjukkan banyaknya dokumen yang mengandung kata. Misalkan N=1000 dokumen. Ringkas menjadi 2 kalimat dengan pembobotan TF.IDF. Maka isi tabel berikut adalah
| term | df | idf | TF | TF.IDF | ||||||
| S1 | S2 | S3 | S4 | S1 | S2 | S3 | S4 | |||
| ancama | 20 | 1.69897 | 1 | 0 | 1 | 0 | 1.69897 | 0 | 1.69897 | 0 |
| krsi | 25 | 1.60206 | 2 | 1 | 0 | 0 | 3.20412 | 1.60206 | 0 | 0 |
| pangan | 15 | 1.823909 | 1 | 1 | 1 | 0 | 1.823909 | 1.823909 | 1.823909 | 0 |
| pertanian | 100 | 1 | 1 | 0 | 1 | 2 | 1 | 0 | 1 | 2 |
| stabilitas | 10 | 2 | 0 | 0 | 1 | 0 | 0 | 0 | 2 | 0 |
| alih fungsi | 10 | 2 | 0 | 0 | 1 | 0 | 0 | 0 | 2 | 0 |
| perumahan | 15 | 1.823909 | 0 | 0 | 1 | 0 | 0 | 0 | 1.823909 | 0 |
| pabrik | 5 | 2.30103 | 0 | 0 | 1 | 0 | 0 | 0 | 2.30103 | 0 |
| gudang | 5 | 2.30103 | 0 | 0 | 1 | 0 | 0 | 0 | 2.30103 | 0 |
| 7.726999 | 3.425969 | 14.94885 | 2 | |||||||
karena S3 memiliki nilai paling tinggi, maka ringaksan adalah menggunakan kalimat ke-3. Jika ingin ada dua kalimat yang digunakan dalam ringkasan, maka kalimat 3 dan kalimat 1 yang digunakan. Namun, penulisan tetap harus berurutan agar logika kalimat tetap terjaga. hhe