Tf–idf

Dari testwiki
Loncat ke navigasi Loncat ke pencarian

Templat:Lowercase title Dalam temu balik informasi, tf–idf, TF*IDF, atau TFIDF (singkatan dari Templat:Lang-en, Templat:Lang-id) adalah ukuran statistik yang menggambarkan pentingnya suatu istilah terhadap sebuah dokumen dalam sebuah kumpulan atau korpus.[1] Ukuran ini sering dipakai sebagai faktor pembobot dalam pencarian temu balik informasi, penambangan teks, dan pemodelan pengguna. Nilai tf–idf bertambah sebanding dengan jumlah kemunculan istilah dalam dan bergantung pada jumlah dokumen dalam korpus yang memiliki istilah tersebut.

Latar belakang

Templat:Empty section

Definisi

Frekuensi istilah

Frekuensi istilah, Templat:Math, adalah frekuensi istilah Templat:Mvar,

tf(t,d)=ft,dtdft,d

dengan Templat:Math adalah pencacahan mentah istilah dalam dokumen, yaitu jumlah kemunculan istilah Templat:Mvar dalam dokumen Templat:Mvar. Semakin sering suatu istilah muncul, semakin besar nilai tf-nya. Terdapat beberapa cara untuk mendefinisikan frekuensi istilah.[2]Templat:Rp

Ragam bobot frekuensi istilah (tf)
skema bobot tf
biner Templat:Math
pencacahan mentah Templat:Math
frekuensi istilah ft,dtdft,d
penormalan log Templat:Math
penormalan ganda 0,5 0,5+0,5×ft,dmax{td}ft,d
penormalan ganda Templat:Mvar K+(1K)ft,dmax{td}ft,d

Inversi frekuensi dokumen

Inversi frekuensi dokumen, Templat:Math, adalah ukuran informasi yang diberikan oleh istilah Templat:Mvar, yaitu seberapa sering atau jarang sebuah istilah muncul dalam seluruh dokumen. Semakin jarang suatu istilah di antara dokumen, semakin besar nilai idf-nya. Nilainya adalah logaritma dari kebalikan dari jumlah dokumen yang memiliki istilah Templat:Mvar yang dibagi jumlah seluruh dokumen (Templat:Mvar),

idf(t,D)=logN|{dD:td}|

dengan himpunan Templat:Math adalah himpunan dokumen Templat:Mvar dalam Templat:Mvar yang memiliki istilah Templat:Mvar.

Grafik berbagai fungsi inversi frekuensi dokumen: baku, halus, probabilistik
Ragam bobot inversi frekuensi dokumen (idf)
skema bobot idf
basis satu Templat:Math
inversi frekuensi dokumen logNnt=logntN
halus log(N1+nt)+1
maks. log(max{td}nt1+nt)
probabilistik logNntnt
Keterangan: Templat:Math

Frekuensi istilah–inversi frekuensi dokumen

Nilai frekuensi istilah–inversi frekuensi dokumen (tf–idf) dapat dihitung dengan

Templat:Math

Nilai ini akan besar ketika istilah tersebut sering muncul (tf besar), tetapi hanya dalam sedikit dokumen (idf besar atau df kecil). Nilai ini biasanya membuang istilah-istilah umum.

Skema tf-idf yang disarankan
skema bobot istilah dokumen (Templat:Mvar) bobot istilah kueri (Templat:Mvar)
1 ft,dlogNnt (0,5+0,5×ft,qmaxtft,q)×logNnt
2 Templat:Math log(1+Nnt)
3 (1+logft,d)×logNnt (1+logft,q)×logNnt

Peran idf

Nilai idf dikenalkan sebagai "kekhasan istilah" oleh Karen Spärck Jones dalam sebuah makalah tahun 1972. Meski ia bekerja dengan baik sebagai heuristik, dasar-dasar teoretisnya telah menjadi masalah setidaknya selama tiga puluh tahun. Para peneliti mencoba untuk mencari alasannya secara teoretis informasi.[3]

Penjelasan dari Spärck Jones sendiri tidak terlalu mengajukan banyak teori selain hubungannya dengan hukum Zipf.[3] Beberapa upaya telah dilakukan untuk menempatkan idf dalam bidang probabilistik dengan memperkirakan probabilitas[4] bahwa dokumen Templat:Mvar memiliki istilah Templat:Mvar sebagai frekuensi relatif dokumen,

P(t|D)=|{dD:td}|N,

sehingga kita bisa mendefinisikan idf sebagai berikut.

idf=logP(t|D)=log1P(t|D)=logN|{dD:td}|

Dengan kata lain, inversi frekuensi dokumen adalah logaritma dari "inversi" frekuensi dokumen relatif.

Penafsiran probabilistik ini memakai bentuk yang sama dengan isi informasi. Namun, penerapan cara pandang informasi-teoretis ke permasalahan dalam temu balik informasi menyebabkan masalah ketika mencoba untuk mendefinisikan ruang sampel untuk sebaran probabilitas: tidak hanya dokumen yang harus diperhatikan, tetapi juga kueri dan istilah.[3]

Kaitan dengan teori informasi

Templat:Empty section

Contoh tf–idf

Misalkan terdapat tabel jumlah istilah dalam korpus yang berisi dua dokumen seperti tabel-tabel di samping.

Dokumen 2
Istilah Jumlah
ini 1
adalah 1
contoh 3
lainnya 2
Dokumen 1
Istilah Jumlah
ini 1
adalah 1
sebuah 2
sampel 1

Untuk menghitung tf–idf istilah ini, dapat dilakukan langkah-langkah berikut.

Dalam bentuk frekuensi mentahnya, tf hanyalah frekuensi istilah ini dalam tiap dokumen. Dalam tiap dokumen, istilah ini sama-sama muncul sekali. Namun, karena dokumen 2 punya lebih banyak kata, frekuensi relatifnya lebih kecil.

tf('𝗂𝗇𝗂,d1)=15=0,2
tf('𝗂𝗇𝗂,d2)=170,14

Nilai idf bersifat tetap per korpus dan bergantung pada jumlah dokumen yang memiliki istilah ini. Dalam kasus ini, kita memiliki korpus yang semua dokumennya memiliki istilah ini.

idf('𝗂𝗇𝗂,D)=log(22)=0

Jadi, nilai tf–idf istilah ini adalah nol yang berarti bahwa istilah ini tidak terlalu bermakna karena muncul dalam seluruh dokumen.

tfidf('𝗂𝗇𝗂,d1,D)=0,2×0=0
tfidf('𝗂𝗇𝗂,d2,D)=0,14×0=0

Contoh lainnya, istilah contoh muncul tiga kali, tetapi hanya dalam dokumen 2.

tf('𝖼𝗈𝗇𝗍𝗈𝗁,d1)=05=0
tf('𝖼𝗈𝗇𝗍𝗈𝗁,d2)=370,429
idf('𝖼𝗈𝗇𝗍𝗈𝗁,D)=log(21)=0,301

Terakhir,

tfidf('𝖼𝗈𝗇𝗍𝗈𝗁,d1,D)=tf('𝖼𝗈𝗇𝗍𝗈𝗁,d1)×idf('𝖼𝗈𝗇𝗍𝗈𝗁,D)=0×0,301=0
tfidf('𝖼𝗈𝗇𝗍𝗈𝗁,d2,D)=tf('𝖼𝗈𝗇𝗍𝗈𝗁,d2)×idf('𝖼𝗈𝗇𝗍𝗈𝗁,D)=0,429×0,3010,129

Penggunaan lain

Konsep tf–idf juga dipakai untuk hal selain istilah. Pada tahun 1998, konsep idf dipakai untuk sitasi.[5] Peneliti tersebut mengusulkan bahwa, bila sitasi yang jarang dipakai itu dipakai oleh dua dokumen berbeda, ia harus berbobot lebih tinggi daripada sitasi yang dipakai oleh banyak dokumen. Selain itu, tf–idf juga diterapkan untuk "kata visual" dengan tujuan untuk mencocokan objek dalam video[6] dan kalimat lengkap.[7]

Namun, konsep tf–idf tidak terbukti lebih efektif daripada hanya tf (tanpa idf) untuk semua kasus. Ketika tf–idf diterapkan untuk sitasi, para peneliti tidak menemukan peningkatan kinerja dibanding pencacahan-sitasi sederhana yang tidak memakai komponen idf.[8]

Turunan

Ada beberapa skema pembobotan istilah yang dikembangkan dari tf–idf. Salah satunya adalah TF–PDF (frekuensi istilah–frekuensi dokumen seimbang).[9] TF–PDF dikenalkan pada tahun 2001 dalam konteks pengidentifikasi topik baru di media. Komponen PDF mengukur perbedaan jumlah kemunculan sebuah istilah dalam berbagai bidang.

Skema lainnya adalah TF–IDuF. Dalam TF–IDuF, nilai idf tidak dihitung berdasarkan korpus yang akan dicari, tetapi dihitung dari kumpulan dokumen pribadi pengguna.[10] Penulis tersebut melaporkan bahwa TF–IDuF hampir seefektif tf–idf, tetapi juga bisa dipakai dalam keadaan semisal tiada akses ke korpus dokumen global.

Lihat pula

Templat:Div col

Templat:Div col end

Daftar pustaka

Referensi

Templat:Reflist