Lokalisasi suara 3D

Dari testwiki
Loncat ke navigasi Loncat ke pencarian

Lokalisasi suara 3D mengacu pada teknologi akustik yang digunakan untuk menemukan sumber suara dalam ruang tiga dimensi. Lokasi sumber biasanya ditentukan oleh arah gelombang suara yang masuk (sudut horizontal dan vertikal) dan jarak antara sumber dan sensor. Ini melibatkan desain pengaturan struktur sensor dan teknik pemrosesan sinyal.

Sebagian besar mamalia (termasuk manusia) menggunakan pendengaran binaural untuk melokalisasi suara, dengan membandingkan informasi yang diterima dari masing-masing telinga dalam proses kompleks yang melibatkan sejumlah besar sintesis. Sulit untuk melokalisasi menggunakan pendengaran monaural, terutama dalam ruang 3D.

Teknologi

Teknologi lokalisasi suara digunakan dalam beberapa bidang audio dan akustik, seperti alat bantu dengar, pengawasan[1] dan navigasi. Sistem lokalisasi suara pasif waktu nyata yang ada sebagian besar didasarkan pada pendekatan perbedaan waktu kedatangan (TDOA), membatasi lokalisasi suara ke ruang dua dimensi, dan tidak praktis dalam kondisi bising.

Aplikasi

Mengumpulkan data sonar multibeam

Aplikasi lokalisasi sumber suara meliputi pemisahan sumber suara, pelacakan sumber suara, dan peningkatan ucapan. Sonar menggunakan teknik lokalisasi sumber suara untuk mengidentifikasi lokasi target. Lokalisasi suara 3D juga digunakan untuk interaksi manusia-robot yang efektif. Dengan meningkatnya permintaan pendengaran robot, beberapa aplikasi lokalisasi suara 3D seperti antarmuka manusia-mesin, bantuan bagi penyandang disabilitas dan aplikasi militer sedang dieksplorasi.[2]

Isyarat untuk lokalisasi suara

Isyarat lokalisasi[3] adalah fitur yang membantu melokalisasi suara. Isyarat untuk lokalisasi suara meliputi Isyarat binaural dan monoaural.

  • Isyarat monoaural dapat diperoleh melalui analisis spektral dan umumnya digunakan dalam lokalisasi vertikal
  • Isyarat binaural dihasilkan oleh perbedaan pendengaran antara telinga kiri dan kanan. Perbedaan ini meliputi perbedaan waktu interaural (ITD) dan perbedaan intensitas interaural (IID). Isyarat binaural sebagian besar digunakan untuk lokalisasi horizontal.

Bagaimana cara melokalisasi suara?

Isyarat pertama yang digunakan pendengaran adalah perbedaan waktu interaural. Suara dari sumber yang berada tepat di depan atau di belakang akan tiba secara bersamaan di kedua telinga. Jika sumber bergerak ke kiri atau kanan, telinga menangkap suara dari sumber yang sama yang tiba di kedua telinga - tetapi dengan penundaan tertentu. Cara lain untuk mengatakannya adalah, bahwa kedua telinga menangkap fase yang berbeda dari sinyal yang sama.[4]

Metode

Ada banyak metode berbeda untuk melokalisasi suara 3D. Misalnya:

Pendekatan Beamformer Terarah

Pendekatan ini menggunakan delapan mikrofon yang dikombinasikan dengan beamformer yang dikendalikan yang ditingkatkan oleh Reliability Weighted Phase Transform (RWPHAT). Hasil akhir disaring melalui filter partikel yang melacak sumber dan mencegah arah yang salah.

Motivasi penggunaan metode ini adalah berdasarkan penelitian sebelumnya. Metode ini digunakan untuk pelacakan dan pelokalan beberapa sumber suara, sedangkan soundtracking dan pelokalan hanya berlaku untuk satu sumber suara.

Lokalisasi Suara Berbasis Beamformer

Untuk memaksimalkan energi keluaran beamformer delay-and-sum guna menemukan nilai maksimum keluaran beamformer yang diarahkan ke semua arah yang memungkinkan. Dengan menggunakan metode Reliability Weighted Phase Transform (RWPHAT), Energi keluaran beamformer delay-and-sum M-mikrofon adalah

E=K+2m1=1M1m2=0m11RRWPHATi,j(τm1τm2)

Dimana E menunjukkan energi, dan K adalah konstanta, RRWPHATi,j(τm1τm2) adalah korelasi silang pasangan mikrofon yang didefinisikan oleh Reliability Weighted Phase Transform:

RRWPHATi,j(τ)=k=0L1ζi(k)Xi(k)ζj(k)Xj*(k)|Xi(k)||Xj(k)|ej2πkτ/L

faktor tertimbang ζni(k) mencerminkan keandalan setiap komponen frekuensi, dan didefinisikan sebagai penguatan Filter Wiener ζni(k)=ξni(k)ξni(k)+1, dimana ξni(k) adalah perkiraan SNR sebelumnya di ith mikrofon, pada kerangka waktu n untuk frekuensi k, dihitung menggunakan pendekatan yang diarahkan pada keputusan.[8]

xmn adalah sinyal dari mth mikrofon dan τmn adalah penundaan kedatangan mikrofon tersebut. Prosedur yang lebih spesifik dari metode ini diusulkan oleh Valin dan Michaud.[9]

Keuntungan metode ini adalah mendeteksi arah suara dan memperoleh jarak sumber suara. Kelemahan utama pendekatan beamforming adalah sifat akurasi dan kemampuan lokalisasi suara yang tidak sempurna dibandingkan dengan pendekatan jaringan saraf yang menggunakan pengeras suara yang bergerak.

Pendekatan Susunan Mikrofon Kolokasi

Metode ini berkaitan dengan teknik pelokalan suara Real-Time yang memanfaatkan rangkaian Acoustic Vector Sensor (AVS), yang mengukur ketiga komponen kecepatan partikel akustik serta tekanan suara, tidak seperti rangkaian sensor akustik konvensional yang hanya memanfaatkan informasi tekanan dan penundaan dalam medan akustik yang merambat. Dengan memanfaatkan informasi tambahan ini, rangkaian AVS mampu meningkatkan akurasi pelokalan sumber secara signifikan.

Susunan Vektor Akustik

  • Berisi tiga sensor kecepatan partikel akustik yang ditempatkan secara ortogonal (ditunjukkan sebagai susunan X, Y, dan Z) dan satu mikrofon akustik omnidirectional (O).
  • Umumnya digunakan di udara[10] dan di bawah air.
  • Dapat digunakan dalam kombinasi dengan Proses Kalibrasi Offline[11] untuk mengukur dan menginterpolasi respons impuls dari array X, Y, Z dan O, untuk mendapatkan vektor pengarahnya.

Sinyal suara pertama-tama dijendelakan menggunakan jendela persegi panjang, kemudian setiap sinyal segmen yang dihasilkan dibuat sebagai bingkai. 4 bingkai paralel dideteksi dari array XYZO dan digunakan untuk estimasi DOA. 4 bingkai dibagi menjadi blok-blok kecil dengan ukuran yang sama, kemudian jendela Hamming dan FFT digunakan untuk mengubah setiap blok dari domain waktu ke domain frekuensi. Kemudian keluaran sistem ini direpresentasikan oleh sudut horizontal dan sudut vertikal sumber suara yang ditemukan oleh puncak dalam spektrum spasial 3D gabungan.

Keunggulan dari susunan ini, dibandingkan dengan susunan mikrofon sebelumnya adalah bahwa perangkat ini memiliki kinerja tinggi bahkan jika aperture-nya kecil dan dapat melokalisasi beberapa sumber suara pita lebar [[frekuensi rendah dan frekuensi tinggi secara bersamaan. Penerapan susunan O dapat menyediakan informasi akustik yang lebih banyak, seperti amplitudo dan perbedaan waktu. Yang terpenting, susunan XYZO memiliki kinerja yang lebih baik dengan ukuran yang sangat kecil.

AVS merupakan salah satu jenis susunan mikrofon jamak yang terkolokasi, yang memanfaatkan pendekatan susunan mikrofon jamak untuk memperkirakan arah suara dari beberapa susunan dan kemudian menemukan lokasinya dengan menggunakan informasi pantulan, misalnya arah yang dideteksi saat susunan yang berbeda bersilangan.

Motivasi dari rangkaian Mikrofon Canggih

Pantulan suara selalu terjadi di lingkungan nyata dan susunan mikrofon[12] tidak dapat menghindari pengamatan pantulan tersebut. Pendekatan susunan mikrofon ini diuji menggunakan susunan mikrofon tetap di langit-langit; kinerja pada skenario bergerak masih perlu diuji.

Mempelajari cara menerapkan Multiple Microphone Array

Ketidakpastian sudut (AU) akan terjadi saat memperkirakan arah, dan ketidakpastian posisi (PU) juga akan bertambah buruk seiring bertambahnya jarak antara array dan sumber. Diketahui bahwa:

PU(r)=±AU360×2π×r

Di mana r adalah jarak antara pusat array ke sumber, dan AU adalah ketidakpastian sudut. Pengukuran digunakan untuk menilai apakah dua arah bersilangan di suatu lokasi atau tidak. Jarak minimum antara dua garis:

Di mana dir1 dan dir2 adalah dua arah, vi adalah vektor yang sejajar dengan arah yang terdeteksi, dan pi adalah posisi array.

Jika

dist(dir1,dir2)<abs(PU1(r1))+abs(PU2(r2))

Dua garis dianggap bersilangan. Ketika dua garis bersilangan, dapat dihitung lokasi sumber suara menggunakan rumus berikut:

POSsource=(POS1×w1+POS2×w2)w1+w2

POSsource adalah estimasi posisi sumber suara, POSn adalah posisi dimana setiap arah memotong garis dengan jarak minimum, dan wn adalah faktor-faktor yang tertimbang. Karena faktor pembobotan wn untuk menentukan penggunaan PU atau r dari array ke garis dengan jarak minimum.

Teknik Pemindaian

Lokalisasi suara 3D kompresor besar[13]

Teknik berbasis pemindaian merupakan alat yang ampuh untuk melokalisasi dan memvisualisasikan sumber suara yang tidak bergerak karena hanya memerlukan penggunaan satu sensor dan sistem pelacakan posisi. Salah satu metode populer untuk mencapainya adalah melalui penggunaan Acoustic Vector Sensor (AVS), yang juga dikenal sebagai 3D Sound Intensity Probe, yang dikombinasikan dengan pelacak 3D.

Prosedur pengukuran melibatkan gerakan manual sensor AVS di sekitar sumber suara sementara kamera stereo digunakan untuk mengekstrak posisi sesaat sensor dalam ruang tiga dimensi. Sinyal yang terekam kemudian dibagi menjadi beberapa segmen dan ditetapkan ke serangkaian posisi menggunakan algoritma diskritisasi spasial. Hal ini memungkinkan penghitungan representasi vektor dari variasi akustik di seluruh medan suara menggunakan kombinasi tekanan suara dan tiga kecepatan partikel akustik ortogonal.

Hasil analisis AVS dapat disajikan dalam bentuk sketsa 3D dari objek yang diuji, yang memberikan representasi visual dari distribusi suara di sekitar jaring 3D objek atau lingkungan. Hal ini dapat berguna untuk melokalisasi sumber suara di berbagai bidang, seperti akustik arsitektur, pengendalian kebisingan, dan rekayasa audio, karena memungkinkan pemahaman terperinci tentang distribusi suara dan interaksinya dengan lingkungan sekitar.

Metode pembelajaran untuk pendengaran binaural

Struktur kepala boneka robot binaural

Pembelajaran pendengaran binaural[5] adalah metode bionik. Sensornya adalah kepala boneka robot dengan 2 mikrofon sensor beserta pinna buatan (reflektor). Kepala robot memiliki 2 sumbu rotasi dan dapat berputar secara horizontal dan vertikal. Reflektor menyebabkan perubahan spektrum menjadi pola tertentu untuk gelombang suara white noise yang masuk dan pola ini digunakan untuk isyarat lokalisasi vertikal. Isyarat untuk lokalisasi horizontal adalah ITD. Sistem ini menggunakan proses pembelajaran menggunakan jaringan saraf dengan memutar kepala dengan sumber suara white noise yang menetap dan menganalisis spektrumnya. Eksperimen menunjukkan bahwa sistem dapat mengidentifikasi arah sumber dengan baik dalam rentang sudut kedatangan tertentu. Sistem tidak dapat mengidentifikasi suara yang datang di luar rentang tersebut karena pola spektrum reflektor yang runtuh. Pendengaran binaural hanya menggunakan 2 mikrofon dan mampu berkonsentrasi pada satu sumber di antara banyak sumber kebisingan.

Fungsi Transfer Terkait Kepala (HRTF)

Dalam lokalisasi suara nyata, kepala robot dan badan memainkan peran fungsional, selain dari dua pinnae. Ini berfungsi sebagai penyaringan linier spasial dan penyaringan selalu dikuantifikasi dalam hal Fungsi Transfer Terkait Kepala (HRTF).[14] HRTF juga menggunakan sensor kepala robot, yang merupakan model pendengaran binaural. HRTF dapat diturunkan berdasarkan berbagai isyarat untuk lokalisasi. Lokalisasi suara dengan HRTF menyaring sinyal input dengan filter yang dirancang berdasarkan HRTF. Alih-alih menggunakan jaringan saraf, fungsi transfer terkait kepala digunakan dan lokalisasi didasarkan pada pendekatan korelasi sederhana.

Analisis fase spektrum daya silang (CSP)

Metode CSP[15] juga digunakan untuk model binaural. Idenya adalah bahwa sudut kedatangan dapat diperoleh melalui waktu tunda kedatangan (TDOA) antara dua mikrofon, dan TDOA dapat diperkirakan dengan menemukan koefisien maksimum CSP. Koefisien CSP diperoleh dengan:

cspij(k)=IFFT{FFT[si(n)]FFT[sj(n)]*|FFT[si(n)]||FFT[sj(n)]|}

Dimana si(n) dan sj(n) adalah sinyal yang masuk ke mikrofon i dan j masing masing
Waktu Penundaan Kedatangan (τ) kemudian dapat diperkirakan dengan:

τ=argmax{cspij(k)}

Arah sumber suara adalah

θ=cos1vτdmaxFs

Di mana v adalah kecepatan perambatan suara, Fs adalah frekuensi sampling dan dmax adalah jarak dengan penundaan waktu maksimum antara 2 mikrofon.

Metode CPS tidak memerlukan data respons impuls sistem yang dibutuhkan HRTF. Algoritma ekspektasi-maksimisasi juga digunakan untuk melokalisasi beberapa sumber suara dan mengurangi kesalahan pelokalan. Sistem ini mampu mengidentifikasi beberapa sumber suara bergerak hanya dengan menggunakan dua mikrofon.

Rangkaian sensor garis 2D

Demonstrasi susunan sensor garis 2d

Untuk memperkirakan lokasi sumber dalam ruang 3D, dua susunan sensor garis dapat ditempatkan secara horizontal dan vertikal. Contohnya adalah susunan garis 2D yang digunakan untuk pelokalan sumber bawah air.[16] Dengan memproses data dari dua susunan menggunakan metode kemungkinan maksimum, arah, jangkauan, dan kedalaman sumber dapat diidentifikasi secara bersamaan. Tidak seperti model pendengaran binaural, metode ini mirip dengan metode analisis spektral. Metode ini dapat digunakan untuk melokalisasi sumber yang jauh.

Deretan Mikrofon Ganda yang Dapat Berputar Sendiri

Rotasi dari susunan dua mikrofon (juga disebut susunan bi-mikrofon[17]) menghasilkan sinyal perbedaan waktu antar-saluran sinusoidal (ICTD) untuk sumber suara stasioner yang ada dalam lingkungan 3D. Pergeseran fase dari sinyal sinusoidal yang dihasilkan dapat langsung dipetakan ke sudut azimuth sumber suara, dan amplitudo sinyal ICTD dapat direpresentasikan sebagai fungsi dari sudut elevasi sumber suara dan jarak antara dua mikrofon.[18] Dalam kasus beberapa sumber, sinyal ICTD memiliki titik data yang membentuk beberapa bentuk gelombang sinusoidal terputus-putus. Teknik pembelajaran mesin seperti Konsensus sampel acak (RANSAC) dan Pengelompokan spasial berbasis kepadatan aplikasi dengan derau (DBSCAN) dapat diterapkan untuk mengidentifikasi pergeseran fase (pemetaan ke azimuth) dan amplitudo (pemetaan ke elevasi) dari setiap bentuk gelombang sinusoidal terputus-putus dalam sinyal ICTD.[19]

Pendekatan Jaringan Syaraf Tiruan Fuzzy Hirarkis

Struktur Cara Mendapatkan Estimasi Azimuth

Pendekatan Jaringan Syaraf Tiruan Fuzzy Hirarkis untuk sistem pelokalan suara dimodelkan berdasarkan pelokalan suara binaural secara biologis. Beberapa hewan primitif dengan dua telinga dan otak kecil dapat memahami ruang 3D dan memproses suara, meskipun prosesnya belum sepenuhnya dipahami. Beberapa hewan mengalami kesulitan dalam pelokalan suara 3D karena ukuran kepala yang kecil. Selain itu, panjang gelombang suara komunikasi mungkin jauh lebih besar daripada diameter kepala mereka, seperti halnya katak.

Berdasarkan metode lokalisasi suara binaural sebelumnya, sistem jaringan saraf tiruan fuzzy hirarkis menggabungkan metode lokalisasi suara perbedaan waktu interaural (berbasis ITD) dan perbedaan intensitas interaural (berbasis IID) untuk mendapatkan akurasi yang lebih tinggi yang mirip dengan manusia. Jaringan Saraf Tiruan Fuzzy Hirarkis[20] digunakan dengan tujuan mendapatkan akurasi lokalisasi suara yang sama dengan telinga manusia.

Metode pelokalan suara berbasis IID atau berbasis ITD memiliki masalah utama yang disebut kebingungan Front-back.[21] Dalam pelokalan suara berbasis sistem jaringan saraf hirarkis ini, untuk mengatasi masalah ini, estimasi IID dilakukan dengan estimasi ITD. Sistem ini digunakan untuk suara pita lebar dan akan digunakan untuk skenario non-stasioner.

Lokalisasi suara 3D untuk sumber suara monaural

Biasanya, lokalisasi suara dilakukan dengan menggunakan dua (atau lebih) mikrofon. Dengan menggunakan perbedaan waktu kedatangan suara di dua mikrofon, seseorang dapat memperkirakan secara matematis arah sumber suara. Namun keakuratan yang dengannya serangkaian mikrofon dapat melokalisasi suara (menggunakan perbedaan waktu interaural) pada dasarnya dibatasi oleh ukuran fisik dari rangkaian tersebut. Jika rangkaian terlalu kecil, maka mikrofon diberi jarak terlalu berdekatan sehingga semuanya merekam suara yang pada dasarnya sama (dengan ITF mendekati nol), sehingga sangat sulit untuk memperkirakan orientasinya. Dengan demikian, tidak jarang rangkaian mikrofon berkisar dari puluhan sentimeter panjangnya (untuk aplikasi desktop) hingga puluhan meter panjangnya (untuk lokalisasi bawah air). Namun, rangkaian mikrofon dengan ukuran ini kemudian menjadi tidak praktis untuk digunakan pada robot kecil. Bahkan untuk robot besar, rangkaian mikrofon seperti itu bisa jadi sulit untuk dipasang dan dikendalikan. Sebaliknya, kemampuan untuk melokalisasi suara menggunakan mikrofon tunggal (yang dapat dibuat sangat kecil) berpotensi menghasilkan perangkat yang jauh lebih ringkas serta lebih hemat biaya dan daya untuk pelokalan.

Pendekatan HRTF konvensional

Cara umum untuk mengimplementasikan pelokalan suara 3D adalah dengan menggunakan HRTF (Head-related transfer function). Pertama, hitung HRTF untuk pelokalan suara 3D, dengan merumuskan dua persamaan; satu mewakili sinyal dari sumber suara tertentu dan yang lainnya menunjukkan sinyal keluaran dari mikrofon kepala robot untuk suara yang ditransfer dari sumber tersebut. Data masukan monaural diproses oleh HRTF ini, dan hasilnya dikeluarkan dari headphone stereo. Kerugian dari metode ini adalah banyaknya operasi parametrik yang diperlukan agar seluruh rangkaian filter dapat mewujudkan pelokalan suara 3D, sehingga menghasilkan kompleksitas komputasi yang tinggi.

Implementasi DSP dari lokalisasi suara 3D

implementasi DSP untuk lokalisasi suara 3d

Implementasi berbasis DSP dari pendekatan pelokalan suara 3D secara realtime dengan penggunaan DSP tertanam dapat mengurangi kompleksitas komputasi. Seperti yang ditunjukkan pada gambar, prosedur implementasi algoritma realtime ini dibagi menjadi tiga fase, (i) Pembagian Frekuensi, (ii) Pelokalan Suara, dan (iii) Pencampuran. Dalam kasus pelokalan suara 3D untuk sumber suara monofonik, data masukan audio dibagi menjadi dua: saluran kiri dan kanan dan data masukan audio dalam rangkaian waktu diproses satu demi satu.[22]

Ciri khas pendekatan ini adalah pita frekuensi yang dapat didengar dibagi menjadi tiga sehingga prosedur khusus pelokalan suara 3D dapat dimanfaatkan untuk masing-masing dari tiga subpita.

Pendekatan mikrofon tunggal

Lokalisasi monaural dimungkinkan oleh struktur pinna (telinga luar), yang memodifikasi suara dengan cara yang bergantung pada sudut datangnya. Pendekatan pembelajaran mesin diadaptasi untuk lokalisasi monaural hanya dengan menggunakan satu mikrofon dan "pinna buatan" (yang mendistorsi suara dengan cara yang bergantung pada arah). Pendekatan ini memodelkan distribusi khas suara alami dan buatan, serta perubahan yang bergantung pada arah pada suara yang diinduksi oleh pinna.[23] Hasil eksperimen juga menunjukkan bahwa algoritme tersebut mampu melokalisasi berbagai macam suara dengan cukup akurat, seperti ucapan manusia, gonggongan anjing, air terjun, guntur, dan sebagainya. Berbeda dengan susunan mikrofon, pendekatan ini juga menawarkan potensi perangkat yang jauh lebih ringkas serta biaya dan daya yang lebih rendah untuk lokalisasi suara.

Lihat pula

Referensi

Templat:Reflist

Pranala luar