Monday, November 7, 2011

Pengenalan Ucapan Dalam Militer

Sejarah  Pengenalan Ucapan
Pengenalan ucapan atau pengenalan wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.
Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.
Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pengguna (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).

Penerapan  Pengenalan Ucapan Dalam Militer
Pelatihan Penerbangan
Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.
Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.

Algoritma yang Digunakan Pengenalan Ucapan dalam Militer
Sebenarnya ada dua pemodelan dasar untuk speech recognition ini yaitu Hidden Markov model (HMM)-based speech recognition dan Dynamic time warping (DTW)-based speech recognition. Modern general-purpose speech recognition system umumnya menggunakan model Hidden Markov. Model ini merupakan model yang statistikal dimana output adalah sekuens dari simbol atau kuantitas. Satu alasan yang mengapa model Hidden Markov digunakan, karena sebuah sinyal dari pengucapan bisa dilihat seperti piecewise stationary signal atau short-time stationary signal. Alasan lainnya mengapa metode ini populer, sederhana dan secara komputasional bisa digunakan. Dynamic time warping adalah pendekatan yang pernah sejarahnya digunakan untuk speech recognition yang sekarang sudah digantikan oleh model Hidden Markov. Pada pengembangannya maka alat speech recognizer diimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW). DTW pertama kali dikenalkan pada tahun 60an dan dieksplorasi sampai tahun 70an yang menghasilkan alat speech recognizer. DTW sering digunakan dalam area: handwriting and online signature matching, sign language recognition and gestures recognition, data mining and time series clustering, computer vision and computer animation, surveillance, protein sequence alignment and chemical engineering,
dan music and signal processing. Dan pada kali ini hanya akan membahas implementasi algoritma DTW pada speech recognition.

Nama Algoritma dan Cara Kerja
Dynamic Time Warping algorithm (DTW) adalah algortima yang menghitung optimal warping path antara dua waktu. Algoritma ini menhitung baik antara nilai warping path dari dua waktu dan jaraknya. Misalnya, kita memiliki dua sekuens numerik (a1, a2, ..., am) dan (b1, b2, ..., bm). Dengan pemisalan ini, maka dapat dikatakan bahwa panjang dua sekuens ini bisa saja berbeda. Algoritma ini memulain dengan penghitungan jarak lokal antara elemen dari sekuens menggunakan tipe jarak yang berbeda. Frekuensi yang paling banyak menggunakan method untuk penghitungan jarak adalah jarak absolut antar nilai dua elemen. Jika dalam matriks maka dapat ditulis dengan memiliki n garis dan m kolom, secara umum:
Mulai dengan matrik jarak lokal, kemudian minimum jarak matriks antar sekuens ditentukan menggunakan algoritma program dinamis dan mengikuti kriteria optimasi berikut:
Dimana aij merupakan jarak minimal antara subsekuens. Warping path adalah sebuah path yang melewti jarak matrik minimum dari elemen a11 ke anm . ongkos warping path secara global dari dua sekuens:
Dimana Wi adalah elemen yang dimiliki warping path san p adalah jumlahnya. Penghitungannya dibuat untuk dua sekuens diperlihatkan pada gambar dibawah dan warping path diberi highlight.
 
Ada tiga kondisi yang menentukan pada DTW algorithm yang meyakinkan konvergensi cepat:
1. Monotony – path yang tidak pernah ada kembalian, yang berarti antara index i dan j digunakan untuk menyebrang sekuens tidak pernah berkurang.
2. Continuity – path berkembang yang secara berangsur-angsur, tahap per tahap, yang berarti index i dan j naik dengan maksimum kenaikan 1 unit setiap langkahnya.
3. Boundary – path mulai dari pojok kiri bawah dan berakhir pada pojok kanan atas.
Karena prinsip optimasi dalam program dinamis diimplementasikan pada teknik “backward”, mengidentifikasi warp path menggunakan tipe struktur dinamis yang disebut stack. Seperti algoritma program dinamis lainnya. DTW memiliki kompleksitas polinomial. Ketika sekuens memiliki banyak elemen, minimal ada dua ketidaknyamanan:
1. Mengingat matriks yang besar
2. Menampilkan banyak perhitungan jarak
Ada perbaikan dalam standar DTW algorithm yang merangkum dua masalah diatas dengan nama: FastDTW (Fast Dynamic Time Warping). Solusi yang ditawarkan berisi pembagian jarak matriks ke dalam 2,4,8,16,dst. Dengan cara ini, perhitungan jarak diperlihatkan pada matriks yang lebih kecil dan warp path digunakan saat menggabungkan dari matriks kecil tadi.


0 comments:

Post a Comment