Voice recognition dibagi menjadi dua jenis, yaitu speech recognition dan speaker recognition. Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition.
Speech recognition (juga dikenal sebagai pengenalan suara otomatis, pengenalan komputer pidato, pidato ke teks) mengkonversi kata yang diucapkan dengan teks. Para "Voice recognition" istilah kadang-kadang digunakan untuk merujuk pada sistem pengenalan yang harus dilatih untuk pembicara tertentu-seperti halnya bagi sebagian besar perangkat lunak pengenal desktop. Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato.
Speech recognition adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada satu pembicara seperti panggilan sistem yang dapat mengenali suara sewenang-wenangnya.
Sejarah
Speech recognition pertama muncul pada tahun 1952 dan terdiri dari perangkat untuk pengakuan yang diucapkan satu digit. Perangkat lain awal adalah IBM Kotak Sepatu , dipamerkan di Pameran 1964 di New York World .
Salah satu yang paling menonjol adalah untuk aplikasi komersial pengenalan suara di Amerika Serikat yaitu perawatan kesehatan dan khususnya pekerjaan transcriptionist medis. Menurut para ahli industri, di awal, Speech recognition (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, karena itu tidak diterima. Itu juga kasus yang SR pada waktu itu sering secara teknis kurang. Selain itu, untuk dapat digunakan secara efektif, hal ini memerlukan perubahan pada cara bekerja dan didokumentasikan dokter pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya. Keterbatasan terbesar untuk mengotomatisasi transkripsi pidato pengakuan. Namun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia yang nyata tetapi belum melalui sistem otomatis. Keterbatasan lain telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.
Perbedaan dalam mode ASR sering dibuat antara "sistem sintaks buatan," yang biasanya domain-spesifik, dan "pemrosesan bahasa alami," yang biasanya bahasa-spesifik. Masing-masing menyajikan jenis aplikasi tertentu sendiri tujuan dan tantangan.
Contoh aplikasi dalam Militer
Kinerja tinggi pesawat tempur.
Upaya substansial telah dibuka dalam dekade terakhir untuk uji dan evaluasi pengenalan suara dalam pesawat tempur. Dari catatan khusus adalah program AS dalam pidato pengakuan untuk Integrasi Teknologi Fighter Lanjutan (AFTI) / F-16 pesawat ( F-16 VISTA ), dan program di Perancis menginstal sistem pengenalan suara pada Mirage pesawat, dan juga program-program di Inggris berurusan dengan berbagai platform pesawat. Dalam program ini, pidato recognizers telah dioperasikan dengan sukses di pesawat tempur, dengan aplikasi termasuk: pengaturan frekuensi radio, memimpin sebuah sistem autopilot, pengaturan-titik koordinat mengarahkan dan parameter senjata rilis, dan mengendalikan menampilkan penerbangan.
Bekerja dengan Swedia pilot terbang di JAS-39 Gripen kokpit, Englund (2004) menemukan pengakuan memburuk dengan meningkatnya G-load. Hal itu juga menyimpulkan bahwa adaptasi sangat meningkat hasilnya dalam semua kasus dan memperkenalkan model untuk bernapas ditunjukkan untuk meningkatkan nilai pengakuan secara signifikan. Berlawanan dengan apa yang mungkin diharapkan, tidak ada efek dari bahasa Inggris patah pembicara ditemukan. Sudah jelas bahwa pidato spontan menimbulkan masalah bagi recognizer, seperti yang bisa diharapkan. Sebuah kosakata dibatasi, dan di atas segalanya, sintaks yang tepat, sehingga bisa diharapkan untuk meningkatkan akurasi pengakuan secara substansial.
Para Eurofighter Typhoon saat ini dalam pelayanan dengan Inggris RAF mempekerjakan seorang pembicara tergantung pada sistem, yakni mengharuskan setiap pilot untuk membuat template. Sistem ini tidak digunakan untuk tugas-tugas keamanan kritis atau senjata kritis, seperti rilis senjata atau menurunkan dari bawah, tapi digunakan untuk berbagai macam lainnya kokpit fungsi. Perintah suara yang dikonfirmasi oleh visual dan / atau umpan balik aural. Sistem ini dipandang sebagai fitur desain utama dalam pengurangan percontohan beban kerja , dan bahkan memungkinkan pilot untuk menetapkan target untuk dirinya dengan dua perintah suara sederhana atau ke salah satu dari wingman dengan hanya lima perintah.
Sistem speaker independent juga sedang dikembangkan dan dalam pengujian untuk F35 Lightning II (JSF) dan Alenia Aermacchi M-346 Guru memimpin-dalam pelatih tempur. Sistem ini telah menghasilkan akurasi kata dalam lebih dari 98%.