Pendahuluan & Tujuan Penelitian
Penjelasan mengenai sistem text to speech cloning suara Bahasa Indonesia.
Menjelaskan tujuan penelitian dan model berbasis FALI yang digunakan.
Fokus pada hasil dan evaluasi sistem yang telah dibangun.
Matriks Evaluasi
Dua jenis matriks evaluasi digunakan: subjektif dan objektif.
Subjektif menggunakan Mean Opinion Score (MOS) untuk menilai kealamian dan kemiripan.
Objektif menggunakan Word Error Rate (WER) untuk mengukur kejelasan hasil.
Evaluasi embedding suara sintesis dibandingkan dengan suara referensi.
Hasil Pelatihan Model
Model auto-regresif dilatih selama 20 epoch dengan akurasi 89,1% dan loss 1,783.
Model non-auto-regresif dilatih selama 40 epoch dengan akurasi 74,5% dan loss 2,708.
Hasil menunjukkan bahwa model telah mencapai performa yang dapat diterima.
Evaluasi Speech Enhancement
Perbandingan kealamian audio sebelum dan sesudah enhancement.
Hasil evaluasi menunjukkan peningkatan dari nilai 3,34 menjadi 3,95.
Analisis perbedaan antara speaker yang terlihat dan tidak terlihat selama pelatihan.
Speaker Similarity Evaluation
Evaluasi kemiripan suara menggunakan teknik TSNE.
Kemiripan embedding pembicara dinilai untuk speaker terlihat dan tidak terlihat.
Hasil menunjukkan adanya perbedaan jarak antar cluster yang menunjukkan ruang untuk perbaikan.
Evaluasi Word Error Rate
Word Error Rate keseluruhan mencapai 19,71%.
Hasil evaluasi untuk speaker terlihat lebih rendah dibandingkan speaker tidak terlihat.
Identifikasi beberapa jenis kesalahan yang sering terjadi, termasuk kesalahan pada nama atau kata yang jarang.
Kesimpulan dan Saran
Kesimpulan bahwa panjang data pelatihan berpengaruh pada hasil sintesis.
Saran untuk menggunakan model codec yang lebih kompleks dan lebih banyak variasi kata.
Pentingnya pengumpulan data yang lebih besar untuk penelitian di masa depan.
video ppt penelitian 4 - Voice Cloning Menggunakan Val-E
video ppt penelitian 4 - Voice Cloning Menggunakan Val-E