Browsy Mascot LogoBrowsy Logo
Summarize videos and websites instantly.
Get Browsy now! 🚀

Evaluasi Sistem Text to Speech Cloning Bahasa Indonesia

Go to URL
Copy

Pendahuluan & Tujuan Penelitian

  • Summary Marker

    Penjelasan mengenai sistem text to speech cloning suara Bahasa Indonesia.

  • Summary Marker

    Menjelaskan tujuan penelitian dan model berbasis FALI yang digunakan.

  • Summary Marker

    Fokus pada hasil dan evaluasi sistem yang telah dibangun.

Matriks Evaluasi

  • Summary Marker

    Dua jenis matriks evaluasi digunakan: subjektif dan objektif.

  • Summary Marker

    Subjektif menggunakan Mean Opinion Score (MOS) untuk menilai kealamian dan kemiripan.

  • Summary Marker

    Objektif menggunakan Word Error Rate (WER) untuk mengukur kejelasan hasil.

  • Summary Marker

    Evaluasi embedding suara sintesis dibandingkan dengan suara referensi.

Hasil Pelatihan Model

  • Summary Marker

    Model auto-regresif dilatih selama 20 epoch dengan akurasi 89,1% dan loss 1,783.

  • Summary Marker

    Model non-auto-regresif dilatih selama 40 epoch dengan akurasi 74,5% dan loss 2,708.

  • Summary Marker

    Hasil menunjukkan bahwa model telah mencapai performa yang dapat diterima.

Evaluasi Speech Enhancement

  • Summary Marker

    Perbandingan kealamian audio sebelum dan sesudah enhancement.

  • Summary Marker

    Hasil evaluasi menunjukkan peningkatan dari nilai 3,34 menjadi 3,95.

  • Summary Marker

    Analisis perbedaan antara speaker yang terlihat dan tidak terlihat selama pelatihan.

Speaker Similarity Evaluation

  • Summary Marker

    Evaluasi kemiripan suara menggunakan teknik TSNE.

  • Summary Marker

    Kemiripan embedding pembicara dinilai untuk speaker terlihat dan tidak terlihat.

  • Summary Marker

    Hasil menunjukkan adanya perbedaan jarak antar cluster yang menunjukkan ruang untuk perbaikan.

Evaluasi Word Error Rate

  • Summary Marker

    Word Error Rate keseluruhan mencapai 19,71%.

  • Summary Marker

    Hasil evaluasi untuk speaker terlihat lebih rendah dibandingkan speaker tidak terlihat.

  • Summary Marker

    Identifikasi beberapa jenis kesalahan yang sering terjadi, termasuk kesalahan pada nama atau kata yang jarang.

Kesimpulan dan Saran

  • Summary Marker

    Kesimpulan bahwa panjang data pelatihan berpengaruh pada hasil sintesis.

  • Summary Marker

    Saran untuk menggunakan model codec yang lebih kompleks dan lebih banyak variasi kata.

  • Summary Marker

    Pentingnya pengumpulan data yang lebih besar untuk penelitian di masa depan.

video ppt penelitian 4 - Voice Cloning Menggunakan Val-E