Ses ve video kayıtlarını okunabilir metne dönüştürmek günümüzde çok önemlidir. Bu kayıtlar otomatik olarak metin formatına dönüştürülerek birçok kişinin hayatı kolaylaştırılmaktadır.
Peki, bir mp3’ten metne dönüştürücünün faydaları nelerdir? Bir ses kopyalayıcı ile bir konferans, telefon görüşmesi, toplantı veya yayın sırasında kaydedilen bir mp3 dosyasındaki belirli gerçeklerin izini sürmek kolaydır. Bir kayıt yazıya döküldüğünde aranabilir hale gelir. Ayrıca ileride kullanmak üzere bu bilgileri çevirebilir, düzenleyebilir ve kaydedebilirsiniz. Bu yazıda 3 mp3’ten metne uygulamaları tartışacağız.
1. Üçlü
Aslen İngilizce olan Trint, 2014 yılında eski ABC muhabiri Jeffrey Kofman tarafından kuruldu. Ağırlıklı olarak kısa metinlere odaklanan Microsoft ve Google hizmetlerinin aksine Trint, uzun ses dosyalarını sözlüden yazılı söze dönüştürmek için yapay zeka kullanır. Ve bunu oldukça iyi yapıyor. Sesi metne dönüştürmek oldukça kolaydır. Bir kullanıcı olarak, bilgisayarınızdan veya Dropbox, Google Drive, Evernote ve diğer bulut hizmetleri gibi çevrimiçi bir kaynaktan bir ses dosyası yüklersiniz. Ardından istediğiniz dili seçersiniz. Trint, İngilizce ve Felemenkçe’nin yanı sıra Almanca, Fince, Fransızca, Macarca, İtalyanca, Lehçe, Portekizce, Rumence, Rusça ve İsveççe de biliyor ve tanıyor. Daha sonra yazıya dökmek birkaç dakika sürer. Ses dosyanızın adına tıklarsanız, sonuçla birlikte bir metin alanı görünecektir.
Sonuç ilk bakışta oldukça iyi. Tabii ki, Trint her şeyi mükemmel bir şekilde yazıya dökmez, ancak sesi dinlerken parlatabileceğiniz uygulanabilir bir temel sağlar. Ayrıca güzel bir özellik: Trint, metnin bölümlerini işaretlemenize izin verir ve metni bir doc veya html dosyası olarak aktarır. Hizmet ayrıca başka bir konuşmacının ne zaman konuştuğunu belirtmeye çalışır, ancak bu çok iyi çalışmaz.
2. AmberScript
Hollandalı AmberScript, arayüzü daha hoş olmasına rağmen, Trint’e çok benzer (yukarıya bakın). Amsterdam start-up’ı, sistemini transkripsiyonda daha iyi ve daha iyi hale getirmek için kendini geliştirmeyi öğrenen makine öğrenimi yazılımını kullanıyor. Bunu başarmak için AmberScript, işi transkripsiyon hizmetini sürekli iyileştirmek olan veri bilimi uzmanlarından yararlanır.
Yine, sesi metne dönüştürmek çok kolay. Yükle düğmesini kullanarak sabit diskinizden bir ses dosyası seçersiniz. Bir mp3 dosyası olabileceği gibi wav, mp4, m4a, aac veya wma da olabilir. Seçimden sonra dili (İngilizce, Felemenkçe veya Almanca) seçersiniz ve AmberScript çalışmaya başlar. Dil sayısı ve dosya konumları ile ilgili olarak, Trint’e göre daha az seçenek var ama önemli olan sonuç.
Ve sonuç, mutlu olunacak bir şey. AmberScript çoğu durumda Trint’ten çok daha iyidir. Birkaç alçak sesle konuşan konuşmacıyla yapılan testte bile, AmberScript çok sayıda konuşmayı metne dönüştürür. Tabii ki mükemmel değil. AmberScript, hızlı konuşan konuşmacılara ayak uydursa da, bazı adlar ve noktalama işaretleri hala yanlış. Ve başka bir konuşmacının ne zaman konuştuğunu gösteren işlevin öğreneceği daha çok şey var.
Tıpkı Trint gibi, AmberScript de kullanıcılara arka planda ses çalarken metni düzeltme olanağı sunar. XML ve Word’e dışa aktarma mümkündür ve değiştirme işlevi ile yanlış yazılan kelimeler tek seferde doğru olanlarla değiştirilebilir. Metni vurgulamak, sesi hızlandırmak veya yavaşlatmak gibi düzeltmeyi kolaylaştıran bir seçenektir.
3. Mutlu Yazıcı
İngilizce de dahil olmak üzere seçilebilecek düzinelerce dil ve saat başına yalnızca 9 €’luk bir ses fiyatı ile Happy Scribe kulağa gerçek olamayacak kadar iyi geliyor. Her durumda, hizmet bu genel bakışta en ucuz olanlardan biridir. USA Today, Forbes ve Wall Street Journal’ın ve diğerlerinin kullanması, yüksek beklentiler yaratıyor.
Ve Happy Scribe kısmen bu beklentileri karşılıyor. Tıpkı bu listedeki ilk iki hizmet gibi, Happy Scribe sesinizi yazdığınız metne bağlar, böylece konuşmanızı dinleyebilir ve hataları düzeltebilirsiniz. Hizmet, sesi durdurmanıza veya hızlı ileri veya geri sarmanıza olanak tanıyan ve düzenlemeyi çok daha hızlı hale getirebilen bazı klavye kısayollarıyla donatılmıştır. Happy Scribe, hizmetin sesi damıttığı video dosyalarını da kabul eder.
Testlerimizin sonucu, kalite açısından Trint ile karşılaştırılabilir ve bu nedenle AmberScript’ten biraz daha düşüktür. Happy Scribe, İngilizce terimlerle ilgili bazı zorluklar yaşıyor ve arka planda çok fazla gürültü olduğunda Trint’ten daha sık başarısız oluyor. Ayrıca, hizmet tek tek konuşmacıları belirtmez ve gerçekten noktalama işaretleri yapmaz. Metne dönüştürmek, sesinizin süresi kadar sürer. Bu genel bakıştaki ilk iki hizmetle karşılaştırıldığında, bu uzundur, ancak yine de manuel transkripsiyondan çok daha hızlıdır.