Aynı Anda Dinleyip Konuşabilen İlk Açık Kaynak Sesli AI Modeli Yayınlandı
15 Ocak 2026 – NVIDIA, sesli yapay zeka teknolojisinde devrim yaratacak yeni modelini duyurdu. PersonaPlex-7B, aynı anda hem dinleyebilen hem de konuşabilen ilk açık kaynak konuşma modeli olarak dikkat çekiyor.
PersonaPlex-7B Nedir?
PersonaPlex-7B, 7 milyar parametreli tam çift yönlü (full-duplex) bir sesli konuşma modelidir. NVIDIA tarafından geliştirilen bu yapay zeka modeli, MIT lisansı altında ücretsiz olarak Hugging Face platformunda kullanıma sunuldu.
Modelin en büyük özelliği, geleneksel sesli asistanların aksine gerçek zamanlı, doğal konuşma yapabilmesi. Kullanıcılar model konuşurken müdahale edebiliyor ve model anında yanıt verebiliyor.
Sesli Yapay Zekadaki Büyük Sorun Çözüldü
Geleneksel sesli asistan sistemleri üç aşamalı bir yapı kullanır:
- ASR (Automatic Speech Recognition): Konuşmayı metne çevirir
- LLM (Large Language Model): Yanıtı üretir
- TTS (Text-to-Speech): Metni sese dönüştürür
Bu sistem işlevsel olsa da robotik bir deneyim yaratıyor. Konuşmalar zorunlu sıra değişimleriyle, doğal olmayan duraklamalarla ve kesinti yapamama sorunuyla karakterize ediliyor.
PersonaPlex-7B, bu sorunu ortadan kaldırarak sürekli ses token’ları üzerinde çalışan çift akışlı bir transformer mimarisi kullanıyor. Metin ve ses paralel olarak üretiliyor, bu da doğal konuşma akışını mümkün kılıyor.
Teknik Özellikler ve Performans
Hız ve Yanıt Süresi:
- Normal konuşmada 170 milisaniye yanıt süresi
- Kesintiler sırasında bile 240 milisaniyenin altında yanıt
Doğal Konuşma Yetenekleri:
- Anlık geri bildirimler (back-channel responses)
- Doğal kesintiler ve müdahaleler
- İnsan konuşmasını taklit eden gerçekçi ritim
Kişiselleştirme:
- Zero-shot persona kontrolü
- Ses ve metin tabanlı yönlendirme
- Çoklu ses seçenekleri (kadın/erkek, doğal/çeşitli)
- Fine-tuning gerektirmeden davranış kontrolü
Performans Testleri
FullDuplexBench karşılaştırmalı testlerinde PersonaPlex-7B rakiplerini geride bıraktı:
- PersonaPlex-7B: 2.95 puan
- Google Gemini: 2.80 puan
- Qwen-2.5-Omni: 2.81 puan
- Moshi: 2.44 puan
Nasıl Kullanılır?
Model şu anda Hugging Face platformunda ücretsiz olarak erişilebilir durumda. MIT lisansı ile yayınlanan PersonaPlex-7B, geliştiricilerin ve araştırmacıların kendi projelerinde kullanabilmesi için açık kaynak olarak sunuluyor.
NVIDIA, modelin ağırlıklarını ve dokümantasyonunu Hugging Face üzerinden paylaşarak yapay zeka topluluğuna önemli bir katkı sağlıyor.
Sesli AI’ın Geleceği
PersonaPlex-7B’nin piyasaya sürülmesi, sesli yapay zeka asistanlarının gelecekteki gelişimi için önemli bir milat olarak değerlendiriliyor. Doğal konuşma yetenekleri, düşük gecikme süreleri ve açık kaynak erişilebilirliği, modeli sektördeki oyun değiştiricilerden biri haline getiriyor.
Geliştiriciler ve araştırmacılar, bu teknolojiyi müşteri hizmetleri, eğitim, sağlık ve eğlence sektörlerinde kullanabilir. Modelin zero-shot persona kontrolü özelliği, farklı kullanım senaryoları için hızlı adaptasyon imkanı sunuyor.
Anahtar Kelimeler: NVIDIA PersonaPlex-7B, sesli yapay zeka, full-duplex AI, açık kaynak AI modeli, konuşma yapay zekası, Hugging Face AI, doğal dil işleme, sesli asistan teknolojisi
Kaynak: NVIDIA, Hugging Face, evolving.ai




