Mistral, Openai ve Google'ı yeni voxstral açık kaynaklı ses AI modeli ile zorluyor

Fransız AI girişimi Mistral, Salı günü ilk açık kaynaklı AI modellerini Voxstral'ı piyasaya sürdü ve doğrudan Google ve Openai'den tescilli sistemlerin hakimiyetine meydan okudu. Paris merkezli şirket, yeni model ailesini geliştiriciler için yüksek performanslı, uygun maliyetli bir alternatif olarak konumlandırıyor.

Mistral, son teknoloji ürünü konuşma anlayışı sağladığını iddia ediyor.Rakip API'lerin yarısından daha azı. İzinli bir Apache 2.0 lisansı altında yayınlanan Voxstral, gelişmiş transkripsiyon ve çok dilli destek ile üretime hazır ses zekasına erişimi demokratikleştirmeyi amaçlıyor.

Bu hareket, konuşma yapay zekası için hızla büyüyen pazardaki rekabeti yoğunlaştırıyor. Endüstrinin duvarlı bahçelerine karşı açık kaynaklı bir yaklaşım savunuyor. Twith Voxstral, geliştiricilerin artık ucuz ama kusurlu açık bir sistem veya işlevsel kapalı bir sistem arasında seçim yapmak zorunda değiller.

Voxstral, Mistral'ın tescilli ses AI'sına açık kaynaklı cevabıdır

Mistral, Voxstral'ı uzun süredir devam eden bir geliştirici ikilemine çözüm olarak konumlandırıyor. Yıllar boyunca, ekipler genellikle yüksek hata oranları ve sınırlı anlayışa sahip ucuz, açık kaynaklı konuşma sistemleri veya yüksek fiyat etiketi ve daha az dağıtım kontrolü ile gelen güçlü özel API'ler arasında seçim yapmak zorunda kaldılar. Voxstral, Mistral'ın izinli bir Apache 2.0 lisansı altında “üretimde gerçekten kullanılabilir konuşma zekası” olarak adlandırarak bu boşluğu kapatmayı amaçlıyor.

Şirket, farklı ihtiyaçlara uygun bir model ailesi yayınladı. Amiral gemisi, üretim ölçeği uygulamaları için tasarlanmış 24 milyar parametre modeli olan Voxstral Small'dır. Ayakta veya yerel kullanım için, daha kompakt bir 3 milyar parametre varyantı olan voxstral mini var. Son olarak, maliyete duyarlı, yüksek hacimli görevler için Mistral, yalnızca transkripsiyona odaklanmış son derece optimize edilmiş ve soyulmuş bir versiyon olan Voxstral Mini Transcribe sunar.

Erişilebilirlik Mistral'ın stratejisinin merkezinde yer alır. Hem küçük hem de mini modellerHugging Face'te indirilebilirYerel ve şirket içi iş yükleri için. Bulut tabanlı entegrasyon için, modellere basit bir API çağrısı ile erişilebilir ve fiyatlandırma dakikada sadece 0,001 $ 'dan başlar. Şirket ayrıca LeChchbot'un ses modunda Voxstral'ı sunmayı planlıyor.

Voxstral'ın yetenekleri, Mistral Small 3.1 dil modeli üzerindeki temeli sayesinde temel konuşma-metnin ötesine uzanıyor. Bu LLM omurgası, ses içeriğinin derin bir anlamsal anlayışını sağlar. 32.000-ıstırap bağlam penceresiyle, transkripsiyon için 30 dakikaya kadar ses dosyalarını ve içerik hakkında karmaşık sorular sormak gibi görevleri anlamak için 40 dakikaya kadar işleyebilir.

Bu mimari, birden fazla AI modelini zincirlemeye gerek kalmadan bir dizi gelişmiş, yerleşik özellikleri sağlar. Voxstral, yerel Soru-Cevap ve özetleme gerçekleştirebilir ve işlev çağrısını doğrudan ses komutlarından destekler ve sözlü niyeti eyleme geçirilebilir sistem komutlarına dönüştürür. Ayrıca, İngilizce, İspanyolca, Fransızca, Almanca ve Hintçe gibi yaygın olarak kullanılan dillerde son teknoloji ürünü performansa sahip otomatik dil algılamasına sahiptir.

Mistral, duyurusunda geliştiricileri güçlendirme ve sesli bir geleceği hızlandırma hedefini vurguladı. Şirket, “Bu geleceği hızlandırmak için Voxstral modellerini yayınlıyoruz. Art konuşması anlama modelleri iki boyutta mevcuttur-üretim ölçekli uygulamalar için 24B varyantı ve yerel ve kenar dağıtımları için bir 3B varyantı.”

Kalabalık ve rekabetçi bir arenada performans

Mistral'ın girişi bir boşluk değil, teknoloji devlerinin ve çevik girişimlerin ses etkileşiminin geleceğinde hakimiyet için yarıştığı yoğun bir rekabet kazanıdır. İddialarını desteklemek için Mistral, hem performans hem de maliyet verimliliğinde lider olarak Voxstral'ı konumlandıran zorlayıcı kıyaslama verileri yayınladı. Fleurs kıyaslamasında, voxstral küçük ve mini transkripte, fiyat-performans eğrisinin optimal kenarında oturur ve Google'ın Gemini 2.5 flash ve Openai'nin GPT-4O mini ile maliyetin bir kısmı için daha düşük hata oranları sağlar.

Modeller, özellikle güçlü çok dilli yetenekler, İtalyan, İspanyol ve Fransızca gibi Avrupa dillerinde rakiplerden daha iyi performans gösteriyor. ElevenLabs 'Scribe, bazı uzun biçimli İngilizce görevlerde marjinal olarak daha düşük bir hata oranı yayınlarken, bunu Voxstral Small'ın fiyatının iki katından fazla, Mistral'ın değer önerisini güçlendiriyor.

Bu lansman, Big Tech'in devam eden gelişmelerini doğrudan zorluyor. Son aylarda Openai, gelişmiş ses modunu Web'e genişletirken, Antropik Claude AI için bir konuşma ses modu sundu. Amazon ayrıca, Alexa+ asistanına zaten entegre edilen gerçek zamanlı etkileyici Nova Sonic modeli ile Nisan ayında önemli bir hamle yaptı. Amazon'un cihazlarının liderlik ettiği gibi Panos Panay, “Alexa+kullandığınızda bunu hissedeceksiniz” sözü veriyor.

İnovasyon devlerle sınırlı değil. Piyasa, farklı nişleri keşfeden özel girişimler tarafından da şekilleniyor. Mayıs ayında, istikrar AI, etik kaynaklı eğitim verilerini kullanarak fikri mülkiyet endişeleriyle mücadele ederek cihaz içi, telifsiz bir ses modelini yayınlamak için ARM ile ortaklık kurdu. CEO Prem Akaraju, “Akıllı telefondaki CPU'da tamamen CPU'da ses üretmek için dakikalardan sadece saniyelere geçtik” dedi.

İLGİLİ:

Spektrumun diğer ucunda, Susam AI gibi girişimler, gerçekçiliğin sınırlarını zorluyor, tekinsiz vadiyi geçmek için duraklamalar ve kekikler gibi kusurları kucaklayan “ürkütücü insani ses” asistanları yaratıyor. Duygusal özgünlük için bu felsefi arayış, Andreessen Horowitz'in Anjney Midha tarafından yakalandı, “AI sesinin duygusal düzlüğü yorucu ve doğal olmayan. Ancak görsel ekranı AR bardaklarından çıkarırsanız ve bunun yerine inanılmaz bir sesli AI sistemine odaklanırsanız, kesintisiz hissettiren bir hesaplama deneyimi yaratabilirsiniz…”

Voxstral'ın serbest bırakılması sadece teknik bir kilometre taşı değil; Artan AI yetenek savaşında stratejik bir hareket. En İyi Minds savaşı, şirketleri ya inşa etmeye, satın almaya veya kaçak yapmaya zorladı. Meta'nın son zamanlarda Voice AI Startup Playai'yi bildiren 45 milyon dolar için satın alması, bu trendin en iyi örneğidir.

Mistral için Voxstral önemli bir adımı temsil eder. Şirket, konuşmacı segmentasyonu, duygu algılama ve kelime düzeyinde zaman damgaları dahil olmak üzere gelecekteki güncellemeler için planları zaten açıkladı. Güçlü, açık ve uygun fiyatlı bir alternatif sunarak Mistral, ilk sesli gelecekte önemli bir niş oluşturabileceğine bahse girer.

Voxstral, Mistral'ın tescilli ses AI'sına açık kaynaklı cevabıdır

Kalabalık ve rekabetçi bir arenada performans

Related Posts