9月24日丨阿里巴巴發佈通義全模態預訓練大模型Qwen3-Omni系列模型。在36個音視頻基準測試中,Qwen3-Omni系列模型有22項達到SOTA水平,其中32項取得開源模型最佳效果,語音識別、音頻理解與語音對話能力可比肩Gemini2.5-Pro。作為全模態模型,Qwen3-Omni能夠實現全模態輸入和全模態輸出。類似於人類嬰兒一出生就全方位感知世界,Qwen3-Omni一開始就加入了“聽”“説”“寫”多模態混合訓練。在預訓練過程中,Qwen3-Omni採用混合單模態和跨模態數據。Qwen3-Omni在實現強勁音頻與音視頻能力的同時,單模態文本與圖像性能均保持穩定,這是業內首次實現這一訓練效果。
新聞來源 (不包括新聞圖片): 格隆匯