type
status
date
slug
summary
tags
category
password
icon
Meta最近公开了SeamlessM4T大语言模型,可以实现转录和翻译任意语言的音频内容。
SeamlessM4T(无缝M4T)旨在提供高质量翻译,让来自不同语言社区的人们能够通过语音和文本轻松进行交流。
这种统一的模型可以实现语音转语音(S2ST)、语音转文本(S2TT)、文本转语音(T2ST)翻译等多项任务,而无需依赖多个单独的模型。
1.本地运行
2.Colab在线运行
执行代码,打开webui界面如下:
先选择目标语言,将要音频文件拖入右边上传文件框,点击Translate,就可以开始处理了。
稍微测试了下,Colab执行速度很快,效果看着还行,但是准确性方面跟OpenAI的Whisper大模型还是差了点,会有缺漏的情况。
📎 相关链接
- 作者:AZ智能
- 链接:https://azsou.com/article/meta-seamlessm4t-ai-translate
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。