🦥SeamlessM4T使用AI转录和翻译任意语言音频
00 分钟
2023-8-18
2023-8-24
type
status
date
slug
summary
tags
category
password
icon
🍫
Meta最近公开了SeamlessM4T大语言模型,可以实现转录和翻译任意语言的音频内容。
SeamlessM4T(无缝M4T)旨在提供高质量翻译,让来自不同语言社区的人们能够通过语音和文本轻松进行交流。
这种统一的模型可以实现语音转语音(S2ST)、语音转文本(S2TT)、文本转语音(T2ST)翻译等多项任务,而无需依赖多个单独的模型。
notion image

1.本地运行

2.Colab在线运行

notion image
执行代码,打开webui界面如下:
notion image
先选择目标语言,将要音频文件拖入右边上传文件框,点击Translate,就可以开始处理了。
notion image
稍微测试了下,Colab执行速度很快,效果看着还行,但是准确性方面跟OpenAI的Whisper大模型还是差了点,会有缺漏的情况。

📎 相关链接

 

评论