与Sora一样能生成视频、图像,还能一次解读100万数据!

内容摘要大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。因此,加州大学伯克利分校的研究人员开源了一种训练
 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-4