影像方面,后置1200万超广角+5000万广角+1000万长焦镜头,前置1200万像素镜头。
🖼️ 利用编码器和模型进行音乐和图像理解,用户可编辑音乐、调整乐器和速度。
🚀 采用创新方法生成大规模音乐指导数据集,展示出色的音乐生成和编辑能力。
🌐 集成多种翻译引擎,如Google、ChatGPT、DeepL,确保用户选择最佳引擎。
“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。