AI正在加速行业变革。OpenAI其正探索视频数据生成模型的大规模训练。
AI企业OpenAI,2月16日正式发布视频生成模型sora,Sora是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。
具体来说,Sora在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。Sora利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。
Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。Sora还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
OpenAI的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
比如,一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。
她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
Sora展示的海龟也是栩栩如生。
比如,几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高挂在天空中。”
距离产生了温暖的光芒,低摄像头视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物,具有美丽的摄影和景深。”
比如,动画场景的特写镜头是一个毛茸茸的小怪物跪在一根融化的红色蜡烛旁边。艺术风格是3D和现实的,重点是灯光和纹理。这幅画的基调是惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。
OpenAI CEO Sam Altman已经在线接单,称2月16日开始为有限数量的创作者提供访问权限。“remarkable moment.(非凡的时刻。)”
从目前的效果来看,这对广告行业、动画行业、对影视行业可能都会产生一系列的变革。