7月6日,在2024 世界人工智能大会“智启文创-激发无限新质生产力”论坛(简称“WAIC 2024”)上,智象未来联合创始人兼CTO姚霆博士,发布了“智象大模型2.0”升级版。
“智象大模型2.0”在继承了1.0版本对文本、图像、视频和3D元素联合建模能力的基础上,2.0版本在多个方面进行了显著的性能提升。“智象大模型”自2023年8月上市以来,凭借其友好的操作界面、卓越的成像效果以及便捷的应用性,被推崇为大众使用首选的AIGC大模型应用平台。
姚霆博士介绍,本次2.0提升方向可概括为三点:图像美、视频长、质量高。
图像美:文生图,是AIGC产品应用的基础,是智象大模型的行业突出优势。在文生图的应用板块中,“智象大模型2.0”展现了其卓越的图像生成能力,尤其在处理长文本输入时,模型不仅能够深入理解文本内容,还能将这些内容转化为具有高度视觉艺术性的图像。值得一提的是,“智象大模型 2.0” 还增添了「文字嵌入生成」的能力。这意味着它不仅在单一的文生图方面,能够生成更为优质和复杂的图像。而且对于长文本输入中,需要在画面里呈现的文字,也能够精准识别,并进行设计与表达。使得文字和图像的结合更加自然和谐,从而提升了成像的整体质量和表现力。
视频长:在视频生成领域,“智象大模型2.0”在保持4K高画质的基础上,实现了视频画面的运动更加流畅自然。7月中旬平台将面向大众提供5、10、15秒三种视频生成时长,和多种视频常规应用尺寸的搭配组合,并且在商业化应用中提供分钟级的连贯性视频内容。在现场演示环节中,其震撼的视频成像能力瞬间引爆全场!
质量高:在故事性视频生成领域,“智象大模型2.0”支持剧本多镜头视频生成、IP连贯一致性等功能特性,本次升级面向行业提供文生Vision Pro场景下的3D生成与编辑功能,3D编辑将在多场景下实现低成本、短周期、批量化的内容生产模式,以及构建大量产品外观及IP形象的立体数据库、加快演进AIGC在多场景下的商业化应用。
智象未来在“死磕”技术的同时,对于商业化也有着务实的发展路径。从2023年3月成立以来,智象未来已经确立了清晰的“多模态大模型+应用”的布局。
随着“AI+”向产业的不断延伸, 在现有的业务中提前布局大模型应用能力,从而提升产品效能,拓宽产品应用边界,已逐渐成为众多领域头部企业战略发展的首要重心。
在本次论坛发布会中,印象笔记、杭州灵伴两家企业宣布与智象未来展开战略合作,旨在将大模型技术应用于云端服务。这些合作将使各方能够发挥各自的行业优势,率先引入AIGC技术,为用户带来更加智能化的内容创作体验。
在此之前智象未来已与中国移动、联想集团、科大讯飞、上影集团、慈文集团、神州数码、央视网、天工异彩等知名企业建立了战略合作关系。其中,与中国移动咪咕共同开发的“AI一语成片”应用,不仅为普通用户提供了零门槛的AI视频彩铃创作工具,还帮助企业客户制作丰富的品牌和营销视频内容,让每个企业都能拥有独特的彩铃品牌标识。
“智象大模型” 是智象未来自主研发的Diffusion Transformer (DiT) 架构模型,是全球范围内首个上线开放使用的图像和视频生成平台,能够契合多行业场景中的能力需求,并已通过模型和算法双备案。截至目前基于“智象大模型”构建的“智象 AI ”系列产品,全球单月访问量超百万、累计AIGC内容生成破千万;已服务的头部企业客户近百家,中小企业超三万家,API已被调用300万余次。
智象未来在2024 WAIC中所展现的卓越性能,不仅证明了其在技术研发和商业化方面的亮眼成绩,更预示了未来多模态大模型行业应用领域的巨大潜力和发展前景。
转自:中国网
【版权及免责声明】凡本网所属版权作品,转载时须获得授权并注明来源“中国产业经济信息网”,违者本网将保留追究其相关法律责任的权力。凡转载文章及企业宣传资讯,仅代表作者个人观点,不代表本网观点和立场。版权事宜请联系:010-65363056。
延伸阅读