这便是来自商汤科技最新升级的AI文生图领域的预训练模型——秒画Artist v0.3.5 版本,而且还是时隔仅3个月迭代出来的新版本。

  我们知道,预训练对于提高模型的泛化性帮助很大,这样往往只需要少量训练和模型优化,它就能在新的下游任务中取得出色的表现,也就是大家通常所熟悉的LoRA模型。

  现在市面上,很多知名LoRA模型,例如-blindbox/大概是盲盒,都是基于Stable Diffusion,添加相关数据,来进行训练,从而在某一个垂类领域可以达到非常出色的作画效果。

  但是,Stable Diffusion作为泛化性支撑的预训练模型,其本身的作画效果并不会太突出。

  那么秒画Artist v0.3.5作为商汤最新的预训练模型,在不额外训练LoRA模型的情况下,能达到什么样的水平呢?接下来,就让我们从各个不同领域,深入来了解一下它的真实水平。

  一位摇滚明星的肖像,全身裹着珠宝,详细的面部,杂志,奇幻森林背景,大卫·拉夏贝尔的作品,微光,月光,高度细致照片级真实感,细节,杰作,大师摄影作品。

  二次元,清朝古装男孩,漂浮和水下夸张的身体动态,纠缠着红色和金色的锦鲤,超现实的油画,廷德尔效应,水滴,夏天,梦幻的色彩。光折射到水中产生虹彩反射、宝石光、超细节、廷德尔效应、最佳质量。

  二次元,中国古代少年将军,女性,目光锐利,轻甲,劲装,暗红色布料,银色花纹,护肩,护腕,玉佩。

  动漫,中国少女仿生人,3D风格脸型,紫色,战斗中,黑烟流中间,紫色烟雾缭绕,符文环绕,武侠动作皮肤,精致五官,汉服机甲,投影全息显示。中国武术动作、全息光环、荧光、丰富背景、赛博朋克、特效、3D美术、OC渲染、超写实、写实细节、微小细节、细致描绘、未来主义、3D渲染、虚幻引擎、超高清、8K。

  实验电影技术,前卫电影肖像,被底片遮蔽,多层页面,低角度,胶片图像,融化,划痕,刺穿,撕裂,抽象。

  不得不说,当看到这幅作品的时候,有被深深的震撼到;不论是作品的灵感亦或是妆造,都着实有点太前卫了。

  经过多轮测试,我们可以发现,秒画Artist v0.3.5模型,作为一个基础的预训练模型,不仅保持了很好的泛化性,在画面的细节效果上也有很优秀的表现,在某些垂类的作画领域,甚至可以达到与LoRA模型相媲美的效果。

  在纵向看完秒画的最新能力之后。相信很多人希望我们请出来更具挑战性对手——Midjourney。

  一位美丽的异域女子,蓬松飞扬的长发,印第安风格头饰,金属风格,逆光,皮肤纹理,废土风,细节感,摄影作品。

  一个穿着白色服装的男人被一个巨大的圆盘包围,看起来,低角度视图,夜核风格,深青色和深红色,机甲动漫,未来派色波,噩梦,错综复杂。

  我们还了解到,用户可以基于秒画Artist v0.3.5 模型进一步训练小模型的功能,目前已经在B端开放应用了,这样企业可以基于秒画的能力,训练打磨自己的专属模型。

  根据自己的需要,选择自行选择商汤自研大模型(Artist)或各类社区开源模型,也可根据风格倾向自行LoRA模型。

  在图生图界面,新版本的秒画还将ControlNet这一宝藏工具进行了整合,用户无需跳转,直接在“图生图”功能下即可使用,进阶创作更快捷。

  2023年1月:秒画Artist v0.1.0模型,内测上线月:秒画Artist v0.2.0模型,正式上线亿参数文生图模型打造的C端应用。

  2023年7月:秒画Artist v0.3.0模型,参数量提升至70亿,并采用全新的生成模型架构。

  这个公式侧重体现的是大数据和大算力方面的发力,但除此之外,我们发现商汤实则在算法方面也做了不少的工作。

  过去的几年中,商汤在大模型结构设计、训练优化、平台和数据、算力等领域都有长期的深耕与投入,有架构设计和优化方面的丰富经验和积累。不但储备了超过50亿的有效图文数据,更发表10+相关论文。

  例如在上半年提出的RAPHAEL算法,便是通过探究生成模型的内在性质,设计更高效的稀疏架构来强化文本理解和生成能力。

  而这些个路径,每个都可以视为一个“画家”, 用扩散时间步长将特定文本概念描绘到指定图像区域上。

  总而言之,有大数据、有大算力、有大模型,算法技术也在不断优化,商汤能够让秒画每三个月做到版本迭代就不难理解了。