首个毫秒级响应的实时生图大模型!腾讯混元图像2.0正式发布
今天腾讯正式发布了业内首个毫秒级响应的实时生图大模型——混元图像2.0(Hunyuan Image2.0)。
目前已经在腾讯混元官方网站上线,并对外开放注册体验,该模型主要有两大特点:实时生图、超写实画质。
相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型。
在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了传统“抽卡—等待—抽卡”的方式。
除了速度快以外,腾讯混元图像2.0模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图像中的“AI味”,真实感强、细节丰富、可用性高。
在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准GenEval(Geneval Bench)上,腾讯混元图像2.0模型准确率超过95%,远超其他同类模型。
提示词:人像摄影,爱因斯坦,背景是东方明珠,自拍视角
腾讯表示,腾讯混元图像2.0引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化caption系统,不仅能理解你在说什么,更能推测出你希望画面「怎么表达」。
哪怕你一句话里埋了三层含义,它也能一一拆解,再一笔一笔画出来。
除了文字输入,腾讯混元图像2.0还可以通过语音直接输入提示词,系统将语音自动转写为文字,并在识别后即时生成图像,适用于直播讲解、移动创作等场景。
也可以上传草图作为参考,模型能自动识别线稿的结构与构图逻辑,再结合提示词内容补全光影、材质、背景等细节,迅速扩展成图。
腾讯混元图像2.0模型生成的图片:
人像摄影风格
动物特写
复古摄影
动漫风格
真实人物风格
相关文章
近日,DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文,重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了 DeepSe...
2025-05-16 845 A I 资讯
腾讯推出了一款新的代码助手插件 ——CodeBuddy3.0。这款产品与微信小程序的开发工具实现了深度整合,标志着腾讯在开发者生态中的又一重要布局。CodeBuddy 并不是一个独立的集成开发环境(IDE),而是一...
2025-05-14 833 A I 资讯
腾讯混元团队宣布将于5月9日(周五)早上11点推出开源的一致性视频生成工具 HunyuanCustom。根据官方海报提示,该工具将支持视频编辑...
2025-05-08 573 A I 资讯
近日,腾讯技术团队对 DeepSeek 开源的 DeepEP 通信框架进行了深度优化,显著提升了其在多种网络环境下的性能。经过测试,优化后的通信框架在 RoCE 网络环境下的性能提升达到了惊人的100%,而在 IB 网络...
2025-05-08 424 A I 资讯
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spot...
2025-05-08 876 A I 资讯