Miver - LMS & Freelance Services Marketplace for Businesses HTML Template

AI新动态：Grok能看懂世界了 OpenAI开放超强图像生成API

2025年06月12日

这 AI 发展的速度真是让人应接不暇！一边是马斯克旗下的 xAI 给他们的聊天机器人 Grok 装上了“眼睛”，让它能理解摄像头看到的东西；另一边，OpenAI 则面向开发者放出了一个全新的、功能更强大的图像生成模型 API——GPT-image-1。咱们来分别看看这两个新玩意儿。一、Grok Vision：让聊天机器人“眼见为实”根据 Techcrunch 的报道，xAI 最近为他们的 Grok 聊天机器人增加了一项名为 Grok Vision 的新功能。核心能力：这项升级让 Grok 具备了视觉理解能力。用户可以将手机摄像头对准现实世界中的物体，比如产品、标志、文件等等，然后向 Grok 提问，让它基于看到的内容进行解答。使用场景：咱们搬主题觉得，这功能听起来有点像把 Google Lens 的能力直接塞进了聊天机器人里。想象一下，路上看到不认识的花草、商品，或者需要快速翻译个文件，直接掏出手机让 Grok 瞅瞅就行，交互体验可能会更自然。当前限制：需要注意的是，目前 Grok Vision 功能仅支持 iOS 版本的 Grok 应用。安卓用户还得再等等。其他更新：除了视觉能力，这次 Grok 还推出了其他新功能，包括多语言音频支持和在 Grok 语音模式下的实时搜索能力。搬主题点评： Grok Vision 的加入，让 Grok 从一个纯粹的文本/语音聊天机器人，向一个更能与物理世界互动的 AI 助手迈进了一步。这无疑增加了它的实用性和趣味性，也让它在与 ChatGPT、Gemini 等对手的竞争中，多了一张“视觉牌”。不过，仅限 iOS 平台是个小小的遗憾，期待未来能覆盖更多用户。二、OpenAI GPT-image-1 API：专业级图像生成，控制更精细！OpenAI 这边也没闲着，他们正式发布了全新的图像模型 API——GPT-image-1，并已向全球开发者开放使用。API 专属，更专业：这个 GPT-image-1 跟咱们平时在 ChatGPT 里玩图片生成不太一样，它是一个专门面向开发者的 API。最大的特点就是提供了极其精细的控制选项。开发者可以控制生成图像的敏感度、生成效率、背景、输出格式（比如 JPG、PNG、WEBP）、渲染质量、压缩质量等等。亮点功能：更高保真度与精确性：生成的图像质量更高，细节更丰富。多样化视觉风格：支持生成各种不同的视觉风格。精确图像编辑：提供更强的图像编辑能力。丰富世界知识：模型理解能力强，能更好地根据描述生成图像。一致的文本渲染：在图像中生成清晰、准确的文字。支持吉卜力风格：没错！这个 API 支持生成现在网上超火的吉卜力画风（Ghibli mode）！这对很多应用场景来说是个巨大的吸引力。行业应用：据悉，像 Adobe、Figma、HeyGen、Wix 这些知名的设计和创意工具公司，已经将 GPT-image-1 模型集成到了他们的产品中。可见其专业能力得到了业界的认可。价格方面：文本输入：每百万 token 收费 5 美元。图像输入：每百万 token 收费 10 美元。图像输出：每百万 token 收费 40 美元。官方给出的单张方形图片大致费用估算：低质量图像：约 0.02 美元中等质量图像：约 0.07 美元高质量图像：约 0.19 美元重要提醒： OpenAI 对这个新模型的 API 使用了全新的身份验证机制。如果开发者发现无法通过验证，OpenAI 建议可以考虑使用微软的 Azure 云服务来接入和体验该模型。详细 API 指南： https://platform.openai.com/docs/guides/image-generation?image-generation-model=GPT-image-1搬主题点评： GPT-image-1 API 的发布，标志着 OpenAI 在图像生成领域向专业化和精细化控制迈进了一大步。它不再仅仅是面向普通用户的玩具，而是为开发者提供了一个强大的、可高度定制的图像生成引擎。极高的控制自由度和对流行风格（如吉卜力）的支持，让它在集成到各种创意、设计、营销工具中时潜力巨大。当然，价格和新的验证方式也是开发者需要考虑的因素。总结一边是让 AI 更好地理解我们眼前的物理世界（Grok Vision），另一边是让 AI 更精准、更可控地创造视觉内容（GPT-image-1 API）。咱们搬主题感觉，AI 在“看”和“画”这两个方向上的竞赛，真是越来越激烈了！这些新功能和新工具的出现，无疑将进一步推动 AI 技术在更多场景下的应用和创新。让我们拭目以待吧！

THE END

AI新动态：Grok能看懂世界了 OpenAI开放超强图像生成API

即梦人物IP提示词

新手用AI从0-1开发网站 - 后台AI提示词

网站前端AI提示词

app提示词