这 AI 发展的速度真是让人应接不暇!一边是马斯克旗下的 xAI 给他们的聊天机器人 Grok 装上了“眼睛”,让它能理解摄像头看到的东西;另一边,OpenAI 则面向开发者放出了一个全新的、功能更强大的图像生成模型 API——GPT-image-1。咱们来分别看看这两个新玩意儿。一、Grok Vision:让聊天机器人“眼见为实”根据 Techcrunch 的报道,xAI 最近为他们的 Grok 聊天机器人增加了一项名为 Grok Vision 的新功能。核心能力: 这项升级让 Grok 具备了视觉理解能力。用户可以将手机摄像头对准现实世界中的物体,比如产品、标志、文件等等,然后向 Grok 提问,让它基于看到的内容进行解答。使用场景: 咱们搬主题觉得,这功能听起来有点像把 Google Lens 的能力直接塞进了聊天机器人里。想象一下,路上看到不认识的花草、商品,或者需要快速翻译个文件,直接掏出手机让 Grok 瞅瞅就行,交互体验可能会更自然。当前限制: 需要注意的是,目前 Grok Vision 功能仅支持 iOS 版本的 Grok 应用。安卓用户还得再等等。其他更新: 除了视觉能力,这次 Grok 还推出了其他新功能,包括多语言音频支持和在 Grok 语音模式下的实时搜索能力。搬主题点评: Grok Vision 的加入,让 Grok 从一个纯粹的文本/语音聊天机器人,向一个更能与物理世界互动的 AI 助手迈进了一步。这无疑增加了它的实用性和趣味性,也让它在与 ChatGPT、Gemini 等对手的竞争中,多了一张“视觉牌”。不过,仅限 iOS 平台是个小小的遗憾,期待未来能覆盖更多用户。二、OpenAI GPT-image-1 API:专业级图像生成,控制更精细!OpenAI 这边也没闲着,他们正式发布了全新的图像模型 API——GPT-image-1,并已向全球开发者开放使用。API 专属,更专业: 这个 GPT-image-1 跟咱们平时在 ChatGPT 里玩图片生成不太一样,它是一个专门面向开发者的 API。最大的特点就是提供了极其精细的控制选项。开发者可以控制生成图像的敏感度、生成效率、背景、输出格式(比如 JPG、PNG、WEBP)、渲染质量、压缩质量等等。亮点功能:更高保真度与精确性: 生成的图像质量更高,细节更丰富。多样化视觉风格: 支持生成各种不同的视觉风格。精确图像编辑: 提供更强的图像编辑能力。丰富世界知识: 模型理解能力强,能更好地根据描述生成图像。一致的文本渲染: 在图像中生成清晰、准确的文字。支持吉卜力风格: 没错!这个 API 支持生成现在网上超火的吉卜力画风(Ghibli mode)!这对很多应用场景来说是个巨大的吸引力。行业应用: 据悉,像 Adobe、Figma、HeyGen、Wix 这些知名的设计和创意工具公司,已经将 GPT-image-1 模型集成到了他们的产品中。可见其专业能力得到了业界的认可。价格方面:文本输入:每百万 token 收费 5 美元。图像输入:每百万 token 收费 10 美元。图像输出:每百万 token 收费 40 美元。官方给出的单张方形图片大致费用估算:低质量图像:约 0.02 美元中等质量图像:约 0.07 美元高质量图像:约 0.19 美元重要提醒: OpenAI 对这个新模型的 API 使用了全新的身份验证机制。如果开发者发现无法通过验证,OpenAI 建议可以考虑使用微软的 Azure 云服务来接入和体验该模型。详细 API 指南: https://platform.openai.com/docs/guides/image-generation?image-generation-model=GPT-image-1搬主题点评: GPT-image-1 API 的发布,标志着 OpenAI 在图像生成领域向专业化和精细化控制迈进了一大步。它不再仅仅是面向普通用户的玩具,而是为开发者提供了一个强大的、可高度定制的图像生成引擎。极高的控制自由度和对流行风格(如吉卜力)的支持,让它在集成到各种创意、设计、营销工具中时潜力巨大。当然,价格和新的验证方式也是开发者需要考虑的因素。总结一边是让 AI 更好地理解我们眼前的物理世界(Grok Vision),另一边是让 AI 更精准、更可控地创造视觉内容(GPT-image-1 API)。咱们搬主题感觉,AI 在“看”和“画”这两个方向上的竞赛,真是越来越激烈了!这些新功能和新工具的出现,无疑将进一步推动 AI 技术在更多场景下的应用和创新。让我们拭目以待吧!
THE END