ChatGPT图像识别能力解锁和深度分析

ChatGPT爱玩1个月前42

来源:老罗不说

作者:罗予晨

编辑:好困

【新智元导读】其实,ChatGPT是可以识别图片的!你只需要输入图片网址,并确保图片能不受限制地被OpenAI的服务器读取到。

因为ChatGPT网页上没有上传图片按钮,所以一般人都不知道它能识别图片。但是其实它是可以识别图片的,你需要输入图片网址,确保图片不需要登录或者其他限制条件就能被美国服务器读取到。

目前看它读取Wiki、CNN图片都没有问题。

那么它能识别出什么内容?

普通新闻图片

ChatGPT没有识别出具体的装备型号,但是描述了一个非常贴近的场景氛围。对构图的视角有较强的理解力。

人物图片

马克龙这张,没有识别出人脸,也没有识别出画面的文字。但是可以基本描述出画面内容,虽然有一些错误。重点是它对场景的猜测,和接近人的感觉,比如它说马克龙像是很有礼貌的人。

上面两张是识别精度一般的,这里还有画面特征比较强,识别精度较高的。

特定历史图片

这幅越战美军搜查敌人的照片。被ChatGPT详细的描述了细节,这幅图的场景,人物和细节的信息量,会比上面的两张更大(ChatGPT看起来没有对特定的物体和人脸做针对性的优化),所以描述非常生动,虽然有少许错误。而且对人的工作态度这样抽象的信息也有理解。

值得注意的是这里提到警察。这图片来自Wiki越战词条。如果ChatGPT是通过读取连接的文字信息来获取图片信息的,那么就不会认为那些执行任务的人是警察。因此可以认为它的结论完全来自于图片信息。

全球著名图片

这是一幅名画,这个时候ChatGPT是能完整的识别人物和事件的。同时仍然有很多抽象的描述,比如动感等。

针对图片的人机互动

这幅画,一开始ChatGPT没有看懂。给它输入更多信息之后,它能理解这幅画,且描述了画面的感情。所以ChatGPT对图片的理解是能够交互的,而不是一次性的输出。

地标图片

伦敦地标识别成功。

红场识别准确

捏造了一个所谓地标,查了没有这样的地标。

视频内容识别

ChatGPT是承认自己可以识别视频的,但是在油管、CNN等网站的内容识别中,输出有错误。这是业务没有开放造成的,它甚至知道我的问题是看快进的进度。

如果不多问一句,都不知道它是不是真的看了视频。

继续保持对ChatCPT的关注。

相关文章

ChatGPT需要怎样的芯片?

本文来自微信公众号:半导体行业观察 (ID:icbank),作者:李飞,头图来自:unsplash 最近,以ChatGPT为首的生成类模型已经成为了人工智能的新热点,硅谷的微软、谷歌等都纷纷大举投资此类技术(微软100亿美...

每经热评|遏止ChatGPT概念炒作之风 需丰富市场操纵手段定义

每经特约评论员 熊锦秋 最近市场掀起ChatGPT概念炒作之风,尤其是海天瑞声和云从科技股价短期翻倍。近日,两家公司均收到上交所监管工作函。笔者认为,应从根本上遏制概念炒作。 概念股短期涨幅严重脱离大盘,上市公司需...

ChatGPT来了,我们该如何面对

ChatGPT来了,我们该如何面对

  你知道ChatGPT吗?这款在2022年11月30日横空出世的人工智能产品,最近频频登上热搜,成为全球瞩目的焦点。不到一周的时间,它的用户数就已突破100万,月访问量达2100万人次。仅两个月后,ChatG...

后ChatGPT时代,最能打的20种“金饭碗”工作!

后ChatGPT时代,最能打的20种“金饭碗”工作!

文/李开复微信号:kaifu我的上一篇文章“ChatGPT引发失业恐慌?这20种工作要避开!”谈到了或被AI取代的20种工作,包括了电话销售、客户服务、仓库搬运、电话接线等简单重复的流程性工作。这份“后ChatGPT时代”的人类职业消亡清单...

我,ChatGPT,站在谷歌的肩膀上,让谷歌紧张

我,ChatGPT,站在谷歌的肩膀上,让谷歌紧张

ChatGPT左手搏右手谷歌危机?本文来自「尹生价值观」(ID:jia-zhi-xian),作者尹生——创新和商业边界研究者,战略沟通专家。ChatGPT 的最大意义,在于它向在技术短缺状态中停留了大半个世纪的 AI 研发者们,传达了这样的...

全球爆红的 ChatGPT 为什么引起一些人的恐慌,它是 AI 技术的最高应用吗?

这些人恐慌的直接原因是被媒体夸张的标题和不准确的报道所惊吓,以至于会觉得 ChatGPT 这种大型语言模型有概率是“AI 技术的最高应用”。 ChatGPT 的功能是按统计去排列字...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。