GPT-4V 测试：复杂问题和专业问题

date

slug

status

summary

type

实验

[2309.17421] The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 中做了大量 GPT-4V 的测试，包含从日常到工业、商业领域的各种可能的图文组合输入问题，覆盖不同难度。

此外，First Impressions with GPT-4V(ision) 一文也做了不少测试，包括不少对图中物体的认知、推理问题。

这里再做几个涉及各种领域的复杂实验，给 GPT-4V 上点压力。

OCR 提取普通文本

一首布劳提根的诗，就当是热热身了。

OCR 提取复杂文本

这次尝试来提取论文中的表格数据：

表格本身的提取非常准确。然而在读取数据点的时候，GPT-4V 的表现就很不好了：

它好像能认出蓝色数据点是 o 符号，但是只读到了 X 轴上有标记的点，而且值都是错的。

OCR 提取书页照片

仍然是文本提取，但这次是随手拍摄的书页照片（《疼痛部》）

无论是移动端还是网页端，GPT-4V 都能成功识别前几个字符，然后开始乱说一气。这种模式还会重复，每过一段它总能正确识别开头几个字，然后继续胡说。

工程图纸读取

就这个读取结果来说，基本标注的识别还算可以，比不少专门的 OCR 模型效果都要好（因为完全没做过符号相关的调优训练）。此外也能自动推断一下标注所属的类型，可惜这块推断得不是很准确，猜测在 prompt 里介绍一下背景知识或许能提升一些。

因为单独只识别出文本没法利用，尝试再上一点压力：要求 GPT-4V 同时输出标注的矩形框坐标（等于要求它执行一个 OCR 检测 + 识别模型的任务）。这个要求是有道理的，因为如果 GPT-4V 现在能准确输出矩形框坐标的文本，那么将来接入插件以后，它就可以把这段坐标文本转述给 Python 解释器，直接导进 Python 里。