当前,多模态大模型在工程领域的应用成为科技公司竞相布局的方向。GPT-4、文心一言、通义千问等主流模型都在技术文档中提及了对工程图纸的理解能力,但实际测试表明,这些宣称与真实表现存在明显差距。
一、行业大模型工程能力宣称与实际落差
1.1大模型选型
本次选取了当前市场上最受关注的6款大模型:
OpenAI GPT-4:官方宣称"能理解复杂图像内容"
百度文心一言:官网明确标注"建筑行业解决方案",包含图纸要素提取功能
阿里通义千问:宣传"具备工程领域文档理解能力,可提取结构化数据"
科大讯飞星火:推出"建筑工程AI助手",主打图纸识别和工程量计算
智谱清言:提供"建筑行业知识库",支持专业领域内容理解
百川智能:支持多模态图像理解
1.2 测试方法
选取了建筑、结构、机电三类典型工程图纸作为测试样本,重点关注以下几个维度:
基础工程元件识别能力
专业符号系统理解程度
尺寸标注解读准确性
空间关系推理能力
行业规范符合性判断
二、实测现场:大模型的"翻车"名场面
2.1 建筑图
在建筑平面图测试中,标注为"FM-1521"的防火门成了模型的"照妖镜"(工程中代表"防火门,宽1.5米,高2.1米"),但6个模型给出了错误解读:
GPT-4:将"FM"译为"Family Room"(家庭房),尺寸"1521"解读为"15英尺×21英尺"(约4.57m×6.4m)
文心一言:正确识别"FM"为防火门,但将"1521"错误理解为"15米×21米"
通义千问:认为这是"普通门(M)",完全忽略"F"(防火)的含义
其他模型:普遍将"FM"解读为"阀门"(Valve)或"风机"(Fan)
2.2 结构图
结构配筋图中的"Φ10@100/200(2)"是典型钢筋标注(含类型、直径、间距和箍筋肢数),测试结果无法满足预期:
符号识别:仅讯飞星火和智谱清言能正确识别"Φ"为钢筋符号(HRB335级),其余或认作"希腊字母phi"(GPT-4)、"空心圆"(百川智能),甚至"电池符号"
间距解读:"@100/200"表示"加密区间距100mm,非加密区间距200mm",但所有模型均将"@"解读为"邮箱符号",导致"100/200"被理解为"100到200邮箱"
整体理解:没有模型能完整解读"(2)"代表"两肢箍",多数认为是"括号内数字2"
2.3 机电图
机电管线图测试中,模型对"800×400mm风管"与"DN150mm消防水管"的空间关系判断正确率不足两成。如通义千问将尺寸误判为"面积800-400平方米",GPT-4颠倒"风管标高 3.600m"与"水管标高 3.200m"的上下关系。
2.4问题归类
(1)专业符号识别困难:模型普遍无法准确识别工程图纸中的专业符号,经常将具有特定工程含义的符号误判为通用图形。
(2)空间关系理解不足:在解读二维图纸表达的三维空间关系时,模型表现出明显的局限性,难以正确还原设计意图。
(3)规范理解偏差:对行业制图标准和设计规范的理解存在系统性偏差,无法准确判断图纸的合规性。
三、多模态大模型的"软肋":为何工程图纸是"硬骨头"?
3.1 专业语义壁垒
工程图纸采用的专业符号体系与通用知识存在显著差异。例如"WL"在建筑中是"污水立管",在制造业却指"多层陶瓷电容器",这些专业语义在通用训练数据中极为稀少,导致模型难以建立正确的映射关系。
3.2 空间关系理解
工程图纸本质上是三维空间的二维抽象表达,这种转换需要专业的读图训练。表现为无法理解剖切符号含义、忽略轴线定位逻辑、无法判断构件力学关系等基础缺陷。
四、 图纸对象识别:AI的"视而不见"
目前主流大模型面对CAD图纸时最大的盲区在于——不具备图纸对象级别的识别能力。即使输入一幅完整的建筑平面图,它也无法回答: 这张图里有几个房间?门窗位置在哪里?哪些是墙体?管道走向如何?
这种能力缺失源于两点:
(1)输入数据形式限制:大模型通常接收的是文本或低分辨率图像,无法直接解析矢量CAD格式(如DWG、DXF),难以提取几何结构、层属性、块定义等专业元素。
(2)训练数据偏差:现有大模型训练数据多来自互联网文本、图片库等开放资源,而非结构化的工程图纸数据库,导致其对图纸的感知能力接近于零。
在AutoCAD图纸实测中,即使标注"这是一个双扇防火门",多个大模型仍无法指出"门的边界""开启方向""嵌套构件"等问题。这说明:大模型在工程领域的落地必须依赖专业的CAD图像识别引擎或矢量化图纸分析工具作为前置模块。
结语
当GPT-4、文心一言等大模型在通用领域大放异彩时,工程图纸成了它们难以逾越的"专业鸿沟"。这场实测证明:AI落地工程行业,不仅需要强大的多模态能力,更需要对行业知识的深度融合。
主流大模型在垂直行业任务中表现出的"失明"现象,反映出当前基于文本概率推理的AI在处理专业领域问题时存在明显局限。特别是在CAD矢量工程图纸理解中,仅依赖文本生成或图像识别已难以满足需求。
这类任务本质上是一个融合多种模态与专业知识的复杂系统工程,需综合运用图纸解析、图形算法、图像识别、文本理解与逻辑推理等能力,并深度结合设计规范、专业符号体系以及工程语义逻辑。还需构建基于工程知识图谱的空间推理机制,实现对设计意图、拓扑关系和功能约束的准确解读,从而支撑真正意义上实现“工程AI大脑”。
【系列预告】
系列三,我们将深入探讨:如何让AI真正"读懂"工程图纸?专业识图引擎有怎样的能力体现?
0人已收藏
0人已打赏
免费0人已点赞
分享
行见BIM
返回版块9079 条内容 · 63 人订阅
阅读下一篇
识图引擎系列一:AI落地工程行业为何卡壳?多数项目折戟竟因数据“营养不良”2023年,中建八局在深圳某300米超高层项目中引入AI进度管理系统,投入超800万元,6个月后却暂停使用——原因是BIM模型数据与现场实际偏差太大,AI算法成了“无米之炊”。网易新闻2025年《AI2.0时代的建筑业》调研报告显示,数据碎片化与质量问题已成为工程AI落地的首要障碍,超60%的试点项目因数据问题未能达到预期效果。工程行业的AI转型,为何偏偏在“数据”这个基本功上栽了跟头?
回帖成功
经验值 +10
全部回复(0 )
只看楼主 我来说两句抢沙发