返回

万翼发布首个建筑多模态大模型解决方案“卓灵”

媒体报道
2023.12.08
万翼科技
1

由万翼科技自主研发的首个建筑领域多模态大模型解决方案——“卓灵”于近日发布。

 

当前主流的大语言模型无法有效处理图形与文本混合的工程图纸——这是建筑领域最重要的信息载体——将严重制约其在行业的深度应用。

针对上述的行业技术难题,万翼科技通过基础模型的领域适配,并融合AI审图多年积累的工程图纸识别技术,首次实现大语言模型与工程图纸的智能交互。

 

这一创新成果,不仅代表建筑行业在多模态信息处理应用走出关键一步,也展示了未来设计建造与人工智能技术结合的新趋势。

 

“卓灵”能做什么?

 

​“卓灵”可用于图纸、模型和规范等各种建筑领域数据的理解、问答和操作。以最为常见的图纸查找使用为例,“卓灵”可以实现:
 

1. 询问某个数据
 

案例:用户搜索“本项目三区的总建筑面积”,卓灵可智能识别项目不同区域信息,快速给出数据并附上图纸链接。

 

2. 查找某张图纸

 

案例:用户提出“本项目的消防水泵房大样”,卓灵理解用户的意图是“想在给排水详图中查看本项目的消防水泵房大样图”,快速给出回答并附上图纸链接。

 

3. 获取关联信息

 

案例:卓灵通过了解交互上下文信息,理解用户提出“这个区”指的是当前正在看的二区,以及想看的地下顶板图在建筑专业图中,快速给出回答并附上图纸链接。

 

“卓灵”的智能交互:强大的用户意图理解和推理能力

 

“卓灵”能够精准理解行业术语和用户意图,实现行业领先的智能交互方式:

 

1. 完整理解多轮对话

 

不同于传统资料检索只能孤立地在一定范围内做一次性的关键词检索,基于大模型强大的自然语言处理能力,卓灵可以通过多轮对话完整理解用户的意图,而不仅仅依赖最新的问询语句,从而大大提升了用户获取信息的效率。

 

 

例如,如果用户上一轮问询语句为:“查看1号楼的建筑一层平面图”,用户最近的查询语句为“不对,应该是2号楼的”,卓灵可以推理用户的完整意图为“查看2号楼的建筑专业一层平面图”。当第一次提的问题范围太广时,用户还可以进行追问获得更加精确的结果。

 

2. 通过交互上下文挖掘隐藏意图

 

卓灵可以根据当前的交互上下文挖掘用户的隐藏意图,而不仅仅依赖问询语句,进一步提升交流质量。交互上下文是指用户当前操作相关的信息,如正在看什么图纸、项目位于哪个地区等。

 

例如,用户当前正在看1号楼的建筑专业二层平面图,提问“我想看这层的给排水图纸”,卓灵可以结合“1号楼建筑专业二层平面图”这一交互上下文信息,挖掘到用户的隐藏意图是“我想查看1号楼给排水专业二层平面图”。

 

这种方式更加充分地利用潜在的关联信息,不仅避免因单纯关键词检索引发的大量误解,还能更快地找到用户需要的规范和相关图纸。

 

3. 更智能的回答方式

 

相比传统的资料信息检索方式(机械罗列全部检索结果),卓灵能够完全以自然语言方式回答用户的提问,并带上相关图纸链接,点击链接后直接跳转至图纸对应位置,进行更进一步的操作。

 

例如,用户的提问“这个建筑在什么地区?”,卓灵会回答“该建筑位于深圳市南山区”,同时提供跳转到包含位置信息的建筑总说明图纸链接。现有技术无法达到这种效果。

 


万翼科技作为建筑领域人工智能研发应用的领跑者,于2021年正式发布行业首款人工智能审图产品——AI审图,已为上百家地产、设计院和政府客户提供智能审查服务,审查图纸超150万张,为客户减少潜在经济损失超90亿元。

 

AI审图入选住建部“智能建造与新型建筑工业化协同发展可复制经验清单(第一批)”,获得二〇二二年度“华夏建设科学技术奖”。

 

“卓灵”大模型解决方案是万翼科技基于AI审图持续研发基础上的又一重要创新。


万翼科技图纸识别领域的部分技术专利、获奖和认证

 

图云是万翼科技融合“卓灵”大模型解决方案打造的图纸管理与协作产品,旨在大幅提升项目图纸管理使用、沟通协同的效率。

 

未来,“卓灵”大模型解决方案将与更多行业应用融合,提升建筑领域多模态信息获取使用的效率和体验,为行业发展创造更多的经济和社会效益。
 

 

业务咨询请拨打
4000028299
微信公众号