孙洪军：不断研究如何减少大模型幻觉、让逻辑全流程推理更好

　　2024年服贸会专题活动之一——“第六届中国金融科技论坛”于9月12日-13日在北京举行。信息技术（集团）股份有限公司金融事业群助理副总裁孙洪军出席并演讲。

　　孙洪军指出，金融行业各层面对大模型有了统一认识后，就可以快速推动企业内部的转型。但他也强调，大模型是数学逻辑上的推理，因此，肯定会产生幻觉，“它回答100个问题，90个问题回答正确，但10个问题有可能会产生幻觉”。

　　孙洪军表示，大模型提供商也在不断研究如何减少幻觉、让逻辑全流程推理的更好。“我们在针对一些业务场景时，必须要消除一些幻觉，因为我们最终业务不知道来源，普通用户包括我们自己内部员工没有全景，没有大的判断力，如果你给出了90个认为是对的，突然出现一个幻觉或者两个幻觉，认为是一个错误的问题，会认为也是对的，有可能对业务带来一些潜在危险和损失”。

　　“业务层面目前可以解决这些问题，但是有代价的，有可能会对大模型本身训练的一些知识会做一些放弃。也就是说我们会在应用方面会做更多的付出”，他说。

　　以下为演讲实录：

　　孙洪军：刚才听两位领导讲的科技金融、科技创新，也专门讲了AIGC、AI大模型应用，我们也是邮储客户，我们也深度参与了。今天我要讲的是什么？2023年GPT出来之后，我们跟很多金融机构不断合作，很多案例不断落地，我们做了很多场景，有的客户在用，但越做的时候我个人思考就越多，包括未来挑战也就越大，所以今天话题里面更多分享一下我们在做的过程中我们遇到什么问题，我们怎么来考虑这个问题的，包括未来大模型应用、算力这一块到底是什么情况。

　　我的片子分为几个部分：第一部分是理论思考。第二部分是我们的案例，从技术或者从应用的远景来看有一些共同性特点的案例。最后引入我们的思考在里面。

　　实际上大模型在一年多的时间里，各个行业包括各个企业无论是金融还是制造业都在应用，其实这里面有很多挑战，包括每个企业用AI推动我们的应用时，都会存在一些问题需要去思考。

　　第一，大模型不是100%准确的，问题的确定性在金融行业是特别关注的，数据必须是准的，不能一本正经的胡说八道，那怎么来解决这些问题？

　　第二，大模型是个黑盒子，怎么知道他给出的答案确实是正确的，决策链条是什么，决策的可解释性，无论是内部员工还是外部客户都觉得这个决策链条是可信的。

　　第三，大模型以前更多是一种语义推理、逻辑推理，现在我们逐步在往数据跟数字化结合转型起来看，更强调的是数学计算能力。以前我们做的大屏、决策等等更多是数字化的。

　　第四，对于一个更大企业思考一个更大挑战是什么？是技术快速迭代，算力、芯片的快速迭代，大模型能力的快速迭代，我们应用开发的快速迭代。

　　第五，你的建设和你的投入成果预期的平衡。综合来看你的成本怎么去规划，这些都是需要去思考。

　　第六，还有一块是数据安全和隐私。大模型厂商包括在座各位很多人会用网上API的应用，那些数据各大厂商会留。所以我们内部会用哪些敏感数据，哪些必须网上去用，哪些必须私有化用，这些需要区分。

　　所有做大模型应用服务的，都会有类似的架构。我想说的，作为软通动力来讲有有什么？我们有一层算力，这是第一。第二，我们有技术软件，操作系统、数据库。我们不具备的是什么？我们不具备大模型，这是大模型厂商的。除了大模型这一层，我们网上应用，包括我们跟客户二十多年长期合作过程中有大量业务场景和客户一起探讨，这是软通在金融行业的一个情况。

　　下面十几个案例，第一方面是大模型目前在业内用的，大家相对都比较认可了，就是研发领域提高IT的开发效率，这不光是一个开发，实际上涉及到我们的需求、需求解决，需求设计文档，大模型可以直接提炼需求用户故事，直接生成代码。去年大模型还有限制，4K、8K，现在长度可以放到128K，代码生成对软件工程整个领域的改造带来的价值是很大的。

　　这是我们的一个应用效果，在银行的实际应用，从去年9月份就开始去用了，用的过程中一直到现在不断迭代，大规模需求结束是在今年年初1月份，现在已经稳定快9个月了，在实际应用效果中确实能极大提高开发的效率，整个IT里面开发的效率。这里面最有意思的一个事情是，我们永远不知道一个事情，无论你的产品设计的多么好，或者你开始的理念设计的多么好，但真正把这个产品用到极致的一定是我们的用户，我们的用户跟我们说，在这个代码辅助或者需求解读或者等等方面的情况，大家用的最好的场景是什么？是以前有大量的项目，很多人不懂，这时候要做数字化转型，转成微服务的，cover如何去转成这样的情况，而是要工程性的、系统性的，不是我们写几个代码，或者我们让代码生成，我们用户跟我们反向输出了一条实时工艺，这是挺有意思的一件事情。

　　第二个领域，在AIGC生成图、生成视频、生成文生图包括文案创作，这个可能是比较小众的事情，但跟客户交流中我们发现，我们在文生图或者文生视频有时候决定了你推出一个的速度，比如我们去做产品宣传，决策节点很多时候是外包的，或者外部设计公司要求出一个图或者出一个海报，是最快的，可能得需要两三天。在现在效率为王的年代，谁先推出第一个包括谁能及时的去调整，这是一个很大的场景。我们走了很多城商行，城商行对我们这块需求很大，在UI包括行业服务的时候觉得人不多，七八个人负责整个手机银行UI工作，但忆秦速度很慢，最关键的是文生图，可以把一个企业文化要素通过大模型进行初步训练，再通过应用你对企业的理解，产生的图确实是符合你企业文化的。这点是外部设计公司完全取决于人的能力是不太一样的，进行了一些变化。我们二十四节气，软通动力公司内部的二十四节气都是利用AI来做的。

　　而且还有一个变化，现在说用大模型应用对算力要求很高，但文生图对算力要求其实很低，最关键的是昇腾、910B这种高算力的，这种卡还是没办法做这件事情，我们需要传统4090、4080普通的卡就可以，为什么它可以，因为在图的渲染里面已经围绕着家数来做的。机械革命一台笔记本一万多块钱，就可以快速地去做这件事情。这是一个场景。

　　第二个场景是我们给银行做的行史助手，把行里资料、知识传上去记录下来就可以了，但这个是由行器做的，2009年成立到2024年所有信息都上传进去，包括机构信息、人物信息、大使级、金融业务、文化建设、规章制度、财务数据、合规制度等数据信息，我们认为这些是知识，这些知识有可能有重叠的，有可能一个人的变迁在不同文档里面都有，类似我们以前做数字化转型、做数据中台、做大数据平台，我们需要去做知识梳理，但时间很紧，整个知识梳理大概只用了两周时间，当然有些确实也没有完全说这个知识是隔离的，只在一个地方出现的情况，但我们两天时间就满足了客户提出的要求，说你回答的问题要么是准的、要么就不说，要是准的则必须是全的。比如邮储和民生总行部门很多，总行一级部门有哪些，负责人是谁、主要负责的事项是什么，这些分布在不同的知识里，让它有顺序的输出来，这个其实很有挑战性。大家可以把这些知识放到大模型去推理，可能推出完整的，但顺序不对；有的可能推不出完整的。这是我们做的行史，不光是检索，也可以生成产品营销的一些文案，包括撰写感谢信或者撰写一些其他的东西，都是可以的，不光是检索，可以根据行里提供的资料去学习、去写出来。

　　这是咱们总结出来的一些，回答了开始的挑战，基本实现“白盒”，就是我知道这个知识哪儿来的，也知道大模型是根据什么推理出来的，这里面是我们行史在这块的总结。

　　第三个场景是AI的写作，大家对AI写作觉得无非是让大模型帮我写一篇报告的情况。但如果把这个场景扩了一下，要跟我们实际的应用数据结合起来写就有一定难度了。比如数据大数据平台、大数据中台，信贷数据、营销数据都在里面，如果需要根据现有数据写一篇新的报告或者营销报告，里面有数据库里的数据，也有市场的形势分析，这里面如何让它自动化做这件事情，而且要准，这是我们在场景里尝试去做的一件事情。

　　这里面其实可以分为两个点，第一个点，传统取数据小模型或者小规则的方法很重要，也是很准。第二点，充分发挥大模型对数据的变化趋势或者结合行业的信息，它的推理的总结能力。这块就可以把报告很快写出来，当然也涉及到报告里面对Agent的定义，就是说文档结构应该是怎么去做的，哪些提示词怎么去写，然后自动化去输。这是AI写作的一个场景。

　　当然还有很多，时间关系我就不去讲了。

　　这里面有些问题，我们在做过程中有一定的结论，有些在思考中。第一个，现阶段的大模型不是一个发动机，我们都说第四代的工业革命过来了，创新过来了，但是在目前大模型也在不断地创新，算力的短缺短时间也不太好解决。而且整个社会对大模型的认知还需要时间，所以说现阶段大模型应用不是一个发动机，而是一个加速器。这个加速器，我们分析每个业务环节，哪些业务环节可以急速提高效率，比如客户领域，以前客户只能接20个电话，因为大量时间要写报告，我们引入语音、引入我们的智能总结，嵌入到客户里面，那可能一天能接100个电话。这个是银行客户自己实践的。所以这里面是个加速器，没有改变我们原有的IT流程，也没有改变我们的业务流程，但它极大提升了效率。

　　第二个，针对一些企业在初创过程中到底是建一个平台，还是直接上来就应用，还是找一个切入点？我们的意见是先建一个平台，去提供服务能力，在平台上找一个点去把行里或者企业内部所有对大模型的认知，从普通公众的认知，一本正经的胡说八道转变成可以它可以精准地去控制、可以去提出的情况。

　　第三个，如果从切入点来讲，我们建议通用助手的意义远远大于现在专业助手的意义，去训练一个垂直领域大模型，没有通用能力建立起来后不是先去做垂直训练，先做细节，不会考虑更多的全景。

　　第四个，外部推广的时候，金融的话建议从APP角度去感受，无论是风控、营销还是合规，从APP，从内部到外部的情况去做。

　　第五个，这个事情也急不得，但我们又要不断地去做，用一句话来讲，如水渗透到金融行业，渗透进去之后，各个层面对大模型产生统一认识之后就可以快速地去推动整个企业内部的转型。

　　在做的过程中还有一些很有意思的问题，大模型是一个数学逻辑上的推理，肯定会产生幻觉，它能回答100个问题，90个问题回答正确，但10个问题有可能会产生幻觉。大模型提供商也不断地如何减少幻觉、如何让逻辑全流程推理的更好。我们在针对一些业务场景时必须要消除一些幻觉，因为我们最终业务不知道来源，普通用户包括我们自己内部员工没有全景，没有大的判断力，如果你给出了90个认为是对的，突然出现一个幻觉或者两个幻觉，认为是一个错误的问题，会认为也是对的，有可能对业务带来一些潜在危险和损失。业务层面目前可以解决这些问题，但是有代价的，有可能会对大模型本身训练的一些知识会做一些放弃。也就是说我们会在应用方面会做更多的付出。

　　第二，目标和数据哪个更重要，其实这两个同等重要，是相辅相成的道理，不可能因为大模型多强忽视了我们自己数据的准备工作。我们也做了一些测试，自己做大模型应用的时候有业务平台，网上也有各种像知识库助手这样的应用平台，我们把我们的数据切分好之后放到外网，这都是脱敏的数据，它的准确度和我们自己的有差距，这里面对数据的理解和你业务上去做需要相辅相成。

　　第三，模型需要微调，我们建议还是做一定的微调，对行业知识的理解会有更大的帮助。

　　第四，外挂知识库还是长上下文。什么意思？现在应用包括大模型token很长，可以传一本书上去，十万字、二十万字，它马上可以对这本书进行提问，这里面和我们外挂知识库经过治理的还是有区别。我们在过程中遇到比较大的问题，是图的精准识别问题，图的达标。比如一个员工要部门转正，打个标，我希望它识别出来是转正申请的标签，但识别出来的是绩效考核，因为那张表里面大部分是绩效、打分、评价。所以，图，在目前行业里是还没有很好突破的一件事情。早上我看到一篇文章，GPT-4对图有比较大的突破，这个我们需要进一步去调研。国内我们还没有看见。包括知识识别表的问题也是一个大的问题，就是表格，中国式报表，人看起来没有问题，但机器去读懂而且不能出错，表格里面都有数，这是一个比较大的挑战，我们做了一些探讨，再针对那些表格来讲是100%，但针对合并单元格这种特别多的情况下，人读起来比较费劲，大模型也解决不掉，这需要我们做额外的处理。

　　第五，在企业应用的时候经常面临这样的问题：大模型有开源的和闭源的，怎么选？开源好处是便宜，不花钱，闭源的是花钱，但效果更好一些，启动后续服务会更好。我们的建议是什么？当你去尝试一个事情的时候，你可以选择开源；当你上规模的时候还是应该选择闭源，提供更好的服务。当你上规模的时候有体系化的要求，对大模型厂商有定制化的要求，这是我们的建议。

　　第六，大模型的项目谁牵头？我们建议是业务牵头，因为业务知道哪些地方需要改进、哪些地方需要提效，科技上不知道这个事情。

　　第七，无论是代码推、语义推理还是文生图推理都存在一个普遍的问题，就是知识召回不足的问题，无论是采取知识库还是采取其他手段，我们召回的长度总是有限制的，现在主流的，市面上用到主梁的是32K，最大的是128K，32K要去推问要提示词，召回还要加上推理内容，32K其实并不多。所以有些信息召回不了，推理就会缺失，这个问题需要引入更多的Agent，要从大Agent向小的Agent处理逻辑去固化。推理深度不够的问题需要提升大模型的能力，它的数学的一些算法。

　　这是我们在过程中的一些思考，实际上我们还强调一点，大模型来了，原来系统是不是都废掉了？都更新掉了？我们做的过程中都不是的，这些是相辅相成的，以前IT系统无论是风控还是营销都是把人的规则、专家规则、业务规则都固化下来，有答案，寻找起来比较困难。大模型是交互很简单，我想要什么，一个语音或者一段话告诉我就好了，交互变得很快。但我们在实际做的过程中这两个完全可以结合起来去做，很多很精准的，以前做到系统里面很多逻辑可以作为大模型的一些规则，甚至当成一些小模型来用，这里面结合起来，把整个大模型在业务的创新和以前IT建设留下来的资产很好的利用起来。这是我们的建议。

　　另外一个简易师什么？我们还是需要以AI中台来连接算力和应用，从规划上来讲，是需要把它隔离出来的，比如说我们在一个企业内部来建设的话，可能有很多算力，可能会采取很多模型，因为不同大模型的能力是不一样的，那你需要去解耦。第二点，当你在企业内部上了一个大模型应用的时候，会发现同类型的应用可以快速复制、快速搭建的，我做了合规制度检索就可以去做风控制度的检索，我做了报告撰写就可以做营销报告撰写，虽然业务内容不一样，但我们从技术上去看是一样的，这里需要行强大的AI中台，把共同的东西适配、增强技术、模型适配，叫Agent也好或者业务权限，通过组件方式、搭积木方式去搭建出来。从我们自己经验来讲，有了中台之后，去搭一个知识库同类质来讲，时间就是耗在知识整理上了。

　　同时我们在不同场景里面也总结了一些情况，不是所有的东西、所有产品都要追求高算力，要结合自己的实际业务场景，比如图生文、AIPC，一个笔记本就可以了，要求简单，不需要负责推理的，一般一个台式机就可以。如果需要垂类或者代码推理，华为昇腾机器就可以。但对数据要求特别高的可以上一些910，国内情况是不一样的。

　　这是软通动力在整个环节里面，包括适配、迁移、运维以及场景开发、模板定制我们提供全方位服务，最后打了广告，谢谢大家。

　　新浪声明：所有会议实录均为现场速记整理，未经演讲者审阅，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。