发布日期:2025-07-04 21:12 点击次数:54
知识图谱:驱动员工能力的引擎与机遇股市加杠杆如何操作
潘建东,王赵鹏,马张晖,刘国杨,孙冰,尹序鑫,訾顺遥,梁彬
E-mail:mazhanghui@csc.com.cn
针对目前财富管理机构存在的一线员工学习压力大,客户服务针对性弱,专业人才流失,缺乏高效专业的协同工作等问题,中信建投证券提出员工赋能平台项目,将知识图谱与大语言模型等相关技术结合,弥补了金融领域数据缺少组织结构、价值密度低、难使用的缺点。员工赋能平台通过数据智能处理、专家生产工具设计以及认证鼓励机制开发,为员工构建出一个顺畅的生产环境,通过灵活组队服务功能,让一线员工可以随时提问专业信息,直接联系沟通到总部专家,快速响应客户需求。该系统大大提升了员工的工作和合作效率,挖掘出更多的业务机会。
关键词:综合财富管理;人工智能;知识图谱;知识生产;知识应用
1 引言
财富管理指以客户为中心,设计出一套全面的财务规划,通过向客户提供现金、信用、保险、投资组合等一系列的金融服务,将客户的资产、负债、流动性进行管理,以满足客户不同阶段的财务需求,帮助客户达到降低风险、实现财富保值、增值和传承等目的。经过四十年改革开放,我国国民财富积累迅速增长,同时近年来房地产吸引力下降、资管新规、权益市场吸引力不断提高,居民财富增值的意愿达到了新高度,对金融机构高质量财富管理的需求日益强烈。
当前,证券公司等金融机构在进行财富管理业务时,普遍面临着庞大的客户群体与综合服务能力不匹配的问题:一线员工学习压力大,客户服务针对性弱;个体经验难以持续产生价值,出现专业人才流失现象;缺乏高效专业的协同等。为解决这些问题,中信建投证券积极探索利用科技赋能,提升财富管理赋能能力。通过建设员工赋能平台项目,降低知识生产门槛,实现知识数据可视化、业务规则数字化和自动化,有效链接用户、产品和知识等实体数据,打造开发出一套专业易用的专家知识生产系统。
2 基于知识图谱技术的员工赋能系统
如何整合来自web端、文档、音视频等多源非结构化数据,实现快速检索、多元互联等目标,利用大语言模型构建高价值密度、高利用率的垂直领域知识库显得尤为重要。中信建投证券团队通过建设员工赋能平台,利用先进的实体识别、关系抽取算法构建知识图谱,再基于实体对齐、链接预测技术对图谱进行补全和完善,得到高质量、高可用的垂直领域知识图谱应用于下游任务,助力一线员工和领域专家直接交互,辅助员工和专家开展合作,实现对客户全方位的服务提升。
如下图1所示,平台整体划分为数据接入层,知识生产层,知识应用层三个单元。数据接入层,负责接入并整合大量分散在数据中心服务器、员工电脑本地的异构非结构化文件等组织知识。知识生产层,进一步将数据构建为知识图谱形式,依靠图谱良好的关联性和高信息量特点,实现快速检索、推理等功能,满足员工作业需求。随后,在知识应用层中,知识图谱数据与大语言模型结合,拓展应用到员工赋能平台中的知识检索、问答系统以及协同组队等功能模块中。通过这种方式,平台将知识信息与专家信息录入知识图谱,以实体和关系的形式进行联合。一线员工不仅可以随时提问所需的专业知识、获取调用学习相关的服务文档、案例、经验等知识内容,还可以根据不同业务通过企微互联直接联系对应专家,灵活组队为客户提供高质量的综合性金融服务。
图1 员工赋能平台架构图
3 面向员工赋能平台的知识图谱实践
3.1 知识图谱数据处理
大量的组织知识分散在数据中心服务器和员工电脑本地的Word、PPT、音频、视频、图片等格式的文件中,平台需要能够兼容各种格式的数据类型,因此需要人工智能技术将各种数据类型格式的非结构数据进行初步的统一化、半结构化,然后才能支持后续精加工流程的顺畅实现。
员工赋能平台不仅要能“兼收并蓄”,同时也要能“多样绽放”。平台的重要任务之一是为基于高级算法构建的应用提供优质输入(例如基于图计算的推荐任务场景下,首先需要将客户数据生产为知识图谱,然后利用图计算相关算法进行客户分类和推荐),应用场景和算法的不同,要求输入的知识表示形式也不同。而多样化的知识表示形式,要求平台尽可能集成和支持多样化的人工智能算法模型,用于自动化地将数据生产为知识。平台通过使用流处理技术和实时数据集成工具完成实时数据集成,将不同数据源的数据实时整合到一个单一的视图中。实时数据集成技术可以帮助企业更快地做出决策,并提供更准确和实时的数据分析。集成后通过自动化数据准备,使用机器学习和自然语言处理等技术来自动识别、清理和转换数据,减少了手动劳动力,缩短数据准备的时间,并提高数据的准确性和一致性。最后通过无代码/低代码数据接入,使用可视化界面和图形化工具来简化数据接入的过程。通过这种方式,减少对技术专业知识的依赖,使更多人能够参与数据接入和分析,从而提高企业的数据文化。
3.2 知识图谱生成
员工赋能平台通过知识生产层得到高质量的知识图谱数据,用于下层知识应用。我们调研尝试了大量经典基线模型算法,并进行了对比与改进,最终确定了平台的算法实现方向。下表1罗列了经典算法与平台所用算法的对比情况:
表1 算法对比
数据接入模块输出大量结构化、半结构化或非结构化的数据,再统一利用实体抽取和关系抽取技术,将其转化为生产结构化知识图谱数据,用于下游NLP任务。
实体抽取部分,团队使用BERT预训练模型+BiLSTM+CRF的算法模型。经典的实体抽算法例如Word2vec模型+LSTM+CRF,将实体抽取看作文本序列标注问题,先通过Word2vec模型获得文本的初始嵌入向量,再利用LSTM对向量进行小范围内的二次聚合,最后用CRF替代Softmax,对标注结果进行规则上的限制。类似的这类经典算法存在一些问题。首先,Word2vec模型生成的词向量均为静态词向量,扩展性不强,且生成速度较慢。LSTM模型虽然在小范围内可以对文本向量进行再次聚合,但聚合方向为单向,其能力也有待进一步提升。其次,经典算法将实体对齐任务视为序列标注问题,在面对小样本学习和可持续学习的任务上表现乏力。然而,公司的数据在不同业务领域种类较多、流量较大,需要实时更新、持续学习,部分领域还可能存在数据量较小的情况,使用经典算法效果欠佳。
图2 实体抽取模型结构
BERT预训练模型+BiLSTM+CRF的算法模型可以在保持轻量级的同时克服上述问题,结构总览如图2所示。首先使用BERT预训练模型替换Word2vec,可以生成句子级别的表示,同时考虑了多个单词之间的语义关系。此外BERT可以通过微调来适应不同的任务和数据集,从而提高模型的性能和泛化能力。赋予了词特征向量灵活性,并减小了系统开销。BiLSTM可以同时考虑前向和后向的上下文信息,从而更好地捕捉序列中的依赖关系。在财报、年报、财经新闻等自然语言信息中,前后文信息对于理解信息的含义非常重要,因此双向性可以提高模型的准确性和泛化能力。对照实验数据见表2,其中准确率、召回率、F1值是考量模型表现的相关指标,越高说明模型精度越好。
表2 实体抽取实验数据表
关系抽取部分,团队使用OpenAI开源的GPT2大语言模型作训练和微调。GPT模型可以通过预训练和微调的方式来完成关系抽取。预训练阶段,GPT模型通过大规模的文本数据训练得到了广泛的语言知识和语义理解能力,这些知识和能力可以在关系抽取任务中得到充分的利用。微调阶段,GPT模型根据不同的关系抽取任务要求,进行微调和优化,从而实现更加精准的关系抽取。在具体实践中,GPT模型可以使用基于文本生成的方法来完成关系抽取。团队首先使用大规模语料文本对GPT模型进行预训练,为模型赋予语义理解、文本生成、结构生成的能力。然后使用财经、金融领域数据集在预训练模型上根据员工赋能平台的需要进行微调。
通过实体抽取和关系抽取,构建出结构化知识图谱数据后,需要对数据进一步进行补全和过滤。通过NLP技术构建的知识图谱,一方面可能存在遗漏的三元组,即两个关联实体间缺少关系链接,另一方面由于汉语一义多词的现象,可能存在重复的同义实体。以上情况都会影响知识图谱的信息准确性,破坏知识图谱的结构化特性,进而影响下游任务。为此团队通过链接预测和实体对齐技术,对知识图谱进行对齐和补全。
实体对齐部分团队采用MuGNN算法,MuGNN(Multi-Granularity Graph Neural Network)是一种用于知识图谱中实体关系抽取的先进的多粒度图神经网络模型。该模型的主要特点是使用了多粒度的图表示学习,它将知识图谱中的实体和关系表示为多层次的图结构。每个层次的图结构都对应一种不同的粒度,可以捕捉不同层次上的语义信息和关系。
图3 MuGNN实体对齐模型结构
如图3所示,MuGNN模型的输入是员工赋能平台通过实体抽取和关系抽取技术搭建的知识图谱,其中包含实体和关系的信息,模型将知识图谱表示为一个多层次的图结构,每个层次的图结构都对应一个不同的粒度。在每个粒度上,MuGNN模型都使用MG-GCN进行特征提取和表示学习。同时,MuGNN模型还使用自适应注意力机制将不同粒度上的特征融合起来。团队通过使用多任务学习策略训练MuGNN模型,提高模型的泛化能力和效果。这个策略可以在多个任务之间共享模型参数,从而使得模型可以同时处理多个任务。相较于传统的单粒度图神经网络模型,MuGNN模型在员工赋能平台的知识图谱实体对齐任务中表现出色。表3展示了经典算法和团队采取的算法在相关数据集上的测试结果,MRR、Hits@1和Hits@10都高于基线经典算法。
表3 实体对齐实验数据表
团队在链接预测的三元组分类问题上使用了T5-large模型和prompt技术,通过将这个问题转化为文本生成问题,使用T5-large模型+prompt模版来进行训练和推理,如图4所示。T5-large模型是一种由google开发的大型预训练语言模型,可以用于多种NLP任务,包括文本生成、问答系统等。而prompt技术是一种将任务描述(prompt)嵌入到模型输入中的技术,可以帮助模型更好地理解任务要求。
]article_adlist-->
AI识股
图4 KGT5模型(T5+prompt)推理过程
团队采用编码器-解码器结构,采用T5模型的编码器作为输入层,将输入的实体和关系表示为向量形式。T5编码器是一个具有多层自注意力机制的神经网络,可以将输入的序列编码为固定长度的向量。使用T5模型的解码器作为输出层,将生成的实体和关系表示为向量形式。T5解码器是一个具有多层自注意力和交叉注意力机制的神经网络,可以根据输入的向量生成文本序列。除了编、解码器,为了更好地表示实体的语义信息,团队使用了实体嵌入层和关系嵌入层。该层将每个实体和关系映射到一个低维向量空间中,以便于模型学习实体、关系之间的关联信息。表4中展示了赋能平台在链接预测任务上采用的算法和经典算法在相关数据集上的实验对比,相比于传统的链接预测算法,T5+prompt方法具有更好的扩展性和适应性,能够更好地应对不同领域和数据量的链接预测任务。此外,赋能平台所使用的改进算法还显著降低了参数量,节省资源开销的前提下提升了模型泛化能力和精度,这使得该算法具有很高的实用价值。
表4 链接预测实验数据表
3.3 知识图谱应用
精准检索是知识应用的基础应用,是指在文本检索任务中,通过各种技术手段,提高检索结果的准确性和相关性,以满足用户的信息需求。在赋能平台的实际应用中,精准检索可以帮助员工快速找到所需的专业信息或文档,协助员工完成、理解任务,并作为基础应用服务于知识问答。团队使用大模型+知识图谱的架构实现精准检索。该方法利用大型语言模型的强大语义理解能力和知识图谱的结构化知识,实现对复杂自然语言查询的准确解析和精准匹配。
赋能平台首先使用清华大学开源的预训练大语言模型ChatGLM对自然语言查询进行编码,得到查询的向量表示。然后,利用知识图谱中的实体和关系信息,对查询进行语义解析,得到查询所涉及的实体和关系。接着,利用知识图谱中实体和关系的语义信息,对查询向量进行扩展,得到更加丰富的语义表示。最后,将扩展后的查询向量与知识图谱中的实体和关系向量进行匹配,得到与查询相关的实体和关系。
此外,该方法还可以支持多种查询类型,包括实体查询、关系查询、属性查询等,具有较好的可扩展性和适应性。知识图谱的结构化数据对于大语言模型对文本的理解和映射有着莫大的帮助,相对于直接使用非结构化文本,知识图谱的结构化数据对大模型的检索速度和精度均有一定程度的提升。
3.4 知识图谱的更新和维护
知识图谱的自动化定期更新和维护主要通过不断从各种网络资源和结构化数据源中抽取新信息来实现。具体来说包括:从日新月异的网络内容中抽取出新的实体、概念、关系和属性,将它们纳入知识图谱;分析新文本中已有实体之间的交集和联系,更新他们之间的关系。利用相似性计算、上下文分析等方法,识别出相同或新的关系,完善知识图谱结构;将抽取出的相似实体进行合并,利用现有知识和规则,对新抽取的信息进行验证和推理,判断其真实性和完整性,从中不断积累新的规则和知识。由于金融信息的时效性和安全性特性,团队使用以下技术对知识图谱进行更新和维护,保证信息有效安全:
(1)数据抓取和清洗:在知识图谱的自动化更新和维护中,数据抓取和清洗是非常重要的步骤。团队使用网络爬虫技术从各种数据源中抓取新的数据,并使用数据清洗技术进行数据处理和转换,使其符合知识图谱的格式和要求。数据清洗包括数据去重、数据标准化、数据转换等多个步骤,以确保知识图谱中的数据质量和准确性。
(2)知识生成:对于抓取和清洗的新信息,团队使用上文提到的知识生成技术扩展和补充知识图谱中的实体和关系。并对通过实体抽取、关系抽取构建的新知识图谱做质量监控和修正,以保证知识图谱的高质量。
(3)定期删除:在知识图谱中,一些信息可能会随着时间的推移而失效或过期,因此需要对这些信息进行删除或标识。但是,并不是所有的信息都可以自动删除,需要根据具体情况进行判断和处理。对于一些时间敏感的信息,例如新闻、股票价格等,可以设置过期时间,超过该时间后自动删除。对于一些长期有效的信息,例如历史事件、基础知识等,应该保留在知识图谱中,以便后续的查询和分析。在员工赋能系统中,团队通过人工审核和自动化模型等方式进行信息删除和标识。使用ARIMA模型,利用时间序列分析技术对某些信息的变化趋势进行预测,从而判断其是否已经过期。该模型可以用于分析时间序列数据的趋势、季节性和周期性等规律,利用已有的时间序列数据,预测未来的趋势。如果发现某些信息的趋势已经不再变化,则可以判断该信息已经过期。
(4)可视化和查询接口:为了让用户更加方便地使用和查询知识图谱中的信息和知识,可以使用图形化界面和查询接口。通过图形化界面,用户可以直观地浏览和操作知识图谱中的实体和关系;通过查询接口,用户可以根据自己的需求查询知识图谱中的信息和知识。同时,也可以通过用户的反馈来自动更新和维护知识图谱,以不断提高知识图谱的质量和价值。
4 建设成效与总结
中信建投证券目前已经完成知识图谱构建及应用的算法设计和落地,实现了无结构化文档自动构建知识图谱,以此作为外部知识库增强大语言模型的下游任务,嵌入到员工赋能平台中,为员工提供出开放接口。目前平台优化完善已迭代3个版本,未来员工赋能平台2-3年的规划目标是:打造证券行业垂直领域的“知乎”,基于时序知识图谱技术和强化学习算法完成实时事件分析系统,针对国内外突发事件开展业务分析并及时响应客户的投资需求变化,挖掘重大事件背后的商机,协助员工展业。
中信建投证券正在以智能化为主导思想,不断深入推进智慧营销平台的建设,旨在打造全周期数字化智能营销服务,以数据驱动为客户提供适宜的服务和产品,从而实现高效、合规、精细的服务。这种以数据为核心构建的智能化体系将成为支撑未来券商发展的关键要素。在金融行业,智能化建设具有广阔前景,并将对未来证券业态发展产生深远影响。
本文选自《交易技术前沿》第56期(人工智能行业应用)股市加杠杆如何操作,原文有删改
Powered by 配资专业股票配资网站-股票在线配资公司 @2013-2022 RSS地图 HTML地图