利用 Amazon Bedrock 和 Amazon Neptune 揭示非结构化金融数据中的隐藏连
利用 Amazon Bedrock 和 Amazon Neptune 发掘非结构化金融数据中的隐藏连接
关键要点
投资组合经理需要密切关注投资公司的动态,以辨别风险与机会。通过结合知识图谱和生成式人工智能,能够自动检测供应商等相关方的间接影响。使用 Amazon Neptune 和 Amazon Bedrock 可以构建事件驱动的可扩展架构,实施风险检测方案。在资产管理领域,投资组合经理必须紧密监控其投资范围内的公司,以识别风险和机会,指导投资决策。直接跟踪如财报或信用降级等事件相对简单可以设置警报,通知经理相关公司新闻。然而,从供应商、客户、合作伙伴或公司生态系统的其他实体中检测二级和三级影响则相对困难。
例如,关键供应商的供应链中断可能会对下游制造商造成负面影响。或者某大客户的流失,会给供应商带来需求风险。通常,此类事件不会直接出现在新闻头条中,但仍需引起重视。本文展示了一种自动化解决方案,结合知识图谱和生成式人工智能 (AI),通过将关系图与实时新闻交叉引用,揭示这些风险。
广义来看,这涉及两个步骤:首先,建立公司客户、供应商、董事之间的复杂关系,形成知识图谱;其次,利用这一图数据库和生成式 AI 从新闻事件中检测二级和三级影响。例如,这一解决方案可以指出,某配件供应商的延误可能会影响投资组合中下游汽车制造商的生产,尽管这些制造商在新闻报道中并未被直接提及。
借助 AWS,您可以在无服务器、可扩展且完全事件驱动的架构中部署此解决方案。本文展示了一种基于两个关键 AWS 服务的概念验证,它们非常适合图知识表示和自然语言处理:Amazon Neptune 和 Amazon Bedrock。Neptune 是一种快速、可靠、完全托管的图数据库服务,使构建和运行高连接数据集的应用程序变得简单。Amazon Bedrock 是一种完全托管的服务,通过单一 API 提供来自领先 AI 公司如 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon的高性能基础模型FM,以及用于构建具有安全性、隐私性和负责任 AI 的生成式 AI 应用程序的广泛功能。
总体而言,这一原型展示了利用知识图谱和生成式 AI 的可能性通过连接不同的点来提取信号。对于投资专业人士来说,关键在于能够更好地掌握与信号相关的发展,尽量避免噪音干扰。
知识图谱构建
这一解决方案的第一步是构建知识图谱,一个有价值但常被忽视的数据来源就是公司年报。由于官方企业出版物在发布前会经过审查,因此其中包含的信息通常是准确和可靠的。然而,年报采用的非结构化格式是为了人类阅读而非机器处理。要释放这些数据的潜力,您需要一种系统化提取和重新构建其中包含的大量事实和关系的方法。
借助像 Amazon Bedrock 这样的生成式 AI 服务,您如今具备了自动化这一过程的功能。您可以处理年报,触发处理管道,提取关键信息并将其结构化。
比如,一句表述“[公司A]通过向[公司B]下单1800辆电动货车来扩大其欧洲电动配送车队”能够让 Amazon Bedrock 确定以下内容:
[公司A] 是客户[公司B] 是供应商[公司A] 和 [公司B] 之间存在供应关系“电动配送车供应商”是它们之间关系的详细信息从非结构化文档中提取这种结构化数据需要向大型语言模型LLMs提供精心设计的提示,以便它们能够分析文本,提取公司和个人等实体,以及客户、供应商等关系。提示中包含对内容的明确指示,以及返回数据的结构。通过对整个年报重复此流程,您可以提取相关的实体和关系,构建一个丰富的知识图谱。
然而,在将提取的信息提交至知识图谱之前,您首先需要对实体进行消歧义。例如,知识图谱中可能已经存在另一个名为“[公司A]”的实体,但它可能代表了不同名称相同的组织。Amazon Bedrock 可以通过推理和比较不同行业、业务焦点和收入生成行业以及与其他实体的关系等属性,来判断这两个实体是否确实不同。这将防止不相关的公司被错误地合并到一个实体中。
完成消歧义后,您就可以可靠地将新实体和关系添加到 Neptune 知识图谱中,利用从年报中提取的事实对其进行丰富。随着时间的推移,可靠数据的引入和更多可靠数据源的整合将帮助建立一个综合的知识图谱,从而通过图查询和分析揭示洞察。
生成式 AI 赋能的这种自动化使得处理数千份年报成为可能,并释放了知识图谱组织的重要资产,这在过去往往因人工努力过于庞大而未能得以实施。
以下屏幕截图显示了使用 Graph Explorer 工具在 Neptune 图数据库中进行可视化探索的示例。
处理新闻文章
解决方案的下一步是自动丰富投资组合经理的新闻源,并突出与其兴趣和投资相关的文章。投资组合经理可以通过 AWS 数据交换 或其他新闻 API,订阅任何第三方新闻提供者的内容。
express加速器软件
当新闻文章进入系统时,将调用一个提取管道来处理其内容。使用与年报处理类似的技术,Amazon Bedrock提取新闻文章中的实体、属性和关系,然后根据知识图谱进行消歧义,以识别相应的实体。
知识图谱包含公司和人之间的连接,通过将文章中的实体链接到现有节点,您可以确定哪些主题在投资组合经理所投资或关注的公司两跳范围内。如果发现这样的连接,则文章可能与投资组合经理相关,而由于基础数据是以知识图谱的形式表示的,因此可以可视化,帮助投资组合经理理解该背景为何以及如何相关。除了识别与投资组合的连接外,您还可以利用 Amazon Bedrock 对所引用的实体进行情感分析。
最终结果是一个丰富的新闻源,从中提取出可能影响投资组合经理兴趣和投资的文章。
解决方案概述
整体解决方案的架构如下图所示。
工作流程包括以下步骤:
用户将官方报告PDF 格式上传到 Amazon S3 桶。报告应为正式发布的报告,以最小化不准确数据的引入与新闻和小报相比。S3 事件通知调用 AWS Lambda 函数,将 S3 桶名称和文件名发送到 Amazon SQS 队列。先进先出FIFO队列确保顺序进行报告提取,减少向知识图谱引入重复数据的可能性。一个基于时间的 Amazon EventBridge 事件每分钟运行一次,以异步方式启动 AWS Step Functions 状态机。Step Functions 状态机执行一系列任务,处理上传的文档,提取关键信息并将其插入知识图谱:从 Amazon SQS 接收队列消息。从 Amazon S3 下载 PDF 报告文件,将其拆分为多个较小的文本片段大约1000个单词,并将文本片段存储在 Amazon DynamoDB 中。在 Amazon Bedrock 上利用 Anthropic 的 Claude v3 Sonnet 处理前几个文本片段,以确定报告所提及的主要实体及相关属性如行业。从 DynamoDB 检索文本片段,对每个文本片段调用 Lambda 函数,提取与主要实体之间的实体如公司或个人及其关系客户、供应商、合作伙伴、竞争对手或董事。整合所有提取信息。使用 Amazon Bedrock 过滤掉噪声和无关实体例如“消费者”等通用术语。利用 Amazon Bedrock 进行消歧义,通过推理从知识图谱中提取的信息和相似实体列表来识别相应的实体。如果实体不存在,则插入它。否则,使用知识图谱中已存在的实体。插入所有提取的关系。清理,删除 SQS 队列消息和 S3 文件。用户访问基于 React 的 Web 应用程序,查看补充有实体、情感和连接路径信息的新闻文章。用户在 Web 应用程序中指定要监控的连接路径跳数默认 N=2。用户在 Web 应用程序中指定要跟踪的实体列表。为生成虚构新闻,用户选择 生成示例新闻,生成10篇随机内容的金融新闻,以供新闻提取过程使用。内容由 Amazon Bedrock 生成,完全为虚构。为下载实际新闻,用户选择 下载最新新闻,下载当日发生的重大新闻由 NewsAPIorg 提供。新闻文件TXT 格式上传到 S3 桶。步骤8和9会自动将新闻上传到 S3 桶,但您也可以构建与您首选的新闻提供者如 AWS 数据交换或任何第三方新闻提供者的集成,将新闻文章以文件形式上传到 S3 桶。新闻数据文件内容应格式化为 ltdategt{dd mmm yyyy}lt/dategtlttitlegt{title}lt/titlegtlttextgt{news content}lt/textgtS3 事件通知将 S3 桶或文件名发送至 Amazon SQS标准,这将并行调用多个 Lambda 函数来处理新闻数据:利用 Amazon Bedrock 提取新闻中提到的实体及其相关信息、关系和情感。针对知识图谱进行检查,并利用 Amazon Bedrock 通过推理使用来自新闻的信息以及知识图谱内的信息进行消歧义,识别相应的实体。一旦实体被定位,寻找并返回与知识图谱中标记为 INTERESTED=YES 的实体之间的连接路径,这些路径距离不超过 N=2 跳。Web 应用程序每秒自动刷新一次,以提取最新的处理新闻并在应用程序上显示。部署原型
您可以部署此原型解决方案并开始自己的实验。原型可从 GitHub 获取,并包括以下内容的详细信息:
部署前提部署步骤清理步骤总结
本文展示了一种概念验证解决方案,帮助投资组合经理检测新闻事件的二次和三次风险,而这些事件与其追踪的公司没有直接的联系。通过将公司之间的复杂关系知识图谱与实时新闻分析结合,能够突出下游影响,例如由于供应商问题导致的生产延误。
虽然这仅仅是一个原型,但这一解决方案展示了知识图谱和语言模型的潜力,通过关系映射和推理来连接不同的点,从噪声中提取信号。这些技术可以帮助投资专业人士更快地揭示风险,展现出了图数据库和 AI 副作用具有的应用前景,值得深入探讨以增强投资分析和决策。
如果您对金融服务中生成式 AI 的示例感兴趣,或有类似的想法,请与您的 AWS 客户经理联系,我们将乐意与您进一步探讨。
关于作者
Xan Huang 是 AWS 的高级解决方案架构师,位于新加坡,主要负责与主要金融机构合作,设计和构建安全、可扩展及高可用的云解决方案。工作之外,Xan 大部分闲暇时间与家人相处,并受到他三岁女儿的“支配”。您可以在 LinkedIn 上找到 Xan。
声称联合国民航组织的黑客攻击正在调查中 传媒
联合国民航组织调查潜在数据泄露事件关键要点联合国国际民用航空组织ICAO正在调查natohub声称从其机构窃取了42000条用户数据的事件。被盗信息包括个人姓名、出生日期、性别、电话号码、邮箱地址、住址、教育背景和就业信息。此次调查是因为natohub过去曾攻击过美国国防部和海军陆战队以及联合国。联...
使用 IAM 访问分析器建议来优化未使用的访问权限 安全博客
利用 IAM Access Analyzer 优化未使用的访问权限关键要点利用 AWS IAM Access Analyzer 提供的建议,有效管理组织的安全性,确保团队遵循最小权限原则。学习如何生成未使用权限的建议,并采取相应的修复措施。通过控制台、AWS CLI 和 API 三种方式获得未使用权...