博客

  • 在OSS 的 Open Deep Research 中实现 Deep Research

    在OSS 的 Open Deep Research 中实现 Deep Research

    前言

    这次我想实际运行由 Hugging Face 公开的开源 AI 代理(AI Agent)——Open Deep Research。

    huggingface.co

    1. 概要

    Deep Research 指的是在进行网络搜索的同时,自主收集信息并输出详细报告的服务。目前,带有 “Deep Research” 名称的代表性服务如下。

    服务名称OpenAI Deep ResearchGoogle Gemini Deep ResearchPerplexity Deep ResearchOpen Deep Research
    提供商OpenAIGooglePerplexity AIHugging Face
    价格ChatGPT Pro(月费 200 美元),ChatGPT Plus(月费 20 美元)可有限次数使用Gemini Advanced(月费 20 美元)免费(未注册用户每日限 5 次)免费(开源)
    精度GAIA 基准测试 67%、Humanity’s Last Exam 26.6%(采用 GPT-4 系列 “o3” 模型)无官方基准测试,被评价为可生成高精度医疗、市场调查报告Humanity’s Last Exam 21.1%,检索与解读性能强,但存在部分错误取决于开源模型性能(使用 o1 模型时,GAIA 55%、Humanity’s Last Exam 8.5%)
    特点在 ChatGPT 内运行,结合检索与推理,5-30 分钟生成详细调查报告从 50 余个网站收集信息,支持计划编辑、进度可视化、Google 文档输出通过反复检索与推理,短时间生成全面报告,具备检索对象指定及导出功能仅需开源大语言模型即可运行,适合完全离线部署及隐私保护

    在以上服务中,本次我想重点介绍由 Hugging Face 开发的开源项目 ——Open Deep Research。该服务以复现 OpenAI 的 Deep Research 为目标,与 OpenAI Deep Research 类似,可结合大规模语言模型(LLM)与代理框架进行信息检索和推理。

    huggingface.co

    openai.com

    OpenAI 的 Deep Research 是一款利用网络检索来应对复杂问题的工具,但其代理框架的详细信息未公开。与之相对,Hugging Face 团队开发了这款 “Open Deep Research” 作为开源替代方案,构建了任何人都可使用、改良的系统。

    Open Deep Research 的工作机制

    Open Deep Research 通过以下两种代理协同工作,实现信息检索与推理。

    CodeAgent

    • 接收用户的问题,制定检索计划
    • 将检索任务交给其他代理(SearchAgent)

    SearchAgent

    • 负责实际执行网络检索、收集并整理信息的工作。

    具体流程如下。

    尤其值得注意的是,CodeAgent 向 SearchAgent 下达指令的方式基于以下代码形式,通过这种方式,Agent 能够将更复杂的操作作为指令传递出去。

    Open Deep Research 的请求示例

    search_results = search_agent(task="请在互联网上搜索关于『Open Deep Research』的信息,调查其属于何种组织或具体活动内容。")
    print(search_results)
    

    2. 运行 Open Deep Research

    接下来,我们马上开始实际运行 Open Deep Research。

    准备工作

    需获取以下 3 个 API 密钥:

    此外,本次将使用 o1 模型进行 Deep Research。

    搭建方法

    按照以下步骤搭建环境:

    git clone https://github.com/huggingface/smolagents.git
    cd smolagents/examples/open_deep_research
    
    pip install -r requirements.txt
    pip install smolagents[litellm]
    
    export OPENAI_API_KEY="填入获取的密钥"
    export HF_TOKEN="填入获取的Hugging Face令牌"
    export SERPAPI_API_KEY="填入SERPAPI的密钥"
    

    执行搜索

    使用以下命令执行搜索:

    python run.py --model-id "o1" "请介绍一下Open Deep Research。"
    

    执行过程(中途进展)

    启动搜索后,内部会执行如下处理:

    以下是我为解决该任务将遵循的行动方案: 1. 审视任务“请介绍一下Open Deep Research。”及已知事实。 2. 调用search_agent获取关于“Open Deep Research”的信息。 3. 总结搜索结果中的关键信息,例如背景、目标或重要成果。 4. 使用final_answer呈现调查结果。

    ━━━━━━━━━━━━━━━━━━━━━━━━━ 步骤 1 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

    大语言模型(LLM)的输出信息: ──────────────────────────────

    思考:我需要查找关于 “Open Deep Research” 的信息。我会让 search_agent 用中文进行网络搜索以获取相关信息。

    代码:

    py

    search_results = search_agent(task="请在互联网上搜索关于『Open Deep
    Research』的信息,调查其属于何种组织或具体活动内容。")
    print(search_results)
    

    ─ 执行解析后的代码: ──────────────────────────────search_results = search_agent (task=” 请在互联网上搜索关于『Open DeepResearch』的信息,调查其属于何种组织或具体活动内容。”)

    print(search_results)

    ──────────────────────────────

    可以看出,CodeAgent 通过 Python 代码形式向 SearchAgent 发送请求,SearchAgent 则根据该请求执行搜索操作。

    回答结果

    获取到的回答:以下是关于『Open Deep Research』的概要总结。

    【概要】

    『Open Deep Research』是一个开源项目,旨在运用 AI 技术及网络搜索功能获取大量信息,为摘要撰写、报告生成及研究工作提供支持。GitHub 上存在多个相关仓库,目前该项目正以开源形式推进开发与改进。此外,其官方网站及演示版本等也已公开,任何人都可进行部署与扩展。

    【背景・特点】

    • 其核心特点是基于 OpenAI 最初发布的 “Deep Research”,由社区主导实现了 “开源化”。
    • 具备 AI 代理(AI Agent)检索、分析互联网上的大规模文本数据,并自动生成摘要与报告的功能。
    • 也能看到其采用结合 Firecrawl 等爬虫技术以提升搜索精度的实现方式。

    【应用案例】

    • 预计可用于需高效处理网络上海量信息的场景,例如自动生成研究资料、整理信息等。
    • 由于属于非营利性社区项目,开发者与用户正通过协作扩充、改进功能,推动项目发展。

    【注意事项】

    • 搜索到的信息多汇总于 2025 年前后,该项目可能尚未形成固定的正式企业组织。实际使用时,建议确认 GitHub 仓库及官方网站(如https://opendeepresearch.vercel.app 等)。
    • 关于许可证形式及持续开发状况,也建议提前核查最新信息。

    以上即为关于『Open Deep Research』的主要信息。

    系统已根据最新信息,生成了关于搜索对象的报告。

    与 OpenAI Deep Research 的对比

    向 OpenAI Deep Research 提出相同问题后,得到的结果如下。

    OpenAI Deep Research 的回答结果:

    明白了。我将对 “Open Deep Research” 的概况进行调查,并汇总其目的、活动内容、相关组织及项目等信息。调查完成后会通知您。

    Open Deep Research 概况

    一、概述

    Open Deep Research(开放深度研究)是一个旨在为 OpenAI 开发的高级调查代理(AI Agent)“Deep Research” 提供开源替代方案的项目。该项目以 Hugging Face 联合创始人托马斯・沃尔夫(Thomas Wolf)等人为核心,目标是让任何人都能结合自己偏好的语言模型,在本地环境中使用高级调查代理。具体而言,其公开了 OpenAI 未披露的代理控制部分(即指示网络浏览、工具使用的框架)并自行实现相关功能,肩负着推动封闭性尖端 AI 功能民主化的使命。

    二、主要研究领域与活动内容

    Open Deep Research 的核心焦点是实现与 Deep Research 同等的网络研究功能。针对用户的问题,它能自动从互联网收集、分析信息,进行逻辑推理并生成长篇回答。其特色功能可归纳为以下 3 点:

    • 内容发现:通过网络搜索收集与用户问题相关的信息(自动生成搜索查询,探寻最新信息)。
    • 内容整合:汇总、整合来自多个信息源的内容,提取关键要点。
    • 信息推理:基于收集到的信息进行层层逻辑推理,得出针对问题的结论及详细解释。

    通过上述流程,该项目据称可在数分钟至数十分钟内完成人类需耗时数小时的调查工作,并生成专业级的详细报告。

    从技术层面看,Open Deep Research 通过组合以下要素实现功能:

    1. 搜索引擎:借助外部搜索服务检索相关信息,获取对应页面的 URL(例如 DuckDuckGo API 等)。
    2. 解析器(网页内容提取):从搜索结果的 URL 中提取页面正文,并转换为文本数据的模块。
    3. 大规模语言模型(LLM):基于提取的文本执行摘要生成、问答及推理的 AI 模型(目前主要使用 OpenAI 的 o1 等模型)。
    4. 代理控制逻辑:指示 LLM 使用网络浏览、文件读取等工具,并管理多步骤操作的框架。在 Hugging Face 版本中,该逻辑通过 Python 轻量级代理库 “smolagents” 实现,并结合 OpenAI 的 LLM(o1 模型)API,复现了与 Deep Research 相当的运行效果。

    三、相关组织与项目

    Open Deep Research 是由Hugging Face 公司的研究团队推进的项目。尤其是托马斯・沃尔夫(Hugging Face 联合创始人)、艾美瑞・鲁歇尔(Aymeric Roucher)等人通过 24 小时黑客马拉松式的努力搭建了原型,并公开了成果。该项目受 OpenAI 的 Deep Research(原始封闭代理)启发,以开源社区的协作支持为显著特征。

    目前存在多个具有类似目标的相关项目。例如,Jina AI 公司开发了基于 TypeScript/Node.js 实现的开源代理 “node-DeepResearch”,采用以 Google 的 PaLM 2、Gemini 模型为后端的技术路径。此外,个人开发者开发的复刻版本也陆续出现,据 Hugging Face 报告,dzhngnickscamara等开发者已各自公开了 Deep Research 的开源版本。这些尝试相互促进,为整个代理 AI 领域的发展做出了贡献。

    四、官方网站与信息来源

    Open Deep Research 的官方信息及资源如下:

    • 官方博客文章(Hugging Face 博客):Hugging Face 于 2025 年 2 月 4 日公开的文章《Open-source DeepResearch – Freeing our search agents》(开源 DeepResearch—— 解放我们的搜索代理),详细解读了 Open Deep Research 的背景、实现方式及成果。
    • 演示网站(Hugging Face Spaces):在 Hugging Face 提供的演示页面可试用 Open Deep Research。从浏览器输入问题后,代理会自动执行搜索并给出回答。目前该演示收到了来自全球的大量请求,可能会出现响应等待时间较长的情况。
    • 源代码(GitHub):Open Deep Research 的实现代码已在GitHub公开,可在 Hugging Face 的smolagents仓库内的open_deep_research示例中查看。任何人都可浏览、使用代码,同时也欢迎通过 Issue(问题反馈)和 Pull Request(代码提交)提供反馈与贡献。

    此外,TechCrunch、Ars Technica 等科技媒体也已针对该项目发布详细报道;日语信息方面,Qiita、GIGAZINE 等平台介绍了项目背景及搭建方法。

    五、最新研究成果与发布动态

    Open Deep Research 自公开以来便展现出较高性能,据报道其成果已接近 OpenAI 官方的 Deep Research。具体而言,在测试通用 AI 助手能力的GAIA 基准测试中,Deep Research 官方版本的平均正确率达到67.36% ,而 Open Deep Research 的得分已达到54% 左右。仅用约 1 天时间便复现核心功能,并实现了官方版本约 80% 的性能,这无疑是一项重大成果。Hugging Face 团队表示 “这仅仅是开始,仍有许多需要改进的地方”,并明确表达了将持续推进开发以提升性能的意向。

    此后,Open Deep Research 持续稳步更新。例如,截至 2025 年 3 月,项目已新增 “Visual Flow”(可视化流程)功能,可将代理的探索过程以视觉形式呈现,便于用户理解多阶段深度调查的流程。此外,作为未来计划,团队还将致力于开发可与 OpenAI 发布的浏览器操作代理 “Operator” 相媲美的GUI 操作兼容代理(通过视觉识别画面,使用鼠标、键盘进行操作的代理)。从这些最新动态可以看出,Open Deep Research 项目正与社区协作不断进化,站在拓展开源 AI 代理可能性的最前沿。

    以下是简单的对比。

    对比项目Open Deep ResearchOpenAI Deep Research
    参考网站数量8 个网站17 个网站
    回答所需时间约 2 分钟约 16 分钟
    报告质量反映了搜索结果,但内容较为简洁能触及搜索结果的细节之处

    结果来看,果然还是 OpenAI Deep Research 参考了更多网站,生成的报告内容也更充实。

    不过,Hugging Face 的 Open Deep Research 作为开源项目公开,能够结合任意的大语言模型(LLM),还可以嵌入自家服务中使用,这一点是很有优势的。

    总结

    我实际运行了作为开源项目公开的 Open Deep Research。

    能够通过开源(OSS)搭建 Deep Research 功能,这一点让我觉得很有吸引力。

    在精度方面,随着 Operator 等功能的引入,未来还有很大的改善空间,非常期待后续的更新。

  • 在保证精度的同时大幅降低成本,Elasticsearch 向量搜索选项及效果

    在保证精度的同时大幅降低成本,Elasticsearch 向量搜索选项及效果

    前言

    近年来,在检索增强生成(RAG,Retrieval-Augmented Generation)兴起等背景下,向量搜索的重要性日益凸显。向量搜索是将文本、图像等高维数据嵌入向量空间,基于相似度进行检索的技术。通过该技术,能够实现传统关键词搜索无法捕捉的、基于语义相似性的检索。

    另一方面,可处理向量搜索的产品与服务不断增多,想必有不少人在选择时会感到迷茫。不同服务支持的向量搜索选项也存在差异。尤其在近期,为提升向量搜索性能与资源效率的各类选项纷纷涌现,其中 “向量量化” 与 “二进制向量” 作为有助于降低资源用量、提升检索速度的技术备受关注。

    本文将聚焦向量搜索引擎的有力选择之一 ——Elasticsearch,结合具体配置方法,解析向量量化、二进制向量等选项及其效果。

    Elasticsearch 中的向量搜索

    Elasticsearch 作为全文搜索引擎广为人知,而自 7.x 版本起,它开始支持稠密向量(Dense Vector)类型,向量搜索功能得到强化。稠密向量是用于存储高维向量数据的数据类型。

    Elasticsearch 稠密向量文档:Elasticsearch Dense Vector 文档

    向量搜索的算法

    在 Elasticsearch 中处理稠密向量时,会使用近似最近邻(ANN)搜索算法。目前可使用名为 HNSW 的算法。HNSW(Hierarchical Navigable Small World,分层可导航小世界)是一种高速的近似最近邻搜索算法,采用基于图的数据结构,能高效检索相似向量。

    用于资源削减的选项:向量量化与二进制向量

    向量搜索的性能与资源效率存在权衡关系。Elasticsearch 提供向量量化与二进制向量作为调节这种权衡的选项。

    选项说明优势劣势推荐使用场景
    向量量化将向量各维度用更少的比特数表示的方法。在 Elasticsearch 中,可替代 32 比特的 float 型,实现 8 比特、4 比特、1 比特的量化。大幅降低存储大小与内存用量,还有可能提升查询性能。可能导致精度下降。需降低存储成本与内存用量,追求一定精度与性能平衡的场景。
    二进制向量将向量各维度用 0 或 1 表示的方法。可使用汉明距离等进行高速的相似度计算。大幅减少计算时间及磁盘、内存用量,支持针对二进制向量的高速距离计算(如汉明距离)。与使用 float 型相比精度下降,且需要用于生成二进制向量的专用嵌入(Embedding)模型。可牺牲部分精度以大幅控制存储与内存用量,或需高速检索的场景。

    二进制向量详情

    二进制向量(比特向量)是一种蕴藏着大幅提升向量搜索效率潜力的技术。

    www.elastic.co

    机制

    二进制向量是基于阈值将原始向量(通常为浮点数向量)的各维度转换为 0 或 1 得到的。

    距离计算

    二进制向量间的相似度计算采用汉明距离(比特位不同的位置数量),其速度远快于浮点数向量间的余弦相似度或欧几里得距离计算。

    生成方法

    • 专用嵌入模型:使用可直接输出二进制向量的嵌入模型。
    • 现有嵌入模型 + 二值化:对通过现有嵌入模型得到的浮点数向量,采用阈值处理等方式进行二值化。

    量化 / 二值化的优势与注意事项

    向量量化与二值化是提升稠密向量存储效率与查询性能的有力手段,但在引入时需理解以下优势与注意事项。

    优势:

    1. 降低存储成本:可大幅减小索引大小,降低磁盘存储成本。
    2. 减少内存用量:向量数据更易存入内存,从而减少内存用量,提升 Elasticsearch 集群的稳定性。
    3. 提升查询性能:对量化 / 二值化后的向量进行运算速度更快,有望提升查询性能。

    注意事项:

    1. 精度的权衡:量化 / 二值化通常与精度存在权衡关系,数据压缩程度越高,检索精度下降的可能性越大。
    2. 选择合适的方法:需结合业务需求允许的精度损失与存储效率的平衡,选择合适的量化级别或二进制向量化方法。

    基于 JMTEB 数据的测试

    存在名为 JMTEB(Japanese Massive Text Embedding Benchmark,日语大规模文本嵌入基准)的嵌入精度评估基准。

    github.com

    JMTEB 通过 5 个使用各类日语开放数据的任务对嵌入模型进行评估。本次将利用部分数据集,观察修改量化选项后对磁盘用量及精度的影响程度。

    使用 Cohere 提供的嵌入 API,除了常规的 Float 型嵌入外,还可使用二进制嵌入。在验证中,我们使用 Cohere 的嵌入模型生成以下 3 种向量并注册到 Elasticsearch 中进行比较。

    1. 采用 Elasticsearch 默认设置(8 比特量化)的 float 向量
    2. 在 Elasticsearch 中进行比特量化(bbq)的 float 向量
    3. 利用 Elasticsearch 的 bit 选项注册的二进制向量

    参考:www.elastic.co

    索引大小 / 正确率

    以下展示了启用各选项并导入 Elasticsearch 后,索引的大小以及对数据集中预先定义的正确答案的匹配率。本次使用的数据集中,404 个检索查询均各自定义了 1 个正确文档。正确率指标采用精确率(precision)和归一化折损累积增益(nDCG)两项。

    • precision@1:应匹配的正确文档排在第 1 位的比例
    • nDCG@10:衡量前 10 位结果中应匹配的正确文档排名情况的指标,正确文档排名越靠前,得分越高。
    类型索引大小正确率 (precision@1)nDCG@10
    float 向量9.1MB84.41%0.9108
    量化 (bbq)8.7MB83.66%0.9024
    二进制向量2.6MB81.19%0.8889

    可以看出,直接使用 float 型向量的精度确实更高,但其他方法在减小索引大小的同时,精度仅下降了 1%~3% 左右,并未出现显著下滑。近年来也有通过与重排序(rerank)结合来保证精度的策略,因此本文介绍的选项具有实用价值。当然,精度下降幅度会因数据集不同而存在差异,建议在使用前进行验证,但仍推荐积极尝试这些选项。

    本文到此结束。感谢您读到最后。

  • 在 Azure 中使用 Elasticsearch(Elastic Cloud)的要点 (下篇 )

    在 Azure 中使用 Elasticsearch(Elastic Cloud)的要点 (下篇 )

    本文作为在 Azure 中使用 Elasticsearch(Elastic Cloud)的要点下篇,将介绍在 Elastic Cloud 中执行以下操作的步骤。

    1. 版本升级

    1. 审计日志设置

    1. 版本升级

    关于 Elastic Stack 的版本升级

    Elastic Stack 有两种版本升级方式,各自的特点如下表所示:

    序号版本升级方式特点
    1滚动升级(Rolling Upgrade)无需停止服务即可完成版本升级
    2全集群升级(Full Cluster Upgrade)需先将服务全部停止

    在 Elastic Cloud 中,版本升级采用上述第 1 种 “滚动升级” 方式,因此无需停止服务即可完成版本升级。有关升级的详细信息,请参考以下链接:Upgrade versions | Elasticsearch Service Documentation | Elastic

    此外,在 Elastic Cloud 中,只需在图形用户界面(GUI)上点击一下,即可完成版本升级。下面实际操作一下具体步骤。

    在 Elastic Cloud 中升级 Elastic Stack

    (1)根据需要将 Deployment设为维护模式

    在 Elastic Cloud 中,如果对高负载的 Deployment 应用设置变更,不仅设置变更会耗费较长时间,最坏情况下还可能导致服务响应中断、设置变更失败。因此,虽然理论上无需停止服务即可完成版本升级,但当 Deployment 处于高负载状态时,也建议先将其切换为维护模式,之后再进行升级。

    访问 Elastic Cloud 的 Deployment 页面,选择菜单中的 “Edit”

    点击“Edit”

    在页面底部的 “Extented maintenance”(扩展维护)处勾选复选框,然后点击 “Save”(保存),即可将 Deployment 设为维护模式。

    在 “Extented maintenance” 处勾选复选框,点击 “Save”

    (2)点击 Elastic Cloud 的 Deployment 页面右侧的 “Upgrade”

    点击 “Upgrade”

    (3)选择版本,点击 “Upgrade”

    (=选择版本,点击 “Upgrade”

    通过以上步骤,即可完成版本升级。无需复杂操作就能轻松升级版本,从而持续使用最新功能,这是 Elastic Cloud 的一大重要优势。

    2. 审计日志设置

    关于 Elastic Stack 的审计日志

    Elasticsearch 和 Kibana 均支持输出审计日志。通过审计日志,可监控认证失败、连接拒绝等与安全相关的事件。

    有关审计日志的详细信息,请参考以下文档:

    审计日志默认处于未启用状态,因此需按以下步骤开启。

    (1)在 Elastic Cloud 的 Deployment管理页面中,点击 “Edit”

    点击 “Edit”

    (2)点击 Elasticsearch 右侧的链接 “Manage user settings and extensions”

    点击 Elasticsearch 右侧的 “Manage user settings and extensions”

    (3)为 Elasticsearch 应用审计日志设置

    设置内容如下:

    xpack.security.audit.enabled: true

    (4)点击 Kibana 右侧的链接 “Edit user settings”

    点击 “Edit user settings”

    (5)为 Kibana 也应用审计日志设置

    设置内容如下:

    xpack.security.audit.enabled: true

    (6)点击页面下方的 “Save”,应用设置

    点击 “Save”

    (7)在 Monitoring功能的 Logs中查看审计日志

    此时会输出 Elasticsearch 和 Kibana 的审计日志。

    查看审计日志

    从上述审计日志中可以看到,“y_nomura” 用户在两次认证失败(红色高亮部分)后,最终认证成功(黄色高亮部分)。通过输出此类审计日志,能够确认 “谁在何时登录”“访问了哪些资源” 等关键信息。

    总结

    截至目前,我们已通过操作篇,讲解了使用 Elastic Cloud 的关键要点。但除此之外,针对不同使用场景,仍有许多需要考虑的事项。

  • Azure 中使用 Elasticsearch(Elastic Cloud)的要点(上篇)

    Azure 中使用 Elasticsearch(Elastic Cloud)的要点(上篇)

    本文作为Azure 中使用 Elasticsearch(Elastic Cloud)的要点上篇,将介绍操作 Elastic Cloud 所需的各类设置的实施步骤。

    本文中,Elastic Cloud(Elasticsearch Service)将统一表述为 “Elastic Cloud”。

    1. 监控设置(Metric/Logs)

    关于监控功能

    利用监控功能,可一目了然地掌握集群状态;且当发生任何问题时,能够从资源和日志两方面快速开展问题排查。

    在 Elastic Cloud 中启用监控功能

    监控功能默认未启用,需通过以下步骤进行启用:

    (1) 访问 Elastic Cloud 的 Deployment页面,点击菜单中的 “Logs and metrics”

    点击 “Logs and metrics”

    (2) 点击 “Ship to a deployment”中的 “Enable”

    点击 “Enable”

    (3) 选择已构建的 Deployment,点击 “Save”

    监控功能即启用成功。

    点击 “Save”

    查看 Metric

    通过 Metric 可查看 Elastic Stack 各组件的服务器资源占用情况:

    (1) 在 Kibana 页面左侧菜单中,点击 “Stack Monitoring”

    点击 “Stack Monitoring”

    (2) 点击 Elasticsearch 的 “Overview”

    在概览中,可实时查看 Elasticsearch 整体的搜索性能与索引性能。

    点击 “Overview”

    (3) 在 Elasticsearch 的「Nodes」中,选择一个实例并点击

    从「Nodes」(节点)中选择一个实例并点击

    可实时查看每台服务器的资源状况。

    查看 Metric

    查看 Logs(日志)

    通过 Logs 可实时查看、筛选日志并开展排查工作:

    (1) 在 Kibana 页面左侧菜单中,点击 “Logs”

    点击 “Logs”

    在 Stream(流)页面中,会实时显示已导入 Elasticsearch 的各类日志。

    日志实时显示

    (2) 在画面顶部的搜索框中输入 “error”,执行日志筛选

    可通过筛选日志开展问题排查。

    输入 “error” 并执行日志筛选

    修改 Metric(指标)的保留期限

    Metric 的默认保留期限为 3 天。由于不同需求对应的保留期限可能不同,下面我们来修改这一设置:

    (1) 在 Kibana 页面左侧菜单中,点击 “Stack Management”

    点击 “Stack Management”

    (2) 点击 “Index Lifecycle Policies”(索引生命周期策略)

    点击 “Index Lifecycle Policies”

    (3) 在搜索框中输入 “.monitoring”,点击显示结果中的 “.monitoring-8-ilm-policy”

    点击 “.monitoring-8-ilm-policy”

    Elasticsearch 会将索引按 “阶段(Phase)” 进行管理,阶段的转换条件通过 ILM(Index Lifecycle Management,索引生命周期管理)进行定义。

    详情可参考以下链接:ILM: Manage the index lifecycle | Elasticsearch Guide [8.14] | Elastic

    修改前的设置如下表所示:

    阶段设置值
    Hot 阶段索引创建后 3 天,或主分片大小达到 50GB 以上时,对索引执行 Rollover(滚动更新)
    Warm 阶段执行 Forcemerge(强制合并),将分片段数合并为 1
    Delete 阶段滚动更新后 3 天,删除该索引

    简单来说,Hot 阶段中定义的 “Rollover(滚动更新)” 是指当满足特定条件时,自动创建新索引的功能。

    详情可参考以下链接:Rollover | Elasticsearch Guide [8.14] | Elastic

    (4) 将 Delete 阶段的数值从 “3 days”修改为 “31 days”,点击 “Save Policy”

    修改设置并点击 “Save Policy”

    通过上述步骤,已完成设置修改,滚动更新后 31 天的索引将被自动删除。

    2. Snapshot设置

    关于 Snapshot设置

    在 Elastic Cloud 中,默认设置为每 30 分钟获取一次快照。下面我们对该设置进行确认与修改:

    (1) 在 Kibana 页面左侧菜单中,点击 “Stack Management”

    点击 “Stack Management”

    (2) 点击 “Snapshot and Restore”

    点击 “Snapshot and Restore”

    (3) 点击 “Policies”标签页,点击 “cloud-snapshot-policy” 右侧的 “Edit”按钮

    点击 “Edit” 按钮

    (4) 修改「Schedule」的设置值

    时间设置可通过 Cron 表达式进行配置。另外,请注意时间采用 UTC 时区。

    详情可参考:API conventions | Elasticsearch Guide [8.14] | Elastic

    修改 “Schedule” 的设置值

    (5) 根据需要修改 “Expiration”、“Snapshots to retain”的设置值

    根据需要修改设置

    (6) 点击 “Save policy”

    点击 “Save policy”

    (7) 点击 “cloud-snapshot-policy”,查看 “Summary”

    修改后,Snapshot将在每天 0 点自动获取。

    查看 “Summary”

    3. 告警设置

    关于 Elastic Cloud 的告警功能

    在 Elastic Cloud 中,可通过 Alert功能实现监控与通知。此外,系统默认提供了多个可配置的监控项,便于快速完成 Alert设置。下面我们通过创建默认规则来使用 Alert功能:

    (1) 从左侧菜单点击 “Stack Monitoring”,在监控页面右上角选择 “alerts and rules”,点击 “Create default rules”

    点击 “Create default rules”

    (2) 点击 “Create”至此,告警设置完成。最后我们来确认已创建的规则列表。

    点击 “Create”

    (3) 点击 “Stack Management”,选择 “Alerts”,然后点击页面右上角的 “Manage rules”

    点击 “Manage rules”

    此时会显示已创建的规则列表。通过编辑规则,可修改触发条件及配置通知方式。

    已创建的规则列表

    例如,“CPU Usage”规则会在 CPU 使用率 5 分钟平均值超过 85% 时触发检测并发送通知。

    CPU Usage(CPU 使用率)

    另外,默认设置下通知会输出至 Kibana 日志,但也可使用邮件、Slack 等多种连接器作为通知渠道。

    连接器列表

    总结

    在实际操作过程中,除了上述 设置外,可能还需要应对以下需求:

    • 版本升级对应
    • 审计日志

    因此,我们将在下次的文章中对上述内容进行讲解。

  • 在 Elasticsearch 中高速实现类 LIKE 搜索的部分匹配搜索方法

    在 Elasticsearch 中高速实现类 LIKE 搜索的部分匹配搜索方法

    在工作中,经常听到有人反馈关系型数据库(MySQL、PostgreSQL 等)搜索功能存在 “LIKE 搜索速度慢” 的问题。尤其是在处理大量数据的系统中,LIKE 搜索往往会导致性能下降,搜索响应延迟的问题屡见不鲜。因此,越来越多的案例开始考虑从关系型数据库迁移到 Elasticsearch 来解决这一问题。

    Elasticsearch 是一款能够实现高速、灵活全文搜索的强大搜索引擎。但要充分发挥其性能,恰当的数据设计与查询设计至关重要。

    本文将聚焦于 “如何在 Elasticsearch 中高速实现类似 SQL LIKE 搜索的部分匹配搜索” 进行讲解。

    1. 数据类型的差异

    在 Elasticsearch 中进行字符串搜索前,首先需要理解 keyword 型与 text 型的区别。向 Elasticsearch 中注册字符串型字段时,需预先设定该字段采用哪种数据类型。

    keyword 型:适用于精确字符串匹配

    keyword 型是将字符串以原始形式注册到索引中的数据类型。由于其能高速执行完全匹配搜索、排序、聚合等操作,因此像 ID、商品分类这类短字符串通常会注册为 keyword 型。

    text 型:适用于全文搜索

    text 型擅长自然语言处理与全文搜索。设置为该类型的字段在注册到索引时,会通过分析器(Analyzer)将文本按单词或短语拆分后再进行注册。

    文本按何种规则拆分为令牌(Token)由分析器决定,需根据搜索需求设计合适的分析器。

    参考文档:analyzer | Elasticsearch Guide [8.16] | Elastic

    我们可使用分析 API(Analyze API)确认字符串是如何被拆分令牌并注册的。以下是使用默认分析器(standard Analyzer)进行令牌化的示例。

    POST _analyze
    {
      "text":     "Elasticsearch is powerful"
    }
    

    从结果可以看出,文本被拆分为 “elasticsearch”“is”“powerful” 三个令牌。

    {
      "tokens": [
        {
          "token": "elasticsearch",
          "start_offset": 0,
          "end_offset": 13,
          "type": "<ALPHANUM>",
          "position": 0
        },
        {
          "token": "is",
          "start_offset": 14,
          "end_offset": 16,
          "type": "<ALPHANUM>",
          "position": 1
        },
        {
          "token": "powerful",
          "start_offset": 17,
          "end_offset": 25,
          "type": "<ALPHANUM>",
          "position": 2
        }
      ]
    }
    

    通常情况下,部分匹配搜索的目标字段会注册为 text 型。

    2. 实现部分匹配搜索的方法及特点

    keyword 型字段的部分匹配搜索

    对于 keyword 型字段,也可使用 wildcard 查询实现部分匹配搜索。wildcard 查询与 LIKE 搜索类似,是按特定模式匹配字符串的查询,其使用方式与 SQL 的 LIKE 搜索直观上较为接近。

    但需注意,wildcard 查询的计算成本极高,索引规模越大,对搜索系统产生不良影响的可能性就越高。

    wildcard 查询示例(搜索以 “Elasticsearch” 开头的字符串)

    GET test_index/_search
    {
      "query": {
        "wildcard": {
          "message": {
            "value": "Elasticsearch*"
          }
        }
      }
    }
    

    text 型字段的部分匹配搜索

    对 text 型字段进行部分匹配搜索时,通常使用 match 查询或 match_phrase 查询。与 text 型字段拆分令牌后注册到索引的逻辑相同,搜索字符串也会被拆分令牌,只要目标字段与搜索字符串的令牌能够匹配,对应的结果就会命中。其中,match 查询适用于单词搜索,match_phrase 查询适用于短语搜索。

    match 查询示例(搜索以 “Elasticsearch” 开头的字符串)

    GET test_index/_search
    {
      "query": {
        "match": {
          "message": "Elasticsearch"
        }
      }
    }
    

    3. 恰当的分析器设计

    在 Elasticsearch 中进行字符串搜索时,虽然默认使用 match 或 match_phrase 查询,但如果分析器设置不当,可能会出现无法返回预期结果、反而返回大量无关结果等问题。

    例如,在第 1 部分的示例中,若向已注册的 test_index 搜索 “power” 字符串,将无法命中结果。

    搜索 “Elastic” 的查询

    GET test_index/_search
    {
      "query": {
        "match": {
          "message": "power"
        }
      }
    }
    

    搜索结果

    {
      "took": 0,
      "timed_out": false,
      "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
      },
      "hits": {
        "total": {
          "value": 0,
          "relation": "eq"
        },
        "max_score": null,
        "hits": []
      }
    }
    

    无法命中的原因是,索引中注册的令牌为 “elasticsearch”“is”“powerful”,而 “power” 这一令牌并未被注册。因此,要实现预期的搜索结果,必须分别合理设计:

    • 数据注册时使用的分析器
    • 搜索字符串使用的分析器

    4. 对 text 型字段实现类 LIKE 从句的搜索方法

    要对 text 型字段实现类似 LIKE 从句的 “搜索包含特定模式字符串” 的功能,可通过对应用了包含 N-gram 令牌生成器(tokenizer)的分析器的字段执行 match_phrase 查询来实现。

    使用 N-gram 令牌生成器时,注册的字符串会被机械地按任意长度拆分令牌。例如,将 “Elasticsearch” 这一字符串按 2 个字符(bi-gram)拆分 N-gram 令牌,会得到 “El”“la”“as”……“rc”“ch” 等令牌,这些令牌会被注册到索引中。

    可在创建索引时按如下方式设置分析器,为特定字段配置包含 N-gram 令牌生成器的分析器。

    PUT test_index
    {
      "mappings": {
        "properties": {
          "message": {
            "type": "text",
            "analyzer": "my_analyzer"
          }
        }
      },
      "settings": {
        "analysis": {
          "analyzer": {
            "my_analyzer": {
              "tokenizer": "my_tokenizer"
            }
          },
          "tokenizer": {
            "my_tokenizer": {
              "type": "ngram",
              "min_gram": 2,
              "max_gram": 2
            }
          }
        }
      }
    }
    

    即便使用 match_phrase 搜索 “lastic”,搜索字符串也会被拆分为 “la”“as”“st”“ti”“ic” 等令牌,只有包含所有这些令牌的字符串才会命中。通过这种方式,即可实现相当于 LIKE 搜索的部分匹配搜索。

    GET test_index/_search
    {
      "query": {
        "match_phrase": {
          "message": "lastic"
        }
      }
    }
    
    {
      "took": 1,
      "timed_out": false,
      "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
      },
      "hits": {
        "total": {
          "value": 1,
          "relation": "eq"
        },
        "max_score": 1.1507283,
        "hits": [
          {
            "_index": "test_index",
            "_id": "ESDup5MBGJks9_KvUZZQ",
            "_score": 1.1507283,
            "_source": {
              "message": "Elasticsearch is powerful"
            }
          }
        ]
      }
    }

    5. 总结

    本次介绍了在 Elasticsearch 中实现类 LIKE 搜索的部分匹配方法。

    若仅需实现部分匹配搜索,使用 wildcard 查询即可达成,但从系统运行时的搜索性能等角度考量,尽管需要提前进行分析器(Analyzer)设置等额外工作,采用 N-gram 结合 match_phrase 查询仍是基础且推荐的方案

    当然,根据具体的搜索需求,还需要进行更细致的分析器及查询设计。尤其在搜索性能与搜索精度之间如何取得平衡,是运用 Elasticsearch 过程中无法回避的关键问题。希望本文能为 Elasticsearch 的搜索设计提供参考。

  • 活用 Amazon Bedrock 的 Rerank API 提升 RAG 精度

    活用 Amazon Bedrock 的 Rerank API 提升 RAG 精度

    在 RAG(检索增强生成:Retrieval-Augmented Generation)为用户提供准确信息的过程中,检索精度尤为关键。

    而提升检索精度的方法之一便是 “重排序(Rerank)”。

    通过执行重排序操作,将检索得到的结果按相关度重新排序,能更轻松地针对用户所需信息给出回答。

    如今,Amazon Bedrock 已新增支持重排序的模型,且可与 Bedrock Knowledge Base 搭配使用。

    以往,实现这一功能需要自行托管模型等,颇为繁琐;而现在,只需在向 Knowledge Base 发起的检索请求中添加相关设置,即可一并执行检索与重排序操作,且仅能获取重排序后的结果。

    本次我们将实际使用重排序模型,验证检索结果会发生怎样的变化。

    1. 前言

    1.1 什么是重排序(Rerank)

    在包含 Bedrock Knowledge Base 在内的 RAG 检索中,向量检索的应用十分广泛。

    然而,仅依靠向量检索往往无法达到足够的检索精度,难以给出恰当的回答。

    因此,对通过向量检索获取的文档进行重排序处理,可使相关度更高的文档出现在检索结果的靠前位置。

    重新排序的图像

    1.2 以往的实现方式

    此前,要在 RAG 系统中集成重排序处理,需搭建 SageMaker 实例、托管重排序专用模型并执行推理。

    例如,在 2024 年 8 月时,若要使用 Cohere Rerank 3,就需按照下述文章的说明创建 SageMaker 实例。

    aws.amazon.com

    这种方式存在诸多问题,如需要投入精力准备 SageMaker 实例与重排序模型,且会产生运营成本。

    1.3 Bedrock 支持的重排序模型

    自 2024 年 12 月起,可通过 Bedrock 使用重排序模型。

    借助该重排序模型,无需自行托管模型,仅通过调用 API 即可执行重排序操作。

    这不仅省去了运营管理的繁琐工作,还无需一直启动服务器,只需根据使用量付费,让用户能轻松开启重排序功能的使用。

    除了可通过 Bedrock 的 InvokeModel API 调用外,还支持通过 Bedrock Knowledge Base 的 Rerank API、Retrieve API、RetrieveAndGenerate API、RetrieveAndGenerateStream API 进行调用。

    截至 2025 年 1 月,提供的模型有 Amazon Rerank 1.0(以下简称 Amazon Rerank 模型)和 Cohere Rerank 3.5(以下简称 Cohere Rerank 模型)。

    2. 尝试应用重排序模型

    本次验证将使用本文中已采用的、模拟酒店评论检索的数据。

    此次以 “烤肉好吃的酒店” 为检索词,期望 “使用本地产蔬菜和肉类制作的烤肉料理” 的第 10 条评论以及 “炭火烤制的牛排” 的第 7 条评论能出现在检索结果的靠前位置。

    重排序模型选用 Amazon Rerank 模型。

    序号内容
    1这家酒店的温泉堪称顶级疗愈。源泉直供的温泉水格外柔和,泡完后肌肤感觉滑溜溜的。从露天温泉能眺望到美丽的群山,夜晚还能一边泡澡一边欣赏满天繁星。这是一家让人想反复前往的温泉酒店。
    2酒店的温泉非常舒服,能让人彻底放松。室内温泉和露天温泉各具特色,尤其是从露天温泉看到的庭院景色美不胜收,可欣赏到四季不同的美景。水温也恰到好处,长时间浸泡也不会觉得疲惫。
    3早就听闻这是一家以温泉为特色的酒店,实际体验远超预期。因直接使用天然温泉源泉,水质极佳,泡完后身体持续暖暖的。我们还预约了私人温泉,在专属空间里度过了惬意的时光。
    4温泉区域宽敞开阔,视野极佳。从露天温泉能一览大海,可伴着海浪声悠闲度日。水温也不会过高,能慢慢暖遍全身,非常满意。此外,还支持当日往返使用,让人能轻松前来,这点很贴心。
    5温泉散发着令人舒心的硫磺香气,让人真切感受到来到了温泉胜地。温泉水功效显著,能明显感觉到肌肤变得光滑。这里有多个温泉池,有时特定时段还能独享,让人体验到奢华感。另外,泡完温泉后提供的冰镇饮品也是个惊喜服务。
    6酒店的餐食宛如艺术品。大量使用本地新鲜食材制作的怀石料理,不仅外观精美,每一道菜都能让人感受到制作的用心。尤其是用当季海鲜制作的刺身,堪称绝品,仅凭这一点就想再次前来。
    7晚餐有很多本地特色菜,非常满意。特别是炭火烤制的牛排,入口即化,美味得让人想一再续盘。早餐种类也很丰富,用本地蔬菜制作的沙拉和手工豆腐都很美味。
    8晚餐是套餐形式,每道菜都很好吃,其中最令人印象深刻的是用本地采摘的蔬菜制作的前菜和自制甜点。采用凸显食材本味的简单烹饪方式,充分展现了食材的优良品质。早餐营养均衡,刚出炉的面包尤其美味。
    9酒店的餐食超出预期。因靠近海边,大量使用新鲜海鲜,刺身和煮鱼都非常好吃。晚餐分量充足,每道菜的调味都饱含心意。早餐的日式料理也很美味,尤其是温泉蛋堪称绝品。
    10晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。

    2.1 通过 Bedrock 的 InvokeModel API 使用

    InvokeModel API 是用于调用 Bedrock 所提供模型的 API。

    在请求体(body)中输入想要进行重排序的文档列表以及用户的查询语句后,就能在响应结果中获取到按与用户查询语句相关度从高到低重新排序的文档,以及各自的相关度(分数)。

    代码

    query = "烤肉好吃的酒店"
    documents = [
        "这家酒店的温泉堪称顶级疗愈。源泉直供的温泉水格外柔和,泡完后肌肤感觉滑溜溜的。从露天温泉能眺望到美丽的群山,夜晚还能一边泡澡一边欣赏满天繁星。这是一家让人想反复前往的温泉酒店。",
        # (省略)
    ]
    
    response = bedrock.invoke_model(
        modelId="amazon.rerank-v1:0",
        body=json.dumps({
            "query": query,
            "documents": documents,
            "top_n": 3,
        }),
    )
    
    body = json.loads(response["body"].read())
    pprint.pprint(body["results"])
    

    输出

    [{'index': 9, 'relevance_score': 0.001466458403084568},
     {'index': 6, 'relevance_score': 0.0005013742398679934},
     {'index': 8, 'relevance_score': 0.0003640086870995012}]
    

    ※重排序结果中包含的索引(index)以 0 为起始,为了与上方表格保持一致,需在索引数值上加 1。

    结果

    序号内容
    10晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。
    7晚餐有很多本地特色菜,非常满意。特别是炭火烤制的牛排,入口即化,美味得让人想一再续盘。早餐种类也很丰富,用本地蔬菜制作的沙拉和手工豆腐都很美味。
    9酒店的餐食超出预期。因靠近海边,大量使用新鲜海鲜,刺身和煮鱼都非常好吃。晚餐分量充足,每道菜的调味都饱含心意。早餐的日式料理也很美味,尤其是温泉蛋堪称绝品。

    可以确认,正如预期的那样,第 10 条和第 7 条评论内容排在了靠前位置。

    2.2 通过 Bedrock Knowledge Base 的 Rerank API 使用

    Rerank API 是作为 Knowledge Base 的功能提供的,但其本质与上述的 InvokeModel 相同,输入文档列表和用户查询语句后,就能得到重排序后的文档列表。

    代码

    region = boto3.Session().region_name
    amazon_rerank_arn = f"arn:aws:bedrock:{region}::foundation-model/amazon.rerank-v1:0"
    
    response = bedrock_agent.rerank(
        queries=[
            {
                "type": "TEXT",
                "textQuery": {
                    "text": query,
                },
            },
        ],
        sources=[
            {
                "inlineDocumentSource": {
                    "textDocument": {
                        "text": document,
                    },
                    "type": "TEXT",
                },
                "type": "INLINE",
            } for document in documents
        ],
        rerankingConfiguration={
            "type": "BEDROCK_RERANKING_MODEL",
            "bedrockRerankingConfiguration": {
                "numberOfResults": 3,
                "modelConfiguration": {
                    "modelArn": amazon_rerank_arn,
                },
            },
        },
    )
    
    pprint.pprint(response["results"])
    

    输出

    [{'index': 9, 'relevanceScore': 0.0014664584305137396},
     {'index': 6, 'relevanceScore': 0.0005013742484152317},
     {'index': 8, 'relevanceScore': 0.0003640086797531694}]
    

    可以确认,得到了与使用 InvokeModel 时完全相同的结果。

    2.3 通过 Bedrock Knowledge Base 的 Retrieve API 使用

    与 InvokeModel、Rerank API 不同,在 Retrieve API 中,无需传入文档列表作为输入。

    该 API 以用户的查询语句为输入,先通过用户查询语句检索向量数据库,再将检索结果作为文档列表进行重排序。

    为了使用 Retrieve API,我们先创建了知识库,并将上述内容逐条作为一个数据块进行存储。

    首先确认不进行重排序时的结果。

    代码

    response = bedrock_agent.retrieve(
        knowledgeBaseId=knowledgebase_id,
        retrievalConfiguration={
            "vectorSearchConfiguration": {
                "numberOfResults": 3,
                "overrideSearchType": "SEMANTIC",
            },
        },
        retrievalQuery={
            "text": query,
        },
    )
    
    pprint.pprint(response["retrievalResults"])
    

    输出

    [{'content': {'text': '酒店的餐食宛如艺术品。大量使用本地新鲜食材制作的怀石料理,不仅外观精美,每一道菜都能让人感受到制作的用心。尤其是用当季海鲜制作的刺身,堪称绝品,仅凭这一点就想再次前来。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/006.txt'},
                   'type': 'S3'},
      'score': 0.43565163},
     {'content': {'text': '酒店的餐食超出预期。因靠近海边,大量使用新鲜海鲜,刺身和煮鱼都非常好吃。晚餐分量充足,每道菜的调味都饱含心意。早餐的日式料理也很美味,尤其是温泉蛋堪称绝品。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/009.txt'},
                   'type': 'S3'},
      'score': 0.435101},
     {'content': {'text': '晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/010.txt'},
                   'type': 'S3'},
      'score': 0.4281698}]
    

    结果

    序号内容
    6酒店的餐食宛如艺术品。大量使用本地新鲜食材制作的怀石料理,不仅外观精美,每一道菜都能让人感受到制作的用心。尤其是用当季海鲜制作的刺身,堪称绝品,仅凭这一点就想再次前来。
    9酒店的餐食超出预期。因靠近海边,大量使用新鲜海鲜,刺身和煮鱼都非常好吃。晚餐分量充足,每道菜的调味都饱含心意。早餐的日式料理也很美味,尤其是温泉蛋堪称绝品。
    10晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。

    当获取前 3 条结果时,第 10 条评论排在第 3 位,而第 7 条评论未出现在检索结果中。

    若使用这样的检索结果进行 RAG,恐怕难以得到高精度的回答。

    接下来,在 Retrieve API 中指定重排序模型,确认检索结果会发生怎样的变化。

    代码

    response = bedrock_agent.retrieve(
        knowledgeBaseId=knowledgebase_id,
        retrievalConfiguration={
            "vectorSearchConfiguration": {
                # (1) 首次检索时获取 10 条结果
                "numberOfResults": 10,
                "overrideSearchType": "SEMANTIC",
                "rerankingConfiguration": {
                    "bedrockRerankingConfiguration": {
                        "modelConfiguration": {
                            "modelArn": amazon_rerank_arn,
                        },
                        # (2) 对检索得到的 10 条结果进行重排序,并返回前 3 条
                        "numberOfRerankedResults": 3,
                    },
                    "type": "BEDROCK_RERANKING_MODEL",
                },
            },
        },
        retrievalQuery={
            "text": query,
        },
    )
    
    pprint.pprint(response)
    

    输出

    [{'content': {'text': '晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/010.txt'},
                   'type': 'S3'},
      'score': 0.0014721895568072796},
     {'content': {'text': '晚餐有很多本地特色菜,非常满意。特别是炭火烤制的牛排,入口即化,美味得让人想一再续盘。早餐种类也很丰富,用本地蔬菜制作的沙拉和手工豆腐都很美味。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/007.txt'},
                   'type': 'S3'},
      'score': 0.0004994205664843321},
     {'content': {'text': '酒店的餐食超出预期。因靠近海边,大量使用新鲜海鲜,刺身和煮鱼都非常好吃。晚餐分量充足,每道菜的调味都饱含心意。早餐的日式料理也很美味,尤其是温泉蛋堪称绝品。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/009.txt'},
                   'type': 'S3'},
      'score': 0.0003640086797531694}]
    

    结果

    序号内容
    10晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。
    7晚餐有很多本地特色菜,非常满意。特别是炭火烤制的牛排,入口即化,美味得让人想一再续盘。早餐种类也很丰富,用本地蔬菜制作的沙拉和手工豆腐都很美味。
    9酒店的餐食超出预期。因靠近海边,大量使用新鲜海鲜,刺身和煮鱼都非常好吃。晚餐分量充足,每道菜的调味都饱含心意。早餐的日式料理也很美味,尤其是温泉蛋堪称绝品。

    通过执行重排序,第 10 条和第 7 条内容占据了前 2 位。

    这样一来,就能为用户提供更多其所需的信息了。

    3. Amazon Rerank 模型与 Cohere Rerank 模型的对比

    接下来,我们使用同样可在 Bedrock 上使用的 Cohere Rerank 模型对相同内容进行测试。

    只需将 modelArn 替换为 Cohere Rerank 模型对应的 ARN,就能切换所使用的重排序模型。

    操作起来非常简便。

    代码

    cohere_rerank_arn = f"arn:aws:bedrock:{region}::foundation-model/cohere.rerank-v3-5:0"
    # (省略)
    

    输出

    [{'content': {'text': '晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/010.txt'},
                   'type': 'S3'},
      'score': 0.3279808461666107},
     {'content': {'text': '酒店的餐食宛如艺术品。大量使用本地新鲜食材制作的怀石料理,不仅外观精美,每一道菜都能让人感受到制作的用心。尤其是用当季海鲜制作的刺身,堪称绝品,仅凭这一点就想再次前来。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/006.txt'},
                   'type': 'S3'},
      'score': 0.1456373631954193},
     {'content': {'text': '晚餐有很多本地特色菜,非常满意。特别是炭火烤制的和牛牛排,入口即化,美味得让人想一再续盘。早餐种类也很丰富,用本地蔬菜制作的沙拉和手工豆腐都很美味。',
                  'type': 'TEXT'},
      'location': {'s3Location': {'uri': 's3://xxx/007.txt'},
                   'type': 'S3'},
      'score': 0.11919290572404861}]
    

    结果

    序号内容
    10晚餐是大量使用本地食材制作的创意料理,每道菜都能感受到巧思。特别是用本地产蔬菜和肉类制作的烤肉料理,堪称绝品,充分凸显了食材本身的味道。早餐也很用心,有手工果酱和刚出炉的面包等,非常满意。
    6酒店的餐食宛如艺术品。大量使用本地新鲜食材制作的怀石料理,不仅外观精美,每一道菜都能让人感受到制作的用心。尤其是用当季海鲜制作的刺身,堪称绝品,仅凭这一点就想再次前来。
    7晚餐有很多本地特色菜,非常满意。特别是炭火烤制的和牛牛排,入口即化,美味得让人想一再续盘。早餐种类也很丰富,用本地蔬菜制作的沙拉和手工豆腐都很美味。

    与使用 Amazon Rerank 模型时相比,第 7 条的排名下降了一位,但仍在前三之列。

    第 6 条内容虽然是关于海鲜料理而非肉类料理的评论,但它是关于美味料理的评论,而非温泉相关,因此我认为其得分较高。

    这样一来,在 RAG 生成回答时,也能在不缺失信息的情况下进行内容生成了。

    4. 其他

    4.1 调用速度

    我们对 Amazon Rerank 模型与 Cohere Rerank 模型的响应速度是否存在差异进行了验证。

    针对俄勒冈区域的模型,我们分别对相同请求各执行 5 次,通过比较响应时间的平均值来分析差异。

    Amazon Rerank 模型

    序号响应时间(秒)
    10.895
    20.687
    30.734
    40.828
    50.775
    平均0.784

    Cohere Rerank 模型

    序号响应时间(秒)
    10.454
    20.508
    30.533
    40.495
    50.453
    平均0.489

    对比结果显示,Cohere Rerank 模型的速度约为 Amazon Rerank 模型的 1.5 倍。

    4.2 费用

    本次使用的模型费用如下表所示。

    虽然相较于非重排序模型(例如 Amazon Nova Lite 为每 1000 个输出令牌 0.00024 美元),这些重排序模型的费用略显偏高,但这也意味着仅通过 API 调用就能使用到如此复杂的功能。

    序号模型费用
    1Amazon Rerank 模型1 美元 / 1000 次查询
    2Cohere Rerank 模型2 美元 / 1000 次查询

    总结

    我们对 Bedrock 新增的重排序模型进行了验证,确认其对改善检索结果具有实际作用。

    实验表明,通过执行重排序操作,能够使更贴合用户输入的内容出现在检索结果的靠前位置。

    此外,Bedrock Knowledge Base 的优势在于,无需自行开发实现,仅通过修改设置就能实现检索效果的大幅提升。

    本次验证仅进行到检索(retrieve)阶段,而若使用 retrieve_and_generate 功能,还可将回答生成的过程也交由 Bedrock 完成。

    未来,我希望活用 Bedrock 的重排序功能,开发出更贴合用户意图的 RAG 系统。

  • Amazon Bedrock 的多智能体协作(Multi Agent Collaboration):实现高级智能体联动

    Amazon Bedrock 的多智能体协作(Multi Agent Collaboration):实现高级智能体联动

    前言

    今天我将结合实际运行的示例代码,为大家讲解 2024 年 12 月发布的 Amazon Bedrock 新功能 ——“多智能体协作(Multi Agent Collaboration)”。

    什么是多智能体协作(Multi Agent Collaboration)

    1. 概述

    多智能体协作(Multi Agent Collaboration)是 Amazon Bedrock 推出的新功能,支持多个 AI 智能体(Agent)协同完成任务。AWS 官方博客中以社交媒体营销活动为例,介绍了其应用模式:

    1. 由管理智能体(Supervisor Agent)接收用户的请求;
    2. 委托专门负责内容创作的智能体撰写帖子;
    3. 委托专门负责互动量预测的智能体确定发帖时机;
    4. 将各智能体返回的结果整合后,向用户反馈最终响应。

    通过管理智能体为各专业智能体分配相应任务,实现了多智能体协同生成输出的能力。

    2. 与其他智能体服务的对比

    在涉及多智能体管理的服务中,与多智能体协作(Multi Agent Collaboration)功能相似的是多智能体编排器(Multi Agent Orchestrator)。下表总结了普通智能体、多智能体协作(Multi Agent Collaboration)及多智能体编排器(Multi Agent Orchestrator)各自的特点与适用范围。

    特征普通的智能体(通常Agent)多智能体协作(Multi Agent Collaboration)多智能体编排器(Multi Agent Orchestrator)
    目的由单个智能体负责所有处理,完成简单任务。多个智能体联动分工,高效处理复杂任务。集中管理多个智能体,将任务分配给最优智能体。
    结构单个智能体接收用户请求,独立完成所有处理流程。管理智能体拆分任务、分配给各智能体,并整合结果。管理角色分析请求,选择合适的智能体执行任务。
    主要功能1. 简单任务处理2. 一致性响应1. 多智能体高效分工2. 发挥各智能体专业性开展处理1. 依据请求灵活选择智能体2. 动态分配任务
    优点1. 结构简单,易于实现2. 适用于小规模任务1. 可高效处理复杂任务2. 最大限度发挥各智能体的专业能力1. 设计简洁,便于新增和修改2. 可灵活适配各类任务
    缺点1. 单个智能体承担所有处理,可扩展性低2. 难以应对复杂任务1. 需实现智能体间联动,管理难度大2. 需进行复杂的系统设计1. 智能体间协作性弱,不适用于复杂任务2. 处理过程高度依赖中央管理

    github.com

    相较于使用普通智能体或多智能体编排器,借助多智能体协作(Multi Agent Collaboration)似乎能够应对更为复杂的任务。

    运行示例场景

    接下来,让我们实际操作使用多智能体协作(Multi Agent Collaboration)功能。本次将基于 AWS 官方提供的资源,搭建一个股票分析助手。

    github.com

    1. 股票分析助手概述

    我们将要搭建的股票分析助手如下所示:

    通过运行示例代码,将创建以下 4 个智能体:

    • Stock Analysis(管理智能体 / Supervisor Agent)接收用户的股票相关请求,分析股价数据与新闻数据;将处理工作委托给各专业智能体,最终生成汇总报告。
    • Stock Data Researcher(股价数据研究智能体)获取股价历史数据,分析价格波动;通过 Lambda 函数获取实时市场数据。
    • News Researcher(新闻研究智能体)获取指定股票代码(Ticker)的相关新闻,分析市场情绪与趋势;通过 Lambda 函数调用网络搜索 API,收集最新新闻。
    • Financial Analyst(金融分析师智能体)整合股价分析与新闻分析的结果,提供投资判断建议;生成最终推荐内容及面向用户的报告。

    流程上,用户输入股票相关信息后,上述 2-4 号智能体将围绕请求的股票信息开展收集与解析工作,再由 1 号 Stock Analysis 智能体对结果进行整合。

    2. 搭建方法

    在 Bedrock Agent 中搭建多智能体协作(Multi Agent Collaboration)非常简便,仅需完成以下设置:

    1. 创建需要参与多智能体协作的各智能体;
    2. 按照以下配置创建用于统筹的管理智能体(Supervisor Agent):
      • 创建管理智能体时,开启 “Enable multi-agent collaboration”(启用多智能体协作)选项;
      • 按以下形式设置由 Supervisor Agent(主管代理)进行统括的 Collaborator Agent(协作代理)。

    本次将通过运行以下示例代码,实现基于 boto3 的多智能体系统搭建。

    github.com

    我们将按照 README 文档的说明逐步搭建系统。

    1. 执行以下命令搭建环境

    git clone https://github.com/awslabs/amazon-bedrock-agent-samples
    
    cd amazon-bedrock-agent-samples
    
    python3 -m venv .venv
    
    source .venv/bin/activate
    
    pip3 install -r src/requirements.txt
    

    2. 执行以下命令创建示例智能体

    python3 examples/multi_agent_collaboration/portfolio_assistant_agent/main.py --recreate_agents "true"
    

    3. 生成的智能体列表

    执行上述命令后,将创建以下智能体:

    生成的智能体概要

    系统将 portfolio_assistant 智能体设置为管理智能体(Supervisor Agent),并将其他智能体注册为协作智能体(Collaborator Agent)。

    Stock Analysis(管理智能体 / Supervisor Agent)

    通过执行以下代码创建管理智能体:

    portfolio_assistant = SupervisorAgent.direct_create(
        "portfolio_assistant",
        role="Portfolio Assistant",
        goal="分析特定的潜在股票投资标的,提供包含一系列投资考量因素的报告",
        collaboration_type="SUPERVISOR",
        instructions="""
                 请以分析特定股票潜在投资价值的资深专家身份开展工作。
                 为掌握最新股价走势及相关新闻动态,需进行调研分析。
                 提交内容详实、论证充分且兼顾潜在投资者需求的报告。
                 借助分析师协作智能体完成最终分析,并将新闻与股价数据作为输入传递给分析师。
                 对协作智能体的调用需按顺序进行,不可并行调用。
                 最终输出内容需全部以日语呈现。""",
        collaborator_agents=[
            {
                "agent": "news_agent",
                "instructions": """
                 如需查找特定股票的相关新闻,请调用此协作智能体。""",
            },
            {
                "agent": "stock_data_agent",
                "instructions": """
                 如需查询特定股票的价格历史,请调用此协作智能体。""",
            },
            {
                "agent": "analyst_agent",
                "instructions": """
                 如需获取原始调研数据,并生成详细报告及投资考量建议,请调用此协作智能体。""",
            },
        ],
        collaborator_objects=[news_agent, stock_data_agent, analyst_agent],
        guardrail=no_bitcoin_guardrail,
        llm="us.anthropic.claude-3-5-sonnet-20241022-v2:0",
        verbose=False,
    )
    

    github.com

    上述代码中的核心配置项说明如下:

    • goal:设置智能体整体预期输出目标。
    • instructions:定义对管理智能体的操作指引,包括如何与协作智能体协同工作。
    • collaborator_agents:定义各协作智能体的配置,确保管理智能体可正常调用协作智能体。

    在 AWS 控制台中也可确认:portfolio_assistant 已被设为管理智能体,其余 3 个智能体均已注册为协作智能体。

    此外,通过以下提示词指令,要求管理智能体与其他协作智能体协同完成股票分析任务。(原始提示词为英文,为实现日语输出已进行修正)。本次通过提示词指定智能体按顺序执行任务,但协作智能体也支持并行执行模式。

    请以分析特定股票潜在投资价值的资深专家身份开展工作。为掌握最新股价走势及相关新闻动态,需进行调研分析。

    提交内容详实、论证充分且兼顾潜在投资者需求的报告。借助分析师协作智能体完成最终分析,并将新闻与股价数据作为输入传递给分析师。

    对协作智能体的调用需按顺序进行,不可并行调用。最终输出内容需全部以中文呈现。

    stock_data_agent(股价数据研究智能体)

    如图所示,该智能体将用于获取股票价格信息的 Lambda 函数配置为行动组。通过此行动组获取股票价格信息,是该智能体的核心职责。

    以下代码定义了该智能体的功能:通过从管理智能体传递的提示词中提取 tool_defs 里定义的参数,实现股价信息的获取。

    # Define Stock Data Agent
    stock_data_agent = Agent.direct_create(
        name="stock_data_agent",
        role="财务数据采集员",
        goal="获取特定股票代码(Ticker)的准确股价趋势",
        instructions="实时财务数据提取专家",
        tool_code=f"arn:aws:lambda:{region}:{account_id}:function:stock_data_lookup",
        tool_defs=[
            {  # lambda_layers: yfinance_layer.zip, numpy_layer.zip
                "name": "stock_data_lookup",
                "description": "获取指定股票代码的1个月股价历史,返回格式为JSON",
                "parameters": {
                    "ticker": {
                        "description": "The ticker to retrieve price history for",
                        "type": "string",
                        "required": True,
                    }
                },
            }
        ],
    )
    

    github.com

    news_agent(新闻研究智能体)

    如图所示,该智能体将用于搜索和获取股票相关新闻的 Lambda 函数配置为行动组。通过此行动组获取股票相关新闻,是该智能体的核心职责。

    analyst_agent(金融分析师智能体)

    通过以下提示词配置,该智能体可根据输入的股价信息与新闻内容开展分析工作:

    角色:财务分析师

    目标:通过分析股价趋势与市场新闻获取洞察

    操作说明:作为资深分析师提供战略性建议。接收新闻摘要与股价摘要作为输入。无可用工具,仅可依赖自身知识开展工作。

    3. 运行示例场景

    接下来,我们立即运行已搭建的智能体系统。本次将通过 AWS 控制台进行操作。

    我们向作为管理智能体创建的 portfolio_assistant 智能体发送以下请求,查询亚马逊股票相关信息:

    请求

    ticker:Amazon

    回答

    在本次案例中,大约 30 秒左右就收到了回复。尽管执行时间会因所运行的智能体(Agent)而异,但如果要执行多个像搜索这类耗时的操作,整体花费的时间也会相应增加。

    此外,我们能够通过以下形式查看协作智能体(Collaborator Agent)是如何开展处理工作的。可以看到,news_agent、stock_data_agent、analyst_agent 这几个智能体相互协作,成功回答了问题。

    接下来,让我们看看管理智能体(Supervisor Agent)是如何向协作智能体下达指令的。通过跟踪步骤,能够查看各个智能体的运行情况,具体如下:

    从以下内容可以看出,协作智能体能够从管理智能体传递的提示词中提取出参数。

    管理智能体向协作智能体(stock_data_agent)发送的提示词

    [{text = 请提供股票代码为 ‘Amazon’ 的股票价格历史。}]

    协作智能体执行行动组的输入

    "invocationInput": [
    {
    "actionGroupInvocationInput": {
    "actionGroupName": "actions_stock_data_agent",
    "executionType": "LAMBDA",
    "function": "stock_data_lookup",
    "parameters": [
    {
    "name": "ticker",
    "type": "string",
    "value": "Amazon"
    }
    ]
    },
    "invocationType": "ACTION_GROUP",
    "traceId": "1f373c5c-12b9-4d07-8a24-1317d66f5115-0"
    }
    ]
    

    对于管理智能体接收到的请求,我们可以轻松构建出向各个协作智能体分配任务的流程。在将任务拆分给多个专业智能体来解决时,多智能体协作(Multi Agent Collaboration)的优势有望得到充分发挥。

    总结

    本次我们对 2024 年 12 月发布的 Amazon Bedrock 多智能体协作(Multi Agent Collaboration)功能进行了讲解。特别令人欣喜的是,仅通过 Bedrock Agent 就能构建出专业智能体以及对其进行统筹的管理智能体。鉴于该功能在各类应用场景中都有潜在的使用可能,我打算今后继续进行更多尝试。

  • 借助 Azure MCP Server 与 GitHub Copilot,尽可能简化 Azure 应用搭建流程

    借助 Azure MCP Server 与 GitHub Copilot,尽可能简化 Azure 应用搭建流程

    Model Context Protocol(MCP)问世已有一段时间,在此期间,支持 MCP 的服务不断增多,其作为大语言模型(LLM)工具的应用范围也在逐步扩大。无论是工具提供方还是客户端的服务数量都在增加,预计今后支持 MCP 的场景还将进一步拓展。

    在这样的背景下,微软推出了 Azure MCP Server—— 一款可通过 MCP 操作 Azure 资源的 MCP 服务器。(相关链接:github.com

    目前,该服务器可操作的资源虽有限,但已能实现 CosmosDB、Blob Storage 等数据的查询功能。本文将先简要介绍 MCP,随后讲解如何从 GitHub Copilot 调用 Azure MCP Server,从而轻松搭建使用 Azure 资源的 Web 应用。

    MCP 是什么

    MCP 是 Model Context Protocol 的缩写,顾名思义,它指的是一种协议(即标准规范)。具体而言,这是一种针对 “使用 LLM 模型的应用在调用工具时,如何获取上下文并调用工具” 这一流程所制定的标准规范。

    提到工具调用,大家可能会想到 Function Calling(函数调用),但 MCP 与它属于不同层面的概念,具体区别如下:

    • Function Calling(函数调用):输入用户提示词与各工具的信息后,选择并调用对应工具的功能。
    • MCP:规定了 LLM 应用应如何选择工具、工具方应如何提供工具的标准规范。

    在 Model Context Protocol 中,定义了 “MCP Server”(MCP 服务器)与 “MCP Client”(MCP 客户端)两种角色:

    • 宿主(Host):指使用 MCP 的 LLM 应用。
    • MCP Server(MCP 服务器):提供工具,负责提供工具信息并执行工具调用。
    • MCP Client(MCP 客户端):从 MCP Server 获取工具信息,决定调用哪个工具并执行调用操作。
    https://modelcontextprotocol.io/docs/concepts/architecture

    严格来说,MCP Server 还可提供提示词模板等其他功能,本文在此暂不展开说明。

    例如,Claude Desktop、GitHub Copilot 等属于工具调用方服务,对应上述的 “宿主”,其内部包含了 MCP 客户端。

    本文将按照以下架构开展操作:通过由 NodeJS 启动的 MCP Server 来操作 Azure 资源。

    关于 Azure MCP Server

    这是微软发布的 MCP 服务器,可通过工具提供 Azure 资源的操作能力,支持标准输入与 HTTP 两种通信方式。

    可操作的内容示例如下:

    • 获取 CosmosDB 容器列表
    • 向 CosmosDB 容器执行 SQL 查询
    • 获取 Blob Storage 容器列表

    搭建使用 Azure 资源的 Web 应用

    本次我们将搭建一个简易 Web 应用,实现文件的上传、下载与删除功能,并记录 “谁在何时上传了文件”。后端将采用 Blob Storage 作为文件存储,CosmosDB 用于管理上传历史。

    开发环境如下:

    • VS Code Insiders
    • GitHub Copilot
    • Python 3.10.11

    启动 Azure MCP Server

    启动 Azure MCP Server 十分简单。

    https://github.com/Azure/azure-mcp

    执行以下命令启动服务器

    bashnpx -y @azure/mcp@latest server start --transport sse

    若出现如下输出,则表示启动成功

    plaintextinfo: Microsoft.Hosting.Lifetime[14]

    Now listening on: http://localhost:5008

    配置 VS Code 中的 GitHub Copilot,使其适配 Azure MCP Server

    仅启动 MCP Server 无法让客户端识别,需完成注册操作以确保 LLM 应用能正常识别。由于本次使用 GitHub Copilot,具体操作可参考链接code.visualstudio.com

    核心步骤为在 .vscode/mcp.json 文件中写入以下内容即可:

    json

    {
        "servers": {
            "azure-mcp-dev": {
                "url": "http://localhost:5008"
            }
        }
    }
    

    通过 GitHub Copilot 搭建应用

    首先,需预先在 Azure 中手动创建以下资源组及资源:

    • 资源组:mcp-dev
    • CosmosDB:ssk-mcp-cosmos-dev
    • 存储账户:sskmcpblobdev

    理论上,我们希望让 Azure MCP Server 完成资源创建的全过程,但将资源创建操作完全交给 LLM 存在一定风险,因此本次仅手动完成这部分工作。

    完成上述准备后,向已关联 Azure MCP Server 的 GitHub Copilot 输入以下提示词:

    “我想在名为 mcp-dev 的资源组中,使用 Blob Storage 和 CosmosDB 搭建一个文件上传管理系统。

    • 支持用户各自上传、下载、删除文件。
    • 通过 CosmosDB 记录每个用户何时更新了哪个文件。
    • 使用 Python 的 FastAPI 进行开发。

    请基于上述条件完成以下操作:

    • 修改 Azure 资源配置。
    • 输出展示数据库与存储配置的文档。”

    此时,Copilot 会先检查现有资源状态,如下所示:

    其中显示 “Ran azmcp-group-list” 的部分,即为正在执行 Azure MCP Server 操作的过程,能看出它正在确认资源组、存储及 CosmosDB 的状态。

    Copilot 在首次回复中会告知所需的设计方案,之后我们可进一步指令其输出代码。

    需要注意的是,Copilot 会生成源代码,但不会主动创建容器。由于若不明确指示,它通常不会执行修改资源的操作,因此需补充相关指令。

    补充指令后,资源所需的各个容器便会分别创建完成。

    至此,源代码与后端资源的搭建就全部完成了。

    实际使用体验

    下面我们来运行一下这个应用。界面是通过向 GitHub Copilot 输入提示词生成的。

    由于没有对外观做任何指定,所以界面处于最基础的状态。这里展示的是已上传 schema.json 文件后的状态,Azure 资源中也同步了上传的文件及相关操作历史。

    像这样,借助 Azure MCP Server 与 GitHub Copilot,从 Azure 资源配置到应用创建的全过程,都可以通过提示词一次性完成。在 Azure 上搭建简单应用时,这一组合应该会非常实用。

    总结

    本文借助 Azure MCP Server 与 GitHub Copilot,轻松验证了 Azure 资源配置与应用开发的全流程。

    除了 GitHub Copilot 原本就具备的应用创建能力外,现在连适配应用的资源配置都能通过提示词一站式完成,非常便捷。

    未来,MCP Server 的工具扩展功能还将进一步完善,想必能为我们带来更高效的开发体验。

    那么,我们下次再见。

  • 使用 Aurora Serverless v2 作为 Amazon Bedrock Knowledge Bases 的向量数据库

    使用 Aurora Serverless v2 作为 Amazon Bedrock Knowledge Bases 的向量数据库

    今天我尝试了使用 Amazon Bedrock Knowledge Bases,并将 Amazon Aurora PostgreSQL 用作向量数据库。

    去年 12 月,Amazon Bedrock Knowledge Bases 新增了可快速创建 Aurora PostgreSQL 作为向量数据库的功能,大幅简化了设置流程。

    本次我也将利用这一快速创建功能进行设置。

    aws.amazon.com

    1. 将 Aurora PostgreSQL 配置为向量存储

    事前准备

    本次将 S3 用作 RAG(检索增强生成)的外部数据源。之后,我们会确认 LLM(大语言模型)的回答是否参考了存储在 S3 中的资料。

    Knowledge Bases 的创建

    在 AWS 管理控制台中,进入 Bedrock 页面,仅通过 GUI 操作即可轻松创建 Knowledge Bases。

    点击 “Knowledge Base with vector store”(带向量存储的知识库),即可跳转至 Knowledge Bases 创建页面。

    在 “步骤 2 配置数据源” 中,指定事前准备好的 S3 的 URI。而 “步骤 3 选择嵌入模型并配置向量数据库” 则是本次的核心内容。

    向量数据库的选项中新增了 “Amazon Aurora PostgreSQL Serverless” 这一项目,请选择此项。

    ※向量数据库的可选范围因区域而异,本文中测试使用的是东京区域。

    之后点击 “下一步”,确认创建内容后即可完成设置。仅需通过 GUI 操作即可完成,直观又简单!

    在 RDS 控制台中可以确认已创建的数据库。

    数据库表的创建情况如下所示。

    Bedrock_Knowledge_Base_Cluster=> \d bedrock_knowledge_base
            Table "bedrock_integration.bedrock_knowledge_base"
      Column   |        Type         | Collation | Nullable | Default
    -----------+---------------------+-----------+----------+---------
     id        | uuid                |           | not null |
     embedding | public.vector(1536) |           |          |
     chunks    | text                |           |          |
     metadata  | jsonb               |           |          |
    Indexes:
        "bedrock_knowledge_base_pkey" PRIMARY KEY, btree (id)
        "bedrock_knowledge_base_embedding_idx" hnsw (embedding public.vector_l2_ops)
    

    Knowledge Bases 的测试

    选择已创建的 Knowledge Bases 后,会出现 “测试知识库”页面。在此处向 LLM 提问,测试是否能返回预期的回答。

    本次我提出了 “敏捷开发的优势是什么?“ 这一问题。结果如预期般返回了参考了事前准备并存储在 S3 中的资料的回答,看起来运行正常。

    2. 与 OpenSearch Serverless 的对比

    OpenSearch Serverless 是被广泛用作向量数据库的代表性服务。此处将整理其与 Aurora Serverless v2 在实际使用中的差异。

    功能

    当使用 Aurora PostgreSQL 作为向量数据库时,仅支持语义搜索这一种检索类型。

    而使用 OpenSearch Serverless 时,则可在混合搜索与语义搜索之间进行选择。

    • 语义搜索:并非简单的关键词匹配,而是检索语义上相关的信息。
    • 混合搜索:将关键词检索与语义搜索相结合进行信息检索。

    从检索功能性来看,OpenSearch Serverless 更具优势。若需融入关键词检索功能,建议选择 OpenSearch Serverless。

    成本

    OpenSearch Serverless 的计算费用采用计时收费模式,即便处于未使用状态,仍会产生每小时的费用。以美国东部(弗吉尼亚北部)区域为例,每个单位的费用为 0.24 美元 / 小时。根据文档说明,至少会按 2 个单位计费,因此每月的费用约为 0.24 美元 / 小时 × 720 小时 × 2 = 345 美元。

    相比之下,Aurora Serverless v2 不仅单价低廉(0.12 美元 / 单位 / 小时),还支持缩容至 0 个单位。因此,能够有效控制未使用状态下的成本。

    aws.amazon.com

    查看此前通过快速创建功能搭建的 Aurora PostgreSQL 实例配置,确认其确实支持缩容至 0 个单位,与预期一致。

    在 CloudWatch 中查看单位使用率(ACU),可以确认实例在未使用时会自动缩容至 0 个单位。

    3. 检索速度确认

    最后,我们将验证文档数量增加时的检索速度及 ACU(Aurora 计算单位)变化情况。数据源采用 Kaggle 上的 “BBC News Summary” 数据集,将约 9000 条数据存储至 S3 中。

    参照 “1. 将 Aurora PostgreSQL 配置为 Bedrock Knowledge Bases 的向量数据库” 中的方法,向 LLM 发起提问。结果显示,与文档数量较少时相同,回答在数十毫秒内即可返回。对于本次使用的数据集规模而言,检索速度似乎不存在明显问题。

    查看 ACU 数据可知:文档导入时的 ACU 使用率约为 30%(16(最大扩容单位数)× 0.3 = 5 个单位),LLM 生成回答时的 ACU 使用率约为 15%(16 × 0.15 = 2.5 个单位)。

    向量数据库的 ReadLatency(读取延迟)控制在 0.01 秒以内,使用体验较为流畅。

    4. 总结

    本次尝试了在 Bedrock Knowledge Bases 中使用 Aurora Serverless v2 作为向量数据库。

    借助快速创建功能,仅需几次 GUI 点击操作,即可轻松完成向量数据库的搭建。对于 “控制未使用状态下成本” 这一需求,也能够轻松实现。

    最后提醒

    仅删除 Bedrock Knowledge Bases,并不能移除通过快速创建功能生成的向量数据库等其他关联资源。若不再需要这些资源,请务必手动删除,避免遗漏。

  • 借助 Amazon Nova 模型与 Bedrock Knowledge Base 实现视频检索

    借助 Amazon Nova 模型与 Bedrock Knowledge Base 实现视频检索

    不知您是否有过想要检索视频的经历?

    比如,只依稀记得视频里提到过某些内容,但这些内容并未体现在视频标题中,导致无论如何都找不到对应的视频。

    或许如果能像使用 Google 搜索那样检索就好了,但对于公司内部的视频或工作中使用的视频而言,事情往往没那么简单。

    为了解决这类困扰,我们尝试利用 Amazon Nova 模型与 Amazon Bedrock Knowledge Base 开发了一款工具。

    通过使用 Bedrock Knowledge Base,无需自行开发文档导入与检索功能,只需将视频的摘要结果存入 S3,即可轻松实现联动。

    也就是说,能够在最大限度降低开发成本的同时,开发出高性能的应用程序。

    构成图

    1. 视频检索想要实现的目标

    如果视频标题中包含目标语句,那么通过标题就能进行检索,但对于仅在视频部分内容中提及的信息等,很难通过字符串进行检索。

    此外,有时用户并非对某一特定视频感兴趣,而是希望广泛检索主题相同的视频。

    在本次视频检索项目中,为实现此类模糊检索,我们考虑通过 Bedrock Knowledge Base 进行向量检索。

    2. 实现方法

    大致步骤如下:

    1. 使 Amazon Nova 模型可对视频进行摘要处理
    2. 使摘要结果可导入 Bedrock Knowledge Base
    3. 实现视频检索处理
    4. 制作检索界面

    下面分别进行详细说明。

    2.1. 使 Amazon Nova 模型可对视频进行摘要处理

    通过模型生成摘要

    Amazon Nova 模型除了可接收文本、图像输入外,还能接收视频输入。

    我们将视频及其文字稿与下述提示词一同输入模型,让模型生成摘要文本。

    本次我们从 YouTube 频道视频中,选取了时长 1 分钟以内的视频,并上传至 S3。

    视频上传至 S3 后,Lambda 会接收事件触发,调用 Amazon Nova Lite 为这些视频生成说明文本,并将文本文件上传至 S3。

    该文本文件随后将成为 Knowledge Base 的导入对象。

    system_prompt = [
        {
            "text": dedent("""\
                您的任务是分析给定的视频,并说明视频中呈现的内容。
                视频的文字稿结果已记载在「文字稿:xxx」部分,请将其作为说明的依据。
                您的回复必须严格仅由视频的说明文本构成。
                请尽可能详细地进行说明。
                摘要请以中文呈现。
            """)
        }
    ]
    use_messages = [
        {
            "role": "user",
            "content": [
                {"text": f"视频名: {filename}"},
                {
                    "video": {
                        "format": "mp4",
                        "source": {"bytes": b64_content},
                    },
                },
                {"text": f"文字稿: {transcript}"},
                {"text": "请用中文说明此视频。"},
            ],
        }
    ]
    config = {"temperature": 0}
    body = {
        "schemaVersion": "messages-v1",
        "system": system_prompt,
        "messages": use_messages,
        "inferenceConfig": config,
    }
    
    response = bedrock_agent.invoke_model(
        modelId=MODEL_ID,
        body=json.dumps(body),
        contentType="application/json",
    )
    model_response = json.loads(response["body"].read())
    content = model_response["output"]["message"]["content"][0]["text"]
    

    模型会返回如下响应:

    此外,由于本次仅针对短时长视频,因此采用了直接向 API 提交视频的方式,但如果文件体积较大,则需要采取诸如读取上传至 S3 的文件、将视频分段传输后再合并等方法。

    2.2. 使摘要结果可导入 Bedrock Knowledge Base

    导入 Knowledge Base

    接下来需要通过 Knowledge Base 进行同步,以导入上述说明文本。但如果直接导入,无法实现原始视频与上传的文本文件之间的关联。

    为解决这一问题,我们使用了 Knowledge Base 的 metadata.json 功能。

    在此 JSON 文件中记载的内容,会在 Knowledge Base 同步时作为元数据保存到 OpenSearch Serverless 中,可供检索时获取。

    本次我们在元数据中指定了视频的 URL,用于检索后的界面显示。

    {
      "metadataAttributes": {
        "original_path": "s3://bucket/path/to/video.mp4"
      }
    }
    

    当视频的说明文本与对应的 metadata.json 配置完成后,即可对 Knowledge Base 进行同步。

    2.3. 实现视频检索处理

    执行检索

    检索时使用了 Knowledge Base 的 Retrieve API。

    此外,通过在检索后设置分数下限作为阈值,可确保经重排序后被判定为相关性较低的视频不纳入检索结果。

    const input = {
      knowledgeBaseId,
      retrievalQuery: {
        text: query.trim(),
      }
      retrievalConfiguration: {
        vectorSearchConfiguration: {
          numberOfResults: 20,
          overrideSearchType: "HYBRID",
          rerankingConfiguration: {
            bedrockRerankingConfiguration: {
              modelConfiguration: {
                modelArn: AMAZON_RERANK_MODEL,
              },
              numberOfRerankedResults: 10,
            },
            type: "BEDROCK_RERANKING_MODEL",
          },
        },
      },
    };
    const command = new RetrieveCommand(input);
    return client.send(command);
    

    可按如下方式获取视频的概要及视频文件路径:

    {
      "retrievalResults": [{
        "content": {
          "text": "该视频介绍了远程办公中的 IT 工程师想吃的豆沙包排名……",
          "type": "TEXT"
        },
        "location": {
          "s3Location": {
            "uri": "s3://bucket/path/to/summary.txt"
          },
          "type": "S3"
        },
        "metadata": {
          "original_path": "s3://bucket/path/to/video.mp4"
        }
      }]
    }
    

    2.4. 制作检索界面

    本次使用 bolt.new 制作了执行上述检索的界面。

    虽然我不太擅长前端开发,但只需用中文下达指令,就能制作出非常不错的应用,这一点让我很惊喜。

    制作的检索应用
    检索结果

    3. 结果

    3.1. 尝试用视频中包含的语句进行检索

    首先,我们尝试使用既包含在视频标题中、也包含在生成式 AI 生成的摘要文本中的关键词进行检索。

    经确认,目标视频会显示在检索结果的第一位。

    当遇到 “想再看那个视频,但用传统检索方式搜不到” 的情况时,使用这款应用就能立即找到想看的视频。

    “美味的豆沙包”

    3.2. 尝试用视频中不包含的语句进行检索

    接下来,我们尝试用未出现在标题和摘要文本中,但凭借向量检索可能捕捉到相关内容的语句进行了检索。

    此次检索也成功命中了一段视频,内容是 2018 年参加在美国旧金山举办的 “Elastic {ON}” 大会时的场景。

    虽然本次知识库中仅导入了 Elastic {ON} 相关的视频,但如果预先导入其他海外大会的视频,就能实现 “并非想找某一特定视频,而是希望广泛获取同类视频” 的需求。

    海外大会的场景

    总结

    目前,Bedrock Knowledge Base 尚无法直接输入视频,但通过使用 Amazon Nova 生成视频说明文本,我们间接实现了视频检索功能。

    虽然通过自行对视频进行嵌入处理也能实现相同功能,但 Bedrock Knowledge Base 的优势在于可轻松集成内容导入与检索能力。

    内容导入仅需将文件放入 S3 并执行 “同步” 操作即可,检索也只需调用 Retrieve API。借助 Retrieve API,还能通过重排序功能轻松优化检索结果。