跳转至

元数据发布流水线(已迁移)

本页内容已废弃

原有的 AWS Lambda + SAM 元数据发布流水线已被移除。lambdas/infra/ 目录不再存在。


新架构概述

元数据发布现由 Admin Backend 全面管理,流程如下:

flowchart LR
    A[semantic-plane/ YAML] --> B["ttd-publish-sp<br/>(task dp:publish-sp)"]
    B --> C[S3 Bucket]
    C --> D[Admin Backend<br/>semantic_plane agent]
    D --> E["R+V+G Pipeline<br/>(LangGraph)"]
    E --> F[(Aurora PostgreSQL<br/>semlayer.*)]

关键变更

旧方案 新方案
lambdas/metadata_ingest/ Lambda 函数 Backend 内置 semantic_plane agent (LangGraph)
lambdas/embedding_generator/ Lambda 函数 Backend 内置 R/V/G pipeline
infra/template.yaml (AWS SAM) 无需独立 IaC,随 Backend 部署
data-plane/scripts/ingest_metadata_local.py (ttd-ingest) data-plane/scripts/publish_semantic_plane.py (ttd-publish-sp)
CI 合并后触发 Lambda ttd-publish-sp 发布到 S3 → Backend 自动同步

新工作流

  1. 发布task dp:publish-spsemantic-plane/ YAML 打包发布到 S3
  2. 导入:Admin UI → Knowledge Base → Semantic Plane datasource 配置 S3 URI
  3. 自动同步:Backend 定期轮询 S3 manifest hash,检测变更后自动执行 R/V/G pipeline
  4. 软删除:S3 快照中缺失的资产被标记 deleted_at,不再参与检索

全局单例

Semantic datasource 是 全局单例——系统范围内仅存在一个活跃的语义数据源。


相关文档