feat: 独立后端（共享 VOC 数据层 + 自有分析存储）

- backend/server.py: FastAPI 端口 8093 - backend/db.py: 双库设计（案例 DB 读写 + VOC DB 只读） - backend/tools/ude_extract.py: UDE 转写 + 向量聚类 - backend/prompts/voc_to_ude.txt: TOC 7条规范约束 - 已部署至 /opt/apps/mafia-proposal/ (systemd) - Nginx /copaw/mafia/api/ 代理已配置
2026-04-07 18:13:19 +08:00 · 2026-04-07 18:13:19 +08:00 · ec8eaa0b36
commit ec8eaa0b36
parent 9417781df3
8 changed files with 793 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -3,6 +3,10 @@ agent/memory/
 agent/cases/
 agent/iteration_reports/
 # 后端数据与密钥
 backend/data/
 backend/.env
 # macOS
 .DS_Store
--- a/backend/.env.example
+++ b/backend/.env.example
@ -0,0 +1,13 @@
 # LLM（通过 LiteLLM 网关）
 LITELLM_PROXY_URL=http://127.0.0.1:4000/v1
 LITELLM_MASTER_KEY=
 MODEL_ID=qwen-plus
 # 向量化（DashScope text-embedding-v4）
 DASHSCOPE_API_KEY=
 # 共享 VOC 数据层
 VOC_DATA_DIR=/opt/apps/voc-researcher/data
 # 服务
 PORT=8093
--- a/backend/db.py
+++ b/backend/db.py
@ -0,0 +1,167 @@
 """
 黑手党提案 — 数据库管理
 双库设计：
  1. 案例 DB（读写）：每个提案案例一个 SQLite，存分析结果
  2. VOC DB（只读）：读取共享 VOC 数据层的原始评论
 """
 import os
 import sqlite3
 import uuid
 from pathlib import Path
 from dotenv import load_dotenv
 load_dotenv()
 DATA_DIR = Path(__file__).parent / "data"
 DATA_DIR.mkdir(exist_ok=True)
 VOC_DATA_DIR = Path(os.getenv("VOC_DATA_DIR", ""))
 # ═══════════ 案例 DB（读写） ═══════════
 CASE_SCHEMA = """
 CREATE TABLE IF NOT EXISTS case_card (
    brand_name TEXT NOT NULL,
    category TEXT,
    focus_product TEXT,
    competitors TEXT,
    voc_research_id TEXT,
    created_at TEXT DEFAULT (datetime('now')),
    status TEXT DEFAULT 'draft'
 );
 CREATE TABLE IF NOT EXISTS ude_sentences (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    voc_comment_id INTEGER,
    ude_text TEXT NOT NULL,
    confidence REAL DEFAULT 0.5,
    vector TEXT,
    cluster_id INTEGER DEFAULT -1,
    created_at TEXT DEFAULT (datetime('now'))
 );
 CREATE TABLE IF NOT EXISTS ude_clusters (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    representative_ude TEXT,
    coverage INTEGER,
    sample_voices TEXT,
    user_label TEXT,
    confirmed INTEGER DEFAULT 0
 );
 CREATE TABLE IF NOT EXISTS conflicts (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    ude_cluster_id INTEGER,
    goal TEXT,
    need TEXT,
    prerequisite TEXT,
    convention TEXT,
    conflict_type TEXT,
    description TEXT
 );
 CREATE TABLE IF NOT EXISTS proposal_sections (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    section TEXT,
    content TEXT,
    version INTEGER DEFAULT 1,
    updated_at TEXT DEFAULT (datetime('now'))
 );
 """
 def get_case_conn(case_id: str) -> sqlite3.Connection:
    """获取案例 DB 连接（读写）"""
    path = DATA_DIR / f"{case_id}.db"
    if not path.exists():
        raise FileNotFoundError(f"案例 {case_id} 不存在")
    conn = sqlite3.connect(str(path))
    conn.row_factory = sqlite3.Row
    conn.execute("PRAGMA journal_mode=WAL")
    return conn
 def init_case_db(brand_name: str, category: str = "", focus_product: str = "",
                 competitors: str = "[]", voc_research_id: str = None) -> str:
    """创建新案例，返回 case_id"""
    case_id = uuid.uuid4().hex[:8]
    path = DATA_DIR / f"{case_id}.db"
    conn = sqlite3.connect(str(path))
    conn.row_factory = sqlite3.Row
    conn.executescript(CASE_SCHEMA)
    conn.execute(
        "INSERT INTO case_card (brand_name, category, focus_product, competitors, voc_research_id) VALUES (?,?,?,?,?)",
        (brand_name, category, focus_product, competitors, voc_research_id)
    )
    conn.commit()
    conn.close()
    return case_id
 def list_cases() -> list[dict]:
    """列出所有案例"""
    cases = []
    for db_file in sorted(DATA_DIR.glob("*.db")):
        case_id = db_file.stem
        try:
            conn = sqlite3.connect(str(db_file))
            conn.row_factory = sqlite3.Row
            card = conn.execute("SELECT * FROM case_card LIMIT 1").fetchone()
            if card:
                ude_count = conn.execute("SELECT count(*) FROM ude_sentences").fetchone()[0]
                cluster_count = conn.execute("SELECT count(*) FROM ude_clusters").fetchone()[0]
                cases.append({
                    "case_id": case_id,
                    **dict(card),
                    "ude_count": ude_count,
                    "cluster_count": cluster_count,
                })
            conn.close()
        except Exception:
            pass
    return cases
 # ═══════════ VOC DB（只读） ═══════════
 def get_voc_conn(voc_research_id: str) -> sqlite3.Connection:
    """只读访问共享 VOC 数据"""
    if not VOC_DATA_DIR.exists():
        raise FileNotFoundError(f"VOC 数据目录不存在: {VOC_DATA_DIR}")
    path = VOC_DATA_DIR / f"{voc_research_id}.db"
    if not path.exists():
        raise FileNotFoundError(f"VOC 研究 {voc_research_id} 不存在")
    conn = sqlite3.connect(f"file:{path}?mode=ro", uri=True)
    conn.row_factory = sqlite3.Row
    return conn
 def list_voc_researches() -> list[dict]:
    """列出共享 VOC 数据层中的所有研究"""
    if not VOC_DATA_DIR.exists():
        return []
    researches = []
    for db_file in sorted(VOC_DATA_DIR.glob("*.db")):
        if db_file.name in ("global_cache.db", "agent_sessions.db"):
            continue
        rid = db_file.stem
        try:
            conn = sqlite3.connect(f"file:{db_file}?mode=ro", uri=True)
            conn.row_factory = sqlite3.Row
            card = conn.execute("SELECT brand_name FROM research_card LIMIT 1").fetchone()
            comment_count = conn.execute(
                "SELECT count(*) FROM comments WHERE length(text) > 10"
            ).fetchone()[0]
            conn.close()
            if card and comment_count > 0:
                researches.append({
                    "research_id": rid,
                    "brand_name": card["brand_name"],
                    "comment_count": comment_count,
                })
        except Exception:
            pass
    return researches
--- a/backend/prompts/voc_to_ude.txt
+++ b/backend/prompts/voc_to_ude.txt
@ -0,0 +1,52 @@
 你是一个 TOC（约束理论）专家，你的任务是将消费者评论转写为 UDE（Undesirable Effect，不良效果）格式句。
 ## 什么是 UDE
 UDE = 系统中当前正在发生的、阻碍系统实现目标的、可观测的负面现象。
 UDE 是症状，不是病因，也不是解决方案。
 ## 转写规范（7 条硬约束）
 你输出的每条 UDE 必须同时满足以下全部规范，不满足则不输出：
 1. **完整陈述句**：必须是完整的句子，不能是碎片短语
 2. **现在时态**：描述当前正在发生的事
 3. **只描述效果，不含原因**：不能包含"因为…所以…"的因果分析
 4. **不是伪装的解决方案**：不能说"需要X"、"应该做Y"
 5. **单一实体**：一条 UDE 只描述一个问题
 6. **客观可验证**：利益相关方能达成共识的事实
 7. **在影响范围内**：品牌/企业可以采取行动改善的
 ## 你的任务
 对输入的每条消费者评论，判断其中是否包含不良效果。如果有，转写为 UDE 格式句；如果没有（纯分享、纯推荐、无关内容），输出 null。
 ## 输出格式
 严格输出 JSON 数组，每个元素对应一条输入评论：
 ```json
 {
  "results": [
    {"id": 1, "ude": "该品类产品月均消费成本持续超出目标消费者的可接受范围", "confidence": 0.9},
    {"id": 2, "ude": null, "confidence": 0},
    {"id": 3, "ude": "消费者服用产品后持续无法感知明确效果变化", "confidence": 0.85}
  ]
 }
 ```
 ## 转写示例
 | 消费者原文 | 正确的 UDE ✅ | 错误的写法 ❌ |
 |-----------|-------------|-------------|
 | "一瓶三百多，吃一个月，真的吃不起" | "该品类产品月均消费成本持续超出目标消费者的可接受范围" | "需要降价"（伪装的解决方案） |
 | "吃了两个月了完全没感觉" | "消费者服用产品后持续无法感知明确效果变化" | "因为产品无效所以没感觉"（包含原因） |
 | "需要冷藏但办公室没冰箱" | "产品冷藏存储要求与消费者日常携带场景持续冲突" | "应该出常温版"（伪装的解决方案） |
 | "不知道该买哪个牌子好" | "消费者面对该品类众多品牌持续缺乏可信的决策依据" | "品牌多、选择困难"（碎片短语，非完整句） |
 | "这个益生菌真的超好用推荐！" | null（无不良效果） | |
 ## 重要提醒
 - 你是格式转写员，不是分析师。不要添加原文中不存在的信息。
 - 转写时提升到系统/品类层面，但不能超出原文事实的边界。
 - confidence 表示你对这条转写准确性的信心（0-1），原文含义模糊时降低。
--- a/backend/requirements.txt
+++ b/backend/requirements.txt
@ -0,0 +1,7 @@
 fastapi>=0.110.0
 uvicorn[standard]>=0.27.0
 openai>=1.12.0
 python-dotenv>=1.0.0
 numpy>=1.24.0
 scikit-learn>=1.3.0
 gunicorn>=21.2.0
--- a/backend/server.py
+++ b/backend/server.py
@ -0,0 +1,217 @@
 """
 黑手党提案 — 独立后端
 FastAPI 服务，端口 8093。
 数据来源：只读访问共享 VOC 数据层。
 分析结果：存自己的案例 DB。
 """
 import os
 import logging
 from fastapi import FastAPI, Header, HTTPException, Query
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from dotenv import load_dotenv
 load_dotenv()
 from db import (
    get_case_conn, get_voc_conn, init_case_db,
    list_cases as _list_cases, list_voc_researches as _list_voc_researches,
 )
 logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(name)s] %(levelname)s %(message)s")
 logger = logging.getLogger("mafia")
 app = FastAPI(title="黑手党提案后端", version="1.0.0", description="独立后端：共享 VOC 数据层 + 自有分析存储")
 app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_methods=["*"],
    allow_headers=["*"],
 )
 # ═══════════ Models ═══════════
 class CreateCaseRequest(BaseModel):
    brandName: str
    category: str = ""
    focusProduct: str = ""
    competitors: str = "[]"
    vocResearchId: str = None
 class LinkVocRequest(BaseModel):
    vocResearchId: str
 # ═══════════ 案例管理 ═══════════
@app.post("/api/cases")
 async def create_case(req: CreateCaseRequest):
    case_id = init_case_db(
        brand_name=req.brandName,
        category=req.category,
        focus_product=req.focusProduct,
        competitors=req.competitors,
        voc_research_id=req.vocResearchId,
    )
    return {"caseId": case_id}
@app.get("/api/cases")
 async def get_cases():
    return _list_cases()
@app.get("/api/cases/{case_id}")
 async def get_case(case_id: str):
    try:
        with get_case_conn(case_id) as conn:
            card = conn.execute("SELECT * FROM case_card LIMIT 1").fetchone()
            ude_count = conn.execute("SELECT count(*) FROM ude_sentences").fetchone()[0]
            cluster_count = conn.execute("SELECT count(*) FROM ude_clusters").fetchone()[0]
        if not card:
            raise HTTPException(404, "案例不存在")
        return {"caseId": case_id, **dict(card), "udeCount": ude_count, "clusterCount": cluster_count}
    except FileNotFoundError:
        raise HTTPException(404, "案例不存在")
@app.delete("/api/cases/{case_id}")
 async def delete_case(case_id: str):
    from db import DATA_DIR
    path = DATA_DIR / f"{case_id}.db"
    if path.exists():
        path.unlink()
        return {"deleted": True}
    raise HTTPException(404, "案例不存在")
 # ═══════════ VOC 关联 ═══════════
@app.post("/api/cases/{case_id}/link-voc")
 async def link_voc(case_id: str, req: LinkVocRequest):
    """关联 VOC 研究 ID（验证 VOC 研究存在后再写入）"""
    try:
        with get_voc_conn(req.vocResearchId) as voc:
            count = voc.execute(
                "SELECT count(*) FROM comments WHERE length(text) > 10 "
            ).fetchone()[0]
    except FileNotFoundError as e:
        raise HTTPException(404, str(e))
    try:
        with get_case_conn(case_id) as conn:
            conn.execute("UPDATE case_card SET voc_research_id = ?", (req.vocResearchId,))
            conn.commit()
    except FileNotFoundError:
        raise HTTPException(404, "案例不存在")
    return {"linked": True, "vocCommentCount": count}
@app.get("/api/voc/researches")
 async def get_voc_researches():
    return _list_voc_researches()
@app.get("/api/cases/{case_id}/voc-comments")
 async def get_voc_comments(case_id: str, page: int = 1, pageSize: int = 50):
    """从共享 VOC 数据层只读获取原始评论"""
    try:
        with get_case_conn(case_id) as conn:
            card = conn.execute("SELECT voc_research_id FROM case_card LIMIT 1").fetchone()
    except FileNotFoundError:
        raise HTTPException(404, "案例不存在")
    if not card or not card["voc_research_id"]:
        raise HTTPException(400, "未关联 VOC 研究")
    try:
        with get_voc_conn(card["voc_research_id"]) as voc:
            total = voc.execute(
                "SELECT count(*) FROM comments WHERE length(text) > 10 "
            ).fetchone()[0]
            rows = voc.execute("""
                SELECT id, platform, text, like_count, published_at
                FROM comments WHERE length(text) > 10 
                ORDER BY like_count DESC
                LIMIT ? OFFSET ?
            """, (pageSize, (page - 1) * pageSize)).fetchall()
    except FileNotFoundError as e:
        raise HTTPException(404, str(e))
    return {"total": total, "page": page, "items": [dict(r) for r in rows]}
 # ═══════════ UDE 分析 ═══════════
@app.post("/api/cases/{case_id}/ude/extract")
 async def extract_ude(case_id: str, limit: int = Query(0)):
    from tools.ude_extract import run_ude_extraction
    try:
        result = await run_ude_extraction(case_id, limit)
    except FileNotFoundError as e:
        raise HTTPException(404, str(e))
    return result
@app.post("/api/cases/{case_id}/ude/cluster")
 async def cluster_ude(
    case_id: str,
    eps: float = Query(0.25),
    minSamples: int = Query(3),
    x_dashscope_key: str = Header(None),
 ):
    from tools.ude_extract import run_clustering
    key = x_dashscope_key or os.getenv("DASHSCOPE_API_KEY", "")
    try:
        result = run_clustering(case_id, eps, minSamples, dashscope_key=key)
    except FileNotFoundError as e:
        raise HTTPException(404, str(e))
    return result
@app.get("/api/cases/{case_id}/ude/clusters")
 async def get_clusters(case_id: str):
    try:
        with get_case_conn(case_id) as conn:
            clusters = conn.execute(
                "SELECT * FROM ude_clusters ORDER BY coverage DESC"
            ).fetchall()
    except FileNotFoundError:
        raise HTTPException(404, "案例不存在")
    return [dict(r) for r in clusters]
@app.get("/api/cases/{case_id}/ude/coverage")
 async def get_coverage(case_id: str):
    from tools.ude_extract import run_coverage_scan
    try:
        result = run_coverage_scan(case_id)
    except FileNotFoundError as e:
        raise HTTPException(404, str(e))
    return result
 # ═══════════ 健康检查 ═══════════
@app.get("/api/health")
 async def health():
    from db import VOC_DATA_DIR, DATA_DIR
    return {
        "status": "ok",
        "vocDataDir": str(VOC_DATA_DIR),
        "vocDataExists": VOC_DATA_DIR.exists(),
        "caseDataDir": str(DATA_DIR),
    }
 # ═══════════ 启动 ═══════════
 if __name__ == "__main__":
    import uvicorn
    port = int(os.getenv("PORT", "8093"))
    uvicorn.run(app, host="0.0.0.0", port=port)
--- a/backend/tools/init.py
+++ b/backend/tools/init.py
@ -0,0 +1,8 @@
 # Tools 注册表
 from tools.ude_extract import run_ude_extraction, run_clustering, run_coverage_scan
 __all__ = [
    "run_ude_extraction",
    "run_clustering",
    "run_coverage_scan",
 ]
--- a/backend/tools/ude_extract.py
+++ b/backend/tools/ude_extract.py
@ -0,0 +1,325 @@
 """
 黑手党提案 — UDE 提取工具
 流程：VOC 原始评论 → LLM 转写 UDE → DashScope 向量化 → DBSCAN 聚类 → 覆盖扫描
 数据来源：只读访问共享 VOC 数据层
 分析结果：写入本项目的案例 DB
 """
 from __future__ import annotations
 import json
 import os
 import asyncio
 import logging
 from pathlib import Path
 import numpy as np
 from openai import OpenAI, AsyncOpenAI
 from dotenv import load_dotenv
 load_dotenv()
 logger = logging.getLogger(__name__)
 MODEL = os.getenv("MODEL_ID", "qwen-plus")
 TEMPERATURE = float(os.getenv("TEMPERATURE", "0.1"))
 BATCH_SIZE = 10
 CONCURRENCY = 5
 EMBED_DIM = 1024
 EMBED_BATCH_SIZE = 25
 PROMPT_PATH = Path(__file__).parent.parent / "prompts" / "voc_to_ude.txt"
 def _get_llm_client() -> AsyncOpenAI:
    return AsyncOpenAI(
        api_key=os.getenv("LITELLM_MASTER_KEY"),
        base_url=os.getenv("LITELLM_PROXY_URL"),
    )
 def _get_embed_client(key: str) -> OpenAI:
    if not key:
        raise ValueError("DashScope API Key 未配置。请通过 Header 或 .env 传入。")
    return OpenAI(
        api_key=key,
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )
 # ═══════════ Step 1: VOC → UDE 转写 ═══════════
 async def _call_ude_llm(prompt: str, comments: list[dict]) -> list[dict]:
    """单批 LLM 转写"""
    client = _get_llm_client()
    user_msg = "请将以下消费者评论转写为 UDE 格式句，返回 JSON：\n\n"
    for c in comments:
        user_msg += f"[{c['id']}] 平台:{c['platform']} 原文: \"{c['text'][:300]}\"\n\n"
    try:
        resp = await client.chat.completions.create(
            model=MODEL,
            messages=[
                {"role": "system", "content": prompt},
                {"role": "user", "content": user_msg},
            ],
            temperature=TEMPERATURE,
            max_tokens=4000,
            response_format={"type": "json_object"},
        )
        content = (resp.choices[0].message.content or "").strip()
        parsed = json.loads(content)
        if isinstance(parsed, dict):
            for key in ("results", "data", "items", "udes"):
                if key in parsed and isinstance(parsed[key], list):
                    return parsed[key]
        if isinstance(parsed, list):
            return parsed
        return []
    except Exception as e:
        logger.warning(f"[UDE] LLM 转写失败: {str(e)[:80]}")
        return []
 async def _process_ude_batch(comments, prompt, semaphore):
    async with semaphore:
        return await _call_ude_llm(prompt, comments)
 async def run_ude_extraction(case_id: str, limit: int = 0) -> dict:
    """从共享 VOC 数据读取原始评论，转写为 UDE，存入案例 DB"""
    from db import get_case_conn, get_voc_conn
    prompt = PROMPT_PATH.read_text("utf-8") if PROMPT_PATH.exists() else ""
    if not prompt:
        return {"error": "UDE 转写 prompt 未找到 (prompts/voc_to_ude.txt)"}
    with get_case_conn(case_id) as case_conn:
        card = case_conn.execute("SELECT voc_research_id FROM case_card LIMIT 1").fetchone()
        if not card or not card["voc_research_id"]:
            return {"error": "未关联 VOC 研究。请先调用 link-voc。"}
        voc_research_id = card["voc_research_id"]
        # 获取已转写的 voc_comment_ids
        done_ids = {r[0] for r in case_conn.execute(
            "SELECT voc_comment_id FROM ude_sentences"
        ).fetchall()}
    # 从 VOC DB 只读获取原始评论
    with get_voc_conn(voc_research_id) as voc_conn:
        rows = voc_conn.execute("""
            SELECT id, platform, text
            FROM comments
            WHERE length(text) > 10 
            ORDER BY id
        """).fetchall()
    # 过滤已完成的
    pending = [r for r in rows if r["id"] not in done_ids]
    if not pending:
        with get_case_conn(case_id) as conn:
            total = conn.execute("SELECT count(*) FROM ude_sentences").fetchone()[0]
        return {"message": "全部已转写完成", "total_udes": total, "new": 0}
    if limit > 0:
        pending = pending[:limit]
    # 切批
    batches = []
    for i in range(0, len(pending), BATCH_SIZE):
        chunk = pending[i:i + BATCH_SIZE]
        batches.append([{"id": r["id"], "platform": r["platform"], "text": r["text"]} for r in chunk])
    semaphore = asyncio.Semaphore(CONCURRENCY)
    tasks = [asyncio.create_task(_process_ude_batch(b, prompt, semaphore)) for b in batches]
    all_results = await asyncio.gather(*tasks)
    # 写入案例 DB
    ok = 0
    with get_case_conn(case_id) as case_conn:
        for results in all_results:
            for r in (results or []):
                if not isinstance(r, dict):
                    continue
                ude_text = r.get("ude")
                if not ude_text:
                    continue
                cid = r.get("id")
                if not cid:
                    continue
                try:
                    case_conn.execute(
                        "INSERT OR IGNORE INTO ude_sentences (voc_comment_id, ude_text, confidence) VALUES (?, ?, ?)",
                        (int(cid), ude_text, r.get("confidence", 0.5))
                    )
                    ok += 1
                except Exception as e:
                    logger.warning(f"[UDE] 写入失败 id={cid}: {e}")
        case_conn.commit()
        total = case_conn.execute("SELECT count(*) FROM ude_sentences").fetchone()[0]
    return {
        "new_udes": ok,
        "total_udes": total,
        "total_voc_comments": len(rows),
        "remaining": len(rows) - total,
        "batches": len(batches),
    }
 # ═══════════ Step 2 & 3: 向量化 + 聚类 ═══════════
 def _embed_texts(client: OpenAI, texts: list[str]) -> list[list[float]]:
    all_vectors = []
    for i in range(0, len(texts), EMBED_BATCH_SIZE):
        batch = texts[i:i + EMBED_BATCH_SIZE]
        resp = client.embeddings.create(model="text-embedding-v4", input=batch, dimensions=EMBED_DIM)
        all_vectors.extend([item.embedding for item in resp.data])
    return all_vectors
 def run_clustering(case_id: str, eps: float = 0.25, min_samples: int = 3,
                   dashscope_key: str = None) -> dict:
    """向量化 + DBSCAN 聚类"""
    from sklearn.cluster import DBSCAN
    from sklearn.metrics.pairwise import cosine_distances
    from db import get_case_conn, get_voc_conn
    key = dashscope_key or os.getenv("DASHSCOPE_API_KEY", "")
    if not key:
        return {"error": "DashScope API Key 未配置。"}
    embed_client = _get_embed_client(key)
    with get_case_conn(case_id) as conn:
        rows = conn.execute("SELECT id, voc_comment_id, ude_text FROM ude_sentences ORDER BY id").fetchall()
        if len(rows) < min_samples:
            return {"error": f"UDE 不足 ({len(rows)} 条)，至少需要 {min_samples} 条。"}
        ude_texts = [r["ude_text"] for r in rows]
        ude_ids = [r["id"] for r in rows]
        comment_ids = [r["voc_comment_id"] for r in rows]
        # 向量化
        vectors = _embed_texts(embed_client, ude_texts)
        vec_array = np.array(vectors)
        # 保存向量
        for i, uid in enumerate(ude_ids):
            conn.execute("UPDATE ude_sentences SET vector = ? WHERE id = ?",
                         (json.dumps(vectors[i]), uid))
        # DBSCAN
        dist_matrix = cosine_distances(vec_array)
        clustering = DBSCAN(eps=eps, min_samples=min_samples, metric="precomputed").fit(dist_matrix)
        labels = clustering.labels_
        # 更新聚类标签
        for i, uid in enumerate(ude_ids):
            conn.execute("UPDATE ude_sentences SET cluster_id = ? WHERE id = ?",
                         (int(labels[i]), uid))
        # 清空旧聚类，写入新聚类
        conn.execute("DELETE FROM ude_clusters")
        # 获取关联的 VOC research_id 用于读取原声
        card = conn.execute("SELECT voc_research_id FROM case_card LIMIT 1").fetchone()
        voc_rid = card["voc_research_id"] if card else None
        clusters = []
        unique_labels = sorted(set(labels) - {-1})
        for cluster_id in unique_labels:
            member_indices = [i for i, l in enumerate(labels) if l == cluster_id]
            member_texts = [ude_texts[i] for i in member_indices]
            member_vectors = vec_array[member_indices]
            member_cids = [comment_ids[i] for i in member_indices]
            # 簇中心
            centroid = member_vectors.mean(axis=0)
            dists = cosine_distances([centroid], member_vectors)[0]
            representative = member_texts[dists.argmin()]
            # 取原声
            sample_voices = []
            if voc_rid:
                try:
                    voc_conn = get_voc_conn(voc_rid)
                    for cid in member_cids[:5]:
                        voice = voc_conn.execute(
                            "SELECT text, platform FROM comments WHERE id = ?", (cid,)
                        ).fetchone()
                        if voice:
                            sample_voices.append({"text": voice["text"][:200], "platform": voice["platform"]})
                    voc_conn.close()
                except Exception:
                    pass
            conn.execute(
                "INSERT INTO ude_clusters (representative_ude, coverage, sample_voices) VALUES (?, ?, ?)",
                (representative, len(member_indices), json.dumps(sample_voices, ensure_ascii=False))
            )
            clusters.append({
                "cluster_id": int(cluster_id),
                "representative_ude": representative,
                "coverage": len(member_indices),
                "sample_voices": sample_voices,
            })
        conn.commit()
        clusters.sort(key=lambda x: x["coverage"], reverse=True)
        noise_count = int((labels == -1).sum())
    return {
        "total_udes": len(labels),
        "num_clusters": len(clusters),
        "noise_count": noise_count,
        "noise_pct": round(noise_count / len(labels) * 100, 1) if len(labels) else 0,
        "clusters": clusters,
        "params": {"eps": eps, "min_samples": min_samples},
    }
 # ═══════════ Step 5: 覆盖扫描 ═══════════
 def run_coverage_scan(case_id: str) -> dict:
    from db import get_case_conn, get_voc_conn
    with get_case_conn(case_id) as conn:
        card = conn.execute("SELECT voc_research_id FROM case_card LIMIT 1").fetchone()
        voc_rid = card["voc_research_id"] if card else None
        total_udes = conn.execute("SELECT count(*) FROM ude_sentences").fetchone()[0]
        clustered = conn.execute("SELECT count(*) FROM ude_sentences WHERE cluster_id >= 0").fetchone()[0]
        noise = conn.execute("SELECT count(*) FROM ude_sentences WHERE cluster_id = -1").fetchone()[0]
        cluster_stats = [dict(r) for r in conn.execute(
            "SELECT cluster_id, count(*) as cnt FROM ude_sentences WHERE cluster_id >= 0 GROUP BY cluster_id ORDER BY cnt DESC"
        ).fetchall()]
        noise_samples = [dict(r) for r in conn.execute(
            "SELECT ude_text, voc_comment_id, confidence FROM ude_sentences WHERE cluster_id = -1 ORDER BY confidence DESC LIMIT 10"
        ).fetchall()]
    total_voc = 0
    if voc_rid:
        try:
            with get_voc_conn(voc_rid) as voc:
                total_voc = voc.execute(
                    "SELECT count(*) FROM comments WHERE length(text) > 10 "
                ).fetchone()[0]
        except Exception:
            pass
    return {
        "total_voc_comments": total_voc,
        "total_udes": total_udes,
        "udes_clustered": clustered,
        "udes_noise": noise,
        "coverage_rate": round(clustered / total_voc * 100, 1) if total_voc else 0,
        "cluster_distribution": cluster_stats,
        "noise_samples": noise_samples,
        "verdict": "充分" if (total_udes > 0 and noise / total_udes < 0.1) else
                   ("需关注" if (total_udes > 0 and noise / total_udes < 0.2) else "需调参"),
    }