lidf/doctorAI

Fork 0

lidf 038b1e0ded chore: update documentation, angular logic and realtime recording spec

2026-04-16 10:48:28 +08:00

9.3 KiB

Raw Blame History

Deepview 商业顾问同步会议

与罗波 · 2026-04-14

会议目的：同步《深维·面诊沟通X光片》智能体的阶段性产品设计进展，邀请罗波以商业顾问视角，就产品形态、市场切入策略与商业叙事给出反馈。

当前产品全貌（设计进展综述）

一句话定义

深维是一款面向美容医疗场景的 AI 面诊助理：医生按一下录音，就能拿到一份面诊 X 光片；输上客户的名字，就能拿到一份完整的客户全生命周期档案。

一、已完成交付的核心能力

1. 实时录音管线（Phase 1 & 2 已跑通）

Web 前台录音（已完成）：手机/电脑打开 Deepview，点击录音按钮，结束后自动触发 OSS 上传 + DashScope Paraformer V2 说话人分离 ASR，2~3 分钟后生成 X 光片报告，无需任何人工干预。
Android 后台保活录音（已完成）：已完成 Tauri Android 打包，从 MindOS 迁移了前台服务三件套（RecordingForegroundService.kt）。手机锁屏放进口袋，可连续录制 4 小时以上，录音数据不掉、不丢、不断。
统一管线设计：无论来源是手动上传文件、Web 前台录音、还是 Android 后台录音，都统一汇入 runRealPipeline(file) 这一个入口，后端永远只看到一个 OSS key + 一个文件名。

前台录音 (Web MediaRecorder)       ┐
后台录音 (Android RecordingService) ├→ 统一产出: File 对象 → OSS → ASR → asr.md → 报告
手动上传 (input[type=file])        ┘

2. AI 分析管线（两段式 + 双上下文）

单次面诊 → X 光片报告（Recording 模式）

Stage 1: Hermes AI 军师读取本次 asr.md，生成五模块结构化报告草稿（接纳度、体征信号、信任断点、雷达评分、行动处方）
Stage 2: Qwen 接力将 Markdown 转为严格 JSON，前端强类型渲染，防止 AI 偷懒省字段

全景档案 → 客户托付档案（Client 模式）

Agent 读取该客户所有历史录音、已有 profile 档案
生成完整的客户生命周期洞察：LTV 估算、拒因池分析、引荐关系图谱、战略破冰方案

双上下文切换（核心架构创新）：

/report/rep_xxx   →  contextId = "recording:xxx"  →  单次战术复盘
/client/cli_xxx   →  contextId = "client:xxx"     →  全景战略洞察

前端只传一个 contextId，后端自动决定加载哪些文件，前端不参与编排。

3. Inbox 惰性归档（Lazy Binding）

医生录完音或上传完照片，数据落入 inbox/{reportId}/，完全不需要提前选客户、建档、填表
报告生成后，医生点一次"归档"即将本次完整数据包（asr.md + report + 音频）原子迁移到 clients/{clientId}/history/
这是一个"先有价值，后有治理"的体验设计，先让 AI 裸推演，事后再绑定关系

4. Markdown-First 物理落盘与来源分级（防幻觉架构）

三级证据链，层级越低越可信：

级别	文件	含义	不可变性
L0	`asr.md`	人类原声客观转写，不含 AI 推断	✅ 一旦生成不可修改
L1	`report_draft.md`	AI 基于单次录音的一阶分析摘要	可重新生成，但有标记
L2	`profile.md`	AI 跨多次录音的聚合客户档案	可更新，但优先级最低

设计核心：Agent 下次打开客户档案时，能明确区分哪句话来自医生原话（L0），哪句话是 AI 自己推断的（L2），杜绝"幻觉叠加幻觉"的复利效应。

5. Prosumer-First 数据沙箱（个人生产力联邦）

物理隔离边界从"公司"下沉到"个人账号（userId）"
李大夫的客户档案，与王主任没有任何交集，底层文件系统级隔离
零多租户 RAG 污染，零权限管理负担，彻底消除传统 CRM 的"管理爹味"

6. 三元知识域架构（已设计，待实现）

面向多机构 SaaS 场景的知识隔离架构：

平台域 platform/wiki/   → 运维写，所有用户只读 (底线合规)
机构域 orgs/{orgId}/wiki/  → 机构管理员写，本院用户只读 (RFM规则/话术/定价)
个人域 users/{userId}/  → 用户独占读写 (客户档案/录音/个人画像)

机构的差异化方法论（RFM 分级、话术规范、定价表）作为"判规"注入 Agent，与原始录音这个"答卷"绝对隔离，避免知识污染。

7. ChatBox 上下文追问（已设计，待前端接入）

后端 SSE 管线已完全就绪（7 个封闭 SSE 事件，与馨总智能体同构）
当前 ChatBox 是 Mock，待接入真实 API 后，医生在 X 光片页面可直接追问："这次她为什么拒绝了乔雅登？"，AI 实时流式回答，完全基于本次录音上下文

二、整体架构示意

医生的动作              平台基础设施                 AI 输出

短按→录音              OSS 直传（不经后端            X 光片报告
长按→上传图片/文件  →   节省带宽）        →          （五模块结构化）
                        ↓
                   DashScope ASR                  客户托付档案
                   Hermes AI 军师          →      （全景洞察 + 破冰策略）
                   LiteLLM Gateway
                   (gemini-pro-vertex)             追问式对话
                                           →      (ChatBox 实时流)

会议议题

议题 1：核心商业叙事

主题：用"高价值输出换取低动作配合"的飞轮，去替代传统 CRM 的"填表换数据"逻辑

要点：医生作为我们的客户，不应该被"你需要先做什么才能获得什么"。

医生只需点开录音（最低摩擦力的一个动作），就能换回一份高质量的面诊洞察——接纳度雷达、信任断点、下次破冰策略
医生只需输入客户名字（极简的一个建档），就能立刻调出该客户从第一次面诊到今天的全景生命周期档案——拒因演变、转介绍关系图、LTV 估算
系统不对医生提"管理要求"，只用超预期的输出去诱导他们自然配合

向罗波提问：

这种"不条件前置、直接给价值"的产品逻辑，对于美容医疗诊所的医生群体，冷启动时的破冰能力和推广节奏应该怎么设计？
我们在商业宣传上，这个核心正反馈飞轮该怎么包装？

议题 2：GTM 路径选择

主题：以"个人超能助理"切入，用 B2C 极简架构包抄 B2B 护城河

要点：

现在的系统就是一个"属于医生个人"的超能助理，数据完全私域化
没有装 IT、没有部门权限树、没有管理员审批，直接扫码登录就用
等医生产生足够的工具依赖后，通过"授权联邦"上移：医生主动授权特定档案给科室/诊所管理层，换取企业版订阅

向罗波提问：

在医疗/医美赛道，这种"先武装一线医师/医助"、再从个人工具演进成团队工具的 PLG 增长路径，你认为走得通吗？
诊所管理层对"数据在员工手里而不在机构手里"这件事，阻力有多大？商业话术上该怎么提前破解这个卡点？

议题 3：AI 可信度 — 医疗场景的差异化壁垒

主题：用"证据链溯源架构"解决医疗领域对 AI 的信任危机

要点：

我们在底层做了严格的三级证据分层（L0 原始录音文本→L1 单次报告→L2 跨次档案），防止 AI 幻觉叠加幻觉
医生随时可以下钻：这一句结论，具体来自哪次录音的哪段原话？
系统强制区分"人类说的话"和"AI 推断出来的话"，并在档案里做好标注

背景补充：这不仅是技术架构，也是一个反向竞争壁垒——市面上大多数 AI 工具把 AI 的推断和原始事实"混为一谈"，等事实和推断混在一起，档案的可信度就螺旋下降。我们的设计从根本上切断了这条路。

向罗波提问：

把"可溯源性"和"防幻觉架构"作为面向医疗客户的核心卖点，杀伤力足够吗？还是太技术化了，需要翻译成更通俗的说法？
医疗机构在采购 AI 工具时，除了"幻觉"风险，还在意哪些合规或信任维度？

议题 4：MVP 形态与种子用户策略

主题：当前底座已跑通，下一步如何快速找到第一批种子机构

当前已验证的技术底座：

✅ Web 端录音全流程（录音→ASR→报告→ChatBox 追问）
✅ Android 壳打包完成，支持背景保活录制
✅ 客户档案管线（归档→全景档案生成）
✅ 数据私域沙箱（Prosumer-First 隔离）
⬜ 三元知识域（多机构 SaaS 隔离，待实现）
⬜ ChatBox 真实 SSE 接入（待前端接入，后端已就绪）

向罗波提问：

基于当前已验证的闭环，拿去找第一批种子诊所做灰度，MVP 应该精简打磨到什么程度？
是先聚焦在"录音→X光片"这一个最亮眼的功能点上，还是必须把"长期客户档案"一起讲？
你认为种子用户在哪个圈子里更好找：单店美容诊所、连锁医美机构、还是独立医生执业（个体医美顾问）？

备忘

这场会议不在于汇报代码写了多少行。核心目标是：用以上四个产品设计事实为弹药，向罗波确认我们的商业叙事是否打动人，并挖掘出最适合 Deepview 走向市场的 GTM 策略。

9.3 KiB Raw Blame History Unescape Escape

Deepview 商业顾问同步会议

当前产品全貌（设计进展综述）

一句话定义

一、已完成交付的核心能力

1. 实时录音管线（Phase 1 & 2 已跑通）

2. AI 分析管线（两段式 + 双上下文）

3. Inbox 惰性归档（Lazy Binding）

4. Markdown-First 物理落盘与来源分级（防幻觉架构）

5. Prosumer-First 数据沙箱（个人生产力联邦）

6. 三元知识域架构（已设计，待实现）

7. ChatBox 上下文追问（已设计，待前端接入）

二、整体架构示意

会议议题

议题 1：核心商业叙事

议题 2：GTM 路径选择

议题 3：AI 可信度 — 医疗场景的差异化壁垒

议题 4：MVP 形态与种子用户策略

备忘

9.3 KiB

Raw Blame History