AI Product Strategy

Demo 证明想象力,产品证明可靠性

Karpathy 对 Agent 的提醒,不是否定 Agent,而是提醒团队:不要把一次漂亮演示误判成产品已经成熟。真正值得投入的,是把 Agent 从“能跑一次”打磨到“可被信任地反复跑”。

这份材料用于把外部 AI 判断转成 Momcozy APP 的产品策略:我们不追短期炫技,而是围绕母婴场景做“部分自治”的可靠产品能力。

01 · 原始分享:Karpathy 在哪里讲了什么

who

Andrej Karpathy

OpenAI 早期成员,Tesla 前 AI / Autopilot 负责人,斯坦福博士。他做过大模型研究,也做过自动驾驶这种极难产品化的 AI 系统,所以他对“demo 到产品”的难度判断,比普通 AI 评论更有分量。

OpenAITesla AutopilotSoftware 3.0Agentic Engineering
source

原视频

Andrej Karpathy: Software Is Changing (Again)

YC AI Startup School,San Francisco,2025-06-17;YouTube 发布于 2025-06-19。

相关片段:25:49 - 29:02

“2013 年我坐过一次 Waymo 自动驾驶车,30 分钟绕 Palo Alto,零接管。那时我以为自动驾驶马上就要来了。但 12 年后,我们仍然在解决 autonomy。”

Karpathy · YC AI Startup School 2025 · 约 26:21 - 27:24
25:49

从 Tesla 的 partial autonomy 经验讲起

他把 Tesla Autopilot 视为“部分自治产品”:有 GUI、有用户监督、有 autonomy slider,不是一上来就把方向盘完全交给机器。

26:21

自驾 demo 的误导性

2013 年 Waymo demo 已经“完美”,但真正走到可规模化、可持续产品化,花了十多年。

27:34

不要说 “2025 是 Agent 之年”

他说自己更愿意把它看成 “decade of agents”:这是长期工程,不是短期风口。

28:29

不是 Iron Man 机器人,而是 Iron Man 战衣

当前阶段更适合做增强人类能力的“部分自治产品”,而不是炫目的全自动 Agent demo。

02 · 观点:Agent 容易做 demo,难做成产品

demo
想象力

Demo 只需要在一个被选好的场景里成功一次。它证明“这个方向可能成立”,很适合激发团队和管理层想象。

  • 场景可控
  • 失败可以剪掉
  • 用户预期低
  • 不用处理长尾
VS
product
可靠性

产品必须在真实用户、真实数据、真实网络、真实情绪里反复成功。它证明“这个能力可以被信任”。

  • 结果稳定
  • 失败可控
  • 成本可算
  • 责任可追
核心判断Agent 不是不能做,而是不能把“看起来会做”误判成“已经能交付”。正确姿态是长期投入,但每一步都要收敛到可验证、可控、可复用的产品能力。

03 · 为什么中间会有 gap

Demo 和产品之间的 gap,本质不是模型“聪不聪明”一个问题,而是从一次性表演进入真实业务系统后,必须补齐一整套可靠性工程。

Gap
Demo 阶段怎么绕开
产品阶段必须解决
稳定性
选一个模型擅长的 case 展示
面对不同用户、不同表达、不同数据质量,都要保持可接受表现
验证难度
人看一眼觉得“挺对”
要有指标、人工抽检、bad case 回流、灰度阈值
上下文与记忆
一次对话里上下文完整
跨天、跨设备、跨用户阶段仍能理解用户处境
权限与安全
只生成文本,不真正行动
一旦涉及提醒、推荐、设备、健康建议,就要设计边界和兜底
体验闭环
用户看的是“哇,AI 会做”
用户真正要的是省心、可信、知道下一步该做什么

类比 Momcozy:母婴场景更不能只看 demo

sleep

睡眠洞察

Demo 可以讲出“宝宝昨晚睡得不稳”。产品要知道:数据是否完整、宝宝月龄是否匹配、建议是否会让妈妈焦虑。

feeding

喂养 / 泵奶解释

Demo 可以解释一次记录。产品要处理:记录缺失、左右侧差异、用户目标不同、建议是否越过健康边界。

device

设备与场景联动

Demo 可以给出设备建议。产品要考虑:设备状态是否准确、用户是否在当下场景里、出错后如何回退。

Momcozy 的特殊性母婴用户不是来“体验 AI 技术”的,她们是在疲惫、焦虑、信息过载时寻求可靠帮助。所以我们不能只做惊艳 demo,要把 Agent 做成低焦虑、可解释、有边界的服务能力。

04 · 我们打磨 Agent 的合理策略

我们不应该从“全能母婴 Agent”开始,而应该从可验证、低风险、高频、有数据闭环的小场景开始,逐步把 autonomy slider 往右推。

从窄场景开始

优先做睡眠、喂养、设备使用、VOC 归因这类边界清楚的 Agent。每个 Agent 先解决一个具体任务,不急着变成全能助手。

保留人在环

早期 Agent 更像 Iron Man 战衣,不是 Iron Man 机器人。它应该增强运营、客服、产品和用户决策,而不是直接替代判断。

先做可验证闭环

每个 Agent 都要定义输入、输出、审核方式、错误类型、灰度阈值和 bad case 回流。没有评估闭环,就不要放大自治程度。

把数据和知识库做厚

产品文档、FAQ、设备状态、用户阶段、内容库、历史 VOC 都要变成 Agent 可读、可调用、可追踪的资产。

建议计划:从“可用助手”走向“部分自治产品”

现在

建立 2-3 个高确定性 Agent 场景

比如睡眠洞察解释、泵奶/喂养记录解释、VOC 自动归因。目标不是炫技,而是验证用户是否真的因为它更省心。

接下来

把人工判断显性化

让产品、运营、客服把“平时怎么判断”的规则沉淀成可被 Agent 使用的知识库、SOP 和审核标准。

灰度

用红黄灯推进 autonomy slider

低风险任务可以让 Agent 自动完成;高风险建议必须提示边界、保留人工确认;触发 bad case 时降级或暂停。

长期

形成 Momcozy 自己的母婴 Agent 能力层

不是买一个通用聊天机器人,而是沉淀用户阶段、设备、内容、健康边界、运营触达共同组成的服务能力。