用 AI 把十年读书笔记和饭否帖文变成一个 Wiki 知识库

Published: by

用 AI 把十年读书笔记和饭否帖文变成一个 Wiki 知识库

前几天我做了一件一直想做但一直没有动手的事:把我这些年攒下来的书、笔记、还有王兴在饭否上的帖子,全部用 AI 整理成了一个可以随时查阅的个人 Wiki,部署在 wiki.tokbook.cn

这篇文章记录一下整个过程,工具和流程都讲清楚,有兴趣的人可以照着搭一套自己的。


问题是什么

我读书有一个坏习惯:读了、有感触、然后忘了。读《好战略坏战略》的时候觉得"坏战略的五个特征"非常有用,结果半年后只记得大概有个什么"坏战略"的概念,具体是什么早就忘了。

更烦的是跨书的连接。安迪·格鲁夫的 OKR、韦尔奇的 20-70-10 人才体系、段永平的"不为清单",这些管理哲学之间其实有很多相互印证和矛盾的地方,但它们分别躺在三本不同的书里,单独拿出来都是孤立的。

还有王兴在饭否上的帖子。我有一份 88 万字的合集 PDF,里面是他 2007 年到 2020 年的 15,409 条饭否帖文。这份文件我存了很久,知道里面有很多好东西,但一直不知道怎么把它变得"可用"——不可能把 88 万字背下来,搜索又太碎片。

这三类问题合在一起,就是一句话:我有很多信息,但没有知识


工具:GitHub Copilot CLI + wiki skill

我用的是 GitHub Copilot CLI,一个在终端里跑的 AI 助手。它支持安装"skill"——相当于给它一套特定任务的操作手册。我用的是一个开源的 wiki skill

Skill 安装很简单,把 markdown 文件内容加到 Copilot CLI 的 skills 目录就好。安装之后,在终端里就可以用这些命令:

/wiki ingest <文件路径>   # 摄取一本书或一批数据
/wiki absorb all          # 把摄取的内容整合进 wiki 文章
/wiki cleanup             # 审查和修复现有文章
/wiki query <问题>        # 查询 wiki 里的内容

Wiki 本体是一个 Next.js 应用,每篇文章就是一个 Markdown 文件,用 [[wikilinks]] 互相连接,部署在 Vercel 上。


做了什么:从原料到知识库

第一步:建一个 Wikipedia 级别的 wiki 应用

先让 Copilot 搭了一个完整的 wiki 网站,支持:

  • 侧边栏导航(手写 NAV,精确控制哪些文章出现)
  • [[wikilinks]] 自动跳转
  • Mermaid 图表渲染(流程图、时间线、思维导图)
  • 图片代理(外链图自动走 /api/image-proxy,避免跨域)
  • 响应式侧边栏(手机端折叠)

整个 wiki 在 wiki.tokbook.cn,源码在 GitHub

第二步:摄取书籍

一共摄取了 11 本书:

书名 格式 文章数
王兴饭否合集 PDF 衍生 20+ 篇
格鲁夫给经理人的第一课 EPUB 3 篇
赢(韦尔奇) EPUB 3 篇
好战略坏战略 EPUB 2 篇
学会提问(尼尔·布朗) EPUB 1 篇
俞军产品方法论 EPUB 4 篇
王慧文清华产品课 PDF 3 篇
穷查理宝典 PDF 1 篇
金字塔原理 PDF 2 篇
推荐系统实践 PDF 3 篇
维特根斯坦哲学 PDF 2 篇

摄取 EPUB 的命令就一行:

/wiki ingest /path/to/book.epub

Copilot 会自动提取章节、读完全书、然后按费曼学习法整理成 wiki 文章。重点是先读完再动笔——我们在 SKILL.md 里明确写了这条规则,防止 AI 只看了目录就开始写东西。

第三步:摄取饭否帖文

这是整个项目里最有意思的部分。

88 万字 PDF,15,409 条帖子,时间跨度 2007—2020 年。处理方式是:

  1. 用 Python 提取 PDF,按年份切分成 14 个文本文件
  2. 最大的一年(2017 年)有 526KB、3,078 条帖子
  3. 开 4 个并行 AI agent,分别负责不同年份段

4 个 agent 同时跑,各自负责不同的目标文章,避免写冲突:

  • absorb-2007-2010:早期探索年代、饭否文化与社区、生活与饮食
  • absorb-2011-2015:美团崛起年代、科技与互联网、历史与文明
  • absorb-2016-2020:成熟期年代、经济与投资、时事与社会
  • absorb-patterns:跨期主题提炼,创建模式类文章

跑完之后,多出了几篇新文章:

  • 海内(2007 年王兴推出的实名制社交网络,从帖子里提炼出来的)
  • 人工智能观察(他从 2015 年到 2020 年对 AI 的系统性看法)
  • 历史类比思维(他最一贯的一个思维习惯:用历史事件类比当下)

这是我最意外的收获。我根本不知道王兴有过一个叫"海内"的产品——直到 AI 从 2007 年的帖子里把这段历史"挖出来",并且意识到这值得单独成文。

第四步:cleanup

/wiki cleanup 会对每篇文章做质量审查:

  • 破折号(——)全部替换(这个 wiki 的规则是不用破折号)
  • AI 语气词清除:不能出现"深刻的"、"引人入胜地"、"值得注意的是"
  • 孤立文章修复:哪些文章没有被其他文章链接到?
  • _index.md 更新:全库的索引文件

这次 cleanup 修了大约 50+ 处破折号,加了 20+ 条 wikilinks,把 4 篇孤立文章重新连接进网络。


现在这个 Wiki 长什么样

63 篇文章,9 个目录:

people/      人物(王兴、段永平、格鲁夫、维特根斯坦等10人)
companies/   公司(美团、字节跳动、步步高、OPPO等7家)
philosophies/ 哲学思想(费曼学习法、金字塔原理、战略思维等15篇)
techniques/  方法技术(OKR、20-70-10、协同过滤等8篇)
knowledge/   知识领域(AI观察、历史与文明、经济投资等8篇)
patterns/    思维模式(历史类比思维)
eras/        年代(2007-2010、2011-2015、2016-2020)
reading/     书籍精读(好战略、格鲁夫、赢、学会提问等6本)
life/        生活(生活与饮食、其他观察)

每篇文章大概长这样——以《学会提问》为例,它不是书摘,而是一份提炼:

海绵模式:吸收一切,不加过滤。脑子里装满别人的结论,没有判断的基础。

淘金模式:带着问题去筛。用一组固定的关键问题检验每个论证。

然后是一张 Mermaid mindmap,把全书 13 个关键问题组织起来:

mindmap
  root((学会提问))
    论证结构
      论题是什么
      结论是什么
      理由是什么
    隐含前提
      价值观假设
      描述性假设
    证据
      证据的来源和类型
    ...

文章之间通过 [[wikilinks]] 互连。比如《学会提问》里会链到 [[费曼学习法]][[金字塔原理]],点进去就能看到这几种思维工具之间的关系和区别。


这东西有什么用

我自己用下来,最有感触的是两点:

一是"把书读薄"变成了现实。 《格鲁夫给经理人的第一课》全书 233 行的 wiki 文章,把他的 OKR 起源、杠杆率管理、战略转折点判断全部浓缩进去,附带 Mermaid 流程图,阅读时间 5 分钟,比重读全书快 95%。

二是书与书之间的连接浮现了。 格鲁夫说"战略转折点",好战略坏战略说"战略锚定",段永平说"关掉不该做的事"——这三个说法本质上是同一件事,但在三本书里是分开的,现在它们都链接到了 [[战略思维]] 这篇文章。


你也可以搭一套

整个流程的最小步骤:

  1. 安装 GitHub Copilot CLI(需要 GitHub Copilot 订阅)

  2. 安装 wiki skill,把 这个 Markdown 文件 内容保存到 ~/.copilot/skills/wiki/SKILL.md

  3. 创建一个 Next.js 项目,告诉 Copilot:"帮我搭一个 Wikipedia 的视觉克隆,支持 wikilinks、Mermaid、侧边栏"

  4. 开始摄取
    /wiki ingest 你的书.epub
    /wiki absorb all
    /wiki cleanup
    
  5. 部署到 Vercel(免费)

有几点要注意:

  • SKILL.md 里有一条规则很重要:读完全书再动笔。AI 很容易看了目录就开始写,写出来的东西只有框架,没有实质内容。
  • Mermaid 图表不要用双引号(")放在节点标签里,会报语法错误。
  • 侧边栏导航是手写的数组,每新增一篇文章都要手动加进去。这不是 bug,是故意的设计——保证你对 wiki 里有什么保持清醒。

最后说一句:这个项目让我重新意识到,读书这件事,输入只是开始。把书里的东西和自己已知的东西连接起来,才算是真的读进去了。Wiki 只是一个工具,迫使你在摄取每一本书的时候,都要回答一个问题:"这本书和我已经知道的什么东西有关系?"

这个问题问久了,脑子里的东西会慢慢变得稠密起来。