用 AI 把十年读书笔记和饭否帖文变成一个 Wiki 知识库
用 AI 把十年读书笔记和饭否帖文变成一个 Wiki 知识库
前几天我做了一件一直想做但一直没有动手的事:把我这些年攒下来的书、笔记、还有王兴在饭否上的帖子,全部用 AI 整理成了一个可以随时查阅的个人 Wiki,部署在 wiki.tokbook.cn。
这篇文章记录一下整个过程,工具和流程都讲清楚,有兴趣的人可以照着搭一套自己的。
问题是什么
我读书有一个坏习惯:读了、有感触、然后忘了。读《好战略坏战略》的时候觉得"坏战略的五个特征"非常有用,结果半年后只记得大概有个什么"坏战略"的概念,具体是什么早就忘了。
更烦的是跨书的连接。安迪·格鲁夫的 OKR、韦尔奇的 20-70-10 人才体系、段永平的"不为清单",这些管理哲学之间其实有很多相互印证和矛盾的地方,但它们分别躺在三本不同的书里,单独拿出来都是孤立的。
还有王兴在饭否上的帖子。我有一份 88 万字的合集 PDF,里面是他 2007 年到 2020 年的 15,409 条饭否帖文。这份文件我存了很久,知道里面有很多好东西,但一直不知道怎么把它变得"可用"——不可能把 88 万字背下来,搜索又太碎片。
这三类问题合在一起,就是一句话:我有很多信息,但没有知识。
工具:GitHub Copilot CLI + wiki skill
我用的是 GitHub Copilot CLI,一个在终端里跑的 AI 助手。它支持安装"skill"——相当于给它一套特定任务的操作手册。我用的是一个开源的 wiki skill。
Skill 安装很简单,把 markdown 文件内容加到 Copilot CLI 的 skills 目录就好。安装之后,在终端里就可以用这些命令:
/wiki ingest <文件路径> # 摄取一本书或一批数据
/wiki absorb all # 把摄取的内容整合进 wiki 文章
/wiki cleanup # 审查和修复现有文章
/wiki query <问题> # 查询 wiki 里的内容
Wiki 本体是一个 Next.js 应用,每篇文章就是一个 Markdown 文件,用 [[wikilinks]] 互相连接,部署在 Vercel 上。
做了什么:从原料到知识库
第一步:建一个 Wikipedia 级别的 wiki 应用
先让 Copilot 搭了一个完整的 wiki 网站,支持:
- 侧边栏导航(手写 NAV,精确控制哪些文章出现)
[[wikilinks]]自动跳转- Mermaid 图表渲染(流程图、时间线、思维导图)
- 图片代理(外链图自动走
/api/image-proxy,避免跨域) - 响应式侧边栏(手机端折叠)
整个 wiki 在 wiki.tokbook.cn,源码在 GitHub。
第二步:摄取书籍
一共摄取了 11 本书:
| 书名 | 格式 | 文章数 |
|---|---|---|
| 王兴饭否合集 | 衍生 20+ 篇 | |
| 格鲁夫给经理人的第一课 | EPUB | 3 篇 |
| 赢(韦尔奇) | EPUB | 3 篇 |
| 好战略坏战略 | EPUB | 2 篇 |
| 学会提问(尼尔·布朗) | EPUB | 1 篇 |
| 俞军产品方法论 | EPUB | 4 篇 |
| 王慧文清华产品课 | 3 篇 | |
| 穷查理宝典 | 1 篇 | |
| 金字塔原理 | 2 篇 | |
| 推荐系统实践 | 3 篇 | |
| 维特根斯坦哲学 | 2 篇 |
摄取 EPUB 的命令就一行:
/wiki ingest /path/to/book.epub
Copilot 会自动提取章节、读完全书、然后按费曼学习法整理成 wiki 文章。重点是先读完再动笔——我们在 SKILL.md 里明确写了这条规则,防止 AI 只看了目录就开始写东西。
第三步:摄取饭否帖文
这是整个项目里最有意思的部分。
88 万字 PDF,15,409 条帖子,时间跨度 2007—2020 年。处理方式是:
- 用 Python 提取 PDF,按年份切分成 14 个文本文件
- 最大的一年(2017 年)有 526KB、3,078 条帖子
- 开 4 个并行 AI agent,分别负责不同年份段
4 个 agent 同时跑,各自负责不同的目标文章,避免写冲突:
absorb-2007-2010:早期探索年代、饭否文化与社区、生活与饮食absorb-2011-2015:美团崛起年代、科技与互联网、历史与文明absorb-2016-2020:成熟期年代、经济与投资、时事与社会absorb-patterns:跨期主题提炼,创建模式类文章
跑完之后,多出了几篇新文章:
- 海内(2007 年王兴推出的实名制社交网络,从帖子里提炼出来的)
- 人工智能观察(他从 2015 年到 2020 年对 AI 的系统性看法)
- 历史类比思维(他最一贯的一个思维习惯:用历史事件类比当下)
这是我最意外的收获。我根本不知道王兴有过一个叫"海内"的产品——直到 AI 从 2007 年的帖子里把这段历史"挖出来",并且意识到这值得单独成文。
第四步:cleanup
/wiki cleanup 会对每篇文章做质量审查:
- 破折号(——)全部替换(这个 wiki 的规则是不用破折号)
- AI 语气词清除:不能出现"深刻的"、"引人入胜地"、"值得注意的是"
- 孤立文章修复:哪些文章没有被其他文章链接到?
_index.md更新:全库的索引文件
这次 cleanup 修了大约 50+ 处破折号,加了 20+ 条 wikilinks,把 4 篇孤立文章重新连接进网络。
现在这个 Wiki 长什么样
63 篇文章,9 个目录:
people/ 人物(王兴、段永平、格鲁夫、维特根斯坦等10人)
companies/ 公司(美团、字节跳动、步步高、OPPO等7家)
philosophies/ 哲学思想(费曼学习法、金字塔原理、战略思维等15篇)
techniques/ 方法技术(OKR、20-70-10、协同过滤等8篇)
knowledge/ 知识领域(AI观察、历史与文明、经济投资等8篇)
patterns/ 思维模式(历史类比思维)
eras/ 年代(2007-2010、2011-2015、2016-2020)
reading/ 书籍精读(好战略、格鲁夫、赢、学会提问等6本)
life/ 生活(生活与饮食、其他观察)
每篇文章大概长这样——以《学会提问》为例,它不是书摘,而是一份提炼:
海绵模式:吸收一切,不加过滤。脑子里装满别人的结论,没有判断的基础。
淘金模式:带着问题去筛。用一组固定的关键问题检验每个论证。
然后是一张 Mermaid mindmap,把全书 13 个关键问题组织起来:
mindmap
root((学会提问))
论证结构
论题是什么
结论是什么
理由是什么
隐含前提
价值观假设
描述性假设
证据
证据的来源和类型
...
文章之间通过 [[wikilinks]] 互连。比如《学会提问》里会链到 [[费曼学习法]]、[[金字塔原理]],点进去就能看到这几种思维工具之间的关系和区别。
这东西有什么用
我自己用下来,最有感触的是两点:
一是"把书读薄"变成了现实。 《格鲁夫给经理人的第一课》全书 233 行的 wiki 文章,把他的 OKR 起源、杠杆率管理、战略转折点判断全部浓缩进去,附带 Mermaid 流程图,阅读时间 5 分钟,比重读全书快 95%。
二是书与书之间的连接浮现了。 格鲁夫说"战略转折点",好战略坏战略说"战略锚定",段永平说"关掉不该做的事"——这三个说法本质上是同一件事,但在三本书里是分开的,现在它们都链接到了 [[战略思维]] 这篇文章。
你也可以搭一套
整个流程的最小步骤:
-
安装 GitHub Copilot CLI(需要 GitHub Copilot 订阅)
-
安装 wiki skill,把 这个 Markdown 文件 内容保存到
~/.copilot/skills/wiki/SKILL.md -
创建一个 Next.js 项目,告诉 Copilot:"帮我搭一个 Wikipedia 的视觉克隆,支持 wikilinks、Mermaid、侧边栏"
- 开始摄取:
/wiki ingest 你的书.epub /wiki absorb all /wiki cleanup - 部署到 Vercel(免费)
有几点要注意:
- SKILL.md 里有一条规则很重要:读完全书再动笔。AI 很容易看了目录就开始写,写出来的东西只有框架,没有实质内容。
- Mermaid 图表不要用双引号(
")放在节点标签里,会报语法错误。 - 侧边栏导航是手写的数组,每新增一篇文章都要手动加进去。这不是 bug,是故意的设计——保证你对 wiki 里有什么保持清醒。
最后说一句:这个项目让我重新意识到,读书这件事,输入只是开始。把书里的东西和自己已知的东西连接起来,才算是真的读进去了。Wiki 只是一个工具,迫使你在摄取每一本书的时候,都要回答一个问题:"这本书和我已经知道的什么东西有关系?"
这个问题问久了,脑子里的东西会慢慢变得稠密起来。