(待解决)人类技能树计划
2021-06-17
tags: 技能树, 知识, 概念, 依赖, Knowledge Dependency, Concept, 待解决
三月底投给KR-21的论文被拒了。虽然reviewer都觉得给知识数据进行总结和压缩是很棒的想法,但是我对于形式化的把握还是过于欠缺,尤其是对于KRR圈子内的一些约定(术语,概念)掌握不足,使得评审最终认为工作并不扎实。
的确,如果我能够在一个月内掌握ILP的主体框架,熟悉业内规则,并且这个过程还不需要别人指导的话,那么不是我自己异乎常人,就是这个领域不足寻常。这种情况其实已出现过很多次,比如学习编程,比如了解自动机,比如实操大数据,尤比如运用数学。这些时候我都十分希望有专人梳理脉络,使得摸索有了方向,免受盲从盲动的支配。
这使我天然联想到技能树。各种知识就是生活、学习、工作、科研当中的技能点,它们之间存在一定的依赖关系,当前提被满足,新内容的习得就不再令人生畏,甚至事半功倍。推而广之,当我们可以明了所有领域、学科的所有知识、技能之间的依赖关系,想要入手任意的新的领域,都可以明确规划,估计成本以及难度。对于各行各业,也便有了远近亲疏的一套评价标准。而且,此脉络可以反过来梳理个人已有的知识体系,辅助调整认知。
实际上,这样的内容我们已经接触多年,平常而隐秘:那就是课纲。各种教育体系的课纲互相独立,领域封闭,且其覆盖简单、滞后,对于基础教育尚且够用,但对于高等教育、专业教育以及科研探索来说就显得呆板幼稚。国内的很多教育批评者都抱怨过教育的填鸭与内卷,学习过程中的缺乏激情,习得技能的健忘。私以为其根源在于孤立,缺乏事物之间的普遍联系让人们对事物的理解普遍失真,不能够依据自身的特点实现内化。比如,人们普遍推崇爱因斯坦及其相对论,(受教于各种科普与宣传)默认其仅基于对光速不变的假设进行推演,而不明其原初在于将引力引入闵可夫斯基空间,便无法理解其实质内涵,不了解格罗兹曼与希尔伯特对于理论的贡献,更不可考其思维路径,于是神话了爱因斯坦本人,然后对其晚年“统一场”理论的失败愈发疑惑。我斗胆一问,即使是物理专业从业者,对于闵可夫斯基空间以及其被发明的背景,有几成理解?再向前追溯呢?
我的从前,对于数学是一直当做游戏来做的。做出来一题,就好像击败了一个怪物,题越难,怪物越厉害,胜利之后越能炫耀。可游戏终究只是游戏,游戏当中的飞檐走壁不曾让我真正身轻如燕。它只是创造者意图的具象,而远不是创造本身。我曾在自主招生的数学笔试中击败了99%的对手,后来却连概率统计都差点不及格。读罢《数学史》,恍然大悟:
我想做一把凳子,于是找人借了一把斧子,又恰巧发现了丢在路边的锯子,为了拼接木板我发明了钉子,可是要敲钉子我不得不再设计一把锤子… 就是这样,思路本身朴实。只是崇拜的人盖起了庄严的庙宇,后人就奉它为神。越接近天涯海角就越明白自己需要这样一位向导,不停地质问他:是什么,为什么,凭什么?然后听他理所应当的说:这一切从来都不是理所应当的。
现今在数学的学习中,教育者希望通过特定模式的刺激训练思维方法,却越来越追求形而上的东西,把工具的目的弱化为了工具的方法,让多数人沉浸在说明书的指令中不能自拔。
因此,这棵技能树要做的,至少是提醒人们事物的抽象本质以及基于其中的联系。事物的产生、演变与消亡,是随着环境的演化而发生的;而每一个事物本身,又作为其他事物的环境的一部分而影响着自身环境的发展。明白这些,对于大多数的不理解便是可以理解的了。
1. 内容分析
1.1 目标内容
技能树面向的内容是所有领域中包含的知识与技术相关的概念,不要求包含具体的实例。比如,概念“微分方程”依赖于“函数”、“微分”,这些依赖关系是我们关心的内容。而“\(\displaystyle \frac{dx}{dy}=2\)”依赖于“\(dy=c \cdot dx\)”则不是需要关心的具体实例。这就提出了第一个重要的问题:
1.2 抽象结构设计
- 概念是分层的吗?
- 一个概念的依赖如何建模?单一的方案?方案的分布?
- 如何解决同名消歧问题?
- 如何解决扩展性问题?
1.2.1 概念的分层
概念可以看做是实例的集合。既然是以集合论,那么集合的超集、子集便对应概念的泛化与约束,从而产生层级的划分。进一步想,集合的交、并、差、补等操作也可以对应产生概念的一些方法。这些都可以在概念的关系中找到具体的实例。例如:
- \(A \subseteq B\):
- \(A \supseteq B\):
- \(A = B \cap C\):
- \(A = B \cup C\):
- \(A = B \setminus C\):
- \(A = \bar{B}\):
2. 构造方法
2.1 自动化方法
- Wiki页面内容提取:Wikipedia在每个词条的开头会有一个简短的定义过程,这个定义内容可能包含指向其他词条的链接,这些链接可以看做是一种可能的依赖关系。
- 论文的关键词提取:每一篇论文都会有匹配的关键词组,可以将每一个关键词看做目标概念,论文的引文中的关键词可以看做这些关键词的可能的依赖。
- ConceptNet:已经构造好的多语言知识库,调研一下是否有能用到的内容。
2.2 半自动方法
- 人工填写,交叉验证,门槛审核
- 填写场景设计,交互方式设计