Jamin's ramblings

「Where innovation never stops.」

A Brief Introduction to Project Sapientia

Introduction There are many reasons and motivations for me to initiate this new project whose name coded as Sapientia. The primary part is that I was frustrated by small and even-no progress of kn...

Staring Into The Abyss of Knowledge

我站在比特之巅,凝望着知识之渊

题记:徘徊在数字的世界里,我有时感觉像个富有的国王,有时又像是暗夜中前行的乞者。我时而站在比特之巅,笑傲群山;时而被逼仄无路,如临深渊… 经过三十多年数字化技术的高速发展,人类积累了巨量的比特数据。如果这句话听起来那么平庸,下面的统计数据会让你有更直观的感受: 2020年人均每秒产生1.7MB数据,每天人类产生2.5EB (1EB=10^9GB) 截至2020年底,整个数字世界...

The Computability of Metadata (Part 3)

从链接数据到属性图的思考

一点有关链接数据到图模型映射的思考: Mapping from Linked-Data Model to Labeld Property Graph 仅仅是一些思考片段,省略了很多背景知识,比如关联数据、元数据、知识表示、图计算等等。不求看官解,自娱耳。有兴趣的可以探讨。 OWL/RDFS/RDF是目前为止,普遍被业界接受的一种描述性链接数据范式。其优势在于描述知识的方法灵活,科研和工业...

A Brief Tutorial on CNDeepdive

Deepdive是斯坦福前几年开发的知识特征提取引擎,不过项目目前已经进入维护状态。最近由于研究项目需要,准备基于CNDeepdive对中文进行知识抽取。 虽然官方最新支持到Ubuntu 16.04,而自己的系统是18.04,加之不愿折腾新系统,一个周末都在趟坑,不过尚好走通了,记录下来以飨来者。 首先,CNDeepdive可以从OpenKG.cn或百度云盘下载。由于自动化安装基于d...

The Computability of Metadata (Part 2)

元数据的可计算化反

题解:这个《元数据》系列本计划介绍一种有关数据的科技讯息,上篇完成后有读者反馈并非人人都懂技术,首当其冲便是这个看不懂的反人类题目。正巧元旦节期出游了趟鲁迅先生故居,从繁糜商业气息中依稀有些关于那个过往时代的见闻。细思之下,我所目标分享的,其实不是数据也不是科技本身,而是这个和数据科技息息相关的时代。而这些狄更斯多年前已经总结完了,无妨对于当下这个时代,填些骨肉,说道说道我眼中这个“失控”的...

The Computability of Metadata (Part 1)

元数据的可计算化反

元数据,如果按字面释义,是最基本的数据。元,即初始、本源之意。在数据领域,元数据(Metadata)指“描述数据的数据”,记录了一个数据集的基础信息。 如果把数据集比作一个人的话,元数据就像是一张肖像简笔画。一个人能够通过画面认识另一个人(比如杨过在古墓迷恋上神仙姐姐的画像,并倾慕爱恋),是因为画已记录了此人的主要特征;同时这一认知过程又是不完备的,因为那只是一张梗概,缺少骨肉,丢失细节。...

A New Gloom of All-Takenism

新拿来主义

和鲁迅先生八十年前谈论的“拿来主义”不同,这么多年过去了,时过境迁,我们早已习惯了这种“拿来”的方式。在这个意义下,鲁迅先生应该欣慰才是。商品外形设计、电影创意、甚至汽车尾灯的颜色,都被我们一一拿来,有的偷偷地放在自家的东西中,脸皮稍微厚点的甚至会借着观众的无知,自诩为“民族产业”、“自我创新”。时间久了,甚至连自己都被说服,相信某个灵感真的是自我孕育、厚积薄发的产物。 推心而论,中国...