inno.trek

「Where innovation never stops.」

CNDeepdive上手体验

Deepdive是斯坦福前几年开发的知识特征提取引擎,不过项目目前已经进入维护状态。最近由于研究项目需要,准备基于CNDeepdive对中文进行知识抽取。 虽然官方最新支持到Ubuntu 16.04,而自己的系统是18.04,加之不愿折腾新系统,一个周末都在趟坑,不过尚好走通了,记录下来以飨来者。 首先,CNDeepdive可以从OpenKG.cn或百度云盘下载。由于自动化安装基于d...

元数据的可计算化反 II

The Computability of Metadata (Part 2)

题解:这个《元数据》系列本计划介绍一种有关数据的科技讯息,上篇完成后有读者反馈并非人人都懂技术,首当其冲便是这个看不懂的反人类题目。正巧元旦节期出游了趟鲁迅先生故居,从繁糜商业气息中依稀有些关于那个过往时代的见闻。细思之下,我所目标分享的,其实不是数据也不是科技本身,而是这个和数据科技息息相关的时代。而这些狄更斯多年前已经总结完了,无妨对于当下这个时代,填些骨肉,说道说道我眼中这个“失控”的...

元数据的可计算化反 I

The Computability of Metadata (Part 1)

元数据,如果按字面释义,是最基本的数据。元,即初始、本源之意。在数据领域,元数据(Metadata)指“描述数据的数据”,记录了一个数据集的基础信息。 如果把数据集比作一个人的话,元数据就像是一张肖像简笔画。一个人能够通过画面认识另一个人(比如杨过在古墓迷恋上神仙姐姐的画像,并倾慕爱恋),是因为画已记录了此人的主要特征;同时这一认知过程又是不完备的,因为那只是一张梗概,缺少骨肉,丢失细节。...

新拿来主义

A New Gloom of All-Takenism

和鲁迅先生八十年前谈论的“拿来主义”不同,这么多年过去了,时过境迁,我们早已习惯了这种“拿来”的方式。在这个意义下,鲁迅先生应该欣慰才是。商品外形设计、电影创意、甚至汽车尾灯的颜色,都被我们一一拿来,有的偷偷地放在自家的东西中,脸皮稍微厚点的甚至会借着观众的无知,自诩为“民族产业”、“自我创新”。时间久了,甚至连自己都被说服,相信某个灵感真的是自我孕育、厚积薄发的产物。 推心而论,中国...

Process GIS Shapefile With Graph Tools

When processing GIS data, we sometimes need to analyze object movement on the map. For example, given some data records of bicycle riders lending and returning bikes (aka OD data), a shortest path ...

14 Must-Read Books For Behavior Data Scientists

In my Ph.D career, human behavior (especially mobility) analysis from telecommunication data is my studying theme. I learned a bunch of theories and techniques from other domains when they are of ...

A Tutorial On Topology Correction Of Shapefiles

Abstract: Here is some practical expeirience in cleansing the shapefile using GRASS, which is an open-source platform to do scientific analysis on spatial data. ERIS shapefile is a popular format ...

A Collection of R Pkgs Under Your Pillow

R在统计分析、机器学习、以及绘图上有着丰富的功能,基础安装包里的函数能够满足基本的需求,如果需要更多样化、复杂的数据处理,可以试着使用以下工具: 数据清洗转换 (Data wangling) DescTools (Tools for describing data and descriptive statistics) dplyr (面向data.frame,plyr的下次迭代...

Top Tricks to Make Your Zotero More Powerful

Zotero is a free, easy-to-use tool to help you collect, organize, cite, and share your research sources. It support a wide range of documentation types from papers to presentations, from web pages ...

Understanding Urban Lives with Open Data

Data mining, one of the hottest topics on the media in past years, exhibits a new way to help companies, organizations, and even ordinary people to make plans and decisions in near future. We are c...