Leopold Miao

Stay hungry, stay foolish!

Python操作MongoDB

创建索引,增删改查

MongoDB是一个文档数据库,它存储数据的方式是类似于JSON格式的BSON格式文档。即将传统数据库中的记录(行)以一个BSON文档进行存储,例如{“Name”:“James”,“Age”:“18”}就是一个文档,或者说传统数据库表中的一条记录。MongoDB里的BSON文档也会组织为Collection的形式,相当于传统关系数据库中的表。但不同的是Collection中的BSON文...

Python爬虫(2)

Beautiful Soup和Selenium的使用

Beautiful Soup其实不是一个爬虫框架,它仅仅是一个模块,用于解HTML的网页内容,非常强大。而Selenium则是一个轻量级的爬虫框架,它能够选择浏览器核心,模拟浏览器登录网页,从而运行JavaScript代码,进而生成静态的HTML内容。两者可以结合使用,即先由Selenium+任意浏览器内核将动态的JavaScript网页转化为HTML内容,然后再由Beautiful ...

Python爬虫(1)

中文URL问题和SQLite数据库问题

Python最常见的爬虫框架就是Scrapy了。这种框架的优点就是把写爬虫变成了一个填空题,非常简单易用。然而其缺点也在于填空题是受约束的,灵活性不够。也就是说Scrapy这种重量级的框架在面对一些特别的爬虫任务时,需要的修改甚至更加繁琐。因此,我选择了urllib2和BeautifulSoup两个模块来直接实现爬虫。下面是实验过程中遇到的一些问题: 中文URL问题 首先是中文问...

Neo4jSpatial使用感受

基础知识笔记

相比于关系型数据库,图数据库在关联关系的查询上具有更好的性能。而空间索引多采用树结构,例如R树,天然可以存储在图数据库中,并利用图数据库的强大关联检索性能提供空间检索能力。本文使用了一个针对Neo4j进行扩展的空间索引plugin——Neo4j Spatial。 安装Neo4j 新版3.3.3的neo4j 的配置文件与之前略微不同。安装好以后,修改配置文件conf/neo4j.c...

Hello World!

很高兴终于搭建好了博客

Hello World This is my first blog in github. 之前在百度空间写了多年的博客,后来百度空间关闭,就偶尔写微博。后来觉得写微博实在没有任何意义,于是继续寻找写博客空间。在知乎上看到技术大牛们都在github上写,于是我也来开一个。感谢BY提供的模版,非常棒! 这个博客将用于促进个人成长,期望能够起到这些作用: 读书笔记 技术总结 ...