Leopold Miao

Stay hungry, stay foolish!

Python操作MongoDB

创建索引，增删改查

MongoDB是一个文档数据库，它存储数据的方式是类似于JSON格式的BSON格式文档。即将传统数据库中的记录（行）以一个BSON文档进行存储，例如｛“Name”：“James”，“Age”：“18”｝就是一个文档，或者说传统数据库表中的一条记录。MongoDB里的BSON文档也会组织为Collection的形式，相当于传统关系数据库中的表。但不同的是Collection中的BSON文...

Posted by LM on May 31, 2018

Python爬虫（2）

Beautiful Soup和Selenium的使用

Beautiful Soup其实不是一个爬虫框架，它仅仅是一个模块，用于解HTML的网页内容，非常强大。而Selenium则是一个轻量级的爬虫框架，它能够选择浏览器核心，模拟浏览器登录网页，从而运行JavaScript代码，进而生成静态的HTML内容。两者可以结合使用，即先由Selenium+任意浏览器内核将动态的JavaScript网页转化为HTML内容，然后再由Beautiful ...

Posted by LM on May 22, 2018

Python爬虫（1）

中文URL问题和SQLite数据库问题

Python最常见的爬虫框架就是Scrapy了。这种框架的优点就是把写爬虫变成了一个填空题，非常简单易用。然而其缺点也在于填空题是受约束的，灵活性不够。也就是说Scrapy这种重量级的框架在面对一些特别的爬虫任务时，需要的修改甚至更加繁琐。因此，我选择了urllib2和BeautifulSoup两个模块来直接实现爬虫。下面是实验过程中遇到的一些问题：中文URL问题首先是中文问...

Posted by LM on April 2, 2018

Neo4jSpatial使用感受

基础知识笔记

相比于关系型数据库，图数据库在关联关系的查询上具有更好的性能。而空间索引多采用树结构，例如R树，天然可以存储在图数据库中，并利用图数据库的强大关联检索性能提供空间检索能力。本文使用了一个针对Neo4j进行扩展的空间索引plugin——Neo4j Spatial。安装Neo4j 新版3.3.3的neo4j 的配置文件与之前略微不同。安装好以后，修改配置文件conf/neo4j.c...

Posted by LM on March 29, 2018

Hello World！

很高兴终于搭建好了博客

Hello World This is my first blog in github. 之前在百度空间写了多年的博客，后来百度空间关闭，就偶尔写微博。后来觉得写微博实在没有任何意义，于是继续寻找写博客空间。在知乎上看到技术大牛们都在github上写，于是我也来开一个。感谢BY提供的模版，非常棒！这个博客将用于促进个人成长，期望能够起到这些作用：读书笔记技术总结 ...

Posted by LM on March 15, 2018

FEATURED TAGS

爬虫 Python

ABOUT ME

Stay hungry, stay foolish!

FRIENDS