Python开发

Python分布式爬虫Scrapy学习笔记

LensNews

一、windows下搭建开发环境
1、pycharm的安装和简单使用

2、mysql和navicat的安装和使用

3、windows和linux下安装python3

4、虚拟环境的安装和配置
安装虚拟环境:pip install virtualenv 可以用豆瓣源:https://pypi.douban.com/simple
如:pip install -i https://pypi.douban.com/simple scrapy
安装的过程中要是报错:pip install Twisted-17.9.0-cp35-cp35m-win_amd64.whl
python扩展包:www.lfd.uci.edu/~gohlke/pythonlibs 下载包用:pip install

5、新建虚拟环境:
virtualenv python3scrapy
virtualenv -p "C:\Program Files\python2.7\python.exe" python2scrapy

6、进入/退出虚拟环境:activate.bat/deactivate.bat

7、安装windows虚拟环境管理包:pip install virtualenvwrapper-win

8、查看所有虚拟环境:workon
mkvirtualenv --python "C:\Program Files\python2.7\python.exe" python2scrapy
mkvirtualenv python3

9、Xpath的用法



10、CSS的用法


二、scrapy爬取知名问答网站(用的是python3.5)
1、创建项目:scrapy startproject AticleSpider
scrapy genspider jobbole blog.jobbole.com (这个需要到项目下执行)
2、导入项目:打开pycharm导入即可
3、设置pycharm编译器:添加local到虚拟环境
4、安装:Microsoft Visual C++ Build Tools
5、安装依赖包:
pip install scrapy,
pip install pypiwin32,
pip install Pillow,
pip install mysqlclient
pip install schedule
6、启动执行:scrapy crawl jobbole(这个命令需要到项目目录下执行)

三、基于scrapyd爬虫发布介绍
1、首先要启动scrapyd服务:启动scrapyd服务命令【scrapyd > /dev/null &】
【文档参考:https://www.cnblogs.com/zhongtang/p/5634545.html】
2、打包并发布scrapy爬虫程序:【scrapyd-deploy caimao -p PK10DataSpider】
【在项目目录下执行命令,会生成egg等文件】
3、获取scrapyd当前状态:【curl http://192.168.10.16:6800/daemonstatus.json】
4、运行scrapy项目进行开始爬虫命令:
【curl http://192.168.10.16:6800/schedule.json -d project=PK10DataSpider -d spider=pk10】
5、删除爬虫项目:【curl http://localhost:6800/delproject.json -d project=DataSpider】
其他文档:【http://blog.csdn.net/gongchengshiv/article/details/77448750?locationNum=8&fps=1】
6、停止一个爬从:curl http://192.168.10.16:6800/cancel.json -d project=PK10DataSpider -d job=JOB_ID

四、配置python环境变量
配置python3.5.3的环境变量,删除之前的2.6版的环境
export PATH=$PATH:/usr/local/lib/python3.5/
cd /usr/bin
rm -rf python
ln -s /usr/local/lib/python3.5/python3.5 python

五、其它环境配置
脚本执行,放在/user_sh目录下
./start_cqssc.sh > /dev/null &
./start_pk10.sh >>logfile 2>&1

#!/bin/sh
echo "正在进行[重庆时时彩]开奖数据采集,每10秒钟采集一次,请知悉~"
while true;
do curl http://192.168.10.16:6800/schedule.json -d project=CqsscDataSpider -d spider=cqssc;
sleep 10;
done

(4)

本文由 小蜜蜂信息网 作者:admin 发表,转载请注明来源!

关键词:,
LensNews

热评文章

发表评论