回复 0
微信公众号爬虫源码[复制链接]
发表于 2018-1-28 21:57:40 | 显示全部楼层 |阅读模式
微信爬虫

一个爬取微信公众号文章的爬虫。



界面预览

1) 要爬取的微信公众号列表



2) 要爬取的文章关键字列表



3) 已经爬取的微信文章



4) 查看文章,并标记是否可用



5) 控制爬取进程数



安装

1)python环境, 检查python的版本,是否为2.7.x,如果不是,安装2.7.6。

如果是centos 6.x,升级python2.6到python2.7,参考教程 http://ruiaylin.github.io/2014/12/12/python%20update/

如果是centos 7.x,默认就是python2.7,不用升级

如果是mac osx,可以使用virtualenv,安装python2.7

2)安装依赖包, clone代码 安装Mysql-python依赖

yum install python-devel mysql-devel gcc
安装lxml依赖

yum install libxslt-devel libxml2-devel
安装浏览器环境 selenium依赖.(如果是mac环境,仅需安装firefox, 但确保版本是 firefox 36.0,使用最新的版本会报错)

yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错
yum install firefox # centos下安装最新的firefox版本
clone代码,安装依赖python库

$ git clone https://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt
创建mysql数据库
创建数据库wechatspider,默认采用utf8编码。(如果系统支持,可以采用utf8mb4,以兼容emoji字符)

mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;
安装和运行Redis
$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server
更新配置文件local_settings
在 wechatspider 目录下,添加 local_settings.py 文件,配置如下:

# -*- coding: utf-8 -*-

SECRET_KEY="xxxxxx"

CRAWLER_DEBUG = True

# aliyun oss2, 可以将图片和视频存储到阿里云,也可以选择不存储,爬取速度会更快。 默认不存储。
#OSS2_ENABLE = True
#OSS2_CONFIG = {
#    "ACCESS_KEY_ID": "XXXXXXXXXXXXXX",
#    "ACCESS_KEY_SECRET": "YYYYYYYYYYYYYYYYYYYYYY",
#    "ENDPOINT": "",
#    "BUCKET_DOMAIN": "oss-cn-hangzhou.aliyuncs.com",
#    "BUCKET_NAME": "XXXXX",
#    "IMAGES_PATH": "images/",
#    "VIDEOS_PATH": "videos/",
#    "CDN_DOMAIN": "XXXXXX.oss-cn-hangzhou.aliyuncs.com"
#}
# mysql 数据库配置
DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.mysql',
        'HOST': '127.0.0.1',
        'NAME': 'wechatspider',
        'USER': 'root',
        'PASSWORD': '',
        'OPTIONS':{
            'charset': 'utf8mb4',
        },
    }
}
# redis配置,用于消息队列和k-v存储
REDIS_OPTIONS = {
    'host': 'localhost',
    'port': 6379,
    'password': '',
    'db': 4
}

初始化表
$ python manage.py migrate
7)启动网站

python manage.py runserver 0.0.0.0:8001
访问 http://localhost:8001/。

创建超级管理员账号,访问后台,并配置要爬取的公众号和关键字
python manage.py createsuperuser
8)启动爬虫

$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py
以上步骤执行成功,并能爬取文章后。可以参考以下部分配置生产环境。

部署nginx

前期先用nginx将域名www.mydomain.com转发到8001端口。

部署supervisor脚本

参考文件 supervisord.conf

部署crontab脚本

参考文件 crontab

系统使用文档

API接口文档


下载地址: wechat-spider-master.zip (2.5 MB, 下载次数: 1)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|百度贴吧|QQ交流群|站点地图|关于本站|淘宝旗舰店|站长博客|圆柱模板| 68教育资源网-68喜论坛 ( 闽ICP备15018334号-1 )  

68喜所有资源均来自于互联网和学习爱好者网友提供,如无意中冒犯贵公司的权益可以联系管理员予以删除!管理员:luo689up@foxmail.com 或:luo689up@qq.com 谢谢合作

网络警察 中国互联网举报中心 经营性网站备案 68喜-诚信网站认证 中国互联网协会 工商网监

站点统计:
返回顶部