00:00:00
WeiboSpider
🚢 Weibo Spider 介绍
WeiboSpider 可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。
爬取结果可写入文件和数据库,具体的写入文件类型如下:
- txt文件(默认)
- csv文件(默认)
- json文件(可选)
- MySQL数据库(可选)
- MongoDB数据库(可选)
- SQLite数据库(可选)
同时支持下载微博中的图片和视频,具体的可下载文件如下:
- 原创微博中的原始图片(可选)
- 转发微博中的原始图片(可选)
- 原创微博中的视频(可选)
- 转发微博中的视频(可选)
🤖 安装及使用说明
🏂 安装
以 pip 安装方法为例:
python
python39 -m pip install weibo-spider🧏♂️ 运行
pip 安装的用户可以在任意有写权限的目录运行如下命令:
第一次运行会生成
config.json文件, 按照 配置说明 将config.json文件配置完成,在config.json目录下执行命令即可开始爬取
python
python39 -m weibo_spiderconfig.json 文件格式:
bash
{
"user_id_list":"user_id_list.txt",
"filter": 1,
"since_date": "2025-08-01",
"end_date": "now",
"random_wait_pages": [1, 5],
"random_wait_seconds": [6, 10],
"global_wait": [[1000, 3600], [500, 2000]],
"write_mode": ["csv", "txt","json"],
"pic_download": 1,
"video_download": 0,
"file_download_timeout": [5, 5, 10],
"result_dir_name": 0,
"cookie": "XXXXXXXXXXXXXXXXXXX",
"mysql_config": {
"host": "localhost",
"port": 3306,
"user": "root",
"password": "123456",
"charset": "utf8mb4"
},
"kafka_config": {
"bootstrap-server": "127.0.0.1:9092",
"weibo_topics": ["spider_weibo"],
"user_topics": ["spider_weibo"]
},
"sqlite_config": "weibo.db"
}user_id_list.txt 文件格式:
bash
2731935637 田曦薇 2025-08-28 17:04
6404380761 天才小火龙Helen 2025-11-08 15:32
2607803303 章若楠 2025-11-08 15:32
6417821309 QQ虎 2025-11-08 15:34
# 1804342520 WLOP 2025-08-26 16:07🤩 界面展示


