爬虫¶

架构设计¶

爬虫整体设计

实现类：class NewsCrawlerItem(scrapy.Item)

对每一条新闻，记录如下条目：

核心实现类：class SQLPipeline()

对每一个爬取到的 item，我们设计了统一的流水线进行处理，该流水线完成如下功能：

可使用 scrapy crawlall 指令通识启动所有全量爬虫

实现类：class TencentNewsAllQuantitySpider(scrapy.Spider)

实现逻辑：

腾讯新闻的绝大多数新闻网址符合正则表达式 r'https://news.qq.com/rain/a/[0-9]{8}[VA]0[0-9A-Z]{4}00'，其中 [VA] 前的 8 个数字表示发布日期，因此采用枚举法对符合改正则表达式的所有 url 进行爬取。
每个进程负责枚举一天的新闻，所有进程共同负责所有在待爬取 url 池中新闻条目的爬取。

使用方式：scrapy crawl TencentNewsAllQuantity [-a begin_date='20220101'] [-a end_data='20221031'] [-a data_table='news']

实现类: class XinhuaNewsAllQuantitySpider(scrapy.Spider)

实现逻辑：

与腾讯新闻类似，绝大多数新闻网址符合正则表达式 r'http://www.news.cn/.*?/\d{4}-\d{2}/\d{2}/c_\d{10}'，其中 .*? 代表类别，\d{4}-\d{2}/\d{2} 代表日期。
每个进程负责枚举一天的新闻，所有进程共同负责所有在待爬取 url 池中新闻条目的爬取。

使用方式：scrapy crawl XinhuaNewsAllQuantity [-a begin_date='20220101'] [-a end_data='20221031'] [-a data_table='news']

所有增量爬虫实现逻辑基本相同，在此统一进行说明：

在 web_news_config.json 中写入待监视网络请求。
每类增量爬虫在开启时可附加 main 属性，需额外创建 IncrementTimer 类，负责监视 redis 内对应数据库中的网络请求是否为空，若为空则重新向 redis 数据库中加入相应的网络请求 url。
- redis 数据库命名：若爬取新闻站点为 Tencent，则相应的数据库命名为 TencentNewsIncre:start_urls，其他增量爬虫同理。
- 利用在构建增量爬虫类时额外开启一个线程来监视 redis 数据库是否为空。
从待爬取网络请求链接中获得新闻条目列表，进而爬取新闻条目内容。
同一类别的所有增量爬虫共同负责所有在待爬取 url 池中新闻条目的爬取。

实现类：class TencentNewsIncreSpider(RedisSpider)

使用方式：scrapy crawl TencentNewsIncre [-a data_table='news'] [-a attribution='main']

实现类：class XinhuaNewsIncreSpider(RedisSpider)

使用方式：scrapy crawl XinhuaNewsIncre [-a data_table='news'] [-a attribution='main']

实现类：class WangyiNewsIncreSpider(RedisSpider)

使用方式：scrapy crawl WangyiNewsIncre [-a data_table='news'] [-a attribution='main']

实现类：class ChinaDailyNewsIncreSpider(RedisSpider)

使用方式：scrapy crawl ChinaDailyNewsIncre [-a data_table='news'] [-a attribution='main']

实现类：class XinhuaEngNewsIncreSpider(RedisSpider)

使用方式：scrapy crawl XinhuaEngNewsIncre [-a data_table='news'] [-a attribution='main']