Scrapy的基本使用

发表于 2020-08-27 更新于 2021-01-29 分类于 Scrapy网络爬虫阅读次数：评论数：
本文字数： 1.2k 阅读时长 ≈ 1 分钟

摘要：项目创建、启动、基本例子的运行

创建一个scrapy项目

在终端输入：
1
scrapy startproject <项目名>
接下可以用pycharm打开

写爬虫代码

在文件夹spiders里面写自己的爬虫代码

import scrapy


class MassageSpider(scrapy.Spider):
    name = 'msg_crawl'  # 爬虫的名字，一定要给
    start_urls = ['http://www.cae.cn/cae/html/main/col48/column_48_1.html']  # 起始的url

    # 对爬到的网页进行解析
    def parse(self, response, **kwargs):
        print(response.url)

response会自动去获取start_urls里面的url

启动爬虫：

1	scrapy crawl <爬虫的名字>

eg

1	scrapy crawl msg_crawl

记得切换到根目录

爬取中科院院士信息为例

"""
# @Time    :  2020/8/27
# @Author  :  Jimou Chen
"""
import scrapy
from bs4 import BeautifulSoup


class MassageSpider(scrapy.Spider):
    name = 'msg_crawl'  # 爬虫的名字，一定要给
    start_urls = ['http://www.cae.cn/cae/html/main/col48/column_48_1.html']  # 起始的url

    # 对爬到的网页进行解析
    def parse(self, response, **kwargs):
        soup = BeautifulSoup(response.body, 'html.parser')
        nodes = soup.find_all('li', {'class': 'name_list'})
        i = 0
        for node in nodes:
            i += 1
            people_name = node.find('a').text
            link = 'http://www.cae.cn/' + node.find('a')['href']
            print('{}. {}: {}'.format(i, people_name, link))

结果如下：
所以基本上处理网页就是在 def parse(self, response, **kwargs) 这里了

Welcome to reward

本文作者： jmchen
本文链接： https://jimouchen.github.io/2020/08/27/useScrapy/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！