Scrapy框架爬虫实例入门备忘
 doctorrm      2019-02-22 12:05:28      44      0      

实际爬虫代码

位置your-project/your-project/spiders/example.py

python中对缩进要求很严格,稍有不严谨的就会报错,这点要注意:

# -*- coding: utf-8 -*-
import scrapy

class ExampleSpider(scrapy.Spider):#继承Spider类
    name = 'aqi'#用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。
    start_urls=[
        'https://api.waqi.info/api/feed/@1449/now.json',
        'https://api.waqi.info/api/feed/@1449/obs.cn.json',
    ]

    def parse(self, response):
        page = response.url.split("/")[-1]
        filename = 'aqi-%s' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

运行

进入你的根目录(含有scrapy.cfg文件的目录,本例中为:/your-project/),敲下面的命令:

scrapy crawl xxx。xxx对应你的ExampleSpider类下name=’xxx’。xxx用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。

或者用shell的方式(Shell方便调试,退出shell用exit命令):

scrapy shell "..你要爬的url..."

参考

https://docs.scrapy.org/en/latest/intro/tutorial.html

去打赏

您的支持将鼓励我们继续创作!

[微信] 扫描二维码打赏

[支付宝] 扫描二维码打赏

正在跳转到PayPal...

发表评论