博客
关于我
Python实战演练之数据过滤
阅读量:734 次
发布时间:2019-03-22

本文共 794 字,大约阅读时间需要 2 分钟。

数据过滤与管道优化

上章回顾

从前一章导出的数据表中发现存在price == None的情况。这部分数据对应免费课程,并非我们目标爬取的内容。为确保数据完整,需对此进行过滤。

開 啟 EducsdnPipeline

在Scrapy的settings配置中,啟用EducsdnPipeline。該 Pipeline需置位 من Backbone,以便其後續的MysqlPipeline能正確接受過濕之後的數據.

Pipeline 定義

更新ITEM_PIPELINES設定如下:

ITEM_PIPELINES = {    'educsdn.pipelines.EducsdnPipeline': 300,    'educsdn.pipelines.MysqlPipeline': 301,}

設定方式指示了EducsdnPipeline應負責數據 προ靜過濕處理。

Pipeline 重寫

重定義EducsdnPipeline,新增如下功能:

import arcpyfrom scrapy.exceptions import DropItemclass EducsdnPipeline(object):    def process_item(self, item, spider):        if item['price'] is None:            raise DropItem("價值為NONE,移除此資料")        return item

此模式為МysqlPipeline不變,並保持原有設定。

清 確 表 中數據

實施以上變更之後،重新從終端執行:

educsdn $ scrapy crawl courses

此操作將僅říz禁那些price == None 的數據。

通過這些最佳實踪措施,可以有效保障爬取數據的完整性,避免無效數據存儲。

转载地址:http://lvggz.baihongyu.com/

你可能感兴趣的文章
Oracle中DATE数据相减问题
查看>>
Oracle中merge into的使用
查看>>
oracle中sql查询上月、本月、上周、本周、昨天、今天的数据!
查看>>
oracle中sql的case语句运用--根据不同条件去排序!
查看>>
oracle中关于日期问题的汇总!
查看>>
Oracle中常用的语句
查看>>
Oracle中的rownum 和rowid的用法和区别
查看>>
oracle典型安装失败,安装oracle 10失败
查看>>
Oracle监听配置、数据库实例配置等
查看>>
oracle系统 介绍,ORACLE数据库管理系统介绍
查看>>
oracle零碎要点---ip地址问题,服务问题,系统默认密码问题
查看>>
org.apache.poi.hssf.util.Region
查看>>
org.hibernate.HibernateException: Unable to get the default Bean Validation factory
查看>>
org.springframework.web.multipart.MaxUploadSizeExceededException: Maximum upload size exceeded
查看>>
org.tinygroup.serviceprocessor-服务处理器
查看>>
org/eclipse/jetty/server/Connector : Unsupported major.minor version 52.0
查看>>
org/hibernate/validator/internal/engine
查看>>
orm总结
查看>>
SQL--合计函数(Aggregate functions):avg,count,first,last,max,min,sum
查看>>
OSG学习:几何对象的绘制(三)——几何元素的存储和几何体的绘制方法
查看>>