点滴记录
自古成功在尝试。

python基于urllib2+re正则爬去网页图片

不说废话先上代码:

下面这段代码没用考虑反爬虫,如果添加header信息则ok

#coding=utf-8
class Crawling:
	def importTools(self):
		print ("开始导入基本库!")
		import urllib2
		import re
		import os
		print ("库导入成功")
	def __Url__(self,url):
		self.url = url
	def readUrl():
		importTools()
		res = urllib2.urlopen(url)
		html = res.read()
		#这里写正则(想获取的img p都可以)
		items = re.findall(p,html)
		a = 1
		for item in items:
			res_img = urllib2.urlopen(item).read()
			fp = open("img/"+bytes(a)+".jpg",'w')
			fp.write(res_img)
			print ("当前爬取第"+bytes(a)+"次成功!------")
			fp.close()
			a += 1
c = Crawling("http://www.xxx.com/")
c.readUrl()
未经允许不得转载:日常笔记 » python基于urllib2+re正则爬去网页图片

相关推荐

  • 暂无文章