python爬虫|LAMP小白的小窝

home
PHP
JS&CSS
DATABASE
LINUX
C&PYTHON
OTHER
About

python爬虫

作者:LAMP小白点击:1775 发布日期:2013-10-21 22:59:19 返回列表

获取网页源代码

import urllib

htmlobj = urllib.urlopen(url)

html = htmlobj.read()

下载文件

urllib.urlretrieve(url, filename)

#!/usr/bin/python
#coding:utf8
import urllib
import re
htmlobj=urllib.urlopen('http://www.baidu.com')
html=htmlobj.read()
rule = r'<img src="([^">]+)"'
imgarr=re.findall(rule, html)
for imgurl in imgarr:
    print "img url is:%s" % imgurl

上一篇:ppython正则表达式下一篇:快递查询API