当前位置: 开源爱好者 » 编程教程 » Python教程 » 正文

一个简单的Python抓取百度贴吧图片的例子

Python编程之抓取百度贴吧图片,采集远程图片信息,格式为jpg,采集贴吧指定ID帖子内的所有JPG格式的文件,本代码只是示例抓取,演示如何获取到图片信息,并不包括下一步的处理(保存或上传)等。

import urllib
import re
def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html

def getImg(html):
    #reg=r'src="(.*?\.jpg)" width'
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html)
    x=0
    for imgurl in  imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' %x)
        x=x+1
html= getHtml('http://tieba.baidu.com/p/3446014758')
print getImg(html)
》编辑推荐的内容
  • 暂时没有内容……

CopyRight 2018© 开源爱好者 All Rights Reserved 豫ICP备16030607号 隐私声明 网站地图