忘记密码

成功验证手机号即可找回密码

请输入密码
请确认密码
用户登录
请输入密码
忘记密码
注册免费试用
注册后联系客服获取免费资格
请输入密码
复制成功
请粘贴在新的浏览器或标签页内打开
确定
账户余额不足10元

为了不影响您的正常使用,请及时充值!

我知道了

恭喜您注册成功!
已成功领取账户余额

25 1
立即领取

手机号绑定成功!
已成功领取账户余额

25 1
立即领取
首页> 最新资讯> 爬虫如何爬取猫眼电影TOP榜数据

爬虫如何爬取猫眼电影TOP榜数据

最新资讯 发布日期 2019-04-28         

  今天芝麻HTTP就为大家分享一下,爬虫是如何爬取猫眼电影TOP榜数据的。主要抓取的内容有排名、图片、电影名称、主演、上映时间和评分信息。在抓取之前,我们先打开猫眼电影TOP100页面,研究分析页面,查找我们需要的信息位置,然后抓取。

  代码如下:

import json

import requests

from requests.exceptions import RequestException

import re

import time

def get_one_page(url):

    try:

        headers = { 'User-Agent': 'agent信息'}

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield {

            'index': item[0],

            'image': item[1],

            'title': item[2],

            'actor': item[3].strip()[3:],

            'time': item[4].strip()[5:],

            'score': item[5] + item[6]

        }

def write_to_file(content):

    with open('result.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main(offset):

    url = 'http://maoyan.com/board/4?offset=' + str(offset)

    html = get_one_page(url)

    for item in parse_one_page(html):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    for i in range(10):

        main(offset=i * 10)

        time.sleep(1)

  通过上述代码,我们就可以获取到猫眼电影TOP榜数据信息了。芝麻HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请咨询客服。


爬虫 电影榜 数据
客户经理
835658804 18115265829
在线咨询

售后客服

在线售后,实时响应

渠道/企业/大客户合作

大汉:153-0544-5551
芝麻HTTP公众号 微信客服
免费套餐
客户定制
专属客户经理
2890289832
15963368937

微信二维码

大客户
专属客户经理
1214413489
17696587966

微信二维码

公众号

关注公众号

意见反馈
置顶