忘记密码

成功验证手机号即可找回密码

请输入密码
请确认密码
用户登录
请输入密码
忘记密码
注册免费试用
注册后联系客服获取免费资格
请输入密码
复制成功
请粘贴在新的浏览器或标签页内打开
确定
账户余额不足10元

为了不影响您的正常使用,请及时充值!

我知道了

恭喜您注册成功!
已成功领取账户余额

25 1
立即领取

手机号绑定成功!
已成功领取账户余额

25 1
立即领取
首页> 最新资讯> 爬虫如何爬取去哪儿网景点信息的

爬虫如何爬取去哪儿网景点信息的

最新资讯 发布日期 2019-04-24         

  马上就要到小长假了,去哪玩?又准备去看哪些景点呢?今天芝麻HTTP就为大家分享一下,爬虫如何爬取去哪儿网景点信息的。这里我们以厦门为例,主要抓取去哪儿网上厦门的景点名称和地址。

  代码如下:

from bs4 import BeautifulSoup

import pandas as pd

import requests

 

def get_static_url_content(url):

    headers = {'User-Agent': '自己的agent'}

    req=requests.get(url,headers=headers)

    content=req.text

    bsObj=BeautifulSoup(content,'lxml')

    return bsObj

 

def get_jd_url(url):

    #该城市最大景点数

    maxnum = get_static_url_content(url+'-jingdian').find('p',{'class':'nav_result'}).find('span').text

    #提取数字

    maxnum=int(''.join([x for x in maxnum if x.isdigit()]))

 

    url=url+'-jingdian-1-'

    cat_url = []

    cat_name = []

 

    # 这里取top100景点 每页10条 page从1开始

    page=11

    # 判断是否超过范围

    if (page-1)*10>maxnum :

        page=int(((maxnum+10)/10)+1)

 

    for i in range(1,page):

        url1=url+str(i)

        bsObj=get_static_url_content(url1)

        bs=bsObj.find_all('a',attrs={'data-beacon':'poi','target':'_blank'})

        for j in range(0, len(bs)):

            if(bs[j].text!=''):

                cat_name.append(bs[j].text)

                cat_url.append(bs[j].attrs['href'])

    print(cat_name,cat_url)

    print(len(cat_name))

    print(len(cat_url))

    return cat_name, cat_url

url='http://travel.qunar.com/p-cs299782-xiamen'

city_name_list,city_url_list=get_jd_url(url)

city=pd.DataFrame({'city_name':city_name_list,'city_code':city_url_list})

city.to_csv('hangzhou-jd-top100.csv',encoding='utf_8_sig')

  通过上述代码,我们就可以获取到去哪儿网厦门景点的相关内容了。芝麻HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


爬虫 景点 信息
客户经理
835658804 18115265829
在线咨询

售后客服

在线售后,实时响应

渠道/企业/大客户合作

大汉:153-0544-5551
芝麻HTTP公众号 微信客服
免费套餐
客户定制
专属客户经理
2890289832
15963368937

微信二维码

大客户
专属客户经理
1214413489
17696587966

微信二维码

公众号

关注公众号

意见反馈
置顶