忘记密码

成功验证手机号即可找回密码

请输入密码
请确认密码
用户登录
请输入密码
忘记密码
注册免费试用
注册后联系客服获取免费资格
请输入密码
复制成功
请粘贴在新的浏览器或标签页内打开
确定
账户余额不足10元

为了不影响您的正常使用,请及时充值!

我知道了

恭喜您注册成功!
已成功领取账户余额

25 1
立即领取

手机号绑定成功!
已成功领取账户余额

25 1
立即领取
首页> 最新资讯> 爬虫如何爬取租房网站的租房信息

爬虫如何爬取租房网站的租房信息

发布日期 2019-04-30         

  今天芝麻HTTP就为大家分享一下,爬虫是如何爬取租房网站的租房信息的。这里我们以小猪短租网站为例,来抓取杭州地区的租房信息。首先打开网站,研究分析一下页面,查找所需信息所在的位置。

  代码如下:

from bs4 import BeautifulSoup

import requests

# 判断性别

def get_sex(sex_icon):

if sex_icon == ['member_ico']:

return "男"

if sex_icon == ['member_ico1']:

return "女"

else:

return "未标识"

# 获取每页的url链接

def get_page_url(url):

web_url = requests.get(url)

web_url_soup = BeautifulSoup(web_url.text,'lxml')

page_urls = web_url_soup.select('#page_list > ul > li > a')

for page_url in page_urls:

each_url = page_url.get('href')

get_detail_info(each_url)

def get_detail_info(url):

web_data = requests.get(url)

soup = BeautifulSoup(web_data.text,'lxml')

titles = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

addresses = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span.pr5')

prices = soup.select('#pricePart > div.day_l > span')

pics1 = soup.select('#curBigImage')

owner_pics = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > a > img')

owner_names = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')

sexes = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > div')

for title, address, price, pic1, owner_name, owner_pic, sex in zip(titles, addresses, prices, pics1, owner_names,

owner_pics, sexes):

data = {

'title': title.get_text(),

'address': address.get_text(),

'price': price.get_text(),

'pic': pic1.get('src'),

'owner_pic': owner_pic.get('src'),

'name': owner_name.get('title'),

'sex': get_sex(sex.get('class'))

}

print (data)

urls = ["http://hz.xiaozhu.com/search-duanzufang-p{}-0/".format(number) for number in range(1, 10)]

for url in urls:

get_page_url(url)

  通过上述代码,我们就可以获取到小猪短租杭州地区相关的租房信息内容了。芝麻HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


爬虫 租房 信息
客户经理
1214413489 17696587966
在线咨询

售后客服

在线售后,实时响应

渠道/企业/大客户合作

大汉:153-0544-5551
芝麻HTTP公众号 微信客服
免费套餐
大客户
专属客户经理
2781589383
18905201785

微信二维码

公众号

关注公众号

免费领试用

意见反馈
置顶