博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python:爬虫初体验
阅读量:7153 次
发布时间:2019-06-29

本文共 1612 字,大约阅读时间需要 5 分钟。

最近帮老妈在58上找保姆的工作,无奈58上的中介服务太多 了,我想找一些私人发布的保姆招聘信息,所以倒腾了一个python的爬虫,将数据爬出来之后通过Excel进行过滤中介,因为代码实在是太简单,这里就不解释了

代码不多,如下:

#!/usr/bin/python#coding=utf-8import requestsfrom bs4 import BeautifulSoupimport xlwturl1 = "https://gz.58.com/job/pn"url2 = "/?key=%E4%BF%9D%E5%A7%86&final=1&jump=1&PGTID=0d302408-0000-3bd9-3b86-d29895d9ee5d&ClickID=3"book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet(u'qingyuan',cell_overwrite_ok=True)kk = 0for i in range(1,54):    print("*******************第"+str(i)+"页****************************")    html = requests.get(url1+str(i)+url2)    soup = BeautifulSoup(html.text, "lxml")    address = soup.select('#list_con > li.job_item > div.job_title > div.job_name > a > span.address')    jobTitle = soup.select('#list_con > li.job_item > div.job_title > div.job_name > a > span.name')    salary = soup.select('#list_con > li.job_item > div.job_title > p.job_salary')    company = soup.select('#list_con > li.job_item > div.job_comp > div.comp_name > a')    link = soup.select("#list_con > li.job_item > div.job_title > div.job_name > a")    if len(address)==0:        print("*******************第" + i + "页被拦截****************************")        break    for j in range(len(address)):        sheet.write(j+kk, 0, address[j].get_text())        sheet.write(j+kk, 1, jobTitle[j].get_text())        sheet.write(j+kk, 2, salary[j].get_text())        sheet.write(j+kk, 3, company[j].get('title'))        sheet.write(j+kk, 4, link[j].get('href'))    kk = kk+len(address)path = 'E:/58广州保姆招聘信息爬虫结果.xls'book.save(path)

这是最后排出来的Excel的数据样子

 

转载于:https://www.cnblogs.com/baby-lijun/p/9889338.html

你可能感兴趣的文章
看板工具实践分享
查看>>
win2003 +SQL2005+ ASP.NET3.5
查看>>
C#操作Zip
查看>>
Ruby字符串
查看>>
js中的constructor
查看>>
python 字符串组成MySql 命令时,字符串含有单引号或者双引号导致出错解决办法...
查看>>
actionlib的身世之谜
查看>>
目标检测——从RCNN到Faster RCNN 串烧
查看>>
Function Run Fun http://poj.org/problem?id=1579
查看>>
vue-cli脚手架下,assets中的图片路径使用变量?
查看>>
vim 折叠
查看>>
ISTQB测试人员认证 初级(基础级)大纲
查看>>
Linux scp命令
查看>>
jQuery
查看>>
数据结构的性能分析
查看>>
Part 1纸牌游戏
查看>>
scrollTop和scrollLeft
查看>>
which,whereis, locate, find
查看>>
Linux命令——ps、pstree
查看>>
metamask源码学习-contentscript.js
查看>>