
===============================================================
学习内容包括但不限于:requests、re、bs4、xlwt、sqlites3;
关于bs4:主要用到的就是
BeautifulSoup()
进行实例化还有find_al()
对实例进行的查找;re正则表达式:这个更简单一个万金油
.*?
爬所有好吧;xlwt:一个用来可以保存数据到excel的库,
xlwt.workbook()
创建工作簿,workbook.add_sheet()
创建工作表,使用.write(row,column,data)
插入数据sqlite3:
.connect(path)
连接数据库,.cursor()
创建游标,用.execute(sql)
执行sql语句,.commit()
提交事务,.close()
先后关闭游标和数据库。requests:请求网页信息再解码的库,整个爬虫我只用了
.get(url,header)
请求并接受回应,.decode('code')
进行相应字符集解码
OKK!介绍完了用的东西,直接给爷爬好吧。
这次我爬取的内容是一个博客url: https://www.kingname.info/,主要爬取内容就是写文章标题呀,文章链接、正文、种类、时间这种,也是没什么难度。直接去找相应的文本右键检查看相应的标签即可;
requests库的使用
1 | def askUrl(url): |
下面是使用正则爬取大体信息的代码:
1 | content1 = askUrl(baseurl + "archives/") |
根据标签信息爬取相应信息,.*?
可以是任意字符任意长度,同时有多个的话,(.*?)
表示需要爬取的内容;
使用BeautifulSoup进行对象实例化
1 | content3 = askUrl(read_Link) |
使用bs4爬取数据
1 | # # 在正文中爬取文本信息 |
使用xlwt保存数据到.xls文件
1 | # 将文章标题、发布时间、url、分类、文章正文、行内代码、图片url、代码块保存到xls文档中 |
使用splite3库将数据保存到数据库中
1 | dbpath = "identifier.sqlite" #设置数据库路径 |
上面.replace()
是由于文本信息中含有’’与保存文本的数据库值产生冲突,因此需要替换掉。datalists1[]
保存大体信息;datalists2[]
保存详细信息;''.join()
函数可以将列表内所有字符串连接用引号内容隔开;
总结一哈
整个代码并不难,理解也很直观,可以加入很多功能比如使用GUI提供一个可视化的交互界面;爬取数据的代码也不是很简洁比较冗余,效率没有很高,因为要在不同的页面跳转;呃。。。没有啦!