1.便捷的获取网站中动态加载的数据2.便捷实现模拟登录什么是selenium:基于浏览器自动化的一个模块环境安装pipinstallselenium下载浏览器的驱动程序实例化一个浏览器对象编写基于浏览器自动化的操作代码
简而言之就是可以自动操作浏览器的模块,比如让他自动抢票,自动点击某些东西...
这次的案例是模拟爬取化妆品审查网站中的企业名称,由于页面是动态加载出来的,所以我们获取不到页面中的企业名称,但是可以用selenium模块来爬取。
首先要先安装环境:
fromseleniumimportwebdriver#是这个fromlxmlimportete#其他要用的fromtimeimportsleep随后要实例化一个浏览器对象,但是在实例化之前,需要下载一个浏览器的驱动,要根据浏览器的版本下载,然后放进pycharm项目里。
#实例化一个浏览器对象bro=webdriver.Chrome(executable_path="./chromedriver")我们可以让浏览器自动发起请求(get()方法),去访问我们指定的页面,然后还可以获取页面源码(page_source方法)
#让浏览器对指定url发起请求bro.get("