作为一名从业多年的程序员,同时也是一名计算机专业的教育工作者,我来回答一下这两个问题。
首先,python的学习过程还是比较轻松的,即使没有任何计算机基础知识,也能够通过一个系统的学习过程来掌握python编程。python语言的语法结构兼顾了函数式编程语言的方便性同时又有面向对象编程的灵活性,所以学习python语法的过程并不困难,甚至具有一定的乐趣。由于python语言在写法上非常灵活,所以这也给很多初学者更多的发挥空间,另外通过了解一些有趣的“库”,可以进一步增强学习python语言的趣味性,比如turtl
零基础学习python爬虫的话,可以学习一下requestsbeautifulsoup组合,非常简单,其中requests用于请求页面,beautifulsoup用于解析页面,下面我简单介绍一下这个组合的安装和使用,实验环境win7python3.6pycharm5.0,主要内容如下:
1.首先,安装requests和beautifulsoup,这个直接在cmd窗口输入命令“pipinstallrequestsbs4”就行,如下,很快就能安装成功,beautifulsoup是bs4模块的一个类:
2.安装完成后,我们就可以直接编写代码来实现网页数据的爬取了,这里以糗事百科非常简单的静态网页为例,主要步骤及截图如下:
这里假设我们要爬去的数据包含3个字段的内容,如下,分别是昵称、年龄和内容:
接着打开网页源码,如下,就可以直接找到我们需要的数据,嵌套在对应的标签中,后面就是对这些数据进行提取:
然后就是根据上面的网页结构,编写对应代码请求页面,对返回的数据进行解析,提取出我们需要的数据就行,测试代码如下,非常简单:
点击运行程序,就会获取到我们需要的数据,截图如下:
3.熟悉基本爬虫后,就可以学习一下python爬虫框架scrapy了,在业界非常流行,功能非常强大,可以快速爬取网站结构化数据,广泛应用于数据挖掘,信息处理之中:
至此,我们就完成了requestsbeautifulsoup组合的简单安装和使用。总的来说,整个过程非常简单,也就是入门级的python爬虫教程,只要你有一定的python基础,熟悉一下上面的代码,多调试几遍程序,很快就能掌握的,网上也有相关教程和资料,介绍的非常丰富详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家留言、评论。