编辑帖子-MedPdf医学_电子_图书_PDF_资源_文件_网盘

百度云盘

云盘地址：版本号：网盘名称：文件夹：

阿里网盘

网盘地址：版本号：网盘名称：文件夹：

内容简介

基础篇 
第1章 Python基础及网络爬虫 1 
1.1 了解Python语言 1 
1.1.1 Python是什么 1 
1.1.2 Python的应用现状 2 
1.2 配置安装Python开发环境 3 
1.2.1 在Windows上安装 3 
1.2.2 在Ubuntu和macOS上安装 3 
1.2.3 IDE的使用：以PyCharm为例 4 
1.2.4 Jupyter Notebook简介 6 
1.3 Python基础知识 7 
1.3.1 &ldquo;Hello，World!&rdquo;与数据类型 7 
1.3.2 逻辑语句 12 
1.3.3 Python中的函数与类 14 
1.3.4 更深入了解Python 16 
1.4 互联网、HTTP与HTML 16 
1.4.1 互联网与HTTP 16 
1.4.2 HTML 17 
1.5 Hello Spider 19 
1.5.1 编写第一个爬虫程序 19 
1.5.2 对爬虫的思考 21 
1.6 分析网站 22 
1.6.1 robots.txt与Sitemap简介 22 
1.6.2 网站技术分析 24 
1.6.3 网站所有者信息分析 25 
1.6.4 使用开发者工具检查目标网页 26 
章节实训：Python环境的配置与爬虫的运行 28 
思考与练习 28 
第2章 静态网页抓取 29 
2.1 从抓取开始 29 
2.2 正则表达式 30 
2.2.1 什么是正则表达式 30 
2.2.2 正则表达式的简单使用 31 
2.3 BeautifulSoup爬虫 33 
2.3.1 安装BeautifulSoup 33 
2.3.2 BeautifulSoup的基本用法 35 
2.4 XPath与lxml 37 
2.4.1 XPath 37 
2.4.2 lxml与XPath的使用 38 
2.5 遍历页面 40 
2.5.1 抓取下一个页面 40 
2.5.2 完成爬虫 41 
2.6 使用API 42 
2.6.1 API简介 42 
2.6.2 API使用示例 44 
章节实训：哔哩哔哩直播间信息抓取练习 47 
思考与练习 47 
第3章 数据存储 48 
3.1 Python中的文件 48 
3.1.1 Python中的文件读写 48 
3.1.2 对象序列化 50 
3.2 Python中的字符串 50 
3.3 Python中的图片 51 
3.3.1 PIL与Pillow模块 51 
3.3.2 Python与OpenCV简介 53 
3.4 CSV文件 54 
3.4.1 CSV简介 54 
3.4.2 CSV的读写 54 
3.5 数据库的使用 56 
3.5.1 MySQL的使用 56 
3.5.2 SQLite 3的使用 57 
3.5.3 SQLAlchemy的使用 58 
3.5.4 Redis的使用 59 
3.5.5 MongoDB的使用 60 
3.6 其他类型的文档 61 
章节实训：使用Python 3读写SQLite 3数据库 63 
思考与练习 64 
进阶篇 
第4章 JavaScript与动态内容 65 
4.1 JavaScript与AJAX技术 65 
4.1.1 JavaScript语言 65 
4.1.2 AJAX 68 
4.2 抓取AJAX数据 69 
4.2.1 分析数据 69 
4.2.2 数据提取 72 
4.3 抓取动态内容 76 
4.3.1 动态渲染页面 76 
4.3.2 使用Selenium 76 
4.3.3 PyV8与Splash 81 
章节实训：抓取人民邮电出版社热销图书信息 83 
思考与练习 84 
第5章 模拟登录与验证码 85 
5.1 表单 85 
5.1.1 表单与POST 85 
5.1.2 POST发送表单数据 87 
5.2 Cookie 89 
5.2.1 Cookie简介 89 
5.2.2 在Python中Cookie的使用 90 
5.3 模拟登录网站 91 
5.3.1 分析网站 91 
5.3.2 Cookie方法的模拟登录 92 
5.4 验证码 94 
5.4.1 图片验证码 94 
5.4.2 滑动验证 96 
章节实训：通过Selenium模拟登录Gitee并保存Cookie 99 
思考与练习 99 
第6章 爬虫数据的分析与处理 100 
6.1 Python与文本分析 100 
6.1.1 文本分析简介 100 
6.1.2 jieba与SnowNLP 101 
6.1.3 NLTK 104 
6.1.4 文本分类与聚类 106 
6.2 数据处理与科学计算 108 
6.2.1 从MATLAB到Python 108 
6.2.2 NumPy 108 
6.2.3 Pandas 112 
6.2.4 Matplotlib 116 
6.2.5 Scipy与SymPy 118 
章节实训：美国新冠疫情每日新增人数的可视化 119 
思考与练习 119 
提高篇 
第7章 爬虫的灵活性和多样性 120 
7.1 爬虫的灵活性&mdash;&mdash;以微信数据抓取为例 120 
7.1.1 用Selenium抓取网页版微信数据 120 
7.1.2 基于Python的微信API工具 123 
7.2 爬虫的多样性 125 
7.2.1 在BeautifulSoup和XPath之外 125 
7.2.2 在线爬虫应用平台 127 
7.2.3 使用urllib 129 
7.3 爬虫的部署和管理 134 
7.3.1 使用服务器部署爬虫 134 
7.3.2 本地爬虫程序的编写 137 
7.3.3 爬虫的部署 140 
7.3.4 实时查看运行结果 141 
7.3.5 使用框架管理爬虫 142 
章节实训：基于PyQuery抓取菜鸟教程 144 
思考与练习 145 
第8章 Selenium模拟浏览器与网站测试 146 
8.1 测试 146 
8.1.1 什么是测试 146 
8.1.2 什么是TDD 146 
8.2 Python的单元测试 147 
8.2.1 使用unittest 147 
8.2.2 其他方法 149 
8.3 使用Python网络爬虫测试网站 150 
8.4 使用Selenium测试 152 
8.4.1 使用Selenium测试常用的网站交互 152 
8.4.2 结合Selenium进行单元测试 153 
章节实训：使用Selenium抓取百度搜索引擎中关于&ldquo;爬虫&rdquo;的结果 154 
思考与练习 155 
第9章 爬虫框架Scrapy与反爬虫 156 
9.1 爬虫框架 156 
9.1.1 Scrapy简介 156 
9.1.2 安装与学习Scrapy 157 
9.1.3 Scrapy爬虫编写 159 
9.1.4 其他爬虫框架介绍 161 
&hellip;&hellip;

作者简介

出版信息

丛书名：
价格：

作者：
出版社：
出版日期：

出版信息

版次：
页数：
字数：

印刷时间：
开本：
纸张：

印次：
I S B N：
包装：

1.文档管理

2.目录信息

百度云盘

阿里网盘

内容简介

目录

作者简介

出版信息