爬虫数据分析

Python语言

知识点 概述
Python安装 Python解释器安装和配置、Python编程的基本概念、规则
数字对象 对象的概念,对象的类型、数字对象的操作
变量 变量的概念和用法
字符串 字符串对象的定义、拼接、索引、切片
函数 函数的作用、定义、调用、参数、返回值、常用内置函数
用户输入处理 字符终端输入处理
列表 列表的定义、索引、切片、元素的改变等
元组 元组的定义、索引、切片
条件判断 布尔对象和布尔表达式,条件之间的组合关系,判断语句的用法
对象的方法 对象方法的概念,字符串、列表、元组对象的常用方法。实战练习:使用对象方法进行金额转化
字符串格式化 printf 风格 和fstring 风格的字符串格式化用法。实战练习:屏幕输出格式化
循环 循环的概念,while循环、for循环的用法,continue,break的用法列表推导式、多层循环等。多个实战练习:循环使用,多层循环
字符编码 字符集和字符编码、解码的概念,Python如何处理中文字符
文件读写 文件读写的方法,编解码在文件读写中的运用,文本模式和而二进制模式。实战练习:文件动态规则修改、二进制文件格式分析
模块和库 模块的概念,模块之间的调用、包的创建、如果安装第三方库
调试程序 使用Pycharm,如何调试程序,定位问题,分析错误,调试实战练习
字典 字典的特性,字典元素的添加、删除、修改、清空、合并等操作。实战日志分析、股票查询 中字典的使用
自定义类型 如何自定义类型,实例的概念,属性和方法,类之间的继承和组合关系。两个文字游戏软件 练习面向对象的开发
异常 异常对象的概念,异常的产生、捕获、处理,自定义异常
函数的可变参数 函数可变参数的定义和用法
学会自己解决问题 通过搜索自己解决编码的难点,解决问题
文件和目录操作 目录和文件的创建、拷贝、重命名、目录中文件的遍历等。批量文件处理练习实战
时间和日期操作 时间数据格式的转换,日期的处理和计算
调用其它程序 自动化控制其它程序。实战练习:批量视频文件格式转处理。
多线程 多线程的作用、Python多线程开发、锁的作用。实战练习:文字游戏多线程控制
json模块 json数据格式 和 作用
requests模块 从web服务抓取数据的方法,构建http请求,处理http响应。实战练习:网络数据分析爬取
正则表达式 如何使用正则表达式从数据源提取信息。实战练习:3次迭代增强实现 正则表达式批量文件数据处理
装饰器 装饰器的作用、原理和示例
数据库访问 使用Python语言读写 数据库MySQL数据。实战练习:性能测试大数据导入
Excel Excel读写、数据分析。实战练习:爬取数据,导入Excel
哈希和加密 md5/sha256/AES等哈希加密的计算



爬虫 - Selenium 爬数据

知识点 概述
原理与安装 Selenium web自动化原理,自动化环境安装
选择页面元素方法 通过id、name、class、tag、链接、css、xpath选择元素
选择页面元素方法 通过css表达式选择元素
选择页面元素方法 通过xpath表达式选择元素
操作页面元素 点击页面元素、输入文本、获取页面信息
操作页面元素 单选框、勾选框、复选框操作
操作页面元素 易消失元素的查看、验证选择表达式
操作页面元素 特殊动作的实现
浏览器操作 获取页面title、url,刷新页面、关闭页面、截屏
使用技巧 多个窗口、多个Frame切换
使用技巧 浏览器原生对话框自动化操作
使用技巧 通过js进行自动化
数据分析 Selenium 自动化 与 Python数据分析结合使用
使用技巧 处理有反爬机制的网站
实战锻炼 天气网站数据爬取分析
实战锻炼 在线音乐网站数据爬取分析
实战锻炼 商城网站数据爬取分析
实战锻炼 招聘网站数据爬取分析
实战锻炼 12306网站数据爬取分析
实战锻炼 海运网站的数据爬取、存储
实战锻炼 在线教育网站数据爬取分析
实战锻炼 反爬网站爬取数据实战



爬虫 - HTTP 爬数据

知识点 概述
HTTP协议 HTTP协议简介,请求响应消息格式解析
API接口消息抓包 接口消息抓取与分析,浏览器抓包、fiddler抓包、数据包分析技术
Session机制 Session、Cookie机制原理、使用案例剖析
Python HTTP消息收发 Python API 接口自动化原理
Python HTTP消息收发 Python API接口构建 请求方法、url、消息头
Python HTTP消息收发 Python API接口构建 urlencode格式 消息体
Python HTTP消息收发 Python API接口构建 JSON 格式 消息体
Python HTTP消息收发 Python API接口构建 XML 格式 消息体
Python HTTP消息收发 Python 处理 响应消息头、状态码
Python HTTP消息收发 Python 处理 响应消息体的处理、格式转化、数据检查等
Python HTTP消息收发 Python 不同请求之间的数据关联性处理
实战锻炼 天气网站数据爬取分析
实战锻炼 在线音乐网站数据爬取分析
实战锻炼 商城网站数据爬取分析
实战锻炼 招聘网站数据爬取分析
实战锻炼 12306网站数据爬取分析
实战锻炼 海运网站的数据爬取、存储
实战锻炼 在线教育网站数据爬取分析
实战锻炼 快递建仓地点数据分析决策



Linux 操作系统

知识点 概述
Linux简介和安装 虚拟机环境安装CentOS系统,使用 Putty 远程 登录CentOS
文本编辑 Linux上的文本编辑器VI的使用
文件系统 Linux上对文件和目录的操作:创建、删除、重命名、拷贝
目录和文件操作 Linux上对文件和目录的权限管理操作
用户管理和文件权限 用户的创建、删除、密码、归属组设置,文件的读写执行权限管理
进程管理 Linux上对进程的操作、环境变量
重定向和管道 程序输入输入的重定向和管道操作
网络管理 主机IP地址,网络连通性检查,主机之间文件的传输,下载文件、防火墙操作
常用命令 Linux服务管理操作、从源码包安装程序、监控系统CPU内存使用率
实战锻炼1 虚拟机环境安装CentOS系统,使用 Putty 远程 登录CentOS
实战锻炼2 Linux上的文本编辑器VI的使用
实战锻炼3 Linux上对文件和目录的操作:创建、删除、重命名、拷贝
实战锻炼4 用户管理,文件和目录的权限管理操作
实战锻炼5 Linux上对进程的操作、环境变量的设置
实战锻炼7 主机IP地址,网络连通性检查,主机之间文件的传输,下载文件



MySQL 数据库

知识点 概述
MySQL简介 关系型数据库管理系统的概念,MySQL服务简介
Linux上安装MySQL CentOS上安装MySQL的过程,图形界面客户端工具HeidiSQL的使用
数据库和表 创建、删除数据库操作,创建、删除数据库表,更改表结构
插入表记录 数据库表记录的插入,各种格式的表字段
查询、修改、删除表记录 查询、修改、删除表记录,查询过滤条件等
程序访问数据库服务 Python程序自动化操作数据库
索引和外键 索引的作用,唯一索引、主键索引、多列索引、外键的作用
事务 事务的概念和使用方法。
实战锻炼1 CentOS上安装MySQL,图形界面客户端工具HeidiSQL的使用
实战锻炼2 医药公司 数据库 和 表的构建
实战锻炼3 医药公司 数据库表记录的插入、查询、修改、删除
实战锻炼4 使用Python程序 对 数据库表记录的插入、查询、修改、删除
实战锻炼5 数据库表 索引和外键的设置,百万级数据操作,体验索引的作用
实战锻炼6 事务操作,实际体验 事务中一个操作失败,整体回滚



图形界面程序

知识点 概述
Python Qt 简介 PySide2、PyQt5 简介、安装
一个案例 界面动作处理,signal 、slot,封装到类中
界面设计师 Qt Designer 界面生成器使用、动态加载、转化UI为Python代码、界面布局
技巧 界面布局技巧、窗口跳转、弹出模式对话框
发布程序 如何发布为exe可执行程序、程序图标设置
常用控件1 按钮、单文本框、多行文本框、浏览框、标签
常用控件2 组合选择框、列表、表格
常用控件3 单选按钮、按钮组、勾选按钮、tab页控件、进度条、数字输入框、日期控件、文件选择框
常用控件4 树控件、提示框、输入对话框、菜单、工具栏、状态栏、剪贴板、MDI 多个子窗口
多线程解决界面阻塞 界面阻塞问题根源、子线程处理界面阻塞、多线程信号机制界面更新
显示样式 QSS概念、selector、样式属性设置背景、边框、字体、颜色、宽度高度、margin、padding
matplot图表 显示中文、显示格式、曲线图、柱状图、饼图、多个子图、嵌入Qt程序
PyQtGraph图表 曲线图、柱状图、绘制多个图形、实时更新图、嵌入Qt程序
使用第三方控件 在Qt Designer中加入第三方控件、轴刻度为字符串、获取鼠标所在处刻度值
实战锻炼1 班级名单抽样
实战锻炼2 开发一个类似postman的HTTP接口测试工具
实战锻炼3 海运网站数据爬取、matplotlib作图
实战锻炼4 开发一个股票历史数据分析、实时数据展示软件



项目实战

练习 概述
项目实战 热销产品分析
项目实战 代理商分析
项目实战 客户购买力分析
项目实战 客户挖掘
项目实战 经费评估
项目实战 提高分析程序性能
项目实战 做出图形界面
上一页
下一页