====== 数据分析 ====== ===== 学习目标 ===== * 掌握基本统计的方法 * 掌握常用的分析方法 ---- ===== 学习内容 ===== ==== 基本统计 ==== 基本统计分析又称描述性统计分析,一般统计某个变量的最小值、第一个四分位值、中值、第三个四分位值以及最大值。 1. 进行描述性统计分析时,一般使用''describe()''函数。 2. 进行常规统计时,一般使用以下函数: * ''size'' -> 计数 * ''sum'' -> 求和 * ''mean'' -> 求平均值 * ''var'' -> 求方差 * ''std'' -> 求标准差 * ==== 分组分析 ==== 分组分析是根据分组字段将分析对象划分成不同的部分,以对比分析各组之间差异性的一种分析方法。 1. 进行分组分析,一般使用''groupby()''函数。 2. 常用的统计指标有: * 计数 * 求和 * 求平均值 groupby函数的格式: ```python df.groupby(by=['分类1','分类2',…])['被统计的列名'.agg({列别名1:统计函数1,列别名2:统计函数2,…})] ``` ==== 分布分析 ==== 分布分析是根据分析的目的,将数据(定量数据)进行等距或不等距的分组,从而研究各组分布规律的一种分析方法。 ==== 交叉分析 ==== 交叉分析通常用于分析两个或两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析,一般分为定量、定量分组交叉,定量、定性分组交叉,定性、定性分组交叉。 1. 一般交叉分析使用的函数是pivot_table(values,index,columns,aggfunc,fill_value) 2. pivot_table()函数的参数说明