# 数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
在统计学领域，一般讲数据分析分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。



## 1.1 描述性数据分析
描述性分析主要是对所收集的数据进行分析，得出反映客观现象的各种数量特征的一种分析方法。描述性分析一般运用制表和分类，图形以及计算概括性数据来描述数据特征的各项活动。描述性分析要对调查总体所有变量的有关数据进行统计性描述，主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
* ①数据的频数分析。在数据的预处理部分，利用频数分析和交叉频数分析可以检验异常值。
* ②数据的集中趋势分析。用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。
* ③数据的离散程度分析。主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。
* ④数据的分布。在统计分析中，通常要假设样本所属总体的分布属于正态分布，因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
* ⑤绘制统计图。用图形的形式来表达数据，比用文字表达更清晰、更简明。使用python，可以很容易地绘制各个变量的统计图形，包括条形图、饼图和折线图等。

### 1.1.1 认识数据
本文选取一个经典的数据集加利福尼亚房价预测数据集，sklearn已经预定义了接口，我们可以方便的导入。

In [30]:
import pandas as pd
from sklearn.datasets import fetch_california_housing 

# 装载数据
def load_cal_housing():
    housing_json = fetch_california_housing()
    housing = pd.DataFrame(housing_json.data, columns=housing_json.feature_names)
    housing['target'] =  housing_json.target
    return housing
housing = load_cal_housing()

In [31]:
# 首先看一眼前五行数据
housing.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


## 1.2 验证性数据分析
是研究如何根据样本数据来推断总体样本数量特征，它是在对样本数据进行描述统计分析的基础上，对研究总体的数量特征做出推断。常见的分析方法有
* ①假设检验、设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数，就会希望根据结果对未知的真正参数值做出适当的推论。
* ②相关分析、是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
* ③回归分析、是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
* ④时间序列分析等方法。



## 1.3 探索性数据分析

探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

探索性分析主要是通过一些分析方法从大量的数据中发现未知且有价值信息的过程，它不受研究假设和分析模型的限制，尽可能地寻找变量之间的关联性。常见的分析方法有
* ①聚类分析、
* ②主成分分析、
* ③典型相关分析、
* ④因子分析、
* ⑤对应分析等方法。