<h1, align=center> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;数据科学引论 - Python之道 </h1>

<h1, align=center> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;第6课 使用Python和pandas统计入门 </h1>

<h1, align="center">波士顿房屋数据</h1>

我们将会分析波士顿的房屋数据，数据将包括：
 
1) Age: 1940年之前在每个城镇建立的自有住房的比例

2) MV: 每个城镇的房价中位数（单位是$1000）

我们将计算平均数、中位数、标准差，来分析不同城镇内的房屋情况。



<h2, align=center>获得数据</h2>

#### 使用下面的链接直接下载数据

In [None]:
#linux !wget --output-document /resources/data/ageprice.csv https://ibm.box.com/shared/static/05u2mb2x4n9ak8gffmnelydx0ibdeqzh.csv
# 自行下载

#### 导入所需的依赖库：pandas，matplotlib

In [1]:
# 如果这段发生错误No module named 'seaborn'，则解注释下列这句话先安装一下这个库，以管理员权限在命令行中输入“conda install seaborn”安装seaborn

import pandas as pd
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats

%matplotlib inline  

这个帮助函数涵盖了正太分布和直方图。

In [2]:
def NormalandHistogram( DataFrame):
    
    mu=DataFrame.mean()
    sigma=DataFrame.std()
    x=DataFrame.values.flatten()
       # the histogram of the data
    n, bins, patches = plt.hist(x, 10, normed=1, facecolor='green', alpha=0.75)

    # add a 'best fit' line
    y = mlab.normpdf( bins, mu, sigma)
    l = plt.plot(bins, y, 'r--', linewidth=1)

    plt.xlabel('x')
    plt.ylabel('Probability')
    

#### 使用`pd.read_csv`读取数据 

In [5]:
df=pd.read_csv("resources/data/AgePrice.csv")
df.head(5)

FileNotFoundError: [Errno 2] File b'resources/data/AgePrice.csv' does not exist: b'resources/data/AgePrice.csv'

# <h1, align=center>数据清洗</h1>

删除额外的列

In [None]:
del df['Unnamed: 0']

#### 使用head方法展示前5行

In [None]:
df.head(5)

 <h1, align=center> 统计分析  </h1>




1) 计算下列平均值：
a) 1940年之前房屋建造的比例
b) 房屋的价值   


In [None]:
df.mean()

2) 计算中位数，统计内容同上   

In [None]:
df.median()

3) 计算标准差，内容同上:  

In [None]:
df.std()

4) 计算最大和最小值，内容同上

In [None]:
df.max()

In [None]:
df.min()

7) 使用__describe__方法得到总结。

这个方法会展示以下结果：
- 数据条数
- 平均值, 
- 标准差, 
- 最小值, 
- IQR (分位点: 25%, 50% and 75%) 
- 最大值.


In [None]:
df.describe()

<h1, align=center> 直方图</h1>

 5) 使用直方图展示每个城镇AGE的情况

In [None]:
df["AGE"].hist()

6) 使用直方图展示每个城镇MV的情况

In [None]:
df["MV"].hist()

 <h1, align=center> 概率质量函数和正态分布 </h1>

概率质量函数和正态分布可以帮助你轻松地从整体上理解你的数据，并度量它们的属性 

假设我们要得到以下的值：

在波士顿，房屋具有20年房龄的概率是多少？
在波士顿，房屋具有30年房龄的概率是多少？

我们可以用 P(X = 20)或 P(X = 30)来表示.这个概率函数表示一间位于波士顿的随机选中的房屋X，对特定的房龄值x，其房龄等于x的概率是多大？这个概率可以用函数f(x)表示，它被称为概率质量函数（__probability mass function__）. 

__注意 1:__ P(X = 1) + P(X = 2)+ .. +P(X = 100) = 1   
__注意 2:__ 如果可选值是连续（非离散）的话，我们需要使用概率密度函数 （__probability density function__）, 

现在让我们将数据的概率密度函数与正态分布在图形上作些比较。

1)  波士顿AGE的分布是正态分布吗？

In [None]:
mu=df['AGE'].mean()
sigma=df['AGE'].std()
x=df['AGE'].values.flatten() #actual values of age of the houses

# the parameters of histogram of the data
# 10 is number of bins
# normed = 1, means the histogram is normalized
n, bins, patches = plt.hist(x, 10, normed=1, facecolor='green', alpha=0.75)

# add a 'best fit' line
y = mlab.normpdf( bins, mu, sigma)
l = plt.plot(bins, y, 'r--', linewidth=1)

plt.xlabel('Age')
plt.ylabel('Probability')

数据没有呈现出一个中间钟型的凸起，所以不是正态分布

2) 波士顿MV的分布是正态分布吗？

In [None]:
mu=df['MV'].mean()
sigma=df['MV'].std()
x=df['MV'].values.flatten() #actual values of age of the houses

# the parameters of histogram of the data
# 10 is number of bins
# normed = 1, means the histogram is normalized
n, bins, patches = plt.hist(x, 10, normed=1, facecolor='green', alpha=0.75)

# add a 'best fit' line
y = mlab.normpdf( bins, mu, sigma)
l = plt.plot(bins, y, 'r--', linewidth=1)

plt.xlabel('Price')
plt.ylabel('Probability')

从形状上看是的。

通过图去观察数据是十分实用的。通过图，我们还能回答关于区间的问题，比如价格在10k到15k之间的概率。


## 数据探索： 总览、统计、分组、箱线图 和 相关性
让我们加载另一个数据集

####  数据集

数据源: https://archive.ics.uci.edu/ml/datasets/Automobile

#### 数据集信息:
这个数据源包括三种不同类型的实体：(a)关于汽车各种属性的规格说明，(b) 汽车被指定的保险风险等级，（c）与其他汽车相比的规格化的损赔。
第二个实体所表示的等级对应的是汽车相对于其价格而言风险更大的程度。汽车最初被赋予的风险等级与其价格相关，如果之后发现其风险更大或者更小，这个等级就会相应地向上或向下调整。例如，等级为+3就表示是该车风险较大，-3表示该车比较安全。
第三个实体所表示的因素是每个被保险车辆年的相对平均损赔。这个值是在特定的尺寸分类(双门小型车、旅行车、运动型/专业型车，等等)下的所有汽车中规格化的值，表示每辆车每年的平均损失。

In [None]:
# import pandas library
import pandas as pd
# read the online file by the URL provides above, and assign it to variable "df"

#linux !wget --output-document /resources/data/df-Automobile-cleaned.csv https://ibm.box.com/shared/static/uxc0it2dyu0ecrw14aoj9yspz8gh446r.csv
#自行下载    
#linux df = pd.read_csv("/resources/data/df-Automobile-cleaned.csv")
df = pd.read_csv("resources/data/df-Automobile-cleaned.csv")
df.head()

### 总览
使用describe方法得到一个大致的总览

In [None]:
# summary statistics using pandas method
df.describe()

如果我们想得到特定的一些列的汇总结果呢（比如值是字符串的）？

In [None]:
df.describe(include=['object'])

### 计数:
我们还可以使用__value-counts__方法得到每个属性/变量有几个元素

In [None]:
# drive-wheels as variable
drive_wheels_counts = df['drive-wheels'].value_counts().to_frame()
drive_wheels_counts.rename(columns={'drive-wheels': 'value_counts'}, inplace=True)
drive_wheels_counts.index.name = 'drive-wheels'
drive_wheels_counts.head(10)

In [None]:
# engine-location as variable
engine_loc_counts = df['engine-location'].value_counts().to_frame()
engine_loc_counts.rename(columns={'engine-location': 'value_counts'}, inplace=True)
engine_loc_counts.index.name = 'engine-location'
engine_loc_counts.head(10)

我们发现只有3辆车是后置发动机，191辆是前置发动机，数据倾斜过于严重，所以从发动机位置这个角度去判断价格是不太合理的。

### 分组:
另一个观察数据的方法是分组：

groupby函数可以根据某一列的值进行分组，然后进行统计。这将方便我们观察某一个变量对另外一个变量的影响。

你可以按一个变量分组，例如按"drive-wheels"分组，会发现一共有三组。

In [None]:
df['drive-wheels'].unique()

如果我们想知道哪种驱动方式最值钱，我们可以统计每个分类下的价格平均值。

In [None]:
# grouping results
df_group_one=df[['drive-wheels','body-style','price']]
df_group_one=df_group_one.groupby(['drive-wheels'],as_index= False).mean()
df_group_one


通过数据，我们发现4轮驱动和前轮驱动基本价格相似，但是后轮驱动明显更贵。

同样你可以同时按多个变量分组，比如"drive-wheels" 和 "body-style".


In [None]:
# grouping results
df_gptest=df[['drive-wheels','body-style','price']]
grouped_test1=df_gptest.groupby(['drive-wheels','body-style'],as_index= False).mean()
grouped_test1

表格数据看起来有点累，如果我们把它们放进一个数据透视表会看得更加清楚。现在让我们使用pivot函数去创建一个数据透视表，我们把drive-wheel当成行变量，body-style作为列变量。

In [None]:
grouped_pivot=grouped_test1.pivot(index='drive-wheels',columns='body-style')
grouped_pivot

有时候，表格的一些格子中没有数据（NaN），我们可以通过用0填充的方法解决。

In [None]:
grouped_pivot=grouped_pivot.fillna(0) #fill missing values with 0
grouped_pivot

### 箱线图:

使用箱线图是一种不错的用来观察某一类的数据的方法：

In [None]:
# body-style
sns.boxplot(x="body-style", y="price", data=df)

我们发现在不同 body-style分类下的价格分布重叠太多，所以body-style不是一个值得研究的属性。

In [None]:
# engine-location
sns.boxplot(x="engine-location", y="price", data=df)

现在我们发现根据engine-location的价格分布比较适合做价格预测。


In [None]:
# drive-wheels
sns.boxplot(x="drive-wheels", y="price", data=df)

同样的，发现根据drive-wheels的价格分布比较适合做价格预测。

## 相关性

**相关性**: 相关性是一个测量不同变量之间是否独立的统计度量。 

**因果关系**: 两个变量之间的因果关系。

需要注意的是，相关性与因果关系是不同的概念。如前所述，数据科学更加适合探索数据相关性。

让我们检测下engine-size和price的相关性

我们使用下列散点分析命令来可视化两个变量，并且添加一个回归线。
我们可以使用seaborn的regplot()命令来显示散点图

In [None]:
sns.regplot(x="engine-size", y="price",data=df)
plt.ylim(0,)

#### 正线性相关: 
engine-size的增大会导致价格的增大。



#### 负相关关系
让我们查看一下highway-mpg与price的关系：

highway-mpg的增加会导致价格的降低。


In [None]:
sns.regplot(x="highway-mpg", y="price",data=df)
plt.ylim(0,)

#### 弱线性关系

Peak-rpm看上去就和price没什么关系了，回归线几乎是平的

In [None]:
# Peak rpm as a predictor variable of price
sns.regplot(x="peak-rpm", y="price", data=df)

#### 所有变量之间的相关性如何呢?

现在的问题是：“哪个属性是最主要的影响价格的因素”

我们之前的问题都是针对某一个变量对价格影响如何，现在让所有变量都对price来一次相关性检测。可以使用corr方法来简单完成这个功能。


In [None]:
df.corr()["price"]

现在，我们发现了是__engine-size__ ，且他的相关系数为0.888745

#### 什么是相关系数?

相关性（皮尔逊相关）表示了变量X和Y之间的线性依赖程度。结果在-1到1之间。
- **1**: 完全正相关
- **0**: 没有线性关系
- **-1**: 完全负相关 


#### 高的相关系数是否就说明了两个变量十分相关？ 

除了相关系数，我们还可以看 __p-vaue__。P-value帮助我们确认找的相关系数是否可信。

**什么是 P-value?**:  
P-value是两个变量之间相关性是否显著的概率。通常地，我们把0.05设为一个显著水平，也就是说这个相似性有95%的置信度。

大致地：
- p-value<0.001 我们认为相关性十分可信
- p-value<0.05, 我们认为相关性比较可信
- p-value<0.1, 我们认为相关性不太可信
- p-value>0.1, 我们认为相关性不可信

In [None]:
pearson_coef, p_value = stats.pearsonr(df['horsepower'], df['price'])
#python2 print "The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of P =", p_value   
print ("The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of P =", p_value)

#### 结论:
horsepower和price的相关性中，线性相关性比较高(~0.809, 接近1)，p-value小于0.001的

#### 那么三组数据之间或者不同的大小的相关性如何?

我们在这个场合使用透视表，我们的变量是Drive Wheels和Body Style。我们需要找到这两个变量和price的关系。


In [None]:
fig, ax=plt.subplots()
im=ax.pcolor(grouped_pivot, cmap='RdBu')

#label names
row_labels=grouped_pivot.columns.levels[1]
col_labels=grouped_pivot.index
#move ticks and labels to the center
ax.set_xticks(np.arange(grouped_pivot.shape[1])+0.5, minor=False)
ax.set_yticks(np.arange(grouped_pivot.shape[0])+0.5, minor=False)
#insert labels
ax.set_xticklabels(row_labels, minor=False)
ax.set_yticklabels(col_labels, minor=False)
#rotate label if too long
plt.xticks(rotation=90)

fig.colorbar(im)
plt.show()

### 分类离散变量和连续变量之间的关系

比入drive-wheels和price之间的关系是什么？

我们可以使用ANOVA测试去计算它。

In [None]:
df_cat = df[['drive-wheels','price']]
df_cat.head()

现在，我们在上述两列里面跑测试，如果价格在不同的drive-wheels类别表现出巨大差异，那么drive-wheels就是高度相关的。ANOVA测试会返回一个大的F-test分数和一个小的p-value


#### ANOVA: 方差分析
这是一个统计学方法，用于测试两组数据的平均值是否有明显的不同。返回两个值

**F-测试分数**: ANOVA假设所有组别的平均值是相同的，计算实际与预期的偏差有多大。其偏差越大，F-test分数越大。 

**P-值 **: 与之前的相关系数置信度相同，就是表示F-测试分数的可信程度

In [None]:
df_rwd = df[df['drive-wheels']=='rwd']['price']
df_fwd = df[df['drive-wheels']=='fwd']['price']
df_4wd = df[df['drive-wheels']=='4wd']['price']

In [None]:
f_val, p_val = stats.f_oneway(df_rwd, df_fwd, df_4wd)
#python2 print "ANOVA results: F=", f_val, ", P =", p_val   
print ("ANOVA results: F=", f_val, ", P =", p_val)   

结果非常棒，也就是 F test很大，然后p-value几乎为0，这表示__drive-wheels和price强相关__，具有几乎确定的统计显著性。
