<a href="https://colab.research.google.com/github/YinGuoX/Deep_Learning_T81_558/blob/master/Part2_1_Python_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Part2.1:Introduction to Pandas
[Pandas](https://pandas.pydata.org/)是一个开源库，可以为Python编程语言提供高性能，易使用的数据结构和数据分析工具。Pandas是基于[R语言](https://www.r-project.org/about.html)中的[dataframe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)概念。Pandas将是操纵神经网络处理的数据的主要手段。


## 1.加载数据
Data Frame是pandas的一个重要组成部分，我们将使用它来访问UCI machine learning repository的[auto-mpg](https://archive.ics.uci.edu/ml/datasets/Auto+MPG)数据集。

UCI从卡耐基梅隆大学维护的StatLib库中获取了这个数据集。1983年美国统计协会博览会使用了该数据集。它包含398辆车的数据，包括[mpg](https://en.wikipedia.org/wiki/Fuel_economy_in_automobiles)、[气缸](https://en.wikipedia.org/wiki/Cylinder_(engine))、[排量](https://en.wikipedia.org/wiki/Engine_displacement)、[马力](https://en.wikipedia.org/wiki/Horsepower)、重量、加速度、车型年份、产地和汽车名称。

以下是将MPG数据集加载到data frame的代码：


In [None]:
import os
import pandas as pd

df = pd.read_csv("https://data.heatonresearch.com/data/t81-558/auto-mpg.csv")

print(df[0:5])

    mpg  cylinders  displacement  ... year  origin                       name
0  18.0          8         307.0  ...   70       1  chevrolet chevelle malibu
1  15.0          8         350.0  ...   70       1          buick skylark 320
2  18.0          8         318.0  ...   70       1         plymouth satellite
3  16.0          8         304.0  ...   70       1              amc rebel sst
4  17.0          8         302.0  ...   70       1                ford torino

[5 rows x 9 columns]


display()提供了比打印数据框更清晰的显示。指定最大行数和最大列数可以更好地控制显示

In [None]:
pd.set_option('display.max_columns',3)
pd.set_option('display.max_rows',5)

display(df)

Unnamed: 0,mpg,...,name
0,18.0,...,chevrolet chevelle malibu
1,15.0,...,buick skylark 320
...,...,...,...
396,28.0,...,ford ranger
397,31.0,...,chevy s-10


也可以生成第二个Data Frame来显示关于第一个Data frame的统计信息：

In [None]:
# 选择固定类型的数据
df = df.select_dtypes(include=['int','float'])
print(df)

# df.columns.values获得每一列的值
# 并且转换为列表
headers = list(df.columns.values)
print(headers)

fields = []

# 计算每一列的数据的相关信息(平均值、方差等)
for field in headers:
  fields.append({
      'name':field,
      'mean':df[field].mean(),
      'var':df[field].var(),
      'sdev':df[field].std()
  })

for field in fields:
  print(field)

      mpg  ...  origin
0    18.0  ...       1
1    15.0  ...       1
..    ...  ...     ...
396  28.0  ...       1
397  31.0  ...       1

[398 rows x 7 columns]
['mpg', 'cylinders', 'displacement', 'weight', 'acceleration', 'year', 'origin']
{'name': 'mpg', 'mean': 23.514572864321615, 'var': 61.089610774274405, 'sdev': 7.815984312565782}
{'name': 'cylinders', 'mean': 5.454773869346734, 'var': 2.8934154399199943, 'sdev': 1.7010042445332094}
{'name': 'displacement', 'mean': 193.42587939698493, 'var': 10872.199152247364, 'sdev': 104.26983817119581}
{'name': 'weight', 'mean': 2970.424623115578, 'var': 717140.9905256768, 'sdev': 846.8417741973271}
{'name': 'acceleration', 'mean': 15.568090452261291, 'var': 7.604848233611381, 'sdev': 2.7576889298126757}
{'name': 'year', 'mean': 76.01005025125629, 'var': 13.672442818627143, 'sdev': 3.697626646732623}
{'name': 'origin', 'mean': 1.5728643216080402, 'var': 0.6432920268850575, 'sdev': 0.8020548777266163}


该代码输出保存此统计信息的词典列表。 此信息看起来类似于在Part1中看到的JSON代码。要正确使用JSON，程序应将这些记录添加到列表中，并调用Python JSON库的dumps命令。

Python程序可以将此类似JSON的信息转换为Data frame，以更好地显示。

In [None]:
print(type(fields))
pd.set_option('display.max_columns',0)
pd.set_option('display.max_rows',5)
df2 = pd.DataFrame(fields)
display(df2)

<class 'list'>


Unnamed: 0,name,mean,var,sdev
0,mpg,23.514573,61.089611,7.815984
1,cylinders,5.454774,2.893415,1.701004
...,...,...,...,...
5,year,76.010050,13.672443,3.697627
6,origin,1.572864,0.643292,0.802055


## 2. 缺失值
在机器学习中遇到缺失值是常态。在理想情况下，每一行数据将会有所有列的值，但是这在现实中几乎不可能。在mpg数据集中有大多数值，但是在马力这一列中会有缺失值。

一种常见的做法是可以用该列的中位数(中值)来替换缺失值。

以下代码是将马力列中的缺失值NA替换为中值：

In [None]:
import os
import pandas as pd
df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])
print(df['horsepower'])
print(pd.isnull(df['horsepower']))
# pd.isnull(df...).values.any()用以判断是否存在缺失值
# 如果有一个即返回True
print(f"Horsepower has na? {pd.isnull(df['horsepower']).values.any()}")

print("Filling missing values...")
med = df['horsepower'].median()
# 将horsepower列中所有为Na的值变为med
df['horsepower'] = df['horsepower'].fillna(med)

print(f"Horsepower has na? {pd.isnull(df['horsepower']).values.any()}")

0      130.0
1      165.0
       ...  
396     79.0
397     82.0
Name: horsepower, Length: 398, dtype: float64
0      False
1      False
       ...  
396    False
397    False
Name: horsepower, Length: 398, dtype: bool
Horsepower has na? True
Filling missing values...
Horsepower has na? False


## 3. Outliers(离群值 or 异常值)
离群值是过高或低的值。有时，离群值只是错误,这是观察误差的结果。 离群值也可以是确实较大或较小的值，可能难以解决。通常认为离群值是与均值有几个标准偏差的值。 

实现以下函数可以删除这些值

In [None]:
def remove_outliers(df,name,sd):
  # 选择大于标准差sd倍的值
  drop_rows = df.index[(np.abs(df[name]-df[name].mean())>= (sd*df[name].std()))]
  print(drop_rows)
  # 删除这些值
  df.drop(drop_rows,axis=0,inplace= True)
  print(df)

下面的代码将删除马力高于或低于平均值两个标准差以上的Auto MPG数据集中的每一行。

In [None]:
import pandas as pd
import os
import numpy as np
from sklearn import metrics
from scipy.stats import zscore

df = df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

# 处理缺失值
med = df['horsepower'].median()
df['horsepower'] = df['horsepower'].fillna(med)

# 删除名字这一列
df.drop('name',1,inplace=True)

# 处理outliers
print("Length before MPG outliters dropped:{}".format(len(df)))
remove_outliers(df,'mpg',2)
print('Length after MPG outliters dropped:{}'.format(len(df)))

pd.set_option('display.max_columns',0)
pd.set_option('display.max_rows',5)
display(df)

Length before MPG outliters dropped:398
Int64Index([244, 247, 309, 322, 324, 325, 326, 329, 330, 394], dtype='int64')
      mpg  cylinders  displacement  ...  acceleration  year  origin
0    18.0          8         307.0  ...          12.0    70       1
1    15.0          8         350.0  ...          11.5    70       1
..    ...        ...           ...  ...           ...   ...     ...
396  28.0          4         120.0  ...          18.6    82       1
397  31.0          4         119.0  ...          19.4    82       1

[388 rows x 8 columns]
Length after MPG outliters dropped:388


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin
0,18.0,8,307.0,130.0,3504,12.0,70,1
1,15.0,8,350.0,165.0,3693,11.5,70,1
...,...,...,...,...,...,...,...,...
396,28.0,4,120.0,79.0,2625,18.6,82,1
397,31.0,4,119.0,82.0,2720,19.4,82,1


## 4.Dropping Fields(删除域)
一些对神经网络没有价值的字段应该删除。

下面的代码从MPG数据集中删除name列。

In [None]:
import os
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

print(f"Before drop:{list(df.columns)}")
# 在Pandas中axis=1指的是对列进行处理
df.drop('name',1,inplace=True)
print(f"After drop:{list(df.columns)}")

Before drop:['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'year', 'origin', 'name']
After drop:['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'year', 'origin']


## 5.连接行和列
Python可以将行和列连接在一起以形成新的数据帧(data frames)。

下面的代码将从Auto MPG数据集的name和horsepower列创建一个新的data frames。
该程序通过将两列连接在一起来实现这一点。



In [None]:
import os
import pandas as pd


df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

col_horsepower = df['horsepower']
col_name = df['name']
print(col_name)
# axis=1对列操作
result = pd.concat([col_name,col_horsepower],axis=1)

pd.set_option('display.max_columns',0)
pd.set_option('display.max_rows',5)
display(result)

0      chevrolet chevelle malibu
1              buick skylark 320
                 ...            
396                  ford ranger
397                   chevy s-10
Name: name, Length: 398, dtype: object


Unnamed: 0,name,horsepower
0,chevrolet chevelle malibu,130.0
1,buick skylark 320,165.0
...,...,...
396,ford ranger,79.0
397,chevy s-10,82.0


concat()还可以将两行连接在一起。

以下代码连接了Auto MPG数据集的前两行和后两行。

In [None]:
import os
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

# axis=0对行操作
result = pd.concat([df[0:2],df[-2:]],axis=0)

pd.set_option('display.max_columns',7)
pd.set_option('display.max_rows',0)
display(result)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,18.0,8,307.0,...,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,...,70,1,buick skylark 320
396,28.0,4,120.0,...,82,1,ford ranger
397,31.0,4,119.0,...,82,1,chevy s-10


## 6. 训练集和验证集
我们必须根据机器学习模型预测从未见过的数据的能力来评估它。因此，我们经常将训练数据划分为验证集和训练集。机器学习模型会从训练数据中学习，但最终会基于验证数据进行评估。

* **训练数据**-样本数据中，神经网络用来训练的数据。

* **验证数据**-样本数据外，机器学习模型适合训练数据后对其进行评估的数据。

有两种处理训练和验证数据的有效方法：

* 训练/验证拆分-程序根据训练和验证（保留）集之间的某种比率来拆分数据。 典型的比率是80％的培训和20％的验证。

* K折交叉验证-该程序将数据分为几个折和模型。 由于该程序创建与折页数量相同的模型，因此该程序可以生成整个数据集的样本外预测。

以下代码将MPG数据分为训练和验证集。 训练集使用80％的数据，而验证集使用20％的数据。 

图2.TRN-VAL显示了如何在80％的数据上训练模型，然后针对其余20％的数据进行验证。
![Training and Validation](https://raw.githubusercontent.com/jeffheaton/t81_558_deep_learning/master/images/class_1_train_val.png "Training and Validation")


In [None]:
import os
import pandas as pd
import numpy as np

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

print(df[0:5])
# 将df里的数据随机化
df = df.reindex(np.random.permutation(df.index))
print(df[0:5])

# 随机选择80%的df的训练数据和20%的验证数据
mask = np.random.rand(len(df)) < 0.8
print(mask.shape)
trainDF = pd.DataFrame(df[mask])
validationDF = pd.DataFrame(df[~mask])

print(f"Training DF：{len(trainDF)}")
print(f"Validation DF：{len(validationDF)}")

    mpg  cylinders  displacement  ...  year  origin                       name
0  18.0          8         307.0  ...    70       1  chevrolet chevelle malibu
1  15.0          8         350.0  ...    70       1          buick skylark 320
2  18.0          8         318.0  ...    70       1         plymouth satellite
3  16.0          8         304.0  ...    70       1              amc rebel sst
4  17.0          8         302.0  ...    70       1                ford torino

[5 rows x 9 columns]
      mpg  cylinders  displacement  ...  year  origin  \
393  27.0          4         140.0  ...    82       1   
260  18.6          6         225.0  ...    78       1   
204  32.0          4          85.0  ...    76       3   
10   15.0          8         383.0  ...    70       1   
262  19.2          8         305.0  ...    78       1   

                             name  
393               ford mustang gl  
260                   dodge aspen  
204                  datsun b-210  
10            dod

## 7.将数据帧(Dataframe)转换成矩阵(Martix)
神经网络不能直接处理Python的Data frame类型数据，需要将其转换为数值矩阵。

以下代码使用Data frame的值属性将数据转换为矩阵。

In [None]:
df.values

array([[27.0, 4, 140.0, ..., 82, 1, 'ford mustang gl'],
       [18.6, 6, 225.0, ..., 78, 1, 'dodge aspen'],
       [32.0, 4, 85.0, ..., 76, 3, 'datsun b-210'],
       ...,
       [24.0, 4, 134.0, ..., 75, 3, 'toyota corona'],
       [20.6, 6, 231.0, ..., 78, 1, 'buick century special'],
       [19.0, 4, 120.0, ..., 76, 2, 'peugeot 504']], dtype=object)

如果只希望转换其中一些列，而不需要name列，请使用以下代码。

In [None]:
df[['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'year', 'origin']].values

array([[ 27. ,   4. , 140. , ...,  15.6,  82. ,   1. ],
       [ 18.6,   6. , 225. , ...,  18.7,  78. ,   1. ],
       [ 32. ,   4. ,  85. , ...,  17. ,  76. ,   3. ],
       ...,
       [ 24. ,   4. , 134. , ...,  13.5,  75. ,   3. ],
       [ 20.6,   6. , 231. , ...,  15.8,  78. ,   1. ],
       [ 19. ,   4. , 120. , ...,  21.9,  76. ,   2. ]])

## 8. 将Data frame数据保存为CSV类型文件


In [None]:
import os
import pandas as pd
import numpy as np

path = '.'
df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

# 获得文件要写入的路径
filename_write = os.path.join(path,'auto-mpg-shuffle.csv')
print(filename_write)
# 打乱df数据集
df = df.reindex(np.random.permutation(df.index))

# 将数据保存到文件中
# index = False不写入行索引到文件中
df.to_csv(filename_write,index=False)
print("Done")

./auto-mpg-shuffle.csv
Done


将数据保存在Google Drive云盘中。

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
path = "/content/drive/My Drive/DeepLearning_AI_Course/T81_558_Deep_learning_JeffHeaton/"

# 更改当前系统的路径
os.chdir(path)
# 显示当前路径的文件夹名字
print(os.listdir())
# 获得当前路径
os.getcwd()

['Part2.1_Python_pandas.ipynb', 'Part1.1_Course_Overview', 'Part1.2_Intro_python.ipynb', 'Part1.3_python_collections.ipynb', 'Part1.4_python_files.ipynb', 'Part1.5_Python_functional.ipynb']


'/content/drive/My Drive/DeepLearning_AI_Course/T81_558_Deep_learning_JeffHeaton'

In [None]:
path = '.'
df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

# 获得文件要写入的路径
filename_write = os.path.join(path,'auto-mpg-shuffle.csv')
print(filename_write)
# 打乱df数据集
df = df.reindex(np.random.permutation(df.index))

# 将数据保存到文件中
# index = False不写入行索引到文件中
df.to_csv(filename_write,index=False)
print("Done")

./auto-mpg-shuffle.csv
Done


## 9.将Data frame保存为Pickle类型文件
各种软件程序都可以使用存储为CSV的文本文件。但是，它们确实需要更长的时间来生成，并且有时会在转换中丢失少量的精度。另一种格式是[Pickle](https://docs.python.org/3/library/pickle.html)。通常是将数据输出到CSV，因为它非常兼容，甚至在Python之外也是如此。

下面的代码是用来将Data frame数据存储为Pickle文件

In [None]:
import os
import pandas as pd
import numpy as np
import pickle

path = "."

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

filename_write = os.path.join(path, "auto-mpg-shuffle.pkl")
df = df.reindex(np.random.permutation(df.index))

with open(filename_write,'wb') as fp:
  pickle.dump(df,fp)
print("Done")

Done


通过以下代码行将pickle文件加载回内存中。 

**注：**索引编号是否仍与之前的随机排序混杂在一起？ 
* 加载重建的CSV（在最后一步中）不会保留这些值。
* 但是Pickle会

In [None]:
import os 
import pandas as pd
import numpy as np
import pickle

path = "."

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv",
    na_values=['NA','?'])

filename_read = os.path.join(path, "auto-mpg-shuffle.pkl")

with open(filename_write,'rb') as fp:
  df = pickle.load(fp)

pd.set_option("display.max_columns",7)
pd.set_option("display.max_rows",5)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
394,44.0,4,97.0,...,82,2,vw pickup
304,37.3,4,91.0,...,79,2,fiat strada custom
...,...,...,...,...,...,...,...
104,12.0,8,400.0,...,73,1,ford country
312,37.2,4,86.0,...,80,3,datsun 310
