<a href="https://colab.research.google.com/github/YinGuoX/Deep_Learning_T81_558/blob/master/Part2_3_Pandas_grouping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Part2.3:Grouping,Sorting,and Shuffling
现在我们来看看影响整个Pandas 的Data frames数据的几种方法。 这些技术将使我们能够对数据集进行分组，排序和混洗。 这些都是数据预处理和评估所必需的操作

## 1. 混洗数据集
可能有一些信息按照数据集的行顺序潜伏。如果您处理的部署时序数据，那么这种行顺序不重要。 如：训练集是否包括公司的员工。 也许此数据集是根据员工在公司工作的年数排序的。 可以有一个单独的列来指定服务年限。 但是，如果按顺序存储数据可能会出现问题。

考虑是否要将数据分为训练集和验证集。 您可能最终得到的验证集只有新员工，而培训集只有长期员工。 将数据分离为k倍交叉验证可能会有类似的问题。 由于这些问题，重新整理数据集很重要。

通常，打乱和重新索引都是一起执行的。打乱数据集的顺序。但是，它不会改变Pandas的行号。

下面的代码演示了混洗数据集。注意，第一列(行索引)没有被重置。通常，这不会导致任何问题，并允许跟踪到数据的原始顺序。但是，我通常更喜欢重置这个索引。我的理由是，我通常不关心初始位置，在一些实例中，这种无序索引可能会导致问题

In [None]:
import os
import pandas as pd
import numpy as np

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])

df = df.reindex(np.random.permutation(df.index))

pd.set_option('display.max_columns',7)
pd.set_option('display.max_rows',5)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
350,34.7,4,105.0,...,81,1,plymouth horizon 4
188,16.0,8,318.0,...,76,1,dodge coronet brougham
...,...,...,...,...,...,...,...
239,30.0,4,97.0,...,77,3,subaru dl
180,25.0,4,121.0,...,75,2,saab 99le


下面的代码演示了重新索引。注意重新索引是如何对行索引排序的。

In [None]:
pd.set_option('display.max_columns',7)
pd.set_option('display.max_rows',5)

df.reset_index(inplace=True,drop=True)
display(df)

Unnamed: 0,index,mpg,cylinders,...,year,origin,name
0,0,34.7,4,...,81,1,plymouth horizon 4
1,1,16.0,8,...,76,1,dodge coronet brougham
...,...,...,...,...,...,...,...
396,396,30.0,4,...,77,3,subaru dl
397,397,25.0,4,...,75,2,saab 99le


## 2.排序数据集
虽然在训练前打乱数据集总是一个好主意，但在训练和预处理期间，您可能还希望对数据集进行排序。排序数据集允许您对一列或多列的行按升序或降序排序。下面的代码按名称对MPG数据集进行排序，并显示第一辆车

In [None]:
import os
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])

display(df)
df = df.sort_values(by='name',ascending=True)
print(f"The first cat is {df['name'].iloc[0]}")

pd.set_option('display.max_columns',7)
pd.set_option('display.max_rows',5)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,18.0,8,307.0,...,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,...,70,1,buick skylark 320
...,...,...,...,...,...,...,...
396,28.0,4,120.0,...,82,1,ford ranger
397,31.0,4,119.0,...,82,1,chevy s-10


The first cat is amc ambassador brougham


Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
96,13.0,8,360.0,...,73,1,amc ambassador brougham
9,15.0,8,390.0,...,70,1,amc ambassador dpl
...,...,...,...,...,...,...,...
325,44.3,4,90.0,...,80,2,vw rabbit c (diesel)
293,31.9,4,89.0,...,79,2,vw rabbit custom


## 3.分组数据集
分组是对数据集的典型操作。 结构化查询语言（SQL）将此操作称为“ GROUP BY”。 程序员使用分组来汇总数据。 因此，汇总行数通常会减少，并且您无法撤消分组。 由于信息丢失，因此在分组之前保留原始数据非常重要。

使用Auto-MPG数据集来演示分组操作。

In [None]:

import os
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,18.0,8,307.0,...,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,...,70,1,buick skylark 320
...,...,...,...,...,...,...,...
396,28.0,4,120.0,...,82,1,ford ranger
397,31.0,4,119.0,...,82,1,chevy s-10


以上数据集可与组一起进行汇总。

例如，下面的代码将根据平均值对cylinders进行分组。此代码将提供分组。除了mean之外，还可以使用其他聚合函数，如sum或count。

In [None]:
g = df.groupby('cylinders')['mpg'].mean()
g

cylinders
3    20.550000
4    29.286765
5    27.366667
6    19.985714
8    14.963107
Name: mpg, dtype: float64

将这些平均值用作字典可能会更有用

In [None]:
d = g.to_dict()
d

{3: 20.55,
 4: 29.28676470588236,
 5: 27.366666666666664,
 6: 19.985714285714284,
 8: 14.963106796116508}

字典允许您快速访问单个元素。例如，您可以快速查找六缸汽车的平均值。可以回想在Part2.3也是用到了这种技术来计算某个列的目标编码

In [None]:
d[6]

19.985714285714284

下面的代码显示了如何计算匹配每组cylinder中的行数。

In [None]:
df.groupby('cylinders')['mpg'].count().to_dict()

{3: 4, 4: 204, 5: 3, 6: 84, 8: 103}