**Modulo 2: Python para Machine Learning**
* Instructor: [Juan Maniglia](https://juanmaniglia.github.io)

# Parte 2.3: Grouping, Sorting y Shuffling  

Ahora veremos algunas formas de afectar un Pandas_data_frame completo. Estas técnicas nos permitirán agrupar, clasificar y barajar conjuntos de datos. Todas estas son operaciones esenciales tanto para el preprocesamiento como para la evaluación de datos.

### Shuffling (Mezclar) el Dataset
Puede haber información al acecho en el orden de las filas de su Dataset_. A menos que esté tratando con datos de series temporales, el orden de las filas no debería ser significativo. Considere si su conjunto de capacitación incluyó empleados en una empresa. Quizás este conjunto de datos esté ordenado por la cantidad de años que los empleados estuvieron en la empresa. Está bien tener una columna individual que especifique los años de servicio. Sin embargo, tener los datos en este orden puede ser problemático. 

Considere si tuviera que dividir los datos en entrenamiento y validación. Podría terminar con su conjunto de validación teniendo solo los empleados más nuevos y el conjunto de capacitación empleados a más largo plazo. La separación de los datos en una validación cruzada de k veces podría tener problemas similares. Debido a estos problemas, es importante mezclar el Dataset.

A menudo, la mezcla y la reindexación se realizan juntas. La mezcla aleatoria aleatoriza el orden del Dataset_. Sin embargo, no cambia los números de fila de Pandas. El código siguiente muestra una reorganización.

In [1]:
import os
import pandas as pd
import numpy as np

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])

#np.random.seed(42) # Descomenta esta línea para obtener el mismo orden aleatorio cada vez
df = df.reindex(np.random.permutation(df.index))

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
349,34.1,4,91.0,...,81,3,mazda glc 4
62,13.0,8,350.0,...,72,1,chevrolet impala
...,...,...,...,...,...,...,...
73,13.0,8,307.0,...,72,1,chevrolet chevelle concours (sw)
1,15.0,8,350.0,...,70,1,buick skylark 320


El código siguiente muestra una reindexación. Observe cómo el reindex ordena los índices de fila.

In [2]:
pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)

df.reset_index(inplace=True, drop=True)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,34.1,4,91.0,...,81,3,mazda glc 4
1,13.0,8,350.0,...,72,1,chevrolet impala
...,...,...,...,...,...,...,...
396,13.0,8,307.0,...,72,1,chevrolet chevelle concours (sw)
397,15.0,8,350.0,...,70,1,buick skylark 320


### Sort (Ordenar) un Dataset

Si bien siempre es una buena idea mezclar un conjunto de datos antes del entrenamiento, durante el entrenamiento y el preprocesamiento, también puede ordenar el Dataset. Ordenar el conjunto de datos le permite ordenar las filas en orden ascendente o descendente para una o más columnas.

In [3]:
import os
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])

df = df.sort_values(by='name', ascending=True)
print(f"El primer coche es: {df['name'].iloc[0]}")
      
pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)
display(df)

El primer coche es: amc ambassador brougham


Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
96,13.0,8,360.0,...,73,1,amc ambassador brougham
9,15.0,8,390.0,...,70,1,amc ambassador dpl
...,...,...,...,...,...,...,...
325,44.3,4,90.0,...,80,2,vw rabbit c (diesel)
293,31.9,4,89.0,...,79,2,vw rabbit custom


### Group (Agrupar) un Dataset

La agrupación es una operación típica en Datasets_. Structured_Query_Language (SQL) llama a esta operación "GROUP BY". Los programadores utilizan la agrupación para resumir datos. Debido a esto, el recuento de filas de resumen generalmente se reducirá y no podrá deshacer la agrupación. Debido a esta pérdida de información, es fundamental conservar sus datos originales antes de la agrupación. 

El conjunto de datos Auto MPG se utiliza para demostrar la agrupación.

In [4]:
import os
import pandas as pd

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/auto-mpg.csv", 
    na_values=['NA', '?'])

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)
display(df)

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,18.0,8,307.0,...,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,...,70,1,buick skylark 320
...,...,...,...,...,...,...,...
396,28.0,4,120.0,...,82,1,ford ranger
397,31.0,4,119.0,...,82,1,chevy s-10


l siguiente código agrupará cilindros por el promedio (mean). Este código proporcionará la agrupación. Además de **mean**, puede usar otras funciones de agregación, como **sum** o **count**.

In [5]:
g = df.groupby('cylinders')['mpg'].mean()
g

cylinders
3    20.550000
4    29.286765
5    27.366667
6    19.985714
8    14.963107
Name: mpg, dtype: float64

Podría ser útil tener estos valores **mean** como diccionario.

In [6]:
d = g.to_dict()
d

{3: 20.55,
 4: 29.28676470588235,
 5: 27.366666666666664,
 6: 19.985714285714284,
 8: 14.963106796116506}

Un diccionario le permite acceder rápidamente a un elemento individual. Por ejemplo, podría buscar rápidamente la media de los automóviles de seis cilindros. 

In [7]:
d[6]

19.985714285714284

El siguiente código muestra cómo contar el número de filas que coinciden con el recuento de cada cilindro.

In [8]:
df.groupby('cylinders')['mpg'].count().to_dict()

{3: 4, 4: 204, 5: 3, 6: 84, 8: 103}