# 6 - Pandas Dataframe - Agregaciones y Ordenaciones


* En este Notebook vamos a ver las operaciones de ***Agregación de Datos y Ordenación***:

    5. Agregaciones
    6. Ordenaciones


* Para más información ver los siguientes enlaces:
    - https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html
    - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html


<hr>


## Funciones para el Análisis Exploratorio de Datos - Parte II


* Veamos a continuación una serie de ejemplos de cada una de estas operaciones y/o funciones, usando los datos del fichero *'vehicles.txt'*

    
### Importamos la librería de Pandas:


In [1]:
import pandas as pd

### Pasamos los datos del Fichero a un DataFrame:


* Fichero ***vehicles.txt***: Es un fichero de texto plano con formato CSV.

In [2]:
df_vehicles = pd.read_csv('./data/ejemplo_EDA/vehicles.txt', header=0)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
2,3,Seat,Ibiza,9000
3,2,Seat,Leon,20
4,5,Opel,Corsa,999
5,4,Renault,Clio,34000
6,1,Seat,Ibiza,2000
7,2,Seat,Cordoba,99999
8,3,Renault,Clio,88888


<hr>


## 5. Agregaciones


* Las agregaciones son una de las operaciones más potentes del Análisis Exploratorio de Datos (EDA). 


* Esta operación nos permite ***obtener INFORMACIÓN DE LOS DATOS***, haciendo un ***resumen de los datos y viendo cuantos elementos (o valores de la fila) son iguales.***


* Ejemplo conceptual de una agregación:


<img src="./imgs/04_01_groupby.png" style="width: 400px;"/>


* Posteriormente se pueden ***aplicar operaciones aritméticas o estadísticas***:

    - ***count***: Número de observaciones no nulas
    - ***sum***: Suma de los valores
    - ***mean***: Media de los valores
    - ***mad***: Desviación Media Absoluta de los valores
    - ***median***: Mediana de los valores
    - ***min***: Valor mínimo
    - ***max***: Valor máximo
    - ***first***: Primer valor encontrado en la agrupación
    - ***last***: Último elemento encontrado en la agrupación
    - ***mode***: Moda
    - ***product***: Producto de los valores
    - ***std***: Desviación Estandar
    - ***var***: Varianza
    - ***sem***: Error estandar
    - ***skew***: Asimetria de los valores
    - ***kurt***: La Curtosis
    - ***quantile***: Cuantil
    - ***value_counts***: Número de valores únicos


* La ***sintaxis*** para realizar agrupaciones sería:


```python
df.groupby(['lista_columnas_agrupar'])['columna_aplicar_operacion'].agg(['lista_operaciones_agregación'])
```
    
### 5.1 Ejemplo de agregación por un campo y conteo


* Un primer ejemplo de agregación sería

In [3]:
df_vehicles.groupby(['brand']).agg(['count'])

Unnamed: 0_level_0,user_id,model,kilometers
Unnamed: 0_level_1,count,count,count
brand,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Opel,1,1,1
Renault,4,4,4
Seat,4,4,4


* Como se puede observar nos da como ***resultados de la agregación las diferentes Marcas de coches*** y un ***conteo de marcas por cada una de las columnas*** ya que ***no le hemos indicado sobre que columna tiene que operar***.


* ***Si no se le indica un campo (o campos) sobre los que queremos aplicar la agregación, aplicará las operaciones de agregación sobre todos los campos (numéricos) del DataFrame*** que pueda aplicar la operación de agregación.


* Para ello le podemos ***indicar*** después del "groupBy" ***sobre que columna vamos a aplicar la operación de agregación***:

In [4]:
df_vehicles.groupby(['brand'])['brand'].agg(['count'])

Unnamed: 0_level_0,count
brand,Unnamed: 1_level_1
Opel,1
Renault,4
Seat,4


### 5.2 Ejemplo de agregación por un campo y aplicación de operaciones de agregación


* Se pueden ***realizar cuantas operaciones de agregación se quieran sobre los campos que se quieran*** (siempre que tengan sentido).


* Veamos a continuación un ***ejemplo de una agregación por marca***, y ***aplicamos sobre la columna Kilometros varias operaciones***:

In [5]:
df_vehicles.groupby(['brand'])['kilometers'] \
           .agg(['count', 'sum', 'mean', 'median', 'max', 'min', 'std', 'var', 'first', 'last']) \
           .reset_index()

Unnamed: 0,brand,count,sum,mean,median,max,min,std,var,first,last
0,Opel,1,999,999.0,999,999,999,,,999,999
1,Renault,4,145898,36474.5,28500,88888,10,37702.873644,1421507000.0,10,88888
2,Seat,4,111019,27754.75,5500,99999,20,48316.649341,2334499000.0,9000,99999


### 5.3 Ejemplo de agregación por más de un campo


* Veamos a continuación un ejemplo de agregación por los campos *'brand'* y *'model'*, aplicando las operaciones de agregación sobre el campo '*kilometers*':
    - Conteo
    - Suma
    - Media
    - Mediana

In [6]:
df_vehicles.groupby(['brand', 'model'])['kilometers'] \
           .agg(['count', 'sum', 'mean', 'median']) \
           .reset_index()

Unnamed: 0,brand,model,count,sum,mean,median
0,Opel,Corsa,1,999,999,999
1,Renault,Clio,3,122898,40966,34000
2,Renault,Megane,1,23000,23000,23000
3,Seat,Cordoba,1,99999,99999,99999
4,Seat,Ibiza,2,11000,5500,5500
5,Seat,Leon,1,20,20,20


<hr>


## 6. Ordenaciones (Sort)


* Otra de las operaciones interesantes a la hora de trabajar con datos, es poder ***realizar ordenaciones por alguno/s de sus campos***.


* Con la función *'sort_values'* podemos oredenar el DataFrame por el/los campo/s que le indiquemos.


* La ***sintaxis*** sería la siguiente:


```python
df.sort_values(by='nombre_columna_a_ordenar', ascending=Boolean)
```


* Por ejemplo podemos ordenar el DataFrame de vehiculos por el número de kilometros que han realizado:

In [7]:
df_vehicles.sort_values(by='kilometers', ascending=False)

Unnamed: 0,user_id,brand,model,kilometers
7,2,Seat,Cordoba,99999
8,3,Renault,Clio,88888
5,4,Renault,Clio,34000
1,2,Renault,Megane,23000
2,3,Seat,Ibiza,9000
6,1,Seat,Ibiza,2000
4,5,Opel,Corsa,999
3,2,Seat,Leon,20
0,1,Renault,Clio,10


* También nos permite hacer ordenaciones por valores que no son numéricos como por ejemplo:

In [8]:
df_vehicles.sort_values(by='brand', ascending=True)

Unnamed: 0,user_id,brand,model,kilometers
4,5,Opel,Corsa,999
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
5,4,Renault,Clio,34000
8,3,Renault,Clio,88888
2,3,Seat,Ibiza,9000
3,2,Seat,Leon,20
6,1,Seat,Ibiza,2000
7,2,Seat,Cordoba,99999


<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">