# 5_6_7_9 - Pandas Dataframes - Funciones para el Análisis Exploratorio de Datos


* El siguiente Notebook tiene como objetivo mostrar las ***operaciones básicas*** (a nivel conceptual) que se hace en lo que se denomina "***Análisis Exploratorio de Datos***" con la libreria Pandas de Python.


* ***Pandas*** nos permite realizar una serie de ***funciones sobre los DataFrames*** para manipular los datos y poder ***obtener información de los datos***. Las operaciones o funciones más importantes serían:

    1. Información de los datos del DataFrame
    2. Descripción de los datos del DataFrame
    3. Filtros
    4. Nuevas Columnas
    5. Agregaciones
    6. Ordenaciones
    7. Joins
    8. Uniones
    9. Pivot Tables
    


* Para más información ver el enlace de la documentación oficial: http://pandas.pydata.org/pandas-docs/stable/


<hr>


## Funciones para el Análisis Exploratorio de Datos


* Veamos a continuación una serie de ejemplos de cada una de estas operaciones y/o funciones, usando los datos de los ficheros:

    - *vehicles.txt*
    - *users.txt*
    
### Importamos la librería de Pandas:


In [1]:
import pandas as pd

### Pasamos los datos de los Ficheros a un DataFrame:


* Fichero ***vehicles.txt***: Es un fichero de texto plano con las siguientes características:
    - Tiene como separador el carácter coma
    - En la primera línea del fichero se encuentra el nombre de las columnas
    - En el resto de columnas se encuentras los datos
    
    
* Este fichero tiene una estructura de CSV.


* En este caso vamos a leerlo con la función '*read_table()*', aunque también se podría hacer con la función '*read_csv()*'

In [2]:
df_vehicles = pd.read_table('./data/ejemplo_EDA/vehicles.txt', 
                            sep=',', 
                            header=0)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
2,3,Seat,Ibiza,9000
3,2,Seat,Leon,20
4,5,Opel,Corsa,999
5,4,Renault,Clio,34000
6,1,Seat,Ibiza,2000
7,2,Seat,Cordoba,99999
8,3,Renault,Clio,88888


* Fichero ***users.txt***: Fichero de texto plano con las mismas características que el fichero de vehicles.txt.
    
    
* Como el fichero tiene una estructura de CSV lo vamos a leer con la función '*read_csv()*', aunque no tenga el fichero la extensión de CSV:

In [3]:
df_users = pd.read_csv('./data/ejemplo_EDA/users.txt', 
                       header=0)
df_users

Unnamed: 0,user_id,name
0,1,Don Pepito
1,2,Don Jose
2,3,Fofo
3,4,Miliki
4,5,Fofito
5,6,Gaby


<hr>


## 1. Información de los datos del DataFrame


* Pandas dispone de la función '***info()***' que muestra ***información relativa al DataFrame*** como:
    - Número de filas
    - Número de columnas
    - Tipo de datos de cada una de las columnas
    - Memoria que ocupa
    - etc.
  
  
* A continuación mostramos un ejemplo de la información que muestra sobre el DataFrame de vehiculos:


In [4]:
df_vehicles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     9 non-null      int64 
 1   brand       9 non-null      object
 2   model       9 non-null      object
 3   kilometers  9 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 416.0+ bytes


<hr>


## 2. Descripción de los datos del DataFrame


* Pandas dispone de la función '***describe()***' que muestra una serie de estadísticos (descriptivos) sobre las columnas con valores numéricos:


In [5]:
df_vehicles.describe()

Unnamed: 0,user_id,kilometers
count,9.0,9.0
mean,2.555556,28657.333333
std,1.333333,39180.177166
min,1.0,10.0
25%,2.0,999.0
50%,2.0,9000.0
75%,3.0,34000.0
max,5.0,99999.0


<hr>


## 3. Filtros


* Los filtros nos permiten filtrar o ***mostrar determinadas filas que cumplen una determinada condición***.


### 3.1. Ejemplo de Filtro con una condición


* Por ejemplo podemos seleccionar aquellos coches que son de la Marca (columna brand) Renault de la siguiente manera:


In [6]:
df_vehicles[df_vehicles.brand == "Renault"]

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
5,4,Renault,Clio,34000
8,3,Renault,Clio,88888



### 3.2. Ejemplo de Filtro con multiples condiciones


* Podemos poner ***todas las condiciones que queramos*** a la hora de realizar filtros. 


* Ejemplo: filtremos todos los Renault Clio que han realizado mas de 1000 Kms:

In [7]:
df_vehicles[(df_vehicles.brand == "Renault") &
            (df_vehicles.model == "Clio") &
            (df_vehicles.kilometers > 1000)]

Unnamed: 0,user_id,brand,model,kilometers
5,4,Renault,Clio,34000
8,3,Renault,Clio,88888


<hr>


## 4. Nuevas Columnas


* Crear ***nuevas columnas*** (con nuevos datos derivados o inferidos) ***a partir de los datos que hay en otras columnas*** como por ejemplo:

    - ***Operaciones Aritméticas*** sobre una o varias columnas: Suma, Resta, Multiplicación, etc. 
    - Nuevas columnas derivadas a partir de ***sentencias condicionales***


* Para crear nuevas columnas utilizamos la función '***apply()***', pasándole como parámetros una ***función lambda*** (función anónima) donde implementaremos la función a aplicar en cada una de las columnas (o columna) para obtener la nueva columna derivada.


### 4.1. Nueva columna aplicando operaciones aritméticas


* Aunque se puede hacer de varias maneras, la ***estructura para crear una nueva columna*** sería la siguiente.


```python
data_frame['nombre_nueva_columna'] = data_frame.apply(lambda row: row.nombre_columna_origen, axis=1)
# Siendo "nombre_columna_origen" la columna del DataFrame original a la que se le aplica la operación
```


* De esta manera obtenemos una nueva columna llamada '*nombre_nueva_columna*' con un nuevo valor derivado de la columna 'nombre_columna_origen' tras aplicarle la operación aritmética que queramos.


* Veamos un ejemplo en el que vamos a crear una nueva columna llamada '*miles*' en la que a partir de la columna Kilometros vamos a calcular las millas:

In [8]:
df_vehicles['miles'] = df_vehicles.apply(lambda row: row.kilometers * 0.62, axis=1)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers,miles
0,1,Renault,Clio,10,6.2
1,2,Renault,Megane,23000,14260.0
2,3,Seat,Ibiza,9000,5580.0
3,2,Seat,Leon,20,12.4
4,5,Opel,Corsa,999,619.38
5,4,Renault,Clio,34000,21080.0
6,1,Seat,Ibiza,2000,1240.0
7,2,Seat,Cordoba,99999,61999.38
8,3,Renault,Clio,88888,55110.56


### 4.2. Nueva columna aplicando operaciones condicionales


* Aunque se puede hacer de varias maneras, la ***estructura para crear una nueva columna aplicando operaciones condicionales*** sería la siguiente.


```python
data_frame['nombre_nueva_columna'] = data_frame['nombre_columna_origen'].apply(lambda x: 'a' if x==1 else 'b')
# Siendo "nombre_columna_origen" la columna del DataFrame original a la que se le aplica la operación
```


* Otra manera de hacerlo podría ser:


```python
data_frame['nombre_nueva_columna'] = data_frame.apply(lambda row: 'a' if row.nombre_columna_origen==1 else 'b', axis=1)
```


* De esta manera obtenemos una nueva columna llamada '*nombre_nueva_columna*' con un nuevo valor derivado de la columna '*nombre_columna_origen*' que tendrá valor *'a'* si la columna '*nombre_columna_origen*' tiene valor igual a *'1'*, o valor *'b'* en otro caso.


* Veamos un ejemplo en el que vamos a crear una nueva columna llamada '*country*' en la que a partir de la columna '*brand*' vamos a poner el nombre del pais al que pertenece la marca del coche:
    - Renault: Francia
    - Seat: España
    - Opel: Alemania

In [9]:
df_vehicles['country'] = df_vehicles['brand'].apply(lambda x: 'Francia' if x == 'Renault' 
                                                    else ('España' if x == 'Seat' else 'Alemania'))
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers,miles,country
0,1,Renault,Clio,10,6.2,Francia
1,2,Renault,Megane,23000,14260.0,Francia
2,3,Seat,Ibiza,9000,5580.0,España
3,2,Seat,Leon,20,12.4,España
4,5,Opel,Corsa,999,619.38,Alemania
5,4,Renault,Clio,34000,21080.0,Francia
6,1,Seat,Ibiza,2000,1240.0,España
7,2,Seat,Cordoba,99999,61999.38,España
8,3,Renault,Clio,88888,55110.56,Francia


* Veamos a continuación otro ejemplo en el que creamos una nueva columna viendo el contenido de más de una columna.


* Para ello vamos a crearnos una nueva columna llamada *'gama'* que tendrá los valores de:
    - ***mid***: Si la marca en Renault y el modelo Megane 
    - ***low***: Si la marca en Renault y el modelo Clio
    - ***Unknown***: En caso contrario

In [10]:
df_vehicles['gama'] = df_vehicles.apply(lambda row: 'mid' if row.brand == 'Renault' and row.model == 'Megane' 
                                        else ('low' if row.brand == 'Renault' and row.model == 'Clio' 
                                              else 'Unknown') 
                                        , axis=1)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers,miles,country,gama
0,1,Renault,Clio,10,6.2,Francia,low
1,2,Renault,Megane,23000,14260.0,Francia,mid
2,3,Seat,Ibiza,9000,5580.0,España,Unknown
3,2,Seat,Leon,20,12.4,España,Unknown
4,5,Opel,Corsa,999,619.38,Alemania,Unknown
5,4,Renault,Clio,34000,21080.0,Francia,low
6,1,Seat,Ibiza,2000,1240.0,España,Unknown
7,2,Seat,Cordoba,99999,61999.38,España,Unknown
8,3,Renault,Clio,88888,55110.56,Francia,low


<hr>


## 5. Agregaciones


* Las agregaciones son una de las operaciones más potentes del Análisis Exploratorio de Datos (EDA). 


* Esta operación nos permite ***obtener INFORMACIÓN DE LOS DATOS***, haciendo un ***resumen de los datos y viendo cuantos elementos (o valores de la fila) son iguales.***


* Ejemplo conceptual de una agregación:


<img src="./imgs/04_01_groupby.png" style="width: 400px;"/>


* Posteriormente se pueden ***aplicar operaciones aritméticas o estadísticas***:

    - ***count***: Número de observaciones no nulas
    - ***sum***: Suma de los valores
    - ***mean***: Media de los valores
    - ***mad***: Desviación Media Absoluta de los valores
    - ***median***: Mediana de los valores
    - ***min***: Valor mínimo
    - ***max***: Valor máximo
    - ***first***: Primer valor encontrado en la agrupación
    - ***last***: Último elemento encontrado en la agrupación
    - ***mode***: Moda
    - ***product***: Producto de los valores
    - ***std***: Desviación Estandar
    - ***var***: Varianza
    - ***sem***: Error estandar
    - ***skew***: Asimetria de los valores
    - ***kurt***: La Curtosis
    - ***quantile***: Cuantil
    - ***value_counts***: Número de valores únicos


* La ***sintaxis*** para realizar agrupaciones sería:


```python
df.groupby(['lista_columnas_agrupar'])['columna_aplicar_operacion'].agg(['lista_operaciones_agregación'])
```
    
### 5.1 Ejemplo de agregación por un campo y conteo


* Un primer ejemplo de agregación sería

In [11]:
df_vehicles.groupby(['brand']).agg(['count'])

Unnamed: 0_level_0,user_id,model,kilometers,miles,country,gama
Unnamed: 0_level_1,count,count,count,count,count,count
brand,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Opel,1,1,1,1,1,1
Renault,4,4,4,4,4,4
Seat,4,4,4,4,4,4


* Como se puede observar nos da como ***resultados de la agregación las diferentes Marcas de coches*** y un ***conteo de marcas por cada una de las columnas*** ya que ***no le hemos indicado sobre que columna tiene que operar***.


* ***Si no se le indica un campo (o campos) sobre los que queremos aplicar la agregación, aplicará las operaciones de agregación sobre todos los campos (numéricos) del DataFrame*** que pueda aplicar la operación de agregación.


* Para ello le podemos ***indicar*** después del "groupBy" ***sobre que columna vamos a aplicar la operación de agregación***:

In [12]:
df_vehicles.groupby(['brand'])['brand'].agg(['count'])

Unnamed: 0_level_0,count
brand,Unnamed: 1_level_1
Opel,1
Renault,4
Seat,4


### 5.2 Ejemplo de agregación por un campo y aplicación de operaciones de agregación


* Se pueden ***realizar cuantas operaciones de agregación se quieran sobre los campos que se quieran*** (siempre que tengan sentido).


* Veamos a continuación un ***ejemplo de una agregación por marca***, y ***aplicamos sobre la columna Kilometros varias operaciones***:

In [13]:
df_vehicles.groupby(['brand'])['kilometers'] \
           .agg(['count', 'sum', 'mean', 'median', 'max', 'min', 'std', 'var', 'first', 'last']) \
           .reset_index()

Unnamed: 0,brand,count,sum,mean,median,max,min,std,var,first,last
0,Opel,1,999,999.0,999,999,999,,,999,999
1,Renault,4,145898,36474.5,28500,88888,10,37702.873644,1421507000.0,10,88888
2,Seat,4,111019,27754.75,5500,99999,20,48316.649341,2334499000.0,9000,99999


### 5.3 Ejemplo de agregación por más de un campo


* Veamos a continuación un ejemplo de agregación por los campos *'brand'* y *'model'*, aplicando las operaciones de agregación sobre el campo '*kilometers*':
    - Conteo
    - Suma
    - Media
    - Mediana

In [14]:
df_vehicles.groupby(['brand', 'model'])['kilometers'] \
           .agg(['count', 'sum', 'mean', 'median']) \
           .reset_index()

Unnamed: 0,brand,model,count,sum,mean,median
0,Opel,Corsa,1,999,999,999
1,Renault,Clio,3,122898,40966,34000
2,Renault,Megane,1,23000,23000,23000
3,Seat,Cordoba,1,99999,99999,99999
4,Seat,Ibiza,2,11000,5500,5500
5,Seat,Leon,1,20,20,20


<hr>


## 6. Ordenaciones (Sort)


* Otra de las operaciones interesantes a la hora de trabajar con datos, es poder ***realizar ordenaciones por alguno/s de sus campos***.


* Con la función *'sort_values'* podemos oredenar el DataFrame por el/los campo/s que le indiquemos.


* La ***sintaxis*** sería la siguiente:


```python
df.sort_values(by='nombre_columna_a_ordenar', ascending=Boolean)
```


* Por ejemplo podemos ordenar el DataFrame de vehiculos por el número de kilometros que han realizado:

In [15]:
df_vehicles.sort_values(by='kilometers', ascending=False)

Unnamed: 0,user_id,brand,model,kilometers,miles,country,gama
7,2,Seat,Cordoba,99999,61999.38,España,Unknown
8,3,Renault,Clio,88888,55110.56,Francia,low
5,4,Renault,Clio,34000,21080.0,Francia,low
1,2,Renault,Megane,23000,14260.0,Francia,mid
2,3,Seat,Ibiza,9000,5580.0,España,Unknown
6,1,Seat,Ibiza,2000,1240.0,España,Unknown
4,5,Opel,Corsa,999,619.38,Alemania,Unknown
3,2,Seat,Leon,20,12.4,España,Unknown
0,1,Renault,Clio,10,6.2,Francia,low


* También nos permite hacer ordenaciones por valores que no son numéricos como por ejemplo:

In [16]:
df_vehicles.sort_values(by='brand', ascending=True)

Unnamed: 0,user_id,brand,model,kilometers,miles,country,gama
4,5,Opel,Corsa,999,619.38,Alemania,Unknown
0,1,Renault,Clio,10,6.2,Francia,low
1,2,Renault,Megane,23000,14260.0,Francia,mid
5,4,Renault,Clio,34000,21080.0,Francia,low
8,3,Renault,Clio,88888,55110.56,Francia,low
2,3,Seat,Ibiza,9000,5580.0,España,Unknown
3,2,Seat,Leon,20,12.4,España,Unknown
6,1,Seat,Ibiza,2000,1240.0,España,Unknown
7,2,Seat,Cordoba,99999,61999.38,España,Unknown


<hr>


## 7. Joins (Merge)


* La operación Join (o Merge en Pandas) permite ***combinar registros de 2 o más DataFrames*** (o tablas) a partir de una o más ***claves comunes***.


* La ***sintaxis*** para realizar los merges seria:


```python
pd.merge(left_data_frame, right_data_frame, how='tipo_de_join', on='id')
```


* O en caso de que los ***ids*** tuviesen ***nombres diferentes*** sería:


```python
pd.merge(left_data_frame, right_data_frame, how='tipo_de_join', left_on='id_left', right_on='id_right')
```


* Siendo los tipos de Join permitidos:
    - ***inner***
    - ***left***
    - ***right***
    - ***outer***


* Veamos a continuación como se realizan y los resultados que arrojan los diferentes tipos de Joins, utilizando los siguientes dos DataFrames de ejemplo:


<img src="./imgs/04_02_join.png" style="width: 300px;"/>

In [17]:
df_x = pd.DataFrame({'id_x': ['a', 'b'], 'long': ['aaaa', 'bbb']})
df_y = pd.DataFrame({'id_y': ['b', 'c'], 'sort': ['bb', 'cc']})

### 7.1 INNER JOIN


* ***INNER JOIN*** selecciona todas las filas de los dos DataFrames siempre y cuando haya ***una coincidencia entre las columnas en ambos DataFrames***.


<img src="./imgs/04_03_inner.png" style="width: 700px;"/>


In [18]:
pd.merge(df_x, df_y, how='inner', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,b,bbb,b,bb


### 7.2 LEFT JOIN


* ***LEFT JOIN*** mantiene ***todas las filas del DataFrame de la izquierda*** (left). ***Las filas del DataFrame de la derecha (right) se mostrarán si hay una coincidencia con los de la izquierda***. 


* Si existen valores en el DataFrame de la izquierda pero no en el de la derecha, éste mostrará NaN (***N***ot ***a*** ***N***umber).


<img src="./imgs/04_04_left.png" style="width: 700px;"/>

In [19]:
pd.merge(df_x, df_y, how='left', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,a,aaaa,,
1,b,bbb,b,bb


### 7.3 RIGHT JOIN


* ***RIGHT JOIN*** mantiene ***todas las filas del DataFrame de la derecha*** (right). ***Las filas del DataFrame de la Izquierda (left) se mostrarán si hay una coincidencia con las de la derecha***. 


* Si existen valores en el DataFrame de la derecha pero no en el de la izquierda, éste mostrará NaN (***N***ot ***a*** ***N***umber).


<img src="./imgs/04_05_right.png" style="width: 700px;"/>

In [20]:
pd.merge(df_x, df_y, how='right', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,b,bbb,b,bb
1,,,c,cc


### 7.4 OUTER JOIN


* ***OUTER JOIN*** o (FULL OUTER JOIN) devuelve todas las filas del DataFrame de la izquierda (left) y del de la derecha (right). ***Combina el resultado de los joins LEFT y RIGHT***. 


* Aparecerá NaN (***N***ot ***a*** ***N***umber) en cada uno de los DataFrames alternativamente cuando no haya una coincidencia.


<img src="./imgs/04_06_outer.png" style="width: 700px;"/>


In [21]:
pd.merge(df_x, df_y, how='outer', left_on='id_x', right_on='id_y')

Unnamed: 0,id_x,long,id_y,sort
0,a,aaaa,,
1,b,bbb,b,bb
2,,,c,cc


### 7.5 Ejemplo "real" utilizando la operación JOIN


* Dados los dos DataFrames *'df_vehicles'* y *'df_users'* que tienen como clave común el campo ***'user_id'*** vamos a:

    1. Identificar por el nombre a quien pertenece cada vehículo (inner join)
    2. Mostrar para todos los usuarios registrados en el DataFrame df_users, cuales son sus coches si los tienen (left join).
    
    
<img src="./imgs/04_07_ejemplo_join.png" style="width: 400px;"/>


#### 7.5.1. Identificar por el nombre a quien pertenece cada vehículo (inner join)

In [22]:
pd.merge(df_vehicles, df_users, how='inner', on=['user_id'])

Unnamed: 0,user_id,brand,model,kilometers,miles,country,gama,name
0,1,Renault,Clio,10,6.2,Francia,low,Don Pepito
1,1,Seat,Ibiza,2000,1240.0,España,Unknown,Don Pepito
2,2,Renault,Megane,23000,14260.0,Francia,mid,Don Jose
3,2,Seat,Leon,20,12.4,España,Unknown,Don Jose
4,2,Seat,Cordoba,99999,61999.38,España,Unknown,Don Jose
5,3,Seat,Ibiza,9000,5580.0,España,Unknown,Fofo
6,3,Renault,Clio,88888,55110.56,Francia,low,Fofo
7,5,Opel,Corsa,999,619.38,Alemania,Unknown,Fofito
8,4,Renault,Clio,34000,21080.0,Francia,low,Miliki


#### 7.5.2 Mostrar para todos los usuarios registrados en el DataFrame df_users, cuales son sus coches si los tienen (left join)


* Se puede observar que el usuario con identifcador '6' no tiene ningún coche, por eso el valor de sus columnas (del DataFrame df_vehicles) tienen valor nulo (NaN).

In [23]:
pd.merge(df_users, df_vehicles, how='left', on=['user_id'])

Unnamed: 0,user_id,name,brand,model,kilometers,miles,country,gama
0,1,Don Pepito,Renault,Clio,10.0,6.2,Francia,low
1,1,Don Pepito,Seat,Ibiza,2000.0,1240.0,España,Unknown
2,2,Don Jose,Renault,Megane,23000.0,14260.0,Francia,mid
3,2,Don Jose,Seat,Leon,20.0,12.4,España,Unknown
4,2,Don Jose,Seat,Cordoba,99999.0,61999.38,España,Unknown
5,3,Fofo,Seat,Ibiza,9000.0,5580.0,España,Unknown
6,3,Fofo,Renault,Clio,88888.0,55110.56,Francia,low
7,4,Miliki,Renault,Clio,34000.0,21080.0,Francia,low
8,5,Fofito,Opel,Corsa,999.0,619.38,Alemania,Unknown
9,6,Gaby,,,,,,


<hr>


## 8. Uniones (Concat)


* Esta operación ***Union*** (o Concat en Pandas) permite ***unir dos o más DataFrames (de forma vertical)***.


* La ***sintaxis*** para realizar las uniones seria:


```python
pd.concat([df_1, df_2,...,df_n], sort=Boolean)
```


* Se reciben dos parámetros que son:
    1. Una lista de DataFrames a unir
    2. sort: Puede tener valores True o False y nos permite indicar si ordena las columnas por el orden alfabetico de sus nombres.


* Veamos a continuación un ejemplo de como unir dos DataFrames *'df_vehicles'* y un segundo DataFrame *'df_coches'* que definimos a continuación:

In [24]:
df_coches = pd.DataFrame({'user_id': [6, 6], 
                         'brand': ['Ferrari', 'Aston Martin'],
                         'model': ['Testarossa', 'db9'],
                         'kilometers': [2376, 6584]})
df_coches

Unnamed: 0,user_id,brand,model,kilometers
0,6,Ferrari,Testarossa,2376
1,6,Aston Martin,db9,6584


* La unión de estos dos DataFrames seria:


<img src="./imgs/04_08_union.png" style="width: 600px;"/>


* A continuación vemos como unir los dos DataFrames:

In [25]:
pd.concat([df_vehicles, df_coches], sort=False)

Unnamed: 0,user_id,brand,model,kilometers,miles,country,gama
0,1,Renault,Clio,10,6.2,Francia,low
1,2,Renault,Megane,23000,14260.0,Francia,mid
2,3,Seat,Ibiza,9000,5580.0,España,Unknown
3,2,Seat,Leon,20,12.4,España,Unknown
4,5,Opel,Corsa,999,619.38,Alemania,Unknown
5,4,Renault,Clio,34000,21080.0,Francia,low
6,1,Seat,Ibiza,2000,1240.0,España,Unknown
7,2,Seat,Cordoba,99999,61999.38,España,Unknown
8,3,Renault,Clio,88888,55110.56,Francia,low
0,6,Ferrari,Testarossa,2376,,,


<hr>


## 9. Pivot Tables


* Esta operación ***permite poner ciertas columnas en filas y ciertas filas en columnas***.


* La ***sintaxis*** de esta operación sería:


```python
df.pivot(index='nombre_columna_a_fila', columns='nombre_columna_a_columna', values='nombre_columna_a_valores')
```


* En esencia es una operación que permite crear una *'matriz de valores'* a partir de una *'tabla'*.


* Esta operación de ***pivot table*** es muy utilizada en las hojas de cálculo Excel y similares.


* Veamos a continuación un ejemplo, usando los datos del fichero *'goleadores.csv'*:

   
* Tenemos un DataFrame con los 7 máximos goleadores de 3 temporadas. Dado que es un DataFrame '*muy largo'*, podemos aplicar la función pivot table para ver esta misma información más compacta y legible en forma de Matriz.

In [26]:
df_goleadores = pd.read_csv('./data/ejemplo_EDA/goleadores.csv', header=0)
df_goleadores

Unnamed: 0,TEMPORADA,FUTBOLISTA,GOLES
0,16/17,Messi,37
1,16/17,Luis Suárez,29
2,16/17,Cristiano,25
3,16/17,Aspas,19
4,16/17,Aduriz,16
5,16/17,Griezmann,16
6,16/17,Morata,15
7,17/18,Messi,34
8,17/18,Cristiano,26
9,17/18,Luis Suárez,25


* Realizamos la operación pivot table para crear la *'matriz'*.

In [27]:
df_goleadores.pivot(index='TEMPORADA', columns='FUTBOLISTA', values='GOLES')

FUTBOLISTA,Aduriz,Aspas,Ben Yedder,Benzema,Borja Iglesias,Cristiano,Griezmann,Luis Suárez,Maxi Gómez,Messi,Morata,Stuani
TEMPORADA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
16/17,16.0,19.0,,,,25.0,16.0,29.0,,37.0,15.0,
17/18,,22.0,,,,26.0,19.0,25.0,17.0,34.0,,21.0
18/19,,20.0,18.0,21.0,17.0,,15.0,21.0,,36.0,,19.0


<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">