# Análisis Exploratorio de Datos

Comenzamos comprobando la versión de Python con la que estamos trabajando. Este curso se impartirá en Python 3.8.1 por lo que te recomiendo que tengas la misma versión o una más avanzada para seguirlo, si no podrías encontrar pequeños errores debidos a los cambios que Python realizada en cada versión.

In [None]:
import sys
print(sys.version)

En este cuaderno exploraremos distintas técnicas de análisis de datos sobre datasets. Antes de afrontar un problema de Machine Learning es necesario comprender los datos con los que estamos trabajando y realizar labores de preprocesamiento que nos permitan trabajar con ellos. En este notebook emplearemos cuatro módulos:

* __NumPy.__ Módulo para la realización de operaciones algebraicas con matrices y vectores.
* __Pandas.__ Módulo para la construcción y manipulación de DataFrames.
* __Matplotlib.__ Módulo para la visualización de datos. Permite construir diversos tipos de gráficos.
* __Seaborn.__ Módulo para la visualización de datos. Lo emplearemos para la construcción de mapas de calor.

Si no has trabajado con estos módulos previamente te saldrá un error similar al siguiente al tratar de importarlos:

In [None]:
import pandas

Esto indica que el módulo no se puede importar porque el paquete no ha sido instalado. Para instalar el paquete simplemente usamos la expresión: `!pip install nombre_paquete` 

En el caso concreto de pandas:

In [None]:
!pip install pandas

__Nota.__ Asegúrate de tener una conexión estable a internet a la hora de instalar nuevos módulos pues será necesario para descargarlos.

Análogamente:

In [None]:
!pip install matplotlib

In [None]:
!pip install seaborn

La distribución de pandas incluye numpy por lo que ya hemos realizado todas las instalaciones necesarias y podemos importar los módulos:

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt
import seaborn as sns

__Nota.__ Los módulos se importan con una pequeña abreviatura estándar para ahorrar tiempo y poder escribir pd/np en lugar de pandas/numpy cada vez que utilizamos uno de sus módulos.

Ahora que ya tenemos los módulos necesario procedemos en primer lugar a cargar los datos en el notebook.

## Carga de datos

Tras observar los datos estudiamos el comando `pandas.read_csv()`:

In [None]:
help(pd.read_csv)

In [None]:
pokemon_data = pd.read_csv('./data/Pokemon.csv') #en Windows se usaría la \ en lugar de / para indicar la ruta del archivo

Podemos visualizar los datos que acabamos de cargar:

In [None]:
pokemon_data

Tras esto los datos ya se han cargado en nuestro cuaderno. Podemos obtener una previsualización de los datos mediante el método `head()` que por defecto nos muestra las 5 primeras filas:

In [None]:
pokemon_data.head()

Podemos indicarle cuántas filas deseamos que nos muestre:

In [None]:
pokemon_data.head(6)

El método tail previsualiza las últimas filas en lugar de las primeras:

In [None]:
pokemon_data.tail()

Una buena medida para comprobar que se han cargado todos los datos y hacernos una idea del tamaño de dato con el que estamos trabajando es comprobar sus dimensiones mediante el atributo `shape`:

In [None]:
pokemon_data.shape

En este caso nuestro conjunto de datos consta de 800 filas y 13 columnas.

Otra comprobación interesante es el tipo de dato almacenado en cada columna que se obtiene mediante el atributo `dtypes`:

In [None]:
pokemon_data.dtypes

En este caso tenemos cuatro variables categóricas, _name_, _Type 1_,_Type 2_ y _Legendary_ siendo el resto de variables cuantitativas.

Ahora que ya hemos hecho una aproximación a los datos nos detendremos brevemente en comprender cada variable. Esta información suele venir adjunta al conjunto de datos y recibe el nombre de __diccionario de datos__. Explica el signficado real de cada variable y la unidad en la que ha sido medida y es de vital importancia para comprender el problema

### Diccionario de datos

Las variables presentes en este dataset son:

* __#__. Es un índice numérico. Una variable identificativa sin información para el problema. __Ojo.__ Veremos que si es útil para la exploración de datos.
* __Name__. Es el nombre del Pokèmon.
* __Type 1__. Tipo principal del Pokèmon.
* __Type 2__. Tipo secundario del Pokèmon.
* __Total__. La suma de todas las estadística de batallas, busca dar una indicación de la fuerza total del Pokèmon.
* __HP__. Puntos de salud del Pokèmon.
* __Attack__. Puntos ofensivos del Pokèmon.
* __Defense__. Puntos defensivos del Pokèmon.
* __Sp. Atk__. Puntos ofensivos del ataque especial del Pokèmon
* __Sp. Def__. Puntos defensivos de la defensa especial del Pokèmon
* __Speed__. Velocidad del Pokèmon.
* __Generation__. Generación en la que aparece el Pokèmon.
* __Legendary__. Indica si el Pokèmon es o no legendario.

Ahora que comprendemos los datos podemos explorarlos más en profundidad.

***


## Estadística de las variables

En este caso deben tratarse de manera diferente variables cuantitativas y cualitativas.

### Variables cualitativas

__Reminder.__ Variables cualitativas son aquellas que toman un número finito de valores. En nuestro caso las variables cualitativas son los nombres, el tipo principal y secundario y el indicador de si es legendario.

Podemos comenzar viendo cuántos valores distintos toma cada variable:

In [None]:
pokemon_data.head()

El método `nunique()` nos devuelve el número de valores distintos que toma una variable:

In [None]:
pokemon_data['Type 1'].nunique()

Además en ocasiones podemos estar interesados en saber cómo se distribuyen estos valores así que usando el método `value_counts()` podemos obtener el detalle de cada clase junto con el número apariciones ordenadas de mayor a menor:

In [None]:
pokemon_data['Type 1'].value_counts()

Por lo tanto tenemos 18 clases que podemos observar que no están balanceadas, solo existen cuatro Pokèmons de tipo volador frente a 112 de tipo agua.

Análogamente para el tipo secundario:

In [None]:
pokemon_data['Type 2'].nunique()

In [None]:
pokemon_data['Type 2'].value_counts()

De nuevo tenemos 18 clases y bastante disparidad. Es curioso que en este caso volador aparece como tipo secundario más frecuente y normal que era el segundo tipo principal más frecuente aparece en penúltima posición.

La variable nombre sin embargo presenta:

In [None]:
pokemon_data['Name'].nunique()

Si recordamos este es el número total de filas:

In [None]:
pokemon_data.shape

Por lo que tiene un valor único para cada fila.

__Nota.__ Cuando una variable tiene un valor único para cada fila esta variable no almacena información relevante a la hora de construir un modelo. Puede ser una variable con información relevante, por ejemplo, es interesante conocer el nombre de cada Pokèmon pero no aporta información para un modelo pues no se puede generalizar. Es importante conocer el nombre de un cliente en un banco pero no será una variable relevante a la hora de decidir si se le concede o no un crédito.

Por último en la variable de tipo bool sabemos que solo existen dos posibles valores True o False por lo que observamos cómo se distribuyen:

In [None]:
pokemon_data['Legendary'].value_counts()

Observamos que existen 65 legendario frente a 735 no legendarios. Son dos clases muy desbalanceadas, esto ocurre precisamente porque los Pokèmon legendarios son considerados más especiales que los no legendarios.

Por último, si prestamos atención a las variables descubriremos que _Generation_ es en realidad una variable categórica. Solo toma seis valores (1, 2, 3, 4, 5 y 6). Realmente se podrían sustituir los números por letras, por ejemplo, generación A, B, C... por lo que la trataremos como una variable cualitativa:



In [None]:
pokemon_data['Generation'].value_counts().sort_index() #ordenamos por índice para que sea más comprensible

En el análisis de datos no es solo importante los resultados si no las preguntas que nos podemos plantear en torno a ellos, por ejemplo, ¿vista esta distribución están las clases equilibradas? ¿A qué puede deberse el desequilibrio? ¿Es una base completa? ¿Se podría completar?

Hasta aquí hemos estudiado las variable cualitativas. Veamos ahora que pasa con las cuantitativas.

***

### Variables cuantitativas

__Reminder.__ Las variables cuantitativas son aquellas que pueden tomar un número infinito de valores.

En este caso para explorar cómo se distribuyen las variables recurriremos a estadísticos básicos como son la media, la mediana, la varianza, el mínimo, el máximo...

Las variables cuantitativas en una primera aproximación son: _#, Total, HP, Attack, Defense, Sp. Atk, Sp.Def, Speed._

Comencemos analizando la variable total:

In [None]:
print('La media de Total es:', pokemon_data['Total'].mean())
print('La mediana de Total es:', pokemon_data['Total'].median())
print('El valor máximo de Total es:', pokemon_data['Total'].min())
print('El valor mínimo de Total es:', pokemon_data['Total'].max())
print('La varianza de Total es:', pokemon_data['Total'].var())

Este rápido análisis numérico nos permite comprender que variable está distribuida de una manera bastante equilibrada (la media y la mediana se encuentran relativamente próxima). La varianza junto con los valores mínimos y máximos confirman que la variable toma un amplio rango de valores (180 a 780 puntos).

Ete problema es relativamente sencillo y emplea pocas variables pero qué ocurre si nos enfrentamos a un problema con 50 variables. Podemos emplear el método `describe( )`:

In [None]:
pokemon_data.describe()

__Ojo.__ Este método resulta muy útil pero es importante observar que realizará el análisis sobre todas las variables de tipo numérico, sin importar si son cualitativas o cuantitativas (si nos fijamos aparece Generation).

El método nos presenta para cada variable codificada como un número (que no cuantitativa):

* Count. Número de registros no nulos. En ocasiones podemos no disponer de cierta información de un Pokèmon concreto apareciendo un hueco en el lugar donde debería estar. 
* Mean. La media de la distribución de la variable.
* Std. La desviación estándar (raíz de la varianza) de la distribución de la variable.
* Min. El valor mínimo que toma la variable.
* Max. El valor máximo que toma la variable.
* 25%, 50%, 75%. Son los cuartiles de la distribución de la variable.

***
## Valores perdidos

Los valores perdidos en un dataset son aquellos que se desconocen. Sus causas de origen son diversas, mala ingesta de datos, mal procesamiento de los datos, cambios en la forma de recopilación del dato, negativa de los encuestados a comunicarlos. 

A la hora de detectar los valores empleamos el método `isna( )`:

In [None]:
pokemon_data.isna().sum()

Observamos que todas las variables se encuentran completas exceptuando el campo tipo secundario en 386 casos. En el siguiente cuaderno veremos maneras de imputar valores perdidos.

***

## Matriz de correlación

La correlación es la medida que  dos variables numéricas presentan una relación lineal, es decir, una relación que aumenta o disminuye a un ritmo constante.

__Nota.__ Esto se explicará en más profundidad y con ejemplos en el próximo módulo. De momento solo es importante conocer su cálculo mediante Python:


In [None]:
corr_0 = pokemon_data.corr()

In [None]:
corr_0

En la matriz de correlación observamos que aparecen las variables `Generation` y `Legendary`. La correlación solamente se calcula sobre variables cuantitativas por lo que no debe aparecer. Generamos un dataframe provisional para calcular correlación:

In [None]:
pokemon_quantitative_data = pokemon_data[['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']] #seleccionamos manualmente las variables cuantitativas
correlation_matrix = pokemon_quantitative_data.corr()
correlation_matrix

__Nota.__ Las matrices de correlación son siempre simétricas. La correlación del ataque con la defensa, será igual que la de la defensa con el ataque.

## Visualización de los datos

Hasta ahora hemos estado sacando los coeficientes más relevantes a la hora de explorar un conjunto de datos, pero ¿qué ocurre si nos encontramos ante un conjunto de datos con 50 variables? Necesitamos un métodos que nos permita explorar el conjunto más rápido. Aquí es donde entra en juego la visualización de los datos. A continuación se construyen funciones para la representación más relevante de las variables.

### Variables categóricas

Construimos la siguiente función que se puede emplear en cualquier dataset, no solo en este en el que estamos trabajando. Emplearemos gráficos de barras para visualizar variables categóricas:

In [None]:
def plot_categorical_variables(dataframe, list_categorical_columns):
    for variable in list_categorical_columns: # recorremos las variable categóricas
        plt.pyplot.figure() # creamos la figura
        dataframe[variable].value_counts().sort_index().plot(kind='bar', title=variable) # rellenamos la figura con un gráfico de barras

In [None]:
categorical_variables = ['Type 1', 'Type 2', 'Generation', 'Legendary']

In [None]:
plot_categorical_variables(pokemon_data, categorical_variables)

### Variables cuantitativas

En el caso de las variables cuantitativas emplearemos histogramas para visualizar su distribución. De nuevo esta función es reutilizable en otros datasets:

In [None]:
def plot_quantitative_variables(dataframe, list_quantitative_columns):
    for variable in list_quantitative_columns:
        plt.pyplot.figure()
        dataframe[variable].plot(kind = 'hist', title=variable)

In [None]:
quantitative_variables = ['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']

In [None]:
plot_quantitative_variables(pokemon_data, quantitative_variables)

### Correlación

Por último se puede construir un mapa de calor para visualizar las correlaciones entre variables de manera rápida y general. La matriz de correlaciones puede tomar dimensiones desproporcionadas cuando se trabaja con muchas variables:

In [None]:
# Generamos una máscara para el triángulo superior
mask = np.zeros_like(correlation_matrix, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Construimos la figura en matplotlib
f, ax = plt.pyplot.subplots(figsize=(11, 9))

# Generamos el mapa de calor
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Dibujamos el mapa usando la máscara y añadiendo algunos parámetros que mejoran la visualización
sns.heatmap(correlation_matrix, mask=mask, cmap=cmap, vmax=1,vmin=-1, center=0, square=True, linewidths=.5, cbar_kws={"shrink": .5});

__Nota.__ Representamos solo media matriz porque es simétrica. Representando solo una de las dos mitades facilitamos la lectura sin mostrar información redundante (este es de hecho uno de los principios básicos de la visualización de datos).

***

Hasta aquí hemos visto las partes más relevantes del análisis exploratorio de datos. El código presentado en este cuaderno puede ser adaptado y reutilizado para cualquier dataset y supondrá un buen punto de partida a la hora de enfrentarnos a un nuevo problema o a un nuevo conjunto de datos.

## Perfilado de datos

Para finalizar se presenta una pequeña herramienta de Pandas que genera un informe automático de las variables de un dataframe de manera rápida y automatizada:

In [None]:
!pip install pandas_profiling

In [None]:
import pandas_profiling
profile = pandas_profiling.ProfileReport(pokemon_data) # generamos el perfil de datos
profile.to_file("pokemon_report.html") # almacenamos el perfil de datos en un archivo html
profile

En este notebook hemos realizado un análisis exploratorio que nos ha permitido comenzar a comprender los pilares del análisis de datos. Hemos calculado los estadísticos más relevantes y generado visualizaciones que nos permiten comprender y explicar mejor los datos. Además hemos visto algunas de las preguntas que debemos plantearnos al atacar un nuevo conjunto de datos ¿qué información relevan sus variables? ¿Son distribuciones equilibradas? ¿Tenemos huecos en nuestros datos? 

A lo largo de todo este curso usaremos este notebook como plantilla para explorar los distintos conjuntos de datos con los que trabajaremos.