# Análisis Exploratorio Country Data

En esta sección emplearemos la base de datos `Country Data` en la que se recoge información sobre distintos indicadores de cada país. Comenzamos explorando esta base de datos para familiarizarnos con la información contenida en ella:

<div>
<img src="./media/mapamundi.jpg" width="500"/>
</div>

Para el análisis exploratorio empleamos los siguientes módulos:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Comenzamo cargando nuestros datos en un dataframe de pandas:

In [None]:
paises_data = pd.read_csv('./data/country_data.csv', index_col = 0)

Comprobamos que los datos se hayan cargado de manera correcta:

In [None]:
paises_data.head()

Inspeccionamos las dimensiones de nuestros dataframe:

In [None]:
paises_data.shape

Observamos que tiene 167 observaciones, es decir, que estamos tratando información de 167 países, cuyos nombres se encuentran en el índice. En estos países estudiamos un total de 9 variables o indicadores.

A continuación se presenta el diccionario de datos:

## Diccinario de datos

A continuación se explican las nueve variables que componen este dataframe:

* **child_mort**.  Mortalidad infantil. Esta variable mide el número de niños muertos antes de los cinco años por cada 1000 nacimientos.
* **exports**.  Exportaciones. Esta variable mide el porcentaje de riqueza que suponen las exportaciones sobre el PIB.
* **health**.  Salud. Esta variable mide el porcentaje del PIB destinado a sanidad.
* **imports**.  Importaciones. Esta variable mide el porcentaje de importaciones de bienes y servicios sobre el PIB.
* **Income**.  Ingresos. Esta variable mide los ingresos netos por persona.

* **Inflation**.  Inflación. Esta variable mide la inflación.

* **life_spec**.  Esperanza de vida. Esta variable mide el número medio de años que se espera que viva un recién nacido si las condiciones del país se mantienen estables.

* **total_fer**.  Tasa de fertilidad. Esta variable mide el número de hijos que tendría una mujer en su vida si las condiciones del país se mantienen estables.

* **gdpp**.  PIB. Esta variable mide el Producto Interior Bruto per capita. Es decir, PIB divido por la población.

## Valores perdidos

Comprobamos si existen valores perdidos para alguna de las variables:

In [None]:
paises_data.info()

Observamos que todas las variables se encuentran completas. No existen huecos en nuestra base de datos.

A excepción del índice todas las variables son numéricas. Como sabemos el índice de un DataFrame está formado por valores únicos (no pueden existir dos filas con el mismo índice) no puede haber países repetidos.

Exploramos pues las variables numéricas.

## Estadísticos relevantes

Comenzamos calculando los estadísticos más relevantes:

In [None]:
paises_data.describe()

En este caso existen variables muy desequilibradas como, por ejemplo, los ingresos con una media de 17144 y una mediana de 9960 o el Producto Interior Bruto con una media de 12964 frente a una mediana de 4660. Además podemos observar que las variables se mueven en rangos diametralmente distintos. La fertilidad oscila entre 1.15 y 7.49 frente a los ingresos que varían entre 609 y 125.000. Si algún dato nos sorprende podemos explorarlo concretamente:

In [None]:
paises_data[paises_data.income==paises_data.income.max()]

## Visualización de los datos

A continuación construimos los histogramas de cada variable para familiarizarnos más con la base de datos:

In [None]:
def plot_quantitative_variables(dataframe, list_quantitative_columns):
    for variable in list_quantitative_columns:
        plt.figure()
        dataframe[variable].plot(kind = 'hist', title=variable)

In [None]:
plot_quantitative_variables(paises_data, paises_data.columns)

Observamos que en este caso las variables son bastante dispares en cuanto a distribución. Existen algunas próximas a una distribución normal como la del gasto en sanidad o las exportaciones. Si observamos otras como los ingresos que ya vimos que no estaba centrada observamos como el peso de la distibuciones se concentra en ingresos relativamente bajos frente a la expectativa de vida que se concentra en valores bastante altos. Observamos que pese a la enorme variabilidad del PIB la mayor parte de los valores se encuentran concentrados entre 0 y 20.000.

Para concluir nuestro análisis exploratorio y por tratarse de variables numéricas todas ellas es interesante construir la matriz de correlación.

## Matriz de correlación

Calculamos como siempre la matriz de correlación:

In [None]:
corr_matrix = paises_data.corr()
corr_matrix

Por tratarse de una matriz de gran tamaño parece más inteligente intentar sacar las conclusiones a partir de un mapa de calor:

In [None]:
# Generamos una máscara para el triángulo superior
mask = np.zeros_like(corr_matrix, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Construimos la figura en matplotlib
f, ax = plt.subplots(figsize=(11, 9))

# Generamos el mapa de calor
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Dibujamos el mapa usando la máscara y añadiendo algunos parámetros que mejoran la visualización
sns.heatmap(corr_matrix, mask=mask, cmap=cmap, vmax=1,vmin=-1, center=0, square=True, linewidths=.5, cbar_kws={"shrink": .5});

A partir del mapa de calor podemos apreciar tres correlaciones especialmente marcadas:

* La mortalidad infantil está directamente correlacionada con la tasa de fertilidad (0.84 de coeficiente de correlación) algo que es bastante coherente, los países con más natalidad suelen ser aquellos en los que se tienen más hijos en parte porque muchos no sobreviven y en parte por la falta de métodos de planificación familiar.

* La mortalidad infantil está inversamente correlacionada con la esperanza de vida (-0.89 de coeficiente de correlación). Esto viene dado en sí por la definición de las variables, evidentemente si la tasa de mortalidad infantil baja significa que lo habitantes se mueren con más edad y por tanto aumenta la esperanza de vida.

* El PIB está directamente correlacionado con los ingresos (0.90 de coeficiente de correlación) también de manera bastante trivial pues cuánta más riqueza tenga un país mayores serán los ingresos de sus habitantes.

Otro coeficiente algo más bajo pero que sigue siendo bastante alto y me ha sorprendido es la correlación inversa (-0.76 ) entre la esperanza de vida y la tasa de fertilidad, algo que se ve actualmente muy reflejado en países como España o Japón.

En los siguientes notebooks continuaremos profundizando en la exploración de este dataset calculando primero las componentes principales y posteriormente segmentando en clusters.