# Clase Repaso - Módulo 1 "Las herramientas del cíentífico de datos"

# EJERCICIO 1 - Python

## Contexto
El Informe Mundial de la Felicidad es una encuesta histórica sobre el estado de la felicidad global. El primer informe se publicó en 2012, el segundo en 2013, el tercero en 2015 y el cuarto en la Actualización de 2016. El World Happiness 2017, que clasifica a 155 países según sus niveles de felicidad, se lanzó en las Naciones Unidas en un evento que celebra el Día Internacional de la Felicidad el 20 de marzo. El informe continúa ganando reconocimiento mundial a medida que los gobiernos, las organizaciones y la sociedad civil utilizan cada vez más los indicadores de felicidad para informar sus decisiones de formulación de políticas. Los principales expertos en todos los campos (economía, psicología, análisis de encuestas, estadísticas nacionales, salud, políticas públicas y más) describen cómo las mediciones de bienestar se pueden usar de manera efectiva para evaluar el progreso de las naciones.

## Contenido
Los puntajes y clasificaciones de felicidad utilizan datos de la Encuesta Mundial Gallup. Las puntuaciones se basan en las respuestas a la pregunta principal de evaluación de la vida formulada en la encuesta. Esta pregunta, conocida como la escalera de Cantril, les pide a los encuestados que piensen en una escalera con la mejor vida posible para ellos con un 10 y la peor vida posible con un 0 y que califiquen sus propias vidas actuales en esa escala. Las puntuaciones provienen de muestras representativas a nivel nacional para los años 2013-2016 y utilizan los pesos de Gallup para hacer que las estimaciones sean representativas. Las columnas que siguen la puntuación de felicidad estiman el grado en que cada uno de los seis factores (producción económica, apoyo social, esperanza de vida, libertad, ausencia de corrupción y generosidad) contribuyen a que las evaluaciones de vida sean más altas en cada país que en la distopía, un país hipotético que tiene valores iguales a los promedios nacionales más bajos del mundo para cada uno de los seis factores. No tienen impacto en el puntaje total reportado para cada país, pero sí explican por qué algunos países tienen una clasificación más alta que otros.

## ¿Qué es la distopía?

La distopía es un país imaginario que tiene las personas menos felices del mundo. El propósito de establecer la distopía es tener un punto de referencia con el que todos los países puedan ser comparados favorablemente (ningún país tiene un desempeño más pobre que la distopía) en términos de cada una de las seis variables clave, permitiendo así que cada subbarra sea de ancho positivo. Las puntuaciones más bajas observadas para las seis variables clave, por lo tanto, caracterizan la distopía. Dado que la vida sería muy desagradable en un país con los ingresos más bajos del mundo, la esperanza de vida más baja, la generosidad más baja, la mayoría de la corrupción, la menor libertad y el menor apoyo social, se conoce como "distopía", en contraste con la utopía.

Sobre los informes de felicidad de 2015 y 2016 realizar las siguientes exploraciones:

* Carga los dos csv como datasets
* Identifica las columnas de ambos datasets, ¿Hay diferencias entre ambos datasets?.
* Une ambos dataframes, si importar que los dos compartan las mismas diferencias.
* Revisa el número de nulos que hay por cada columna, así como su porcentaje.
* Cambia los valores nulos de las columnas "Lower Confidence Interval" y "Upper Confidence Interval" por un número aleatorio entre el valor mínimo y máximo de la misma columna (un único número, no es necesario uno diferente para cada fila con valor nulo).
* Cambia los valores nulos de la columna "Standard Error" por su media al cuadrado.
* Obtén un resumen estadístico del dataframe sin valores nulos.
* Muestra de forma gráfica la relación entre la familia y la salud.
* Muestra de forma gráfica la relación entre el score de felicidad y la confianza (Corrupción del gobierno)
* Muestra la matriz de correlación del daframe
* Sabiendo que tras unir los dataframe, los países aparecerán más de una vez, muestra agrupado el dataframe por país mostrándo el valor máximo de felicidad, sin importar el año.
* ¿Tiene realación la felicidad con la generosidad?, muéstralo gráficamente a través de la puntuación libertad.
* Muestra la distribución del grado de distopía en función de la región.

# SOLUCIÒN

In [None]:
import pandas as pd

Carga los dos csv como datasets

In [None]:
df_15 = pd.read_csv('2015.csv')
df_16 = pd.read_csv('2016.csv')

Identifica las columnas de ambos datasets, ¿Hay diferencias entre ambos datasets?

In [None]:
df_15.columns

In [None]:
df_16.columns

Vemos que hay columnas que no son comunes, por lo que tomarán valores nulos:
* Standard Error
* Lower Confidence Interval
* Upper Confidence Interval

Une ambos dataframes, si importar que los dos compartan las mismas diferencias.

In [None]:
df = pd.concat([df_15, df_16], ignore_index=True, join='outer')

Revisa el número de nulos que hay por cada columna, así como su porcentaje.

In [None]:
print("*CANTIDAD de datos nulos por columna en el dataframe")
print(df.isnull().sum())
print("----------------------------------")
print("*PORCENTAJE de datos nulos por columna en el dataframe")
print(df.isnull().sum()/len(df)*100)

Cambia los valores nulos de las columnas "Lower Confidence Interval" y "Upper Confidence Interval" por un número aleatorio entre el valor mínimo y máximo de la misma columna (un único número, no es necesario uno diferente para cada fila con valor nulo).

In [None]:
import numpy as np

In [None]:
# Creamos una función para devolver el valor aleatorio.

def get_random(df_column):
    min_value = df_column.min()
    max_value = df_column.max()
    
    return np.random.randint(min_value, max_value, 1)[0] # [0] Para eliminar problema con arrays

In [None]:
df['Lower Confidence Interval'] = df['Lower Confidence Interval'].fillna(
    get_random(df_column = df['Lower Confidence Interval'])
)

df['Upper Confidence Interval'] = df['Upper Confidence Interval'].fillna(
    get_random(df_column = df['Upper Confidence Interval'])
)

Cambia los valores nulos de la columna "Standard Error" por su media al cuadrado.

In [None]:
df['Standard Error'] = df['Standard Error'].fillna(
    (df['Standard Error'].mean())**2
)

Obtén un resumen estadístico del dataframe sin valores nulos.

In [None]:
df.describe()

In [None]:
# Aconsejable cerciorarse de que ya no hay valores nulos.

print("*CANTIDAD de datos nulos por columna en el dataframe")
print(df.isnull().sum())
print("----------------------------------")
print("*PORCENTAJE de datos nulos por columna en el dataframe")
print(df.isnull().sum()/len(df)*100)

Muestra de forma gráfica la relación entre la familia y la salud.

In [None]:
import seaborn as sns

In [None]:
sns.jointplot(x='Family', y='Health (Life Expectancy)', data=df, kind='reg')

Muestra de forma gráfica la relación entre el score de felicidad y la confianza (Corrupción del gobierno)

In [None]:
sns.jointplot(x='Happiness Score', y='Trust (Government Corruption)', data=df, kind='reg')

Muestra la matriz de correlación del daframe

In [None]:
df.corr()

In [None]:
sns.heatmap(df.corr(), cmap='coolwarm')

Sabiendo que tras unir los dataframe, los países aparecerán más de una vez, muestra agrupado el dataframe por país mostrándo el valor máximo de felicidad, sin importar el año.

In [None]:
df[['Country', 'Happiness Score']].groupby(['Country']).max()

¿Tiene realación la felicidad con la generosidad?, muéstralo gráficamente a través de la puntuación libertad.

In [None]:
from plotnine import *

In [None]:
(
    ggplot(df) +
    geom_point(mapping=aes(x='Happiness Score', y="Generosity", fill = 'Freedom')) + 
    geom_smooth(aes(x='Happiness Score', y="Generosity"))
)

No tienen apenas relación.

Muestra la distribución del grado de distopía en función de la región.

In [None]:
(
    ggplot(df) +
    geom_histogram(mapping=aes(x='Dystopia Residual', fill = 'Region') )
)

Las regiones con mayor grado de distopía son: África sub-sahariana así como Latinoamérica y el caribe y, este y norte de África.