<center>
<h4>Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación</h4>
<h3>Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones</h3>
</center>

<h1> Práctico I - Estadística </h1>
<h3> Análisis y Visualización de Datos - 2019 </h3>

Durante este práctico vamos a trabajar sobre el dataset [Human Freedom Index 2018](https://www.cato.org/human-freedom-index-new) de el instituto Cato. Este índice mide en detalle lo que entendemos como libertad, utilizando 79 indicadores de libertad personal y económica en distintos aspectos, hasta obtener un hermoso numerito del 1 al 10. Usaremos una [versión ya limpia del dataset](https://www.kaggle.com/gsutters/the-human-freedom-index/home) que pueden descargar desde Kaggle.

Las variables más importantes sobre las que trabaja el dataset son:

* Rule of Law
* Security and Safety
* Movement
* Religion
* Association, Assembly, and Civil Society
* Expression and Information
* Identity and Relationships
* Size of Government
* Legal System and Property Rights
* Access to Sound Money
* Freedom to Trade Internationally
* Regulation of Credit, Labor, and Business

Nosotros centrarermos nuestro análisis en variables relacionadas a *Identity and Relationships* en paises de Latinoamérica, y los compararemos con las estadísticas globales. La pregunta a responder es simple: **¿Qué niveles de libertad se viven en Latinoamérica, especificamente en cuanto libertades de indentidad?**. Sin embargo, para hacer un análisis de los datos tenemos que platear también estas sub preguntas:

1. ¿Qué significa tener un puntaje de 4.5? Hay que poner los puntajes de la región en contexto con los datos del resto del mundo.
2. ¿Cuál es la tendencia a lo largo de los años? ¿Estamos mejorando, empeorando?
3. En este estudio, la libertad se mide con dos estimadores principales: *hf_score* que hace referencia a Human Freedom, y *ef_score* que hace referencia a Economic Freedom. Estos dos estimadores, ¿se relacionan de la misma manera con la libertad de identidad?

Inicialmente, en toda exploración de datos tenemos muy poca información a priori sobre el significado de los datos y tenemos que empezar por comprenderlos. Les proponemos los siguientes ejercicios como guía para comenzar esta exploración.

In [8]:
import matplotlib.pyplot as plt
import numpy
import pandas
import seaborn
# import plotly.plotly as py
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

init_notebook_mode(connected=True)

pandas.options.display.max_rows = 4000

seaborn.set_context(context='talk', font_scale=1.2)

In [10]:
! pip install cufflinks --upgrade 

Requirement already up-to-date: cufflinks in /home/mariano/.virtualenvs/scikit/lib/python3.6/site-packages (0.15)


In [14]:
import cufflinks as cf
cf.set_config_file(offline=True)

In [2]:
seaborn.__version__

'0.9.0'

In [3]:
dataset = pandas.read_csv('../datasets/hfi_cc_2018.csv')
dataset.shape

(1458, 123)

In [4]:
dataset.columns  # Way too many columns!

Index(['year', 'ISO_code', 'countries', 'region', 'pf_rol_procedural',
       'pf_rol_civil', 'pf_rol_criminal', 'pf_rol', 'pf_ss_homicide',
       'pf_ss_disappearances_disap',
       ...
       'ef_regulation_business_bribes', 'ef_regulation_business_licensing',
       'ef_regulation_business_compliance', 'ef_regulation_business',
       'ef_regulation', 'ef_score', 'ef_rank', 'hf_score', 'hf_rank',
       'hf_quartile'],
      dtype='object', length=123)

Por suerte las columnas tienen un prefijo que nos ayuda a identificar a qué sección pertenecen. Nos quedamos sólo con las que comienzan con *pf_indentity*, junto con otras columnas más generales

In [5]:
important_cols = ['year', 'ISO_code', 'countries', 'region']

important_cols += [col for col in dataset.columns if 'pf_identity' in col]

important_cols += [
    'ef_score', # Economic Freedom (score)
    'ef_rank', # Economic Freedom (rank)
    'hf_score', # Human Freedom (score)
    'hf_rank', # Human Freedom (rank)
]
idataset = dataset[important_cols]

In [6]:
dataset[important_cols]

Unnamed: 0,year,ISO_code,countries,region,pf_identity_legal,pf_identity_parental_marriage,pf_identity_parental_divorce,pf_identity_parental,pf_identity_sex_male,pf_identity_sex_female,pf_identity_sex,pf_identity_divorce,pf_identity,ef_score,ef_rank,hf_score,hf_rank
0,2016,ALB,Albania,Eastern Europe,0.0,10.0,10.0,10.0,10.0,10.0,10.0,5.0,6.25,7.54,34.0,7.56814,48.0
1,2016,DZA,Algeria,Middle East & North Africa,,0.0,5.0,2.5,0.0,0.0,0.0,0.0,0.833333,4.99,159.0,5.135886,155.0
2,2016,AGO,Angola,Sub-Saharan Africa,10.0,10.0,10.0,10.0,0.0,0.0,0.0,10.0,7.5,5.17,155.0,5.640662,142.0
3,2016,ARG,Argentina,Latin America & the Caribbean,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,4.84,160.0,6.469848,107.0
4,2016,ARM,Armenia,Caucasus & Central Asia,7.0,10.0,10.0,10.0,10.0,10.0,10.0,5.0,8.0,7.57,29.0,7.241402,57.0
5,2016,AUS,Australia,Oceania,7.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,9.25,7.98,10.0,8.582219,4.0
6,2016,AUT,Austria,Western Europe,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,7.58,27.0,8.413474,16.0
7,2016,AZE,Azerbaijan,Caucasus & Central Asia,0.0,10.0,10.0,10.0,10.0,10.0,10.0,5.0,6.25,6.49,106.0,6.083277,130.0
8,2016,BHS,Bahamas,Latin America & the Caribbean,,10.0,10.0,10.0,10.0,10.0,10.0,,10.0,7.34,49.0,7.397269,50.0
9,2016,BHR,Bahrain,Middle East & North Africa,,0.0,0.0,0.0,10.0,10.0,10.0,0.0,3.333333,7.56,30.0,6.848035,75.0


## 1. Estadísticos descriptivos

  1. Para comenzar con un pantallazo de los datos, calcular el rango de las variables.
  2. Obtener media, mediana y desviación estándar de las variables *pf_identity* y *hf_score* en el mundo y compararla con la de Latinoamérica y el caribe. ¿Tiene sentido calcular la moda? 
  3. ¿Son todos los valores de *pf_identity*  y *hf_score* directamente comparables? ¿Qué otra variable podría influenciarlos?
  4. ¿Cómo pueden sanearse los valores faltantes?
  5. ¿Encuentra outliers en estas dos variables? ¿Qué método utiliza para detectarlos? ¿Los outliers, son globales o por grupo? ¿Los eliminaría del conjunto de datos?
  
  

  1. Para comenzar con un pantallazo de los datos, calcular el rango de las variables.

In [31]:
idataset.describe()

Unnamed: 0,year,pf_identity_legal,pf_identity_parental_marriage,pf_identity_parental_divorce,pf_identity_parental,pf_identity_sex_male,pf_identity_sex_female,pf_identity_sex,pf_identity_divorce,pf_identity,ef_score,ef_rank,hf_score,hf_rank
count,1458.0,205.0,923.0,923.0,1358.0,1375.0,1378.0,1378.0,585.0,1378.0,1378.0,1378.0,1378.0,1378.0
mean,2012.0,6.307317,7.248104,7.632719,7.428203,6.709091,7.935414,7.325835,7.538462,7.33418,6.78561,76.973149,6.993444,77.007983
std,2.582875,3.635095,3.953387,3.689772,3.705913,4.683089,4.028877,4.048606,3.644142,3.159473,0.883601,44.540142,1.025811,44.506549
min,2008.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.88,1.0,3.765827,1.0
25%,2010.0,7.0,5.0,5.0,5.0,0.0,10.0,5.0,5.0,5.0,6.25,38.0,6.336685,39.0
50%,2012.0,7.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,9.166667,6.9,77.0,6.92384,76.0
75%,2014.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,7.41,115.0,7.89466,115.0
max,2016.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,9.19,162.0,9.126313,162.0


2. Obtener media, mediana y desviación estándar de las variables pf_identity y hf_score en el mundo y compararla con la de Latinoamérica y el caribe. ¿Tiene sentido calcular la moda?

Para mi en este caso no tiene sentido calcular la moda porque no nos daria ninguna información de valor sobre el valor de datos en su conjunto.

In [55]:
latinoamerica =  dataset[dataset["region"] == "Latin America & the Caribbean"]
latinoamerica[["pf_identity", "hf_score"]].describe()

Unnamed: 0,pf_identity,hf_score
count,232.0,232.0
mean,8.765086,7.047982
std,1.711732,0.608904
min,5.0,4.200724
25%,7.5,6.779311
50%,10.0,7.028045
75%,10.0,7.339903
max,10.0,8.290152


In [32]:
dataset[["pf_identity", "hf_score"]].describe()

Unnamed: 0,pf_identity,hf_score
count,1378.0,1378.0
mean,7.33418,6.993444
std,3.159473,1.025811
min,0.0,3.765827
25%,5.0,6.336685
50%,9.166667,6.92384
75%,10.0,7.89466
max,10.0,9.126313


3. ¿Son todos los valores de pf_identity y hf_score directamente comparables? ¿Qué otra variable podría influenciarlos?

Sin los podemos comparar y asi evaluar cual es el comportamiento de acuerdo a el score que obtenga. Aparte estos valos se pueden ver influenciados tambien por la libertad economica. 

In [51]:
#seaborn.barplot(data=dataset, x='pf_identity', y='hf_score')

data = [go.Scatter(x=dataset.pf_identity, y=dataset.hf_score,  mode = 'markers')]

iplot(data)

In [60]:
data = [go.Scatter(x=dataset.hf_score, y=dataset.ef_score,  mode = 'markers')]
iplot(data)

4. ¿Cómo pueden sanearse los valores faltantes?

Omitiendo los datos faltantes y removiendolos del dataset.

In [83]:
dataset[dataset["hf_score"].isnull() == False]

Unnamed: 0,year,ISO_code,countries,region,pf_rol_procedural,pf_rol_civil,pf_rol_criminal,pf_rol,pf_ss_homicide,pf_ss_disappearances_disap,...,ef_regulation_business_bribes,ef_regulation_business_licensing,ef_regulation_business_compliance,ef_regulation_business,ef_regulation,ef_score,ef_rank,hf_score,hf_rank,hf_quartile
0,2016,ALB,Albania,Eastern Europe,6.661503,4.547244,4.666508,5.291752,8.920429,10.0,...,4.050196,7.324582,7.074366,6.705863,6.906901,7.54,34.0,7.56814,48.0,2.0
1,2016,DZA,Algeria,Middle East & North Africa,,,,3.819566,9.456254,10.0,...,3.765515,8.523503,7.029528,5.676956,5.268992,4.99,159.0,5.135886,155.0,4.0
2,2016,AGO,Angola,Sub-Saharan Africa,,,,3.451814,8.06026,5.0,...,1.94554,8.096776,6.782923,4.930271,5.5185,5.17,155.0,5.640662,142.0,4.0
3,2016,ARG,Argentina,Latin America & the Caribbean,7.098483,5.79196,4.34393,5.744791,7.622974,10.0,...,3.260044,5.253411,6.508295,5.535831,5.369019,4.84,160.0,6.469848,107.0,3.0
4,2016,ARM,Armenia,Caucasus & Central Asia,,,,5.003205,8.80875,10.0,...,4.575152,9.319612,6.491481,6.79753,7.378069,7.57,29.0,7.241402,57.0,2.0
5,2016,AUS,Australia,Oceania,8.43911,7.525648,7.364078,7.776279,9.623538,10.0,...,7.2389,8.944387,8.823021,8.121631,8.465526,7.98,10.0,8.582219,4.0,1.0
6,2016,AUT,Austria,Western Europe,8.969832,7.872188,7.673227,8.171749,9.737912,10.0,...,6.41889,7.296116,8.531578,7.41987,7.371334,7.58,27.0,8.413474,16.0,1.0
7,2016,AZE,Azerbaijan,Caucasus & Central Asia,,,,4.270861,9.143499,10.0,...,5.353533,6.959699,7.814181,7.080078,6.87488,6.49,106.0,6.083277,130.0,4.0
8,2016,BHS,Bahamas,Latin America & the Caribbean,6.930835,6.008696,6.26284,6.40079,0.0,10.0,...,,7.981672,7.388227,7.523034,8.169125,7.34,49.0,7.397269,50.0,2.0
9,2016,BHR,Bahrain,Middle East & North Africa,,,,5.900339,9.790481,10.0,...,6.596745,8.07467,9.680534,8.018774,7.415786,7.56,30.0,6.848035,75.0,2.0


4. ¿Encuentra outliers en estas dos variables? ¿Qué método utiliza para detectarlos? ¿Los outliers, son globales o por grupo? ¿Los eliminaría del conjunto de datos?

Si hay outliers en estas dos variables. 

Se calcula la media y los rangos intercuartiles, los elementos que queden por fuera serian los outliers. 

Hay pocos outliers globales, pero al analizarlos por region se denota una mayor cantidad de outliers. 

No porque no son un error estadistico o datos mal tomados. 

In [34]:
data = [go.Box(x=dataset.hf_score, boxmean=True)]
iplot(data)
#dataset.hf_score.iplot(kind='box')
#seaborn.boxplot(data=dataset, x='hf_score')

In [30]:
# Boxplot sencillo con pandas dataset.boxplot("hf_score", by="region")
data = []

for d in dataset.groupby("region"):
    data.append(go.Box(x=d[1].hf_score, name=d[0], boxmean=True))
iplot(data)

In [32]:
data = [go.Box(x=dataset.ef_score, boxmean=True)]
iplot(data)

In [37]:
data = []

for d in dataset.groupby("region"):
    data.append(go.Box(x=d[1].ef_score, name=d[0], boxmean=True))
iplot(data)

In [55]:
outlinesLatinoAmerica = dataset[ (dataset["region"] == "Latin America & the Caribbean") & (dataset["ef_score"] < 5.58)][["countries","year","ef_score"]]
outlinesLatinoAmerica

Unnamed: 0,countries,year,ef_score
3,Argentina,2016,4.84
157,Venezuela,2016,2.88
165,Argentina,2015,4.98
319,Venezuela,2015,2.96
327,Argentina,2014,4.49
481,Venezuela,2014,3.28
489,Argentina,2013,4.88
643,Venezuela,2013,3.32
651,Argentina,2012,5.04
805,Venezuela,2012,3.82


## 2. Agregación de datos

1. Grafiquen la media de la variable *pf_identity* y *hf_score* a través de los años.
2. Realicen los mismos gráficos, pero separando por regiones (Cada variable en un gráfico distinto, sino no se ve nada). ¿La tendencia observada, es la misma que si no dividimos por regiones?
3. Si lo consideran necesario, grafiquen algunos países de Latinoamerica para tratar de explicar la tendencia de la variable *pf_identity* en la región. ¿Cómo seleccionarion los países relevantes a esa tendencia?

Hint: hay un gráfico de seaborn que hace todo por vos!

Sólo por curiosidad, graficar la tendencia de *hf_score* y *ef_score* a través de los años. ¿Tienen alguna hipótesis para este comportamiento?

## 2. Distribuciones
  1. Graficar en un mismo histograma la distribución de la variable *pf_identity* en global, y en Latinoamérica y el caribe. Repetir para la variable *hf_score*. ¿Visualmente, a qué tipo de distribución corresponde cada variable? ¿Es correcto utilizar todos los registros para esas zonas en estos gráficos?
  2. Realizar una prueba de Kolmogorov-Smirnof para comprobar analíticamente si estas variables responden la distribución propuesta en el ejercicio anterior. Hint: podés usar https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.kstest.html, pero hay que tener en cuenta que si la distribución es "norm", entonces va a comparar los datos con una distribución normal con media 0 y desviación estándar 1. Se puede utilizar la distribución sobre todos los datos o sólo sobre Latinoamérica.
  3. Realizar un gráfico QQ de las mismas distribuciones. Se puede utilizar a,bas distribuciones sobre todos los datos o sólo sobre Latinoamérica, pero no cruzadas.
  4. Medir la asimetría (skew) y curtosis de las mismas distribuciones con las que realizó el gráfico anterior. ¿Cómo se relacionan estos estadísticos con la forma del gráfico QQ obtenido previamente? ¿El gráfico QQ provee más información que no esté presente en estos estadísticos?

## 3. Correlaciones

En este ejercicio queremos responder a las preguntas

* Las libertades sociales y económicas, ¿van siempre de la mano?
* ¿Cómo se relacionan ambas con las libertades individuales y respectivas a las relaciones personales?

Para ello, analizaremos las correlaciones entre las variables pf_identity, hf_score y ef_score. 

Como pf_indentity contribuye al cálculo de hf_score y ef_score, esperamos hallar algún grado de correlación. Sin embargo, queremos medir qué tanta correlación. 

1. ¿Qué conclusiones puede sacar de un gráfico pairplot de estas tres variables? ¿Es adecuado para los valores de pf_identity? ¿Por qué?
2. Graficar la correlación entre pf_identity y hf_score; y entre pf_identity y ef_score. Analizar el resultado, ¿se pueden sacar conclusiones? Tengan en cuenta que como pf_identity es el resultado de un promedio, sólo toma algunos valores. Es, en efecto, discreta.
3. Calcular algún coeficiente de correlación adecuado entre los dos pares de variables, dependiendo de la cantidad de datos, el tipo de datos y la distribución de los mismo. Algunas opciones son: coeficiente de pearson, coeficiente de spearman, coeficientes de tau y de kendall. Interpretar los resultados y justificar si las variables están correlacionadas o no. 
4. [Opcional] Analizar la correlación entre la region y el hf_score (y/o el ef_score); y entre la region y el pf_identity. Considerar que como la variable *region* es ordinal, debe utilizarse algún tipo de test. Explicar cuáles son los requisitos necesarios para la aplicación de ese test. (Si no se cumplieran, se pueden agregar algunos datos para generar más registros)
