### Uso básico de la herramienta.

1. **Alistamiento:** Importar todas las librerías necesarias desde el principio.
2. **Cargar Datos:** Alistar los datos a analizar y validarlos.
3. **Primeras preguntas:** Empecemos por lo básico y luego vamos escalando.
4. **Grafiquemos:** Una imagen vale mas que 1000 palabras, y para eso matplotlib y seaborn.
5. **Analicemos mas:** Analicemos un poco mas (y un poco mejor).

### 1. Alistamiento.

In [None]:
# Cargar librerias y definimos algunos elementos y caracteristicas.
import warnings; warnings.simplefilter('ignore')

import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt
import matplotlib; matplotlib.style.use('ggplot')

from pandas import set_option
set_option("display.max_rows", 16)

LARGE_FIGSIZE = (12, 8)

In [None]:
# inline plots
%matplotlib inline

### 2. Cargar datos.

In [None]:
# Leemos el conjunto de datos y lo cargamos a un DataFrame en el objeto "df", y luego verificamos las primeras lineas.
df = pd.read_csv('sources/life_expectancy.csv')
df.head()

In [None]:
# ¿Como es el conjunto de datos procesado
df.shape

In [None]:
# ¿Que contiene?
df.info()

In [None]:
# Definimos un indice, y volvemos a mirar como es ahora.
df = df.set_index('Country')
df.head()

### 3. Primeras preguntas

**¿Incrementó la expectativa de vida desde 1960 a 2013?**

In [None]:
df.mean().plot()

**En 1960 ¿que países tenían la expectativa de vida mas baja y la mas alta?**

In [None]:
# idxmax e idxmin evidencian los indices correspondientes a los mayores y menos valores en una columna.
print(df['1960'].idxmax())
print(df['1960'].idxmin())

**¿Cuales son los valores de la media, el mas bajo y el mas alto en 1960?**

In [None]:
# max y min brindan los valores, mean calcula la media.
print(np.round(df['1960'].max()))
print(np.round(df['1960'].min()))
print(np.round(df['1960'].mean()))

**¿Cuales son los valores mas alto, mas bajo y la media para un año dado?**

In [None]:
# Definimos una funcion (es Python a fin de cuentas) para obtener "high", "low", y la mediana para un año dado.
def high_low_mean(year):
    print("En el año", year)
    print(df[year].idxmin(), "tuvo la expectativa de vida mas baja, con:", np.round(df[year].min()))
    print(df[year].idxmax(), "tuvo la expectativa de vida mas alta, con:", np.round(df[year].max()))
    print("La expectativa de vida media fue de: ", np.round(df[year].mean()))

In [None]:
high_low_mean('2010')

**¿Que países vieron los mayores cambios en su expectativa de vida?**

In [None]:
# Calculamos el cambio y lo añadimos a una nueva columna "gain": gain = (value_in_2013 - value_in_1960)/value_in_1960
df['gain'] = np.round((df['2013']-df['1960'])/df['1960'],2)

In [None]:
# Volvemos a revisar como se ve ahora
df.head()

In [None]:
# y creamos un DataFrame solo con ese dato y miramos como se ve.
gain = df['gain']
gain.head()

In [None]:
# Ordenemos la serie y descartemos los valores ausentes, y veamos como se ve nuevamente.
df_gain = gain.dropna().order(ascending=False)
df_gain.head()

In [None]:
# Los diez paises con el mayor incremento.
df_gain.head(10)

In [None]:
# Los diez paises con el menor incremento.
df_gain.tail(10)

In [None]:
# Borramos la columna "gain" del dataframe original porque ya la tenemos por aparte.
del df['gain']

In [None]:
# Un histograma.
df_gain.hist()

In [None]:
# Grafica del KDE (kernel density estimation) de "gains"
df_gain.plot(kind='kde')

In [None]:
# La grafica resultante es muy grande para poder ser apreciada, pero puede exportarse a una imagen.
ax = df_gain.plot(kind='bar', figsize=(50,25));
ax.plot()
# fig = ax.get_figure()
# fig.savefig('gains.png')

## 4. Grafiquemos un poco

### Histogramas

In [None]:
# Expectativa de vida en 1960.
df.hist(column='1960', bins=20);

In [None]:
# Comparemos 1960 contra 2013.
f, (ax1, ax2) = plt.subplots(2);
df.hist(column='1960', ax=ax1);
df.hist(column='2013', color='green', ax=ax2);

In [None]:
# Ahora hagamoslo en la misma grafica.
f, (ax1) = plt.subplots(1,figsize=LARGE_FIGSIZE)
df.hist(column='1960',bins=30, ax=ax1);
df.hist(column='2013',bins=30, color='blue', ax=ax1);
plt.xlabel('Expectativa de Vida')
plt.ylabel('Número de Países')
plt.title("1960 vs 2013")

In [None]:
# Demasiado a mano, volvamoslo una funcion para usarlo en cualquier año.
def compare_hist(year1,year2):
    f, (ax1) = plt.subplots(1,figsize=LARGE_FIGSIZE)
    df.hist(column=year1,bins=20, ax=ax1);
    df.hist(column=year2,bins=20, color='blue', ax=ax1);
    plt.xlabel('Life Expectancy')
    plt.ylabel('Number of Countries')
    plt.title(str(year1) + " vs " + str(year2))

In [None]:
compare_hist('1960','2010')

### Kernel Density Estimate (KDE) and Rugplot

In [None]:
# Visualicemos un poco los datos, y aprovechemos que los analisis pueden parametrizarse.

sns.distplot(df['2010'].dropna(), hist=True, kde=True, rug=False, bins=25);

In [None]:
# Asi como lo hicimos antes, ahora volvamoslo funcion para comparar años.
def sns_compare(year1,year2):
    f, (ax1) = plt.subplots(1, figsize=LARGE_FIGSIZE)
    for yr in range(int(year1),int(year2)):
        sns.distplot(df[str(yr)].dropna(), hist=False, kde=True, rug=False, bins=25)

In [None]:
sns_compare('2000','2010')

In [None]:
# Una comparacion lado a lado.
f, (ax1) = plt.subplots(1, figsize=LARGE_FIGSIZE)
sns.distplot(df['1960'].dropna(),hist=True, kde=True, rug=False, bins=25);
sns.distplot(df['2010'].dropna(),hist=True, kde=True, rug=False, bins=25);
plt.xlabel('Exopectativa de Vida');
plt.ylabel('Cantidad de Paises');
plt.title('Expectativa de Vida: 1960 vs 2010')

#### Diagrama de caja.

In [None]:
# boxplot using standard pandas and matplotlib
df.boxplot(column='1960');

In [None]:
df.boxplot(column=['1960','2010']);

#### Diagrama de violin.

In [None]:
sns.violinplot(df['1960'])

In [None]:
sns.violinplot(df['1960'], palette="Set2",linewidth=5)
sns.violinplot(df['2010'],linewidth=5)

## 5. Analicemos un poco mas (y un poco mejor).

In [None]:
# Veamos como se ve en este momento el conjunto de datos.
df.head()

In [None]:
# Ahora transformemos el conjunto de datos.
transform = df.T
transform.head()

In [None]:
# Eliminamos el codigo de pais, no hace falta para lo que se quiere ver.
t = transform.ix[1:]
t.head()

In [None]:
# Ya sabiamos que Noruega tuvo el valor mas alto para 1960
t['Norway'].plot()

# y que Mali tuvo el mas bajo.
t['Mali'].plot()

plt.legend();

In [None]:
print("Ganancia en Noruega = ", df_gain['Norway'])
print("Ganancia en Mali. = ", df_gain['Mali'])

### Visualicemos los datos a "vuelo de pajaro" 1960 - 2013

In [None]:
fig = plt.figure(figsize=LARGE_FIGSIZE)
df.boxplot(sym="*");
plt.xticks(rotation='vertical');

In [None]:
# La expectiva de vida tuvo una caida marcada en 1977 ¿donde fue?
df['1977'].idxmin()

In [None]:
# La expectiva de vida de nuevo tuvo una caida profunda en 1993 ¿donde fue?
df['1993'].idxmin()

In [None]:
# Comparemos esos dos paises dentro de nuestro conjunto de datos.
fig = plt.figure(figsize=(20,10), dpi=200)
t['Cambodia'].plot(marker='o', color='blue');
t['Rwanda'].plot(marker='o',color='green');
df.mean().plot(color='red', label='Mean');
plt.xticks(rotation='vertical');
plt.legend();

### Comparemos conjuntos de paises.

In [None]:
# Al igual que antes, hagamoslo en una funcion para poder reutilizar el proceso.
def compare(countries):
    for country in countries:
        t[country].plot(figsize=(20,10))
        print(country, df_gain[country])
    plt.legend();

In [None]:
# Primero creamos una lista de los 10 paises con la expectativa de vida mas baja en 1960.
bot10 = df.sort_values(by='1960')['1960'].head(10).index.tolist()
bot10

In [None]:
# Y ahora creamos un segundo conjunto de 10 paises con la expectativa de vida mas alta.
top10 = df.sort_values(by='1960')['1960'].dropna().tail(10).index.tolist()
top10

In [None]:
# comparemos entonces.
compare(bot10)

In [None]:
compare(top10)

In [None]:
latam = ['Argentina','Bolivia','Colombia','Chile','Brazil','Paraguay','Uruguay']
compare(latam)