<h1 align=center><font size = 5>Waffle Charts,y Gráficos de regresión</font></h1>

## Introducción

En este notebook, aprenderemos cómo crear gráficos de waffles y cómo crear gráficos de regresión utilizando la biblioteca * seaborn *.

# Explorando con * pandas * y Matplotlib <a id="0"> </a>

Conjunto de datos: Inmigración a Canadá de 1980 a 2013 - [Flujos de migración internacional hacia y desde países seleccionados - La revisión de 2015] (http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows .shtml) del sitio web de las Naciones Unidas

El conjunto de datos contiene datos anuales sobre los flujos de migrantes internacionales registrados por los países de destino. Los datos presentan entradas y salidas según el lugar de nacimiento, la ciudadanía o el lugar de residencia anterior / siguiente, tanto para extranjeros como para nacionales. En este notebook, nos centraremos en los datos de inmigración canadiense.

# Análisis de datos <a id="2"></a>

In [None]:
import numpy as np 
import pandas as pd 

Importar el dataset. Averigurar porque usamos sheet_name, skiprow, skipfooter

In [None]:
df_can = pd.read_excel('Canada.xlsx', sheet_name='Canada by Citizenship',
                       skiprows=range(20),
                       skipfooter=2)

Visualicemos el dataset

In [None]:
df_can.head()

Cuantas columnas y filas hay en el dataset?

In [None]:
print(df_can.shape)

Limpiar datos: Haremos algunas modificaciones al conjunto de datos original para que sea más fácil crear nuestras visualizaciones. Consulte * Introducción a Matplotlib y Line Plots * y * Area Plots, Histograms, and Bar Plots * para obtener una descripción detallada de este preprocesamiento.

**Ejercicio**: Explicar brevemente los pasos realizados a continuación

In [None]:
# Eliminar columnas que no utilizaremos
df_can.drop(['AREA','REG','DEV','Type','Coverage'], axis = 1, inplace = True)

# Renombremos las columnas para que tengan sentido
df_can.rename (columns = {'OdName':'Country', 'AreaName':'Continent','RegName':'Region'}, inplace = True)

# en tener coherencia, hagamos que todas las etiquetas de las columnas sean string
df_can.columns = list(map(str, df_can.columns))

# usemos Country como un indice
df_can.set_index('Country', inplace = True)

# Pongamos una columna que sea el total de inmigrantes
df_can['Total'] =  df_can.sum (axis = 1)

# rango de años, es para más tarde
years = list(map(str, range(1980, 2014)))
print ('data dimensions:', df_can.shape)

# Visualización con Matplotlib<a id="4"></a>

In [None]:
%matplotlib inline

import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches 
mpl.style.use('ggplot') 

# chequear la versión de matplotlib
print ('Matplotlib version: ', mpl.__version__) # >= 2.0.0

En el caso de tener una version anterior a la 2.0.0 hacer un upgrade de matplotlib:

conda update matplotlib

Si tienen windows abrir la terminal como administrador

# Waffle Charts <a id="6"></a>


Un "gráfico de waffles" es una visualización interesante que normalmente se crea para mostrar el progreso hacia los objetivos. Por lo general, es una opción efectiva cuando intentan agregar características de visualización interesantes a una imagen que consta principalmente de celdas, como un panel de Excel.

Analicemos el dataset para  Denmark, Norway, and Sweden.

In [None]:
# creemos un nuevo dataframe con los tres paises
df_dsn = df_can.loc[['Denmark', 'Norway', 'Sweden'], :]

df_dsn.head()

Desafortunadamente, a diferencia de R, los gráficos `waffle` no están integrados en ninguna de las bibliotecas de visualización de Python. Por lo tanto, aprenderemos cómo crearlos desde cero.

**Paso 1.** El primer paso para crear un gráfico de waffles es determinar la proporción de cada categoría con respecto al total.

In [None]:
total_values = sum(df_dsn['Total'])
category_proportions = [(float(value) / total_values) for value in df_dsn['Total']]

for i, proportion in enumerate(category_proportions):
    print (df_dsn.index.values[i] + ': ' + str(proportion))

**Paso 2.** El segundo paso es definir el tamaño general de la tabla de "waffle".

In [None]:
width = 40 
height = 10 

total_num_tiles = width * height 
print ('Numero total de celdas ', total_num_tiles)

**Paso 3.** El tercer paso es usar la proporción de cada categoría para determinar el número respectivo de fichas

In [None]:
# celdas por categoria
tiles_per_category = [round(proportion * total_num_tiles) for proportion in category_proportions]

# imprimirla
for i, tiles in enumerate(tiles_per_category):
    print (df_dsn.index.values[i] + ': ' + str(tiles))

Sobre la base de las proporciones calculadas, Dinamarca ocupará 129 fichas de la tabla de "waffles", Noruega ocupará 77 fichas y Suecia ocupará 194 fichas.

**Paso 4.** El cuarto paso es crear una matriz que se parezca a la tabla de "waffle" y llenarla.

In [None]:
# inicializamos la tabla de waffle vacia
waffle_chart = np.zeros((height, width))

# definir índices para recorrer la tabla de waffle
category_index = 0
tile_index = 0

# llenar la tabla de waffles
for col in range(width):
    for row in range(height):
        tile_index += 1

       # si el número de mosaicos poblados para la categoría actual es igual a sus mosaicos asignados correspondientes ...        if tile_index > sum(tiles_per_category[0:category_index]):
            # ...seguir para la nueva categoría
            category_index += 1       
            
        # establece el valor de la clase en un entero, que aumenta con la clase
        waffle_chart[row, col] = category_index
        
print ('Waffle chart!')

Revicemos la matriz

In [None]:
waffle_chart

Como se esperaba, la matriz consta de tres categorías y el número total de instancias de cada categoría coincide con el número total de mosaicos asignados a cada categoría.

**Paso 5.** Asigne la matriz del gráfico `waffle` en un visual.

In [None]:
fig = plt.figure()

# vamos a usar matshow
colormap = plt.cm.coolwarm
plt.matshow(waffle_chart, cmap=colormap)
plt.colorbar()

**Step 6.** Embellecer el gráfico

In [None]:
fig = plt.figure()

colormap = plt.cm.coolwarm
plt.matshow(waffle_chart, cmap=colormap)
plt.colorbar()

ax = plt.gca()

ax.set_xticks(np.arange(-.5, (width), 1), minor=True)
ax.set_yticks(np.arange(-.5, (height), 1), minor=True)

ax.grid(which='minor', color='w', linestyle='-', linewidth=2)

plt.xticks([])
plt.yticks([])

**Paso 7.** Crea una leyenda y agrégala al gráfico.

In [None]:
fig = plt.figure()

colormap = plt.cm.coolwarm
plt.matshow(waffle_chart, cmap=colormap)
plt.colorbar()

ax = plt.gca()

ax.set_xticks(np.arange(-.5, (width), 1), minor=True)
ax.set_yticks(np.arange(-.5, (height), 1), minor=True)
    
ax.grid(which='minor', color='w', linestyle='-', linewidth=2)

plt.xticks([])
plt.yticks([])

values_cumsum = np.cumsum(df_dsn['Total'])
total_values = values_cumsum[len(values_cumsum) - 1]

legend_handles = []
for i, category in enumerate(df_dsn.index.values):
    label_str = category + ' (' + str(df_dsn['Total'][i]) + ')'
    color_val = colormap(float(values_cumsum[i])/total_values)
    legend_handles.append(mpatches.Patch(color=color_val, label=label_str))

plt.legend(handles=legend_handles,
           loc='lower center', 
           ncol=len(df_dsn.index.values),
           bbox_to_anchor=(0., -0.2, 0.95, .1)
          )

Ahora sería muy ineficiente repetir estos siete pasos cada vez que deseamos crear un gráfico de "waffle". Entonces, combinemos los siete pasos en una función llamada * create_waffle_chart *. Esta función tomaría los siguientes parámetros como entrada:

> 1. **categorías**: categorías o clases únicas en el marco de datos.
> 2. **valores**: valores correspondientes a categorías o clases.
> 3. **altura**: Altura definida de la tabla de Waffles.
> 4. **ancho**: ancho definido de la tabla de Waffles.
> 5. **mapa de colores**: clase de mapa de colores
> 6. **value_sign**: para que nuestra función sea más generalizable, agregaremos este parámetro a los signos de dirección que podrían asociarse con un valor como%, $, etc. ** value_sign ** tiene un valor predeterminado de cadena vacía.

In [None]:
def create_waffle_chart(categories, values, height, width, colormap, value_sign=''):

    # computa la proporción de cada categoría con respecto al total
    total_values = sum(values)
    category_proportions = [(float(value) / total_values) for value in values]

    # computa el total de celdas
    total_num_tiles = width * height # total number of tiles
    print ('Total number of tiles is', total_num_tiles)
    
    # computa el total de celdas por categoría
    tiles_per_category = [round(proportion * total_num_tiles) for proportion in category_proportions]

    # imprime 
    for i, tiles in enumerate(tiles_per_category):
        print (df_dsn.index.values[i] + ': ' + str(tiles))
    
    # inicaliza el waffle con 0
    waffle_chart = np.zeros((height, width))

    category_index = 0
    tile_index = 0

    # waffle chart
    for col in range(width):
        for row in range(height):
            tile_index += 1

            if tile_index > sum(tiles_per_category[0:category_index]):
                
                category_index += 1       
            
            waffle_chart[row, col] = category_index
    
   
    fig = plt.figure()

    plt.matshow(waffle_chart, cmap=colormap)
    plt.colorbar()

    ax = plt.gca()

    ax.set_xticks(np.arange(-.5, (width), 1), minor=True)
    ax.set_yticks(np.arange(-.5, (height), 1), minor=True)
    
    ax.grid(which='minor', color='w', linestyle='-', linewidth=2)

    plt.xticks([])
    plt.yticks([])

    values_cumsum = np.cumsum(values)
    total_values = values_cumsum[len(values_cumsum) - 1]

    legend_handles = []
    for i, category in enumerate(categories):
        if value_sign == '%':
            label_str = category + ' (' + str(values[i]) + value_sign + ')'
        else:
            label_str = category + ' (' + value_sign + str(values[i]) + ')'
            
        color_val = colormap(float(values_cumsum[i])/total_values)
        legend_handles.append(mpatches.Patch(color=color_val, label=label_str))

    plt.legend(
        handles=legend_handles,
        loc='lower center', 
        ncol=len(categories),
        bbox_to_anchor=(0., -0.2, 0.95, .1)
    )

Ahora para crear un gráfico `waffle`, todo lo que tenemos que hacer es llamar a la función` create_waffle_chart`. Definamos los parámetros de entrada:

In [None]:
width = 40 
height = 10 

categories = df_dsn.index.values # categorias
values = df_dsn['Total'] 
colormap = plt.cm.inferno# color map de las clases

Y ahora llamemos a nuestra función para crear un gráfico `waffle`.

In [None]:
create_waffle_chart(categories, values, height, width, colormap)

**Ejercicio**: seleccionar otra configuración de colores y volver a gráficar. Ver https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html

Hay un nuevo paquete de Python para generar 'gráficos de waffle' llamado [PyWaffle] (https://github.com/ligyxy/PyWaffle), pero parece que el repositorio todavía se está construyendo. Pero siéntase libre de echarle un vistazo y jugar con él.

# Gráficos de regresión (Regression Plots) <a id="10"></a>

Cree un nuevo dataframe que almacene el número total de inmigrantes desembarcados a Canadá por año desde 1980 hasta 2013.

Describa los pasos realizados a continuación

In [None]:
df_tot = pd.DataFrame(df_can[years].sum(axis=0))

df_tot.index = map(float, df_tot.index)

df_tot.reset_index(inplace=True)

df_tot.columns = ['year', 'total']

df_tot.head()

Con *seaborn*, generar una gráfica de regresión es tan simple como llamar a la función **regplot**.

In [None]:
import seaborn as sns
ax = sns.regplot(x='year', y='total', data=df_tot)

Ahora cambiemos el tipo de marcador y el color del gráfico

In [None]:
ax = sns.regplot(x='year', y='total', data=df_tot, color='green', marker='+')

Hagamos explotar un poco la trama para que sea más atractiva a la vista.

In [None]:
plt.figure(figsize=(15, 10))
ax = sns.regplot(x='year', y='total', data=df_tot, color='green', marker='+')

Y aumentemos el tamaño de los marcadores para que coincidan con el nuevo tamaño de la figura, y agreguemos un título y etiquetas x e y.

In [None]:
plt.figure(figsize=(15, 10))
ax = sns.regplot(x='year', y='total', data=df_tot, color='green', marker='+', scatter_kws={'s': 200})

ax.set(xlabel='Year', ylabel='Total Immigration') # add x- and y-labels
ax.set_title('Total Immigration to Canada from 1980 - 2013') # add title

¡Y finalmente aumente el tamaño de fuente de las etiquetas, el título y las leyendas x e y para que no se sientan excluidas!

In [None]:
plt.figure(figsize=(15, 10))

sns.set(font_scale=1.5)

ax = sns.regplot(x='year', y='total', data=df_tot, color='green', marker='+', scatter_kws={'s': 200})
ax.set(xlabel='Year', ylabel='Total Immigration')
ax.set_title('Total Immigration to Canada from 1980 - 2013')

**Ejercicio**: repetir el gráfico anterior pero con fondo blanco.

<hr>
Referencia: Copyright &copy; 2019 [Cognitive Class](https://cognitiveclass.ai/?utm_source=bducopyrightlink&utm_medium=dswb&utm_campaign=bdu). This notebook and its source code are released under the terms of the [MIT License](https://bigdatauniversity.com/mit-license/).