# Gráficos de Área, Barras e Histogramas




# Explorando Conjunto de Datos


Conjunto de datos: Inmigración a Canada desde 1980 a 2013 - [International migration flows to and from selected countries - The 2015 revision](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.asp) desde el sitio ewb de las Naciones Unidas.

El conjunto de datos contiene datos anuales sobre los flujos de migrantes internacionales registrados por los países de destino. Los datos presentan tanto las entradas como las salidas según el lugar de nacimiento, ciudadanía o lugar de residencia anterior/próxima tanto para extranjeros como para nacionales. 
Nos concentraremos en los datos de inmigración canadiense.


# Descarga y Preparación de Datos <a id="2"></a>


Lo primero que hay que realizar es la instalación de **openpyxl** (antiguamente conocido como **xlrd**) que es un módulo que **pandas** requiere para leer archivos Excel.


In [1]:
!pip install openpyxl



A continuación, se procederá a cargar los dos módulos claves para hacer análisis de datos **pandas** y
 **numpy**.

In [2]:
import numpy as np  # util para computación científica en Python
import pandas as pd # biblioteca que contienen la estructura de datos de uso principal

Ahora, se carga el conjunto de datos con los datos de la inmigración en Canadá usando el método de **pandas** `read_excel()`.


In [3]:
df_can = pd.read_excel(
    'datos/Canada.xlsx',
    sheet_name='Canada by Citizenship',
    skiprows=range(20),
    skipfooter=2)

Mostrar las primeras 5 filas del conjunto de datos usando la función `head()`.

In [8]:
df_can.tail(10)

Unnamed: 0,Type,Coverage,OdName,AREA,AreaName,REG,RegName,DEV,DevName,1980,...,2012,2013,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50
185,Immigrants,Foreigners,United States of America,905,Northern America,905,Northern America,901,Developed regions,9378,...,7891,8501,,,,,,,,
186,Immigrants,Foreigners,Uruguay,904,Latin America and the Caribbean,931,South America,902,Developing regions,128,...,47,58,,,,,,,,
187,Immigrants,Foreigners,Uzbekistan,935,Asia,5500,Central Asia,902,Developing regions,0,...,235,167,,,,,,,,
188,Immigrants,Foreigners,Vanuatu,909,Oceania,928,Melanesia,902,Developing regions,0,...,0,0,,,,,,,,
189,Immigrants,Foreigners,Venezuela (Bolivarian Republic of),904,Latin America and the Caribbean,931,South America,902,Developing regions,103,...,1373,1022,,,,,,,,
190,Immigrants,Foreigners,Viet Nam,935,Asia,920,South-Eastern Asia,902,Developing regions,1191,...,1731,2112,,,,,,,,
191,Immigrants,Foreigners,Western Sahara,903,Africa,912,Northern Africa,902,Developing regions,0,...,0,0,,,,,,,,
192,Immigrants,Foreigners,Yemen,935,Asia,922,Western Asia,902,Developing regions,1,...,174,217,,,,,,,,
193,Immigrants,Foreigners,Zambia,903,Africa,910,Eastern Africa,902,Developing regions,11,...,46,59,,,,,,,,
194,Immigrants,Foreigners,Zimbabwe,903,Africa,910,Eastern Africa,902,Developing regions,72,...,437,407,,,,,,,,


Descubrir cuantas entradas hay en el conjunto de datos.


In [9]:
# dimensión del dataframe (rows, columns)
df_can.shape    

(195, 51)

In [10]:
len(df_can)

195

Limpiar datos. Se realizarán algunas modificaciones al conjunto de datos original para que sea más fácil crear visualizaciones. La explicación de estas modificaciones están detalladas en el laboratorio anterior *"Introducción a Matplotlib y Gráficos de línea"*.

#### 1. Limpiar el conjunto de datos para eliminar las columnas que no son informativas para la visualización (por ejemplo, Tipo, AREA, REG).

In [11]:
df_can.drop(['AREA', 'REG', 'DEV', 'Type', 'Coverage'], axis=1, inplace=True)

# mostrar los primeros cinco elementos para ver cómo se cambió el dataframe
df_can.head()

Unnamed: 0,OdName,AreaName,RegName,DevName,1980,1981,1982,1983,1984,1985,...,2012,2013,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50
0,Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,340,...,2635,2004,,,,,,,,
1,Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,0,...,620,603,,,,,,,,
2,Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,44,...,3774,4331,,,,,,,,
3,American Samoa,Oceania,Polynesia,Developing regions,0,1,0,0,0,0,...,0,0,,,,,,,,
4,Andorra,Europe,Southern Europe,Developed regions,0,0,0,0,0,0,...,1,1,,,,,,,,


Observar cómo las columnas Tipo, Cobertura, AREA, REG y DEV se eliminaron del dataframe.

#### 2. Cambiar el nombre de algunas de las columnas para que tengan sentido.

In [14]:
nombres = {
    'OdName':'Country', 
    'AreaName':'Continent',
    'RegName':'Region'
}

In [16]:
df_can.rename(columns=nombres, inplace=True)

# mostrar los primeros cinco elementos para ver cómo se cambió el dataframe
df_can.head()

Unnamed: 0,Country,Continent,Region,DevName,1980,1981,1982,1983,1984,1985,...,2012,2013,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50
0,Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,340,...,2635,2004,,,,,,,,
1,Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,0,...,620,603,,,,,,,,
2,Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,44,...,3774,4331,,,,,,,,
3,American Samoa,Oceania,Polynesia,Developing regions,0,1,0,0,0,0,...,0,0,,,,,,,,
4,Andorra,Europe,Southern Europe,Developed regions,0,0,0,0,0,0,...,1,1,,,,,,,,


Observar cómo los nombres de las columnas ahora tienen mucho más sentido.

#### 3. Para mantener la coherencia, asegúrese de que todas las etiquetas de las columnas sean de tipo cadena de caracteres o string.

In [17]:
# examinar los tipos de etiquetas de las columnas

all(isinstance(column, str) for column in df_can.columns)

False

Observar cómo la línea de código anterior devolvió *Falso* cuando se probó si todas las etiquetas de las columnas son del tipo **cadena**. Así que hay que cambiar todos al tipo **string**.


In [19]:
df_can.columns = list(map(str, df_can.columns))

# comprobar el tipo de las etiquetas de las columnas
all(isinstance(column, str) for column in df_can.columns)

True

In [20]:
df_can.head(3)

Unnamed: 0,Country,Continent,Region,DevName,1980,1981,1982,1983,1984,1985,...,2012,2013,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50
0,Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,340,...,2635,2004,,,,,,,,
1,Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,0,...,620,603,,,,,,,,
2,Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,44,...,3774,4331,,,,,,,,


#### Establecer el nombre del país como índice. Esto es útil para buscar rápidamente países utilizando el método .loc.


In [21]:
df_can.set_index('Country', inplace=True)

# mostrar los primeros cinco elementos para ver cómo se cambió el dataframe
df_can.head()

Unnamed: 0_level_0,Continent,Region,DevName,1980,1981,1982,1983,1984,1985,1986,...,2012,2013,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,340,496,...,2635,2004,,,,,,,,
Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,0,1,...,620,603,,,,,,,,
Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,44,69,...,3774,4331,,,,,,,,
American Samoa,Oceania,Polynesia,Developing regions,0,1,0,0,0,0,0,...,0,0,,,,,,,,
Andorra,Europe,Southern Europe,Developed regions,0,0,0,0,0,0,2,...,1,1,,,,,,,,


Observe ahora que los nombres de los países ahora sirven como índices.


#### 5. Agregar la columna total.


In [22]:
df_can['Total'] = df_can.sum(axis=1, numeric_only=True)

# mostrar los primeros cinco elementos para ver cómo se cambió el dataframe
df_can.head()

Unnamed: 0_level_0,Continent,Region,DevName,1980,1981,1982,1983,1984,1985,1986,...,2013,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50,Total
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,340,496,...,2004,,,,,,,,,58639.0
Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,0,1,...,603,,,,,,,,,15699.0
Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,44,69,...,4331,,,,,,,,,69439.0
American Samoa,Oceania,Polynesia,Developing regions,0,1,0,0,0,0,0,...,0,,,,,,,,,6.0
Andorra,Europe,Southern Europe,Developed regions,0,0,0,0,0,0,2,...,1,,,,,,,,,15.0


Ahora el dataframe tiene una columna adicional que presenta el número total de inmigrantes de cada país en el conjunto de datos de 1980 a 2013. Así, al imprimir la dimensión de los datos, se obtiene.

In [23]:
print('Dimensión de los datos:', df_can.shape)

Dimensión de los datos: (195, 46)


In [24]:
# finalmente, se crea una lista de años desde 1980 - 2013
# esto será útil cuando comencemos a graficar los datos
years = list(map(str, range(1980, 2014)))

years

['1980',
 '1981',
 '1982',
 '1983',
 '1984',
 '1985',
 '1986',
 '1987',
 '1988',
 '1989',
 '1990',
 '1991',
 '1992',
 '1993',
 '1994',
 '1995',
 '1996',
 '1997',
 '1998',
 '1999',
 '2000',
 '2001',
 '2002',
 '2003',
 '2004',
 '2005',
 '2006',
 '2007',
 '2008',
 '2009',
 '2010',
 '2011',
 '2012',
 '2013']

# Visualización de datos usando Matplotlib<a id="4"></a>


Importar la biblioteca `matplotlib`.


In [None]:
# se hará uso del despliegue de figuras en línea o dentro de Jupyter Notebook
%matplotlib inline

import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.style.use('ggplot')  # opcional: para estilo similar a ggplot

# verificar la versión de Matplotlib
print('Matplotlib version: ', mpl.__version__)

# Gráfico de Áreas<a id="6"></a>


Anteriormente se creó un gráfico de líneas que mostró a los 5 países que más aṕrtaban con inmigrantes a Canadá desde 1980 a 2013. Con algunas pequeñas modificaciones en el código se puede mostrar una gráfica acumulativa conocida como **Gráficp de áreas apilado** or **Gráfico de áreas**.


In [None]:
df_can.sort_values(['Total'], ascending=False, axis=0, inplace=True)

# obtener las 5 mejores entradas
df_top5 = df_can.head()

# transponer el dataframe
df_top5 = df_top5[years].transpose()

df_top5.head()

Los gráficos de área se apilan de forma predeterminada. Y para producir un gráfico de áreas apiladas, cada columna debe tener todos los valores positivos o negativos (para cualquier `NaN`, es decir, no un número, los valores predeterminados serán 0). Para producir un gráfico no apilado, establezca el parámetro `stacked` en el valor `False`.

In [None]:
# se cambia los valores de índice de df_top5 para escribir un número entero para graficar
df_top5.index = df_top5.index.map(int)

df_top5.plot(kind='area',
             stacked=False,
             figsize=(20, 10))  # pasa un tamaño en la tupla (x, y)

plt.title('Tendencia de inmigración de los países Top 5')
plt.ylabel('Número of Inmigrantes')
plt.xlabel('Años')

plt.show()

El gráfico no apilado tiene una transparencia predeterminada (valor alpha) de 0.5. Podemos modificar este valor pasando el parámetro `alpha`.

In [None]:
df_top5.plot(kind='area', 
             alpha=0.25,  # 0 - 1, valor por defecto alpha = 0.5
             stacked=False,
             figsize=(20, 10))

plt.title('Tendencia de inmigración de los países Top 5')
plt.ylabel('Número of Inmigrantes')
plt.xlabel('Años')

plt.show()

### Dos tipos de gráficos

Hay dos estilos/opciones de trazado con `matplotlib`, trazado usando la capa de artista y trazado usando la capa de secuencias de comandos.

\*\*Opción 1: Capa de secuencia de comandos (método procedural) - usando matplotlib.pyplot como 'plt' \*\*

Ahora se puede usar `plt` es decir, `matplotlib.pyplot` y agregar más elementos llamando diferentes métodos de manera procedural; por ejemplo, `plt.title(...)` para agregar el título o `plt.xlabel(...)` para agregar la etiqueta del eje x.

```python
    # Opción 1: Este es que se ha usando hasta ahora.
    df_top5.plot(kind='area', alpha=0.35, figsize=(20, 10)) 
    plt.title('Tendencia de inmigración de los países Top 5')
    plt.ylabel('Número of Inmigrantes')
    plt.xlabel('Años')
```


\*\*Opción 2: Capa de artista (Método orientado a objeto) - usando un `Axes` en vez de Matplotlib (preferido) \*\*

Puede usar una instancia de `Axes` del gráfico actual y almacenarla en una variable (por ejemplo, `ax`). Puede agregar más elementos llamando a métodos con un pequeño cambio en la sintaxis (agregando "`set_`" a los métodos anteriores). Por ejemplo, use `ax.set_title()` en lugar de `plt.title()` para agregar un título, o `ax.set_xlabel()` en lugar de `plt.xlabel()` para agregar una etiqueta al eje x.

Esta opción a veces es más transparente y flexible para usar en gráficos avanzados (en particular cuando se tienen múltiples gráficos, como se verá más adelante).

Utilizaremos la **capa de secuencias de comandos**, a excepción de algunas visualizaciones avanzadas en las que necesitaremos usar la **capa de artista** para manipular aspectos avanzados de los gráficos.

In [None]:
# opción 2: opción preferida con más flexibilidad
ax = df_top5.plot(kind='area', alpha=0.35, figsize=(20, 10))
print(type(ax))

ax.set_title('Tendencia de inmigración de los países Top 5')
ax.set_ylabel('Número of Inmigrantes')
ax.set_xlabel('Años')

# Histogramas<a id="8"></a>

Un histograma es una forma de representar la distribución de *frecuencia* de un conjunto de datos numéricos. La forma en que funciona es que divide el eje x en *contenedores*, asigna cada punto de datos en nuestro conjunto de datos a un contenedor y luego cuenta la cantidad de puntos de datos que se han asignado a cada contenedor. Entonces, el eje y es la frecuencia o la cantidad de puntos de datos en cada contenedor. Tenga en cuenta que podemos cambiar el tamaño del contenedor y, por lo general, es necesario modificarlo para que la distribución se muestre bien.

**Pregunta:** ¿Cuál es la distribución de frecuencias del número (población) de nuevos inmigrantes de varios países a Canadá en 2013?

Antes de continuar con la creación del gráfico de histograma, primero se examinará los datos divididos en intervalos. Para hacer esto, usaremos el método `histrogram` de **Numpy** para obtener los rangos de contenedores y los conteos de frecuencia de la siguiente manera:

In [None]:
# Vista rápida de los datos de 2013
df_can['2013'].head()

In [None]:
# np.histogram devuelve 2 valores
contador, bordes_contenedores = np.histogram(df_can['2013'])

print(contador) # Contador de frecuencias
print(bordes_contenedores) # rango de contenedores, por defecto = 10 contenedores

De forma predeterminada, el método `histrogram` divide el conjunto de datos en 10 contenedores. La siguiente tabla resume los rangos de intervalos y la distribución de frecuencia de la inmigración en 2013. Podemos ver que en 2013:

* 178 países aportaron entre 0 a 3412.9 inmigrantes
* 11 países aportaron entre 3412.9 a 6825.8 inmigrantes
* 1 país aportó entre 6285.8 a 10238.7 inmigrantes, y así sucesivamente.

|  | <sub><sup>**Cont. 1**</sup></sub> | <sub><sup>**Cont. 2**</sup></sub> | <sub><sup>**Cont. 3**</sup></sub> | <sub><sup>**Cont. 4**</sup></sub> | <sub><sup>**Cont. 5**</sup></sub> | <sub><sup>**Cont. 6**</sup></sub> | <sub><sup>**Cont. 7**</sup></sub> | <sub><sup>**Cont. 8**</sup></sub> | <sub><sup>**Cont. 9**</sup></sub> | <sub><sup>**Cont. 10**</sup></sub> |
|---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| <sub><sup>**Rango**</sup></sub> | <sub><sup>0 a 3412.9</sup></sub> | <sub><sup>3412.9 a 6825.8</sup></sub> | <sub><sup>68.25.8 a 10238.7</sup></sub> | <sub><sup>10238.7 a 13651.6</sup></sub>  | <sub><sup>13651.6 a 17064.5</sup></sub> | <sub><sup>17064.5 a 20477.4</sup></sub> | <sub><sup>20477.4 a 23890.3</sup></sub> | <sub><sup>23890.3 a 27303.2</sup></sub> | <sub><sup>27303.2 a 30716.1</sup></sub> | <sub><sup>30716.1 a 34129</sup></sub> |
| <sub><sup>**Frecu.**</sup></sub> | <sub><sup>178</sup></sub> | <sub><sup>11</sup></sub> | <sub><sup>1</sup></sub> | <sub><sup>12</sup></sub> | <sub><sup>0</sup></sub> | <sub><sup>0</sup></sub> | <sub><sup>0</sup></sub> | <sub><sup>0</sup></sub> | <sub><sup>1</sup></sub> | <sub><sup>2</sup></sub> |

Se puede graficar fácilmente esta distribución pasando `kind=hist` a `plot()`.


In [None]:
df_can['2013'].plot(kind='hist', figsize=(8, 5))

# agregar un título al histograma
plt.title('Histograma de Inmigración de 195 Países en el Año 2013')
# agregar etiqueta al eje y
plt.ylabel('Número de Paises')
# agregar etiqueta al eje x
plt.xlabel('Número de Inmigrantes')

plt.show()

En el gráfico anterior, el eje x representa el rango de población de inmigrantes en intervalos de 3412,9. El eje y representa el número de países que contribuyeron a la población antes mencionada.

Observar que las etiquetas del eje x no coinciden con el tamaño del contenedor. Esto se puede solucionar pasando una palabra clave `xticks` que contiene la lista de tamaños de contenedores, de la siguiente manera:

In [None]:
# 'bordes_contenedores' es una lista de intervalos de contenedores
contador, bordes_contenedores = np.histogram(df_can['2013'])

df_can['2013'].plot(kind='hist', figsize=(8, 5), xticks=bordes_contenedores)

plt.title('Histograma de Inmigración de 195 Países en el Año 2013') # agregar un título al histograma
plt.ylabel('Número de Paises') # agregar etiqueta al eje y
plt.xlabel('Número de Inmigrantes') # agregar etiqueta al eje x

plt.show()

*Nota:* Se podría usar `df_can['2013'].plot.hist()`, en su lugar. De hecho, a lo largo de este laboratorio, usar `algun_dato.plot(kind='tipo_grafico', ...)` es equivalente a `algun_dato.plot.tipo_grafico(...)`. Es decir, pasar el tipo de gráfico como argumento o método se comporta igual.

Ver la documentación de *pandas* para más información [http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.plot.html](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.plot.html).


También se puede mostrar varios histogramas en el mismo gráfico. Por ejemplo, responder a las siguientes preguntas usando un histograma.

**Pregunta**: ¿Cuál es la distribución de inmigración para Dinamarca, Noruega y Suecia durante los años 1980 - 2013?

In [None]:
# mostrar rápidamente el conjunto de datos
df_can.loc[['Denmark', 'Norway', 'Sweden'], years]

In [None]:
# generar histogramas
df_can.loc[['Denmark', 'Norway', 'Sweden'], years].plot.hist()

¡El gráfico no tiene mucho sentido!

La solución radica en cómo se estructura el conjunto de datos a graficar.

En vez de graficar la distribución de frecuencia de la población de los 3 países, *pandas* en su lugar graficó la distribución de frecuencia de la población para los años `years`.

Esto se puede solucionar transponiendo primero el conjunto de datos y luego graficando como se muestra a continuación.


In [None]:
# transponer el dataframe
df_t = df_can.loc[['Denmark', 'Norway', 'Sweden'], years].transpose()
df_t.head()

In [None]:
# generar el histograma
df_t.plot(kind='hist', figsize=(10, 6))

plt.title('Histograma de Inmigración desde Dinamarca, Noruega, Suecia desde 1980 a 2013')
plt.ylabel('Número de Años')
plt.xlabel('Número de Inmigrantes')

plt.show()

Se realizarán algunas modificaciones para mejorar el impacto y la estética de la gráfica anterior:

*   Aumentar el tamaño del contenedor a agregando el parámetro`bins`;
*   Establecer la transparencia a un 60% agregando el parámetro`alpha`;
*   Etiquetar el eje x agregando el parámetro `x-label`;
*   Cambiar el color del gráfico agregando el parámetro `color`.


In [None]:
# obtener los valores de marcas del eje x
contador, bordes_contenedores = np.histogram(df_t, 15)

# histograma no apilado
df_t.plot(kind ='hist', 
          figsize=(10, 6),
          bins=15,
          alpha=0.6,
          xticks=bordes_contenedores,
          color=['coral', 'darkslateblue', 'mediumseagreen']
         )

plt.title('Histograma de Inmigración desde Dinamarca, Noruega, Suecia desde 1980 a 2013')
plt.ylabel('Número de Años')
plt.xlabel('Número de Inmigrantes')

plt.show()

Si no se quiere que las gráficas de los histogramas se superpongan entre sí, se pueden apilar usando el parámetro `stacked`. También se puede ajustar las etiquetas mínimo y máximo del eje x para eliminar el espacio adicional en los bordes del gráfico. Así se puede pasar una tupla (min, max) usando el parámetro `xlim`, como se muestra a continuación.

In [None]:
contador, bordes_contenedores = np.histogram(df_t, 15)
xmin = bordes_contenedores[0] - 10   #  el valor del primer contenedor es 31.0, se descuenta un búfer de 10 por motivos estéticos 
xmax = bordes_contenedores[-1] + 10  #  el último valor del contenedor es 308.0, se agrega un búfer de 10 por motivos estéticos

# Histograma apilable
df_t.plot(kind='hist',
          figsize=(10, 6), 
          bins=15,
          xticks=bordes_contenedores,
          color=['coral', 'darkslateblue', 'mediumseagreen'],
          stacked=True,
          xlim=(xmin, xmax)
         )

plt.title('Histograma de Inmigración desde Dinamarca, Noruega, Suecia desde 1980 a 2013')
plt.ylabel('Número de Años')
plt.xlabel('Número de Inmigrantes')

plt.show()

# Gráfico de Barras <a id="10"></a>

Un gráfico de barras es una forma de representar datos donde la *longitud* de las barras representa la magnitud/tamaño de la característica/variable. Los gráficos de barras generalmente representan variables numéricas y categóricas agrupadas en intervalos.

Para crear un gráfico de barras, podemos pasar uno de los dos argumentos disponibles a través del parámetro `kind` en `plot()`:


*   `kind=bar` crea un gráfico de barras *vertical*
*   `kind=barh` crea un gráfico de barras *horizontal*


**Gráfico de Barras Vertical**

En los gráficos de barras verticales, el eje x se usa para etiquetar, y la longitud de las barras en el eje y corresponde a la magnitud de la variable que se mide. Los gráficos de barras verticales son especialmente útiles para analizar datos de series temporales. Una desventaja es que carecen de espacio para el etiquetado de texto al pie de cada barra.

**Se empezará analizando el efecto de la crisis financiera de Islandia:**

La crisis financiera islandesa de 2008 - 2011 fue un evento económico y político importante en Islandia. En relación con el tamaño de su economía, el colapso bancario sistémico de Islandia fue el mayor experimentado por cualquier país en la historia económica. La crisis condujo a una grave depresión económica entre 2008 y 2011 ya un importante malestar político.

**Pregunta:** Comparar el número de inmigrantes islandeses (country = 'Iceland') en Canadá desde el año 1980 hasta el 2013.


In [None]:
# paso 1: obtener los datos
df_islandia = df_can.loc['Iceland', years]
df_islandia.head()

In [None]:
# paso 2: graficar los datos
df_islandia.plot(kind='bar', figsize=(10, 6))

plt.xlabel('Años') # agrega al gráfico la etiqueta del eje x
plt.ylabel('Número de inmigrantes') # agrega al gráfico la etiqueta del eje y
plt.title('Inmigrantes Islandeses a Canada desde 1980 a 2013') # agrega al gráfico el título

plt.show()

El gráfico de barras de arriba muestra el número total de inmigrantes desglosados ​​por cada año. Podemos ver claramente el impacto de la crisis financiera; el número de inmigrantes a Canadá comenzó a aumentar rápidamente después de 2008.

Anotemos esto en el gráfico usando el método `annotate` de la **capa de secuencias de comandos** o de la **interfaz pyplot**. Pasaremos los siguientes parámetros:

*   `s`: str, el texto de la anotación.
*   `xy`: Tupla que especifica el punto (x,y) de la anotación (en este caso, el punto final de la flecha).
*   `xytext`: Tupla que especifica el punto (x,y) para colocar el texto (en este caso, el punto de inicio de la flecha).
*   `xycoords`: El sistema de coordenadas en que está xy - 'data' usa el sistema de coordenadas del objetos que está siendo anotado (por defecto).
*   `arrowprops`: Toma un diccionario de propiedades para dibujar la flecha:
    *   `arrowstyle`: Especifica el estilo de la flecha, `'->'` es la flecha estándar.
    *   `connectionstyle`: Especifica el tipo de conexión. `arc3` es una línea recta.
    *   `color`: Especifica el color de la flecha.
    *   `lw`: Especifica el grosor de la línea.

Se recomienda leer la documentación de Matplotlib para obtener más detalles sobre las anotaciones:
<https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.annotate.html>.


In [None]:
df_islandia.plot(kind='bar', figsize=(10, 6), rot=90)  # rota las marcas del eje x (puntos etiquetados en el eje x) en 90 grados

plt.xlabel('Años')
plt.ylabel('Número de inmigrantes')
plt.title('Inmigrantes Islandeses a Canada desde 1980 a 2013')

# flecha de la anotación
plt.annotate('',  # s: str. Dejar en blanco para que no haya texto
             xy=(32, 70),  # posiciona la cabeza de la flecha en el punto (alo 2012 , pobla 70)
             xytext=(28, 20),  # pociciona la base de la flecha en el punto (año 2008 , pobla 20)
             xycoords='data',  # se usará el sistema de coordenada del objeto donde se esta haciendo la anotación
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='blue', lw=2)
             )

plt.show()

También se puede poner un texto por encima de la flecha. Pasaremos los siguientes parámetros adicionales:

*   `rotation`: angulo de rotación del texto en grados (en el sentido horario)
*   `va`: alineamiento vertival del texto \[‘center’ | ‘top’ | ‘bottom’ | ‘baseline’]
*   `ha`: alineamiento horizontal del texto \[‘center’ | ‘right’ | ‘left’]


In [None]:
df_islandia.plot(kind='bar', figsize=(10, 6), rot=90)

plt.xlabel('Años')
plt.ylabel('Número de inmigrantes')
plt.title('Inmigrantes Islandeses a Canada desde 1980 a 2013')

# flecha de la anotación
plt.annotate('',  # s: str. Dejar en blanco para que no haya texto
             xy=(32, 70),  # posiciona la cabeza de la flecha en el punto (alo 2012 , pobla 70)
             xytext=(28, 20),  # pociciona la base de la flecha en el punto (año 2008 , pobla 20)
             xycoords='data',  # se usará el sistema de coordenada del objeto donde se esta haciendo la anotación
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='blue', lw=2)
             )

# Texto de la anotación
plt.annotate('Crisis Financiera del 2008 - 2011',  # texto a mostrar
             xy=(28, 30),  # comienzo del texto en el punto (año 2008 , pobla 30)
             rotation=72.5,  # Basado en la técnica de prueba y error para calzar con la flecha
             va='bottom',  # alineación vertical
             ha='left',  # alineación horizontal
             )

plt.show()