<a href="https://cognitiveclass.ai"><img src = "https://ibm.box.com/shared/static/9gegpsmnsoo25ikkbl4qzlvlyjbgxs5x.png" width = 400> </a>

<h1 align=center><font size = 5>Introducción a Matplotlib y a los gráficos de líneas</font></h1>

## Introducción

El objetivo de estos laboratorios es presentar una introducción a la visualización de datos con Python de la manera más consistente y coherente como sea posible. Hablando de consistencia, debido a que no hay una  mejor biblioteca para la visualización de datos disponible para Python (hasta la creación de estos laboratorios), cuando tratamos nuevos conceptos de visualización debemos presentar distintas bibliotecas y demostrar sus beneficios. Al hacerlo, esperamos que los estudiantes aprendan sobre las bibliotecas de visualización y sobre los conceptos relacionados para que puedan juzgar y decidir cuál es la mejor técnica y herramienta de visualización para un problema _y_ una audiencia en particular. 

Asegúrese de haber completado los requisitos previos para este curso; en específico, [**Python para la ciencia de datos**](https://cognitiveclass.ai/courses/python-for-data-science/).

**Nota**: La mayoría de los diagramas y visualizaciones se generarán con datos almacenados en un DataFrame de *pandas*. Por lo tanto, en este laboratorio ofreceremos un curso breve e intensivo sobre *pandas*. Sin embargo, si le interesa la posibilidad de aprender más sobre la biblioteca de pandas, se ofrecen una descripción detallada y una explicación de cómo usarla y cómo limpiar, manipular y procesar los datos almacenados en un DataFrame de *pandas* en el curso [**Análisis de datos con Python**](https://cognitiveclass.ai/courses/data-analysis-python/). 

------------

## Índice

<div class="alert alert-block alert-info" style="margin-top: 20px">

1. [Explorando conjuntos de datos con *pandas*](#0)<br>
1.1 [El conjunto de datos: Inmigración a Canadá entre 1980 a 2013](#2)<br>
1.2 [Aspectos básicos de *pandas*](#4) <br>
1.3 [Nivel intermedio de *pandas*: Indexación y selección ](#6) <br>
2. [Visualización de datos mediante Matplotlib](#8) <br>
2.1 [Matplotlib: Biblioteca estándar de visualización con Python ](#10) <br>
3. [Gráficos de líneas](#12)
</div>
<hr>

# Explorando conjuntos de datos con *pandas* <a id="0"></a>

*pandas* es un kit de herramientas fundamental para el análisis de datos en Python. Según se indica en su [sitio web](http://pandas.pydata.org/):
>*pandas* es un paquete de Python que ofrece estructuras de datos rápidas, flexibles y expresivas diseñadas para hacer que trabajar con datos “relacionales” o “etiquetados” sea fácil e intuitivo. Su objetivo es ser el componente fundamental de alto nivel para llevar a cabo el análisis de datos prácticos y del **mundo real** en Python. 

El curso depende en gran medida de *pandas* para el manejo, análisis y visualización de datos. Le recomendamos que se tome el tiempo necesario para familiarizarse con la referencia de la API de *pandas* http://pandas.pydata.org/pandas-docs/stable/api.html.

## El conjunto de datos Inmigración a Canadá entre 1980 a 2013 <a id="2"></a>

Fuente del conjunto de datos:  [Corrientes migratorias internacionales hacia y desde determinados países, revisión de 2015](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.shtml).

El conjunto de datos contiene datos anuales sobre las corrientes inmigratorias internacionales según las registraron los países de destino. Los datos presentan corrientes entrantes y salientes, según el lugar de nacimiento, la ciudadanía o el lugar de residencia anterior/posterior para extranjeros y no extranjeros. La versión actual presenta datos pertenecientes a 45 países. 

En este laboratorio, nos enfocaremos en los datos inmigratorios de Canadá. 

<img src = "https://ibm.box.com/shared/static/mb48k9fiylkd7z3a21cq38xxfy1wni2y.png" align="center" width=900>

Para mayor simplicidad, los datos inmigratorios de Canadá se extrajeron y se cargaron en un servidor de IBM. Usted puede obtener los datos [aquí](https://ibm.box.com/shared/static/lw190pt9zpy5bd1ptyg2aw15awomz9pu.xlsx).

---

## Aspectos básicos de *pandas* <a id="4"></a>

Lo primero que haremos es importar dos módulos fundamentales para el análisis de datos: *pandas* y **Numpy**.

In [6]:
import numpy as np  # es útil para muchos cálculos científicos en Python
import pandas as pd # biblioteca principal de estructura de datos 

Descarguemos e importemos el conjunto de datos principal sobre la inmigración canadiense con el método `read_excel()` de *pandas*. Habitualmente, para poder hacerlo, debemos descargar un módulo que pandas necesita para leer en archivos de Excel. Este módulo es el **xlrd**. Para su conveniencia, ya hemos instalado este módulo, así no deberá preocuparse por ello. De lo contrario, usted debería ejecutar la siguiente línea de código para instalar el módulo **xlrd**: 
```
!conda install -c anaconda xlrd --yes
```

In [11]:
!conda install -c anaconda xlrd --yes

Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /home/jupyterlab/conda/envs/python

  added / updated specs:
    - xlrd


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    ca-certificates-2020.1.1   |                0         132 KB  anaconda
    certifi-2020.4.5.2         |           py36_0         160 KB  anaconda
    openssl-1.1.1g             |       h7b6447c_0         3.8 MB  anaconda
    xlrd-1.2.0                 |           py36_0         188 KB  anaconda
    ------------------------------------------------------------
                                           Total:         4.3 MB

The following packages will be SUPERSEDED by a higher-priority channel:

  ca-certificates    conda-forge::ca-certificates-2020.4.5~ --> anaconda::ca-certificates-2020.1.1-0
  certifi            conda-forge::certifi-2020.4

In [14]:
pd.read_excel?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_excel[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mio[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msheet_name[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0musecols[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msqueeze[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mengine[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mconverters[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mtrue_values[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfalse_values[0m[0;34m=[0m[0;32m

Ahora estamos listos para leer los datos. 

In [12]:
df_can = pd.read_excel('https://ibm.box.com/shared/static/lw190pt9zpy5bd1ptyg2aw15awomz9pu.xlsx',
                       sheet_name='Canada by Citizenship',
                       skiprows=range(20),
                       skip_footer=2)

print ('¡Datos leídos en un DataFrame de pandas!')

XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'  <!DOCT'

Observemos las 5 filas superiores del conjunto de datos con la función `head()`.

In [4]:
df_can.head()
# sugerencia: Puede especificar la cantidad de filas que desea ver de la siguiente manera: df_can.head(10)

NameError: name 'df_can' is not defined

También podemos visualizar las últimas 5 filas del conjunto de datos con la función `tail()`.

In [None]:
df_can.tail()

Al analizar un conjunto de datos, siempre es recomendable comenzar por obtener información básica sobre el DataFrame. Para ello, podemos usar el método `info()`.

In [None]:
df_can.info()

Para obtener la lista de encabezados de columna, podemos invocar el parámetro `.columns` del DataFrame.

In [None]:
df_can.columns.values 

De manera similar, para obtener la lista de índices utilizamos el parámetro `.index`.

In [None]:
df_can.index.values

Nota: El tipo predeterminado de índice y columnas NO es lista.

In [None]:
print(type(df_can.columns))
print(type(df_can.index))

Para obtener el índice y las columnas como listas, podemos usar el método `tolist()`.

In [None]:
df_can.columns.tolist()
df_can.index.tolist()

print (type(df_can.columns.tolist()))
print (type(df_can.index.tolist()))

Para visualizar las dimensiones del DataFrame, utilizamos el parámetro `.shape`.

In [None]:
# tamaño del dataframe (filas, columnas)
df_can.shape    

Nota: Los tipos principales almacenados en objetos de *pandas* son *float*, *int*, *bool*, *datetime64[ns]* and *datetime64[ns, tz] (in >= 0.17.0)*, *timedelta[ns]*, *category (in >= 0.15.0)*, and *object* (string). Además, estos dtypes tienen tamaños de elemento; p. ej., int64 e int32. 

Limpiemos el conjunto de datos para eliminar algunas columnas innecesarias. Podemos usar el método `drop()` de *pandas* de la manera siguiente: 

In [None]:
# en pandas el axis=0 representa filas (predeterminado) y el axis=1 representa columnas.
df_can.drop(['AREA','REG','DEV','Type','Coverage'], axis=1, inplace=True)
df_can.head(2)

Cambiemos el nombre de las columnas para que tengan sentido. Podemos usar el método `rename()` al ejecutar un diccionario con nombres anteriores y nuevos de la manera siguiente:

In [None]:
df_can.rename(columns={'OdName':'Country', 'AreaName':'Continent', 'RegName':'Region'}, inplace=True)
df_can.columns

También agregaremos una columna de 'Total' que resume la cantidad total de inmigrantes por país durante todo el periodo entre 1980 a 2013 de la manera siguiente: 

In [None]:
df_can['Total'] = df_can.sum(axis=1)

Podemos verificar para determinar cuántos objetos nulos hay en el conjunto de datos de la manera siguiente: 

In [None]:
df_can.isnull().sum()

Finalmente, veamos un resumen rápido de cada columna en nuestro DataFrame con el método `describe()`.

In [None]:
df_can.describe()

---
## Nivel intermedio de *pandas*: Indexación y selección (división) <a id="6"></a>


### Seleccionar columna
**Hay dos maneras de aplicar un filtro en un nombre de columna:**

Método 1: Es rápido y fácil, pero solo funciona si el nombre de la columna NO tiene espacios ni caracteres especiales.
```python
    df.column_name 
        (returns series)
```

Método 2: Más sólido y puede filtrar múltiples columnas.

```python
    df['column']  
        (Devuelve una serie)
```

```python 
    df[['column 1', 'column 2']] 
        (Devuelve un DataFrame)
```
---

Ejemplo: Intentemos filtrar la lista de países ('País' ['Country']).

In [None]:
df_can.Country  # devuelve una serie

Intentemos filtrar la lista de países ('NombreOd' ['OdName']) y los datos para los años: 1980 - 1985. 

In [None]:
df_can[['Country', 1980, 1981, 1982, 1983, 1984, 1985]] # returns a dataframe
# tenga en cuenta que 'País' es una cadena y que los años son números enteros.
# para mayor coherencia, convertiremos todos los nombres de las columnas en cadenas posteriormente.

### Seleccionar fila

Hay 3 maneras principales de seleccionar filas:

```python
    df.loc[label]        
        #filtra por las etiquetas del índice/de la columna
    df.iloc[index]       
        #filtras por las posiciones del índice/de la columna 
```

Antes de continuar, observe que el índice predeterminado del conjunto de datos es un rango numérico de 0 a 194. Así, resulta muy difícil llevar a cabo una consulta por un país en específico. Por ejemplo, para buscar datos sobre Japón, debemos conocer el valor de índice correspondiente. 

Para corregir esto fácilmente, establezca la columna 'País' como el índice con el método `set_index()`. 

In [None]:
df_can.set_index('Country', inplace=True)
# sugerencia: El opuesto de establecer es restablecer. Entonces, para restablecer el índice, podemos usar df_can.reset_index()

In [None]:
df_can.head(3)

In [None]:
# opcional: quitar el nombre del índice 
df_can.index.name = None

Ejemplo: Observemos la cantidad de inmigrantes provenientes de Japón (fila 87) para las situaciones siguientes: 
    1. Todos los datos de la fila (todas las columnas)
    2. Para el año 2013
    3. Para los años 1980 a 1985

In [None]:
# 1. todos los datos de la fila (todas las columnas) 
print(df_can.loc['Japan'])

# métodos alternativos
print(df_can.iloc[87])
print(df_can[df_can.index == 'Japan'].T.squeeze())

In [None]:
# 2. para el año 2013 
print(df_can.loc['Japan', 2013])

# métodos alternativos
print(df_can.iloc[87, 36]) # el año 2013 es la última columna, con un índice de posición de 36

In [None]:
# 3. para los años 1980 a 1985 
print(df_can.loc['Japan', [1980, 1981, 1982, 1983, 1984, 1984]])
print(df_can.iloc[87, [3, 4, 5, 6, 7, 8]])

Los nombres de columnas que son números enteros (como los años) pueden agregar confusión. Por ejemplo, cuando hacemos referencia al año 2013, podemos confundirlo con el índice de posición 2013.º. 

Para evitar esta ambigüedad, convirtamos los nombres de columna a cadenas: '1980' a '2013'. 

In [None]:
df_can.columns = list(map(str, df_can.columns))
# [print (type(x)) for x in df_can.columns.values] #<-- deshacer comentario para verificar el tipo de encabezados de columna

Debido a que convertimos los años en una cadena, declaremos una variable que nos permita invocar fácilmente el rango completo de años:

In [None]:
# útil para la diagramación posterior
years = list(map(str, range(1980, 2014)))
years

### Filtrado en función de un criterio 
Para filtrar el DataFrame en función de una condición, solo debemos ejecutar la condición como vector booleano. 

Por ejemplo, filtremos el DataFrame para mostrar los datos en los países de Asia (AreaName = Asia). 

In [None]:
# 1. cree la serie booleana de la condición
condition = df_can['Continent'] == 'Asia'
print (condition)

In [None]:
# 2. ejecute la condición en el dataframe
df_can[condition]

In [None]:
# podemos ejecutar múltiples criterios en la misma línea.
# filtremos por NombreÁrea = Asia y NombreReg = Sur de Asia

df_can[(df_can['Continent']=='Asia') & (df_can['Region']=='Southern Asia')]

# nota: al usar operadores 'and' y 'or', pandas requiere el uso de '&' y '|' en lugar de 'and' y 'or' 
# no olvide encerrar las dos condiciones entre paréntesis 

Antes de continuar, repasemos los cambios llevados a cabo en nuestro DataFrame.

In [None]:
print ('data dimensions:', df_can.shape)
print(df_can.columns)
df_can.head(2)

---
# Visualización de datos mediante Matplotlib<a id="8"></a>

## Matplotlib: Biblioteca estándar de visualización con Python<a id="10"></a>

La primera biblioteca de diagramación que exploraremos en el curso es [Matplotlib](http://matplotlib.org/).  Tal como se menciona en su sitio web:
>Matplotlib es una biblioteca de diagramación en 2D con Python que produce figuras en calidad de publicación en diversos formatos para impresión y entornos interactivos entre plataformas. Matplotlib puede usarse en secuencias de comandos de Python, el shell de Python e IPython, libretas de Jupyter, servidores de aplicaciones web y cuatro kits de herramientas de interfaz de usuarios gráficas.

Si aspira a crear visualizaciones impactantes con Python, Matplotlib es una herramienta fundamental.

### Matplotlib.Pyplot

Uno de los aspectos fundamentales de Matplotlib es `matplotlib.pyplot`. Se trata de la capa de secuencias de comandos de Matplotlib, la cual estudiamos en detalle en los videos sobre Matplotlib. Recuerde que se trata de una colección de funciones de estilo de comando que hacen que Matplotlib funcione como MATLAB. Cada función de `pyplot` lleva a cabo algún cambio en una figura; por ejemplo, crea una figura, crea un área de diagramación en una figura, diagrama algunas líneas en un área de diagramación, decora el diagrama con etiquetas, etc. En este laboratorio, trabajaremos con la capa de secuencias de comandos para aprender a generar gráficos de líneas. En laboratorios futuros, trabajaremos también con la capa Artist para experimentar de primera mano las diferencias con la capa de secuencias de comandos.

Para comenzar, importemos `Matplotlib` y `Matplotlib.pyplot` de la siguiente manera: 

In [None]:
# estamos usando el backend en línea
%matplotlib inline 

import matplotlib as mpl
import matplotlib.pyplot as plt

*Opcional: Verifique si Matplotlib está cargado. 

In [None]:
print ('Matplotlib version: ', mpl.__version__) # >= 2.0.0

*Opcional: Aplique un estilo a Matplotlib. 

In [None]:
print(plt.style.available)
mpl.style.use(['ggplot']) # opcional: para estilo similar a ggplot

### Diagramación en *pandas*

Afortunadamente, podemos usar la implementación de Matplotlib que pandas tiene incorporada. La diagramación en pandas es muy fácil. Solo debemos adjuntar un método `.plot()` a una serie o a un DataFrame. 

Documentación: 
- [Diagramación con series](http://pandas.pydata.org/pandas-docs/stable/api.html#plotting)<br>
- [Diagramación con DataFrames](http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-plotting)

# Gráfico de líneas (serie/DataFrame) <a id="12"></a>

**¿Qué es un gráfico de líneas y por qué debemos usarlo?**

Los gráficos de líneas o diagramas de líneas son gráficos que muestran información como una serie de puntos de datos denominados “marcadores”, conectados por segmentos de línea recta. Es un tipo de gráfico básico común en muchos campos. Use un gráfico de líneas cuando tenga un conjunto de datos continuos. Son adecuados para visualizaciones con base en tendencias de datos en un periodo de tiempo específico. 

**Comencemos con un estudio de caso: **

En 2010, Haití sufrió un terremoto catastrófico de magnitud 7.0. El terremoto provocó devastación y muerte. Aproximadamente tres millones de personas se vieron afectadas por este desastre natural. Como parte de su esfuerzo humanitario, el gobierno de Canadá aumentó la aceptación de refugiados haitianos. Es posible visualizar rápidamente este esfuerzo con un gráfico de `líneas`: 

**Pregunta**: Diagrame un gráfico de líneas de la inmigración desde  Haití con `df.plot()`.

First, we will extract the data series for Haiti.

In [None]:
haiti = df_can.loc['Haiti', years] # ejecución en los años 1980 a 2013 para excluir la columna 'total'
haiti.head()

A continuación, diagramaremos un gráfico de líneas al anexar `.plot()` al DataFrame `haiti`.

In [None]:
haiti.plot()

*pandas* completó automáticamente el eje x con los valores de los índices (años) y el eje y con los valores de las columnas (población). Sin embargo, observe que los años no se mostraron porque son del tipo cadena. Por lo tanto, modifiquemos el tipo de los valores de índice a entero para su diagramación. 

Además, etiquetemos el eje x y el eje y con `plt.title()`, `plt.ylabel()` y `plt.xlabel()` de la manera siguiente:

In [None]:
haiti.index = haiti.index.map(int) # cambiemos los valores de índice de Haiti al tipo entero para la diagramación
haiti.plot(kind='line')

plt.title('Immigration from Haiti')
plt.ylabel('Number of immigrants')
plt.xlabel('Years')

plt.show() # esta línea es necesaria para mostrar las actualizaciones en la figura

Podemos observar con claridad la mayor cantidad de inmigrantes desde Haití a partir de 2010, año en que Canadá aumentó sus esfuerzos para aceptar refugiados haitianos. Anotemos este pico en el diagrama con el método `plt.text()`.

In [None]:
haiti.plot(kind='line')

plt.title('Immigration from Haiti')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')

# anote el terremoto de 2010.
# sintaxis: plt.text(x, y, label)
plt.text(2000, 6000, '2010 Earthquake') # vea la nota debajo

plt.show() 

Con unas pocas líneas de código, pudo identificar rápidamente el aumento en inmigración y visualizarlo. 

Una nota rápida sobre los valores de x y de y en `plt.text(x, y, label)`: 
 
     Debido a que el eje x (años) es del tipo 'enteros', especificamos x como un año. El eje y (cantidad de inmigrantes) es del tipo 'enteros'; por lo tanto, podemos especificar el valor de y = 6000.
    
```python
    plt.text(2000, 6000, '2010 Earthquake') # años almacenados como tipo entero
```
    Si los años se hubieran almacenado como tipo 'cadena', deberíamos especificar x como la posición del índice para el año. P. ej., el índice 20.º es el año 2000, debido a que se trata del año 20.º a partir del año base de 1980.
```python
    plt.text(20, 6000, '2010 Earthquake') # años almacenados como tipo enteros
```
    Trataremos los métodos de anotación avanzados en módulos posteriores.

Podemos agregar fácilmente más países al gráfico de líneas para llevar a cabo comparaciones significativas en la inmigración desde distintos países.

**Pregunta:** Comparemos la cantidad de inmigrantes desde India y China entre 1980 a 2013. 


Paso 1: Obtenga el conjunto de datos para China e India, y muestre el DataFrame.

In [None]:
### escriba su respuesta aquí



Haga doble clic __aquí__ para ver la solución. 
<!-- La respuesta correcta es:
df_CI = df_can.loc[['India', 'China'], years]
df_CI.head()
-->

Paso 2: Diagrame el gráfico. Especificaremos explícitamente el gráfico del líneas al ejecutar el parámetro `kind` en `plot()`.

In [None]:
### escriba su respuesta aquí



Haga doble clic __aquí__ para ver la solución. 
<!-- La respuesta correcta es:
df_CI.plot(kind='line')
-->

Aparentemente, no es correcto… 

Recuerde que pandas diagrama los índices en el eje x y las columnas como líneas individuales en el eje y. Debido a que `df_CI` es un DataFrame con `country` como índice y years como columnas, debemos primero transponer el DataFrame con el método `transpose()` a fin de intercambiar la fila y las columnas.

In [None]:
df_CI = df_CI.transpose()
df_CI.head()

*pandas* creará automáticamente un gráfico con los dos países. Diagrame el nuevo DataFrame transpuesto. Asegúrese de agregar un título al diagrama y de etiquetar los ejes. 

In [None]:
### escriba su respuesta aquí





Haga doble clic __aquí__ para ver la solución. 
<!-- La respuesta correcta es:
df_CI.index = df_CI.index.map(int) # cambiemos los valores de índice de df_CI para escribir un entero para graficar
df_CI.plot(kind='line')
-->

<!--
plt.title('Immigrants from China and India')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
-->

<!--
plt.show()
--> 

A partir del diagrama precedente, podemos observar que China e India tienen tendencias inmigratorias muy similares a lo largo de los años. 

*Nota*: ¿Por qué no tuvimos que transponer el DataFrame de Haití antes de diagramarlo (como hicimos con df_CI)? did for df_CI)?

Porque `haiti` es una serie, en lugar de un DataFrame, y los años son sus índices, como se muestra debajo.  
```python
print(type(haiti))
print(haiti.head(5))
```
>class 'pandas.core.series.Series' <br>
>1980    1666 <br>
>1981    3692 <br>
>1982    3498 <br>
>1983    2860 <br>
>1984    1418 <br>
>Name: Haiti, dtype: int64 <br>

El gráfico de líneas es una herramienta práctica para mostrar varias variables dependientes contra una variable independiente. Sin embargo, no se recomiendan más de 5 a 10 líneas por gráfico. Si hay más líneas, se hace difícil interpretar el gráfico. 

**Pregunta:** Compare la tendencia de 5 países principales que aportaron la mayor cantidad de inmigrantes a Canadá. 

In [None]:
### escriba su respuesta aquí 





Haga doble clic __aquí__ para ver la solución. 
<!-- La respuesta correcta es:
\\ # Paso 1: Obtener el conjunto de datos. Recuerde que creamos una columna Total que calcula la inmigración acumulada por país. \\ Ordenaremos esta columna para obtener nuestros mejores 5 países usando el método pandas sort_values ().
\\ inplace = True paramemter guarda los cambios en el marco de datos df_can original

df_can.sort_values(by='Total', ascending=False, axis=0, inplace=True)
-->

<!--
# obténgamos las 5 mejores entradas
df_top5 = df_can.head(5)
-->

<!--
# transpóngamos el marco de datos (dataframe)
df_top5 = df_top5[years].transpose() 
-->

<!--
print(df_top5)
-->

<!--
\\ # Paso 2: Graficar el marco de datos. Para hacer que la gráfica sea más legible, cambiaremos el tamaño usando el parámetro `figsize`.
df_top5.index = df_top5.index.map(int) # let's change the index values of df_top5 to type integer for plotting
df_top5.plot(kind='line', figsize=(14, 8)) # pass a tuple (x, y) size
-->

<!--
plt.title('Immigration Trend of Top 5 Countries')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
-->

<!--
plt.show()
-->

### Otros gráficos

¡Felicitaciones! Aprendió a dominar datos con Python y a crear un gráfico de líneas con Matplotlib. Hay muchos más estilos de diagramación disponibles, además del gráfico de líneas predeterminado. Puede acceder a todos ellos al ejecutar la palabra clave `kind` en `plot()`. La lista completa de diagramas disponibles es la siguiente:

* `bar` para diagramas de barras verticales
* `barh` para diagramas de barras horizontales
* `hist` para histograma
* `box` para diagrama de caja
* `kde` o `density` para diagramas de densidad
* `area` para diagramas de área
* `pie` para diagramas circulares (de pastel)
* `scatter` para diagramas de dispersión
* `hexbin` para diagramas con agrupamiento hexagonal 

### ¡Gracias por completar este laboratorio! 

Esta libreta fue creada originalmente por [Jay Rajasekharan](https://www.linkedin.com/in/jayrajasekharan) con aportes de [Ehsan M. Kermani](https://www.linkedin.com/in/ehsanmkermani) y [Slobodan Markovic](https://www.linkedin.com/in/slobodan-markovic).

Recientemente, esta libreta fue modificada por [Alex Aklson](https://www.linkedin.com/in/aklson/). Espero que esta sesión de laboratorio le haya resultado interesante. ¡Si tiene alguna pregunta, comuníquese conmigo!

Esta libreta es parte del curso gratuito de **Cognitive Class** denominado *Visualización de datos con Python*. Si accedió a esta libreta desde fuera del curso, puede llevar a cabo el curso en línea auto-instructivo haciendo clic [aquí](https://cocl.us/DV0101EN_Lab1).

Derechos de autor &copy; 2018 [Cognitive Class](https://cognitiveclass.ai/?utm_source=bducopyrightlink&utm_medium=dswb&utm_campaign=bdu). Esta cuaderno y su código fuente se publican bajo los términos de la [Licencia de MIT](https://bigdatauniversity.com/mit-license/).