# 1.Limpieza y transformación del Data Frame

In [None]:
# Importar librerias y leer el dataset
import numpy as np  
import pandas as pd
df = pd.read_excel('https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',
                       sheet_name='Canada by Citizenship',
                       skiprows=range(20),
                       skipfooter=2)
df.head()

## 1.1. Drop

In [None]:
# Descartamos del análisis algunas columnas
df.drop(['AREA','REG','DEV','Type','Coverage'], axis=1, inplace=True)
df.head()

## 1.2. Rename

In [None]:
# Renombramos algunas columnas y validamos el resultado
df.rename(columns={'OdName':'Country', 'AreaName':'Continent', 'RegName':'Region'}, inplace=True)
df.head()

## 1.3. Añadir una columna con la suma total

In [None]:
# Añadimos una columna “Total" que mostrará el total de inmigrantes que entraron en Canadá de 1980 a 2013 procedentes de cada país
df['Total'] = df.sum(axis=1)
df.head()

## 1.4. Establecer una columna como índice

In [None]:
# Establecemos la columna "Country" como índice
df = df.set_index("Country")

In [None]:
df

# 2.Ejercicios de ploteo

In [None]:
# Importamos librerias de ploteo
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib as mpl

In [None]:
# Estilos de ploteo disponibles en Matplotlib
plt.style.available

**Véase:** [Style sheets reference](https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html)

## GGPLOT
Gracias a su estricta implementación de la gramática de los gráficos, ggplot2 proporciona una forma extremadamente intuitiva y consistente de graficar sus datos. El enfoque de ggplot2 para el trazado no solo garantiza que cada gráfico comprenda ciertos elementos básicos, sino que también simplifica en gran medida la legibilidad de su código.
Sin embargo, si usted es un usuario frecuente de Python, implementar la gramática de los gráficos puede ser extremadamente desafiante debido a la falta de sintaxis estandarizada en las bibliotecas de gráficos populares, como matplotlib o seaborn.

In [None]:
# Seleccionamos el estilo 'ggplot'
mpl.style.use(['ggplot'])

## 2.1. Gráfico de líneas

In [None]:
# Creamos una lista de los años 1980 a 2013
years = list(map(int, range(1980, 2014)))

In [None]:
# Preparamos los datos de inmigración de Suiza y sus años
df.loc['Switzerland', years]

In [None]:
# Trazamos nuestro gráfico de línea
df.loc['Switzerland', years].plot()
plt.title('Immigration from Switzerland')
plt.ylabel('Number of immigrants')
plt.xlabel('Years')
plt.show()

In [None]:
# Creamos un DF con la India, Pakistan y Bangladesh
ind_pak_ban = df.loc[['India', 'Pakistan', 'Bangladesh'], years]
ind_pak_ban.head()

In [None]:
# Transponemos el DF
ind_pak_ban.T

In [None]:
# Trazamos directamente nuestro gráfico de líneas
ind_pak_ban.T.plot()

## 2.2. Pie chart

In [None]:
# 'cont' es la suma de inmigrantes agrupados por cada continente
cont = df.groupby('Continent', axis=0).sum()
cont

In [None]:
# Trazamos el gráfico de tarta
cont['Total'].plot(kind='pie', figsize=(7,7),
                  autopct='%1.1f%%',
                  shadow=True)
plt.title('Immigration By Continents')
plt.axis('equal')
plt.show()

**Véase:** [Equal axis aspect ratio](https://matplotlib.org/stable/gallery/subplots_axes_and_figures/axis_equal_demo.html)

In [None]:
# Versión customizada de nuestra figura
colors = ['gold', 'purple', 'blue', 'green', 'grey', 'orange']
explode=[0.1, 0, 0, 0, 0.1, 0.1]
cont['Total'].plot(kind='pie', figsize=(17, 10),
                  autopct = '%1.1f%%', startangle=90,
                  shadow=False, labels=None, pctdistance=1.12, colors=colors, explode = explode)
plt.axis('equal')
plt.legend(labels=cont.index, loc='upper left', fontsize=10)
plt.show()

**Véase:** [List of named colors](https://matplotlib.org/stable/gallery/color/named_colors.html)

## 2.3. Boxplot

In [None]:
# Creamos un DF con el número de inmigrantes de China
china = df.loc[['China'], years].T
china

In [None]:
# Trazamos nuestro boxplot
china.plot(kind='line', figsize=(8, 6))
plt.title('Box plot of Chinese Immigrants')
plt.ylabel('Number of Immigrants')
plt.show()

In [None]:
# Usando el DF 'ind_pak_ban' adaptamos el boxplot al número de inmigrantes de India, Pakistán y Bangladesh
ind_pak_ban.T.plot(kind='box', figsize=(8, 7))
plt.title('Box plots of India, Pakistan and Bangladesh Immigrants')
plt.ylabel('Number of Immigrants')

## 2.4. Gráfico de dispersión

In [None]:
# Crearemos un nuevo DataFrame que contendrá los años como índice y el número total de inmigrantes de cada año
totalPerYear = pd.DataFrame(df[years].sum(axis=0))
totalPerYear.head(10)

In [None]:
# Convertimos los años a enteros y le damos formato a nuestro DF
totalPerYear.index = map(int, totalPerYear.index)
totalPerYear.reset_index(inplace=True)
totalPerYear.head()

In [None]:
# Renombramos las columnas index a 'Year' y 0 a 'Total'
totalPerYear.rename(columns={'index':'Year', 0:'Total'}, inplace=True)
totalPerYear.head()

In [None]:
# Trazamos un gráfico de dispersión
totalPerYear.plot(kind='scatter', x = 'Year', y='Total', figsize=(10, 6), color='darkred')
plt.title('Total Immigration from 1980 - 2013')
plt.xlabel('Year')
plt.ylabel('Number of Immigrants')
plt.show()

## 2.5. Gráfico de área

In [None]:
# Creamos un DF denominado 'top' con la India, China, Pakistan y Francia
top = df.loc[['India', 'China', 'Pakistan', 'France'], years]
top = top.T

In [None]:
# Trazamos nuestro gráfico de área
top.plot(kind='area', stacked=False, figsize=(20, 10))
plt.title('Immigration trend')
plt.ylabel('Number of Immigrants')
plt.xlabel('Years')
plt.show()

## 2.6. Histograma

In [None]:
# Graficamos un histograma para la variable año 2005
df[2005].plot(kind='hist', figsize=(8,5))
plt.title('Histogram of Immigration from 195 Countries in 2005')
plt.ylabel('Number of Countries')
plt.xlabel('Number of Immigrants')
plt.show()

In [None]:
# Utilizamos el DF 'top' con el plot anterior
top.plot.hist()
plt.title('Histogram of Immigration from Some Populous Countries')
plt.ylabel('Number of Years')
plt.xlabel('Number of Immigrants')
plt.show()

In [None]:
# Especificamos el número y los bordes de los bins
count, bin_edges = np.histogram(top, 15)
top.plot(kind = 'hist', figsize=(14, 6), bins=15, alpha=0.6, 
        xticks=bin_edges, color=colors)

In [None]:
# Trazamos un histograma apilado
top.plot(kind='hist',
          figsize=(12, 6), 
          bins=15,
          xticks=bin_edges,
          color=colors,
          stacked=True
         )
plt.title('Histogram of Immigration from Some Populous Countries')
plt.ylabel('Number of Years')
plt.xlabel('Number of Immigrants')
plt.show()

## 2.7. Gráfico de barras

In [None]:
# Creamos un gráfico de barras con el número de inmigrantes procedentes de Francia por año
france = df.loc['France', years]
france.plot(kind='bar', figsize = (10, 6))
plt.xlabel('Year')
plt.xticks(rotation = 60)
plt.ylabel('Number of immigrants') 
plt.title('Immigrants From France')
plt.show()

## Ejemplos usando annotate
https://matplotlib.org/stable/tutorials/text/annotations.html#sphx-glr-tutorials-text-annotations-py

In [None]:
# Agregamos una anotación a nuestro gráfico
france.plot(kind='bar', figsize = (10, 6))
plt.xlabel('Year') 
plt.xticks(rotation = 60)
plt.ylabel('Number of immigrants') 
plt.title('Immigrants From France')

plt.annotate('Increasing Trend',
            xy = (19, 4500),
            rotation= 23,
            va = 'bottom',
            ha = 'left')
plt.annotate('',
            xy=(29, 5500),
            xytext=(17, 3800),
            xycoords='data',
            arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='Blue', lw=1.5))
plt.show()

**Documentación:**
- [matplotlib.pyplot.annotate](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.annotate.html)
- [Examples using matplotlib.pyplot.annotate](https://matplotlib.org/stable/tutorials/text/annotations.html#sphx-glr-tutorials-text-annotations-py)

In [None]:
# Creamos un gráfico de barras horizontal 
france.plot(kind='barh', figsize=(12, 16), color='steelblue')
plt.xlabel('Number of Immigrants')
plt.ylabel('Year')
plt.title('Immigrants From France')
for index, value in enumerate(france):
    label = format(int(value), ',')
    plt.annotate(label, xy=(value-300, index-0.1), color='white')
plt.show()

**Fuente:** [Start Using Matplotlib Today With This Basic Visualization](https://regenerativetoday.com/start-using-matplotlib-today-with-this-basic-visualization/)