In [1]:
import numpy as np  # útil para cómputos matemáticos en Python
import pandas as pd # biblioteca para estructuras de datos

In [2]:
df_chi = pd.read_excel('MigrantesChile (2005-2016).xlsx',
                      sheet_name='Migrantes',
                      skipfooter=3)

print ('Data read into a pandas dataframe!')

FileNotFoundError: [Errno 2] No such file or directory: 'MigrantesChile (2005-2016).xlsx'

In [None]:
df_chi.head()
# tip: Pueden especificar el número de filas a desplegar de la siguiente forma: df_chi.head(10) 

In [None]:
df_chi.tail()


In [None]:
df_chi.info()

In [None]:
df_chi.columns.values 

In [None]:
df_chi.index.values


In [None]:
# tamaño del dataframe (filas, columnas)
df_chi.shape    

In [None]:
# en pandas axis=0 representa filas (valor por defecto) y axis=1 representa columnas.
df_chi.drop(['ID Continent','ID Country'], axis=1, inplace=True)
df_chi.head(2)

In [None]:
df_chi.columns

In [None]:
df_chi['Total'] = df_chi.sum(axis=1)

In [None]:
df_chi.isnull().sum()

In [None]:
df_chi.describe()


In [None]:
df_chi.Country  # retorna una serie

In [None]:
df_chi[['Country', 2005, 2006, 2007, 2008]] # retorna un dataframe
# notemos que 'Country' es string, mientras que los años son integer. 
# para preservar consistencia, convertiremos todos los nombres de columnas a string

In [None]:
df_chi.set_index('Country', inplace=True)
# tip: El inverso de set es reset. Para resetear el index, podemos usar df_chi.reset_index()

In [None]:
df_chi.head(5)

In [None]:
df_chi.index.name = None

In [None]:
df_chi.head(3)

In [None]:
# 1. la fila de datos completa (con todas sus columnas)
print(df_chi.loc['Macedonia'])

# métodos alternativos
print(df_chi.iloc[103])
print(df_chi[df_chi.index == 'Macedonia'].T.squeeze())

In [None]:
# 2. para un año determinado
print(df_chi.loc['Japan', 2013])

# método alternativo
print(df_chi.iloc[86, 9]) # año 2013 corresponde a la col. 9 del dataframe (col 0 es Continent). Japan corresponde a la fila 86

In [None]:
# 3. entre años 2014 y 2016, por nombres y columnas
print(df_chi.loc['Japan', [2014,2015,2016]])
print(df_chi.iloc[86, [10,11,12]])

In [None]:
df_chi.columns = list(map(str, df_chi.columns))
[print (type(x)) for x in df_chi.columns.values] 

In [None]:
# útil para posterior generación de gráficos (ploteo)
years = list(map(str, range(2005, 2017)))
years

In [None]:
# 1. crea la condición booleana
condition = df_chi['Continent'] == 'Asia'
print(condition)

In [None]:
# 2. aplica esta condición al dataframe
df_chi[condition]

In [None]:
# podemos incluir múltiples criterios para filtrar
# filtremos por Continent = Asia y valor para 2015 = 1

df_chi[(df_chi['Continent']=='Asia') & (df_chi['2015']==1)]

# nota: pandas requiere el uso de '&' and '|' para 'and' y 'or', respectivamente
# no olviden encerrar ambas cláusulas entre paréntesis

In [None]:
print('data dimensions:', df_chi.shape)
print(df_chi.columns)
df_chi.head(2)

In [None]:
df_chi

In [None]:
# usaremos el backend inline
%matplotlib inline 

import matplotlib as mpl
import matplotlib.pyplot as plt

In [None]:
print ('Matplotlib version: ', mpl.__version__) # >= 2.0.0

In [None]:
print(plt.style.available) # lista de estilos gráficos. Pueden probar otros
mpl.style.use(['ggplot']) # opcional: para estilo ggplot (R)

In [None]:
years = list(map(str, range(2005, 2017)))


venezuela = df_chi.loc['Venezuela', years] # usamos el rango 2005 - 2016, excluyendo la columna Total


In [None]:
venezuela

In [None]:
venezuela.plot(kind='bar', figsize=(10,6))

plt.xlabel('Year')
plt.ylabel('Number of immigrants')
plt.title('Venezuelan immigrants from 2005 to 2016')

plt.show()

In [None]:
venezuela.plot(kind='bar', figsize=(10,6))

plt.xlabel('Year')
plt.ylabel('Number of immigrants')
plt.title('Venezuelan immigrants from 2005 to 2016')

#anotar flecha
plt.annotate('',
                xytext=(9,5000),
                xy=(10.5,25000),
                xycoords='data',
                arrowprops=dict(arrowstyle='->', 
                             connectionstyle='arc3', 
                             color='blue', lw=2)
            )

plt.annotate('Crisis Política',
                xy=(9,12500),
                 rotation=72,
                 va='bottom',
                 ha='left')


plt.show()

In [None]:
df_chi.head()

In [None]:
df_chi.sort_values(by='Total', ascending=False, inplace=True)
df_top15 = df_chi['Total'].head(15)
df_top15

In [None]:
df_top15.plot(kind='barh', figsize=(18,12), color='steelblue') 

plt.title('Immigrants to Chile from 2005 to 2016 from top15 countries')
plt.xlabel('Number of immigrants')
plt.ylabel('Top 15 Country')

#Annotate bar
for index, value in enumerate(df_top15):
    label = int (value)
    # para texto al final de la barra (sumando 4000 a x y restando 0.1 de y para alinearlo con la barra)
    plt.annotate(label, xy=(value+4000, index-0.10), color='black')
    
plt.show()

In [None]:
# agrupamos países por Continente y aplicamos la función sum()

df_continents = df_chi.groupby('Continent', axis=0).sum()

df_continents.head()

In [None]:
# autopct crea los porcentajes, startangle muestra el punto de inicio de la torta

df_continents['Total'].plot(kind='pie',
                            figsize=(5, 6),
                            autopct='%1.1f%%', # crea y formatea porcentajes
                            startangle=90,     # comenzamos en ángulo de 90° (America)
                            shadow=True,       # añade sombra
                            )

plt.title('Immigration to Chile by Continent [2005 - 2016]')
plt.axis('equal') # equal corresponde al valor de un círculo en matplotlib

plt.show()

In [None]:
colors_list = ['gray','red', 'gold', 'lightcoral', 'blue', 'yellowgreen']
explode_list = [0, 0, 0, 0.1, 0.1, 0.1] # offset (alejamiento del centro) de los tres continentes con menos porcentaje

df_continents['Total'].plot(
                            kind='pie',
                            figsize=(15, 6),
                            autopct='%1.1f%%', 
                            startangle=180,    
                            shadow=False,       
                            labels=None,         # podemos listar etiquetas en cada slice
                            pctdistance=1.12,    # ratio entre el centro de cada slice y el texto generado por autopct
                            colors=colors_list,  # asignar colores elegidos al comienzo
                            explode=explode_list # asignar los offset
                            )

# escalado del título en 1.12
plt.title('Immigration to Chile by Continent [2005 - 2016]', y=1.12) 

plt.axis('equal') 

# añadir la lista de continentes y colores en la esquina superior izquierda 
plt.legend(labels=df_continents.index, loc='upper left') 

plt.show()

In [None]:
df_continents.sort_values(by='Total', ascending=False, inplace=True) # ordenamos dataset de continentes por Total, descendente
df_rest_continents = df_continents.tail(5) # elegimos los 5 continentes con menos inmigración (descartamos América)
colors_list =  ['red', 'gold', 'lightcoral', 'blue', 'yellowgreen']
explode_list = [0, 0, 0, 0.1, 0.1] 

df_rest_continents['Total'].plot(
    kind='pie',
    figsize=(15, 6),
    autopct='%1.1f%%', 
    startangle=180,  
    shadow=False,
    labels=None, # podemos listar etiquetas en cada slice
    pctdistance=1.12,    # ratio entre el centro de cada slice y el texto generado por autopct
    colors=colors_list,  # asignar colores elegidos al comienzo
    explode=explode_list # asignar los offset
    )

plt.title('Immigration to Chile by Continent (exc.America) [2005 - 2016]', y=1.12) 

plt.axis('equal') 

plt.legend(labels=df_rest_continents.index, loc='upper left') 

plt.show()

In [None]:
colors_list =  ['red', 'gold', 'lightcoral', 'blue', 'yellowgreen']
explode_list = [0, 0, 0.1, 0, 0.1] 

df_rest_continents['2016'].plot(
    kind='pie',
    figsize=(15, 6),
    autopct='%1.1f%%', 
    startangle=180,  
    shadow=False,
    labels=None, # podemos listar etiquetas en cada slice
    pctdistance=1.12,    # ratio entre el centro de cada slice y el texto generado por autopct
    colors=colors_list,  # asignar colores elegidos al comienzo
    explode=explode_list # asignar los offset
    )

plt.title('Immigration to Chile by Continent (exc.America) [2016]', y=1.12) 

plt.axis('equal') 

plt.legend(labels=df_rest_continents.index, loc='upper left') 

plt.show()

In [None]:
#Preparamos dataset para Boxplots
years = list(map(str, range(2005, 2017)))


In [None]:
# to get a dataframe, place extra square brackets around 'Japan'.
df_chi_japan = df_chi.loc[['Japan'], years].transpose()
df_chi_japan.head()

In [None]:
df_chi_japan.plot(kind='box', figsize=(8, 6))

plt.title('Box plot of Japanese Immigrants from 2005 - 2016')
plt.ylabel('Number of Immigrants')

plt.show()

In [None]:
df_chi_japan.describe()

In [None]:
df_chi_haiti = df_chi.loc[['Haiti'], years].transpose()
df_chi_haiti.plot(kind='box', figsize=(8, 6))

plt.title('Box plot of Haitian Immigrants from 2005 - 2016')
plt.ylabel('Number of Immigrants')

plt.show()

In [None]:
df_chi_haiti.describe()

In [None]:
df_chi_BRD= df_chi.loc[['Brazil', 'Dominican Republic'], years].transpose()
df_chi_BRD.head()

In [None]:
df_chi_BRD.describe()

In [None]:
df_chi_BRD.plot(kind='box', figsize=(10, 7))


plt.title('Box plots of Immigrants from Brazil and Dominican Republic (2005 - 2016)')
plt.xlabel('Number of Immigrants')

plt.show()

In [None]:
# box plots horizontales
df_chi_BRD.plot(kind='box', figsize=(10, 7), color='blue', vert=False)

plt.title('Box plots of Immigrants from Brazil and Dominican Republic (2005 - 2016)')
plt.xlabel('Number of Immigrants')

plt.show()

In [None]:
fig = plt.figure() # creamos la figura que abarcará dos subplots

ax0 = fig.add_subplot(1, 2, 1) # añadir subplot 1 (en arreglo de 1 fila y dos columnas, el primer plot)
ax1 = fig.add_subplot(1, 2, 2) # añadir subplot 1 (en arreglo de 1 fila y dos columnas, el segundo plot)

# Subplot 1: Box plot
df_chi_BRD.plot(kind='box', color='blue', vert=False, figsize=(20, 6), ax=ax0) 
ax0.set_title('Box Plots of Immigrants from Brazil and Dom. Republic (2005 - 2016)')
ax0.set_xlabel('Number of Immigrants')
ax0.set_ylabel('Countries')

# Subplot 2: Line plot
df_chi_BRD.plot(kind='line', figsize=(20, 6), ax=ax1) 
ax1.set_title ('Line Plots of Immigrants from Brazil and Dom. Republic (2005 - 2016)')
ax1.set_ylabel('Number of Immigrants')
ax1.set_xlabel('Years')

plt.show()

In [None]:
df_chi_BRD.plot(kind='box', figsize=(10, 7), color='blue', vert=False)

scores = np.array(df_chi_BRD)

scores


In [None]:
bp = plt.violinplot(scores, showmedians=True)
plt.xticks([1,2],['Brazil','República Dominicana'])
plt.show()