In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

Cargamos el dataframe desde el archivo .csv

In [2]:
df = pd.read_csv('datasets\\07-emigracion.csv')
df.head()

Unnamed: 0,Sexo,Mes,A√±o,N√∫mero emigrantes
0,Hombre,Enero,2009,1716
1,Hombre,Febrero,2009,1950
2,Hombre,Marzo,2009,2515
3,Hombre,Abril,2009,1996
4,Hombre,Mayo,2009,1911


Dado que las fechas est√°n separadas en dos columnas vamos a convertir los nombres de los meses al n√∫mero que les corresponde, para esto vamos a usar un diccionario y una funci√≥n lambda para hacerlos fecha

In [None]:
meses = {'Enero'     : 1, 'Febrero':  2, 'Marzo'    :  3, 'Abril'    :  4,
         'Mayo'      : 5, 'Junio'  :  6, 'Julio'    :  7, 'Agosto'   :  8,
         'Septiembre': 9, 'Octubre': 10, 'Noviembre': 11, 'Diciembre': 12
        }

In [None]:
df['fecha'] = df.apply(lambda x: pd.to_datetime('{}-{:02d}-01'.format(x.A√±o, meses[x.Mes])), axis=1)
df.head()

No vamos a usar las columnas de mes y a√±o, as√≠ que las podemos eliminar

In [None]:
df.drop(['Mes', 'A√±o'], axis=1, inplace=True)

Cambiamos el nombre de las columnas para que sea m√°s f√°cil usarlas

In [None]:
df.columns = ['sexo', 'n', 'fecha']
df.head()

Como vamos a hacer uso de los hombres y mujeres por separado, vamos a crear dos dataframes, uno para cada uno, a partir de la condici√≥n de su sexo

In [None]:
hom = df[df.sexo == 'Hombre']
muj = df[df.sexo == 'Mujer']

In [None]:
plt.figure(figsize=(12, 9))
plt.style.use('bmh')

plt.plot(hom.fecha, hom.n, 'b', label='hombres')
plt.plot(muj.fecha, muj.n, 'r', label='mujeres')
plt.xticks(rotation=90)

plt.legend(loc='best')
plt.ylabel('# de Personas')
plt.ylabel('Fecha')
plt.title('Personas migrantes en Espa√±a')

## Regresiones (l√≠neas de tendencia)

No existe una forma directa de pintar las l√≠neas de tendencia, por lo que tenemos que calcular el valor de la propia l√≠nea

Y nos vamos a encontrar con un problema... La funci√≥n de numpy para ajustar (regresiones lineales o polinomiales) no soporta variables del tipo `timestamp`

In [None]:
plt.figure(figsize=(12, 9))
plt.style.use('bmh')

plt.plot(hom.fecha, hom.n, 'b', label='hombres')
plt.plot(muj.fecha, muj.n, 'r', label='mujeres')
plt.xticks(rotation=90)

# Regresi√≥n lineal para los hombres
z = np.polyfit(hom.fecha, hom.n, 1)
p = np.poly1d(z)
plt.plot(hom.fecha, p(hom.fecha), c="b", ls=':')

plt.legend(loc='best')
plt.ylabel('# de Personas')
plt.ylabel('Fecha')
plt.title('Personas migrantes en Espa√±a')

Por lo que tenemos que crear nuevos valores para las X

La siguiente instrucci√≥n crear√° un rango de 0 hasta el n√∫mero de fechas que haya para los hombres (y las mujeres)

In [None]:
x = range(0, len(hom))

In [None]:
x = range(0, len(hom.fecha))

plt.figure(figsize=(12, 9))
plt.style.use('bmh')

plt.plot(x, hom.n, 'b', label='hombres')
plt.plot(x, muj.n, 'r', label='mujeres')

Ahora tenemos el problema de que en el eje de las X no aparecen las fechas, sino los valores del rango, vamos a a√±adir las etiquetas a cada valor de las X con `plt.ticks()`

In [None]:
x = range(0, len(hom.fecha))

plt.figure(figsize=(12, 9))
plt.style.use('bmh')

plt.plot(x, hom.n, 'b', label='hombres')
plt.plot(x, muj.n, 'r', label='mujeres')

# Los xtickers (xt), van a ir desde cero, hasta el n√∫mero de renglones que haya en hom, en
# intervalos de 6 (seis meses)
#
xt = hom.fecha[range(0, len(hom), 6)]

# Con xticks() indicamos cu√°les son las etiquetas que se van a poner, primero decimos donde
# y despu√©s decimos qu√©
#
# El apply lo utilizamos para que solo se vea la fecha sin la hora, que es el default para
# este tipo de variables
#
plt.xticks(range(0, len(hom.fecha), 6), 
           xt.apply(lambda x: x.strftime('%Y-%m-%d')), 
           rotation=90)

# Finalmente calculamos las regresiones lineales usando la funci√≥n polyfit() de Numpy
# El primer par√°metro es el valor de las X (el rango que declaramos)
# El segundo es el valor de la variable dependiente (el n√∫mero de personas que migraron
#    por mes)
# El tercero es el grado de la funci√≥n 1 es lineal, 2 cuadr√°tica, 3 c√∫bica, etc.
#
z = np.polyfit(x, hom.n, 1)
p = np.poly1d(z)
plt.plot(x, p(x), c="b", ls=':')

z = np.polyfit(x, muj.n, 1)
p = np.poly1d(z)
plt.plot(x, p(x), c="r", ls=':')

plt.legend(loc='best')
plt.ylabel('# de Personas')
plt.ylabel('Fecha')
plt.title('Personas migrantes en Espa√±a')

Una vez que vemos las dos regresiones lineales, vemos como el ritmo de migraci√≥n de las mujeres es mayor que el de los hombres, y de hecho se cruza alrededor de enero de 2012, quiz√°s influenciado porque en 2011 hubo m√°s mujeres migrando y fue el a√±o en que m√°s migraci√≥n hubo.

A continuaci√≥n, se presenta la misma gr√°fica, pero con **seaborn**, para obtener una gr√°fica m√°s agradable, sin embargo, las librer√≠as de Seaborn tienen el mismo problema que las de matplotlib, que es que no existe una forma de obtener una regresi√≥n lineal de forma autom√°tica, y los m√©todos de Seaborn requieren un tratamiento similar a lo que se hizo arriba para matplotlib, sin embargo, se puede mezclar una y otra librer√≠a, por lo que, la gr√°fica principal ser√° con Seaborn y las l√≠neas de regresi√≥n con matplotlib

In [None]:
x = range(0, len(hom.fecha))

plt.figure(figsize=(12, 9))
chart = sns.lineplot(x='fecha', y='n', data=df, 
                     hue='sexo', markers=True, 
                     style='sexo', dashes=False)
chart.set(title='Personas Migrantes', ylabel='# Personas', xlabel="Fecha")


# Regresi√≥n lineal para los hombres
z = np.polyfit(x, hom.n, 1)
p = np.poly1d(z)
plt.plot(hom.fecha, p(x), c="b", ls=":")

z = np.polyfit(x, muj.n, 1)
p = np.poly1d(z)
plt.plot(hom.fecha, p(x), c="r", ls=':')


### Una pir√°mide poblacional

Esta es una gr√°fica que me gusta mucho para analizar dos variables, comunmente se usa como pir√°mide poblacional y es realmente f√°cil de hacer, cuando se conoce el truco.

En realidad se trata de dos barras, pero en una, los valores se han hecho negativos, para que se pinten del lado izquierdo del eje central y los otros positivos, para que est√©n del lado derecho

In [None]:
plt.figure(figsize=(12,10))
plt.style.use('bmh')

# La primera, la barra de los hombres, a la derecha, es una barra horizontal normal
#
plt.barh(hom.fecha, hom.n, color='teal', label='Hombre', height=25)

# La segunda es igual que la primera, pero se multiplica por -1 para que caigan los
# valores del lado izquierdo
#
plt.barh(muj.fecha, muj.n * -1, color='pink', label="Mujer", height=25)

# Con esta instrucci√≥n, ponemos los t√≠tulos en el eje de las x, el primer par√°metro
# dice d√≥nde queremos poner las etiquetas y el segundo dice las etiquetas que vamos
# a poner, as√≠ "enga√±amos" a quien la ve, poniendo solo n√∫meros positivos
#
plt.xticks([-4000, -3000, -2000, -1000, -500, 0, 500, 1000, 2000, 3000, 4000], 
           [4000, 3000, 2000, 1000, 500, 0, -500, 1000, 2000, 3000, 4000], rotation=90)

# Para tener simetr√≠a, fijamos los l√≠mites apenas por fuera del rango de los datos
#
plt.xlim(-4500, 4500)

plt.legend(loc='best')
plt.title('Migraci√≥n por G√©nero')
plt.xlabel('# de Personas')
plt.ylabel('Fecha')

### Por semestre

Vamos a repetir la gr√°fica superior, pero ahora, en vez de dibujar cada mes, lo haremos con cada semestre

Una forma sencilla es a√±adir una columna al dataframe principal que nos indique en qu√© semestre est√° la observaci√≥n

[Documentaci√≥n de Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.month.html)

In [None]:
df['semestre'] = (df['fecha'].dt.month-1) // 6
df.head(15)

Ahora que tenemos los semestres, podemos hacer agrupaciones usando la funci√≥n `group_by()`

In [None]:
df.groupby(["semestre", "sexo"])["n"].sum()

Ya vimos los datos agrupados por semestre, pero omitimos el a√±o ü§¶‚Äç‚ôÇÔ∏è

F√°cilmente lo podemos a√±adir a otra columna, obteniendo el a√±o de la fecha y junt√°ndolo con el semestre en un string

In [None]:
df['anosem'] = df.apply(lambda x: '{}-{}'.format(x.fecha.year, x.semestre), axis=1)
df.head(15)

In [None]:
df.groupby(["anosem", "sexo"])["n"].sum()

Con este nuevo dataframe, podemos hacer la gr√°fica que busc√°bamos... ¬øcu√°l es la migraci√≥n por sexo por cada semestre?

Por comodidad, voy a crear dos nuevos dataframes, uno por sexo

Pero antes de hacer eso, es necesario crear un dataframe a partir de las agrupaciones

In [None]:
sems = df.groupby(["anosem", "sexo"])["n"].sum().to_frame().reset_index()
sems

In [None]:
homs = sems[sems.sexo == 'Hombre']
mujs = sems[sems.sexo == 'Mujer']
homs.head()

Para que se despliegue bien las gr√°ficas, requerimos saber los valores m√°ximos de cada caso, para ponerlo como los l√≠mites de la gr√°fica

In [None]:
print('M√°xima migraci√≥n para los hombres: {:,}'.format(homs.n.max()))
print('M√°xima migraci√≥n para las mujeres: {:,}'.format(mujs.n.max()))

In [None]:
plt.figure(figsize=(12,10))
plt.style.use('bmh')

# La primera, la barra de los hombres, a la derecha, es una barra horizontal normal
#
plt.barh(homs.anosem, homs.n, color='teal', label='Hombre')

# La segunda es igual que la primera, pero se multiplica por -1 para que caigan los
# valores del lado izquierdo
#
plt.barh(mujs.anosem, mujs.n * -1, color='pink', label="Mujer")

# Con esta instrucci√≥n, ponemos los t√≠tulos en el eje de las x, el primer par√°metro
# dice d√≥nde queremos poner las etiquetas y el segundo dice las etiquetas que vamos
# a poner, as√≠ "enga√±amos" a quien la ve, poniendo solo n√∫meros positivos
#
plt.xticks([  -20000,    -10000,    -5000,   0,    5000,    10000,    20000], 
           ['20,000',  '10,000',  '5,000', '0', '5,000', '10,000', '20,000'], rotation=90)

# Para tener simetr√≠a, fijamos los l√≠mites apenas por fuera del rango de los datos
#
plt.xlim(-21500, 21500)

plt.legend(loc='best')
plt.title('Migraci√≥n por G√©nero')
plt.xlabel('# de Personas')
plt.ylabel('Fecha')

In [None]:
x = range(0, len(homs))

plt.figure(figsize=(12, 9))
chart = sns.lineplot(x='anosem', y='n', data=sems, 
                     hue='sexo', markers=True, 
                     style='sexo', dashes=False)
chart.set(title='Personas Migrantes', ylabel='# Personas', xlabel="Fecha")


# Regresi√≥n lineal para los hombres
z = np.polyfit(x, homs.n, 1)
p = np.poly1d(z)
plt.plot(homs.anosem, p(x), c="b", ls=":")

z = np.polyfit(x, mujs.n, 1)
p = np.poly1d(z)
plt.plot(homs.anosem, p(x), c="r", ls=':')