# Agrupación bases de datos

Tal como en el caso de R, en Python es posible fusionar o unir dos data frames por columnas comunes o por nombres de fila, a través de la función "merge" de Pandas. Esta función permite realizar diferentes combinaciones de bases de datos, como unión izquierda (left join), unión interna (inner join), unión derecha (right join) o unión completa (full join), entre otras. 

## Abriendo las librerías
Recuerda que las librerías solo se instalan una vez en el computador, después de eso lo único que se hace es abrirlas con la función "library", en caso de que debas instalarlas, elimina el # que está en las instalaciones de las librerías:

In [None]:
from IPython.display import Image # esta la usaremos para poder ver imágenes en el notebook
import numpy as np
import pandas as pd

Abrimos nuevamente la base de datos (solo en caso de que no la tengas abierta):


In [None]:
from gapminder import gapminder

## Inner Join

Esta función consiste en unir dos data frames en uno que contenga los elementos comunes de ambos. Para esto, y con nuestra intención de manejar la misma base de datos durante todo el curso, vamos a crear dos data frames: uno que contenga el nombre del país y el año (información básica, a través de la cual queremos unir las bases), y además que contenga el continente y la expectativa de vida. Sin embargo, esta primera base solo va a tener la información de los mil primeros datos. La vamos a llamar df1. Por otro lado, vamos a crear otra base (llamada df2) que va a almacenar la información de país y año (nuevamente), junto con la población y el ingreso por persona (gdpPercap), para todas las observaciones de la base original (1704).

In [None]:
Image(filename = "inner_join.png") # ejecuta la función para ver la imagen

In [None]:
df1 = gapminder[["country", "year", "continent", "lifeExp"]][0:1000]
df1.head()

In [None]:
len(df1)

In [None]:
df2 = gapminder[["country", "year", "pop", "gdpPercap"]]
df2.head()

In [None]:
len(df2)

In [None]:
df_inner = pd.merge(left = df1, right = df2, how = "inner")
df_inner.head()

In [None]:
len(df_inner)

Vemos que obtenemos un Data Frame con todas las variables, pero solo para los mil datos que tenían en común las dos bases de datos antes de unirlas.

## Full (outer) join

El outer join, o unión completa, combina todas las columnas de ambos conjuntos de datos en uno para todos los elementos. Es decir que combina toda la información que se encuentra dentro de las dos bases. De esta forma, en aquellos campos donde no se tenía información en ambas bases de datos los deja como vacíos, "NA" en R. 
Usaremos nuevamente los datos de los Data Frame (df1 y df2) creados anteriormente.

In [None]:
Image(filename = "outer_join.png") # ejecuta la función para ver la imagen

In [None]:
df_outer = pd.merge(left = df1, right = df2, how = "outer")
df_outer.head()

In [None]:
len(df_outer)

Observamos que la base toma las 1704 filas que contiene la base más grande unida. Sin embargo, como vemos al imprimir las últimas observaciones de la base de datos (a través de la función tail), los campos respectivos a las variables o columnas "continent" y "lifeExp" permanecen vacíos, al no existir esta información para estos países en esos años. También vemos que es posible unir las bases sin necesariamente indicarle a la función el argumento "by", que indica a través de cuáles variables queremos hacer la unión. Sin embargo, siempre es recomendable revisar bien.

## Left (x) y Right (y) (outer) join
Por último, para unir información de bases de datos que comparten algunos elementos, existen las opciones horizontales (izquierda e derecha) para combinar las bases de datos. En este caso, prevalecerá aquella base que le digamos a la función; es decir que, permanecerán sus observaciones (filas) y simplemente se pegará aquella información de la otra base. 

Por ejemplo, en las anteriores aplicaciones, le hemos dicho al programa que ponga a df1 (la base con 1000 observaciones y con la información del continente y de la expecativa de vida) a la izquierda, y la base con todas las observaciones (1704), pero solo información de población e ingresos per cápita a la derecha. Dependiendo de aquella que queramos que prevalezca. Te invito a hacer tus propias aplicaciones, lo único que debes hacer es utilizar el parámetro "all.y = TRUE" o "all.x =  TRUE", dependiendo de la base que quieres que prevalezca.

In [None]:
# df_left = pd.merge(left = df1, right = df2, how = "left")
# df_right = pd.merge(left = df1, right = df2, how = "right")

## Append
Las anteriores fueron aplicaciones de lo que se conoce como "Unión horizontal", de manera que tenemos alguna información en común (en nuestro caso país y año) y lo que queremos es pegarle información de otras variables (continente y expecativa de vida, en el caso de df1), y (ingreso per cápita y población, en el caso del df2). En otras palabras, lo que queremos es que nuestras bases de datos crezcan "hacia los lados", más variables, casi que en las mismas observaciones (filas), aunque vimos que no siempre es el caso. 

Para ser máx exactos, lo que hicimos fue coger una base (df1) que en su primera observación tenía al país de Afganistán en el año 1952 con información de cuál era su continente y su expecativa de vida. Por otro lado, teníamos la información de ingresos por persona y población del país, también para Afganistán en el año 1952, así que se la pegamos al lado. 

En este caso, con append, lo que queremos es unir bases de datos únicamente de forma vertial, cuando no tenemos unidades en común (Afganistán-1952), sino que queremos incluir información para otros países en otros años que no teníamos previamente. Para eso vamos a crear otros dos data frame como ejemplo:


In [None]:
df3 = gapminder[:][:1001] #recordemos que python empieza en cero así que para tener hasta el dato 1000 necesitamos 1001
df3.tail()

In [None]:
df4 = gapminder[:][1001:]
df4.head()

Ahora, ya tenemos la información desde la observación de Mongolia en el año 1977, que es la que nos hacía falta en la base anterior. Queremos unir estas dos bases para poder analizar todos los países posibles para todos los años poibles. En este caso, a diferencia de los anteriores, ninguno de los países coinciden con sí mismo en un año, sino que cada par país-año tiene una única observación. Así que lo que queremos es pegarles debajo a df3 la información de df4.

In [None]:
completa = df3.append(df4)
completa.head()

In [None]:
completa.tail()

In [None]:
len(completa)

Vemos que ya tenemos una base completa con las 1704 observaciones y las 6 variables. 