# Uniendo Dataframes con el método .merge()

In [1]:
import pandas as pd

In [9]:
# cargamos los dataframes
taxi_owners = pd.read_pickle('taxi_owners.p')
taxi_vehicles = pd.read_pickle('taxi_vehicles.p')

Para unir los dataframes, lo haremos con el método .merge(). Una forma simple de hacerlo es la siguiente

In [15]:
taxi_owners.merge(taxi_vehicles, on = 'vid').head()

# unimos los dataframes según el valor que había en la columna vid
# lo que merge hace es crea un dataframe grande con las columnas de ambos dataframes

Unnamed: 0,rid,vid,owner_x,address,zip,make,model,year,fuel_type,owner_y
0,T6285,6285,AGEAN TAXI LLC,4536 N. ELSTON AVE.,60630,NISSAN,ALTIMA,2011,HYBRID,AGEAN TAXI LLC
1,T4862,4862,MANGIB CORP.,5717 N. WASHTENAW AVE.,60659,HONDA,CRV,2014,GASOLINE,MANGIB CORP.
2,T1495,1495,"FUNRIDE, INC.",3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,"FUNRIDE, INC."
3,T4231,4231,ALQUSH CORP.,6611 N. CAMPBELL AVE.,60645,TOYOTA,CAMRY,2014,HYBRID,ALQUSH CORP.
4,T5971,5971,EUNIFFORD INC.,3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,EUNIFFORD INC.


Notemos que las columnas owner_x y owner_y son las mismas, sin embargo, podemos diferenciar de que dataframe provienen, quitando los sufijos '_x', '_y' por '_own' y '_veh'

In [16]:
taxi_owners.merge(taxi_vehicles, on = 'vid', suffixes = ['_own', '_veh']).head()

Unnamed: 0,rid,vid,owner_own,address,zip,make,model,year,fuel_type,owner_veh
0,T6285,6285,AGEAN TAXI LLC,4536 N. ELSTON AVE.,60630,NISSAN,ALTIMA,2011,HYBRID,AGEAN TAXI LLC
1,T4862,4862,MANGIB CORP.,5717 N. WASHTENAW AVE.,60659,HONDA,CRV,2014,GASOLINE,MANGIB CORP.
2,T1495,1495,"FUNRIDE, INC.",3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,"FUNRIDE, INC."
3,T4231,4231,ALQUSH CORP.,6611 N. CAMPBELL AVE.,60645,TOYOTA,CAMRY,2014,HYBRID,ALQUSH CORP.
4,T5971,5971,EUNIFFORD INC.,3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,EUNIFFORD INC.


Algo a tener en cuenta, es que el método .merge(), si no encuentra coincidencias con algún índice, removerá dichas filas. Este tipo de unión se le llama, uno a uno, ahora veremos como es una unión uno a muchos

In [36]:
business_owners = pd.read_pickle('business_owners.p')
licenses = pd.read_pickle('licenses.p')

In [23]:
print(licenses.shape)
licenses.head()

(10000, 6)


Unnamed: 0,account,ward,aid,business,address,zip
0,307071,3,743.0,REGGIE'S BAR & GRILL,2105 S STATE ST,60616
1,10,10,829.0,HONEYBEERS,13200 S HOUSTON AVE,60633
2,10002,14,775.0,CELINA DELI,5089 S ARCHER AVE,60632
3,10005,12,,KRAFT FOODS NORTH AMERICA,2005 W 43RD ST,60609
4,10044,44,638.0,NEYBOUR'S TAVERN & GRILLE,3651 N SOUTHPORT AVE,60613


In [24]:
print(business_owners.shape)
business_owners.head()

(21352, 4)


Unnamed: 0,account,first_name,last_name,title
0,10,PEARL,SHERMAN,PRESIDENT
1,10,PEARL,SHERMAN,SECRETARY
2,10002,WALTER,MROZEK,PARTNER
3,10002,CELINA,BYRDAK,PARTNER
4,10005,IRENE,ROSENFELD,PRESIDENT


Notemos que en la tabla de arriba, la columna account tiene valores repetidos, por lo que cuando juntemos los dataframes, tendremos un dataframe mucho más grande a los que tenemos.

En este caso, el dataframe que sale de fusionar estos dos, da un dataframe más grande que licenses.

In [35]:
licenses.merge(business_owners, on = 'account').head()

Unnamed: 0,account,ward,aid,business,address,zip,first_name,last_name,title
0,307071,3,743,REGGIE'S BAR & GRILL,2105 S STATE ST,60616,ROBERT,GLICK,MEMBER
1,10,10,829,HONEYBEERS,13200 S HOUSTON AVE,60633,PEARL,SHERMAN,PRESIDENT
2,10,10,829,HONEYBEERS,13200 S HOUSTON AVE,60633,PEARL,SHERMAN,SECRETARY
3,10002,14,775,CELINA DELI,5089 S ARCHER AVE,60632,WALTER,MROZEK,PARTNER
4,10002,14,775,CELINA DELI,5089 S ARCHER AVE,60632,CELINA,BYRDAK,PARTNER


Ahora uniremos 3 dataframes. El parámetro on, también acepta una lista como parámetro, es decir, podemos unir dos dataframes por mas de 1 criterio

uniremos ward, licenses y zip_demo

In [29]:
wards = pd.read_pickle('ward.p')
wards.head()

Unnamed: 0,ward,alderman,address,zip
0,1,"Proco ""Joe"" Moreno",2058 NORTH WESTERN AVENUE,60647
1,2,Brian Hopkins,1400 NORTH ASHLAND AVENUE,60622
2,3,Pat Dowell,5046 SOUTH STATE STREET,60609
3,4,William D. Burns,"435 EAST 35TH STREET, 1ST FLOOR",60616
4,5,Leslie A. Hairston,2325 EAST 71ST STREET,60649


In [28]:
zip_demo = pd.read_pickle('zip_demo.p')
zip_demo.head()

Unnamed: 0,zip,income
0,60630,70122
1,60640,50488
2,60622,87143
3,60614,100116
4,60608,41226


In [31]:
# unimos los 3 dataframes, primero por la columna zip y luego unimos el otro dataframe por la columna ward
licenses_zip_ward = licenses.merge(zip_demo, on = 'zip') \
            			.merge(wards, on = 'ward')
# agrupamos por la columna alderman, y calculamos la media en una columna llamada income
licenses_zip_ward.groupby('alderman').agg({'income':'median'}).head()

Unnamed: 0_level_0,income
alderman,Unnamed: 1_level_1
Ameya Pawar,66246
Anthony A. Beale,38206
Anthony V. Napolitano,82226
Ariel E. Reyboras,41307
Brendan Reilly,110215


## Uniendo dataframes 'por la izquierda', 'por la derecha' y de manera 'externa'

Para unir daraframes por la izquierdas, lo hacemos especificando en el parámetro how = 'left', del método .merge, con esto conseguimos que al unir dos dataframes, privilegiemos el índice especificado del primer dataframe, en caso de que no haya coincidencias, se pondrán NaN.

Análogamente, si queremos unir por la derecha, ponemos how = 'right' y si queremos que la unión sea externa, ponemos how = 'outer'.

En caso de que la unión sea externa, las filas de todos los dataframes aparecerán aunque no hayan coincidencias.

Supongamos que queremos unir dos tablas con columnas que tiene distinto nombre, para esto especificamos el parámetro left_on = 'nombre de la columna del dataframe de la izquierda', right_on = 'nombre de la columna del dataframe de la derecha'. En este caso, ya no es necesario poner el parámetro on = ''

También podemos unir una tabla consigo misma, recordar ejemplo de las películas y sus seculeas, esto puede servir para relaciones de jerarquía, relaciones secuenciales y datos en gráficas. 

## Uniendo dataframes mediante los índices

Esto se hace de la misma forma que antes, especificando en el parámetro on = 'nombre de la columna con los indices'.

Cuando teneos más de un índice en el dataframe lo hacemos de la siguiente manera

## Concatenando dataframes de manera vertical

Cuando queremos concatenar dataframes, lo podemos hacer con el método .concat() ó con .append(), aunque con .concat(), podemos hacer que las concatenaciones sean internas, externas, etc, mientras que con .append() solo se puede hacer la concatenación de manera interna.

https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=concat#pandas.concat

## Validación

Cuando unimos dos dataframes, nos gustaría saber si la unión fue 1 a 1, etc, para esto, cuando usamos el método .merge(), si especificamos el parámetro validate con los valores 'one_to_one', 'one_to_many', 'many_to_one' ó 'many_to_many', cuando hagamos la unión, si esta resulta que no es la que nosotros especificamos en el parámetro, no devolverá un error.

Por otra parte, podemos hacer lo mismo con el método pd.concat(), especificando el parámetro verify_integrity = True, va a ver si los índices de las tablas son diferentes, en caso de que no lo sean, nos aparecerá un error.

## pd.merge_ordered()

Se usa principalmente cuando trabajamos con datos de series de tiempo ó datos que requieren estar ordenado. Por default, la unión que hace es de tipo 'outer'

Posee los mismos parámetros que .merge(), sin embargo cambia al momento de meter los dataframes de la siguiente manera pd.merge_ordered(df1,df2), otro parámetro importante es fill_method que si le ponemos fill_method = 'ffill', los valores faltantes los llenará con el valor que se encuentre antes.

## pd.merge_asof()

Es similar a pd.merge_ordered() cuando unimos por la izquierda, sin embargo, las coincidencias pueden ser no exactas al momento de hacer la unión, para esto, la columna por la cual vamos a unir las tablas deben estar ordenadas de menor a mayor, pues al no encontrar una coincidenia exacta, unirá esa parte de la tabla con el valor más cercano que haya.

Si especificamos el parámetro direction = 'forward', entonces la coincidencia va a ser con el número que sea mayor o igual al que queremos coincidir, si lo que queremos es que la coincidencia sea con el número más cercano, ponemos direction = 'nearest'

Este tipo de unión, es útil cuando queremos unir tablas de muestras de algún proceso que se realizó en un periodo de tiempo dado, un ejemplo claro son los precios de acciones en la bolsa de valores.

## Método .query()

Nos sirve para poder filtrar y obtener datos de las filas de un dataframe, por ejemplo

In [40]:
business_owners.query('first_name == "PEARL" and last_name == "SHERMAN"')

# notemos que todo lo ponemos entre comillas simples, salvo cuando ponemos las igualdades en comillas dobles
# si queremos más criterios, podemos usar las palabras 'and' y 'or'

Unnamed: 0,account,first_name,last_name,title
0,10,PEARL,SHERMAN,PRESIDENT
1,10,PEARL,SHERMAN,SECRETARY


## Método .melt()

Este método se usa para que los datos se presenten de una manera más amigable para la computadora, lo usamos de la siguiente manera

In [48]:
df_prueba = taxi_owners.merge(taxi_vehicles, on = 'vid')
df_prueba.head()

Unnamed: 0,rid,vid,owner_x,address,zip,make,model,year,fuel_type,owner_y
0,T6285,6285,AGEAN TAXI LLC,4536 N. ELSTON AVE.,60630,NISSAN,ALTIMA,2011,HYBRID,AGEAN TAXI LLC
1,T4862,4862,MANGIB CORP.,5717 N. WASHTENAW AVE.,60659,HONDA,CRV,2014,GASOLINE,MANGIB CORP.
2,T1495,1495,"FUNRIDE, INC.",3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,"FUNRIDE, INC."
3,T4231,4231,ALQUSH CORP.,6611 N. CAMPBELL AVE.,60645,TOYOTA,CAMRY,2014,HYBRID,ALQUSH CORP.
4,T5971,5971,EUNIFFORD INC.,3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,EUNIFFORD INC.


In [55]:
df_melt = df_prueba.melt(id_vars=['year', 'owner_x'], value_vars=['model'], var_name=['modelo'], value_name='nombre_modelo')
df_melt

# en este caso, pusimos el dataframe a manera de filas, sacando unicamente ciertos valores

Unnamed: 0,year,owner_x,modelo,nombre_modelo
0,2011,AGEAN TAXI LLC,model,ALTIMA
1,2014,MANGIB CORP.,model,CRV
2,2015,"FUNRIDE, INC.",model,SIENNA
3,2014,ALQUSH CORP.,model,CAMRY
4,2015,EUNIFFORD INC.,model,SIENNA
...,...,...,...,...
3514,2010,IMAGIN CAB CORP,model,ESCAPE
3515,2014,TRIBECA CAB CORP,model,C-MAX
3516,2014,AMIR EXPRESS INC,model,CAMRY
3517,2014,KARY CAB COMPANY,model,CAMRY
