# Métodos de unión de datos

Como ya hemos comentado en Pandas tenemos tres métodos para unir datos,CONCAT, MERGE y JOIN, veamos como se comportan.


In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [2]:
# antes de empezar vamos a leer los datos, el primero que importaremos será el csv donde tenemos la información de la campaña de marketing
df_mar = pd.read_csv("bank-additional.csv", index_col=0)
df_mar.head(1)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079


In [4]:
# vamos ahora a cargar el archivo de excel, recordemos que teníamos el método 'pd.read_excel()'
# además recuerda que este método, que vimos en la lección de este módulo, tiene un parámetro que se llama 'sheet_name' que nos permite elegir la hoja de trabajo que queremos abrir en Pandas
# 🚨 Nuestras hojas de trabajo se llaman '2012', '2013', '2014' 

df_2012 = pd.read_excel("customer-details.xlsx", sheet_name="2012", index_col = 0)
df_2013 = pd.read_excel("customer-details.xlsx", sheet_name="2013", index_col = 0)
df_2014 = pd.read_excel("customer-details.xlsx", sheet_name="2014", index_col = 0)

In [5]:
# comprobamos que los datos se han cargado correctamente
df_2012.head(1)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0.0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079


In [5]:
# miramos los datos del DataFrame df_2013
df_2013.head(1)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0.0,82407.0,0.0,1.0,2013-10-07,29.0,ef81336c-e41a-46d0-8a30-5d4ac3b836be


In [6]:
# chequeamos el último DataFrame
df_2014.head(1)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0.0,168812.0,1.0,1.0,2014-06-10,27.0,4d6c811c-0f24-4a73-b374-2ebd1f80d46e


**¿Qué es lo que tenemos en todos los DataFrames que hemos cargado?**

- En el excel tenemos tres set de datos diferentes, pero que si nos fijamos tienen la misma información y columnas, con la diferencia de que en cada DataFrame tenemos los clientes que pasaron a ser clientes en 3 diferentes años. Estos los podríamos unificar en solo uno. 

- Además, estos conjuntos de datos tienen una columna con el 'id' personal de cada cliente, que si nos fijamos es lo mismo que la columna 'id_' del csv. En este caso podremos unirlos como hacíamos con los joins en SQL. 

## `concat()`

El método `concat()` puede ser utilizado para concatenar DataFrames o Series de pandas. Su sintaxis es:

```python
pd.concat(objs, axis=0, join='outer', ignore_index=False)
```

Para poner en práctica este tipo de unión usaremos los tres DataFrames que hemos cargado desde el Excel. El objetivo será tener toda la información personal de todos los clientes en un único DataFrame.

In [7]:
# recordamos los 3 DataFrames
df_2012.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0.0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079
1.0,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097


In [8]:
df_2013.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0.0,82407.0,0.0,1.0,2013-10-07,29.0,ef81336c-e41a-46d0-8a30-5d4ac3b836be
1.0,24877.0,0.0,0.0,2013-04-21,32.0,50b224ac-84b4-42a7-aba9-3e1d1d620479


In [9]:
df_2014.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0.0,168812.0,1.0,1.0,2014-06-10,27.0,4d6c811c-0f24-4a73-b374-2ebd1f80d46e
1.0,108615.0,2.0,1.0,2014-04-05,24.0,eef0f24f-cbdb-4c67-b371-09d7bc59695e


In [6]:
# en este primer ejemplo vamos a unir los 3 DataFrames por las filas ('axis=0'). 
# Fijaos como al método 'pd.concat' le hemos pasado una lista con los nombres de los DataFrames que queremos unir
# usando el parámetro 'ignore_index = True' le decimos que reestablezca los índices del DataFrame nuevo generado, de esta forma los índices irán del 1-n (siendo n el número total de filas que tenemos en el nuevo DataFrame)
df_concat0 = pd.concat([df_2012, df_2013, df_2014], axis=0, ignore_index = True)
df_concat0.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


Si nos fijamos, el número de filas del *DataFrame* concatenado `df_concat0` es el resultado de la suma de los tres *DataFrames*.

In [7]:
print(f"las filas y columnas que tenemos en el df_2012 son {df_2012.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_2013 son {df_2013.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_2014 son {df_2014.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_concat0 {df_concat0.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el df_2012 son (20115, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_2013 son (8965, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_2014 son (14090, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_concat0 (43170, 6)
-------------------------------------------------------------------


In [8]:
# pongamos ahora un ejemplo de concatenación cambiando del valor del parámetro axis. 
# si te fijas lo que hemos hecho es juntar los tres dataframes, uno al lado del otro.
df_concat1 = pd.concat([df_2012, df_2013, df_2014], axis=1)
df_concat1.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,Income.1,Kidhome.1,Teenhome.1,Dt_Customer.1,NumWebVisitsMonth.1,ID.1,Income.2,Kidhome.2,Teenhome.2,Dt_Customer.2,NumWebVisitsMonth.2,ID.2
0.0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,82407.0,0.0,1.0,2013-10-07,29.0,ef81336c-e41a-46d0-8a30-5d4ac3b836be,168812.0,1.0,1.0,2014-06-10,27.0,4d6c811c-0f24-4a73-b374-2ebd1f80d46e
1.0,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,24877.0,0.0,0.0,2013-04-21,32.0,50b224ac-84b4-42a7-aba9-3e1d1d620479,108615.0,2.0,1.0,2014-04-05,24.0,eef0f24f-cbdb-4c67-b371-09d7bc59695e
2.0,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,78839.0,1.0,0.0,2013-11-25,21.0,9cb15c53-b647-464a-add9-09cdae04897c,179041.0,0.0,2.0,2014-09-22,4.0,bbfdcedd-199d-4927-94bb-5dad051ff471
3.0,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,113859.0,1.0,1.0,2013-01-06,12.0,f8aaf334-949d-4943-a214-b64fe9c088b4,116639.0,2.0,2.0,2014-08-16,3.0,e8ebb67d-4ee1-4615-b701-eefe3af607eb
4.0,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,147317.0,0.0,0.0,2013-07-10,14.0,885fe85a-3718-4760-a32a-a57628cf7528,49537.0,0.0,1.0,2014-09-05,28.0,f7f79ace-0024-4505-a401-f340946f0942


Como hemos cambiado el valor de axis, ahora la concatenacion se hace de manera horizontal y no vertical (apilado) como cuando habiamos establecido el axis = 0.

## `merge()` 


En este caso uniremos el DataFrame creado en el primer ejemplo del concat que vimos previamente y el DataFrame de la campaña de marketing, el que cargamos desde el *csv*

In [9]:
# recordemos el DataFrame de la campaña de marketing
df_mar.head(2)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [10]:
# recordemosel DataFrame creado en el concat
df_concat0.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097


In [11]:
print(f"las filas y columnas que tenemos en el df concatenado son {df_concat0.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_mar son {df_mar.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el df concatenado son (43170, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_mar son (43000, 23)
-------------------------------------------------------------------


Por otro lado, veamos los nombres de columnas que tenemos en los *DataFrames*.

In [16]:
print(f"los nombres de columnas que tenemos en el df concatenado son \n\n{df_concat0.columns}")
print("-------------------------------------------------------------------")


print(f"los nombres de columnas que tenemos en el df_mar son \n\n {df_mar.columns}")
print("-------------------------------------------------------------------")

los nombres de columnas que tenemos en el df concatenado son 

Index(['Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'NumWebVisitsMonth',
       'ID'],
      dtype='object')
-------------------------------------------------------------------
los nombres de columnas que tenemos en el df_mar son 

 Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'duration', 'campaign', 'pdays', 'previous', 'poutcome',
       'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m',
       'nr.employed', 'y', 'date', 'latitude', 'longitude', 'id_'],
      dtype='object')
-------------------------------------------------------------------


Si nos fijamos, tenemos varias columnas diferentes entre los *DataFrames*, pero atencion! hay una columna que comparten! La de `id_` en el DataFrame de la campaña de marketing y la columna de 'ID' en el DataFrame concatenado. Esta columna será la que nos permita hacer el mergeo entre los dos *DataFrames*.

### Inner merge 

Cuando se realiza un *inner merge*, también conocido como intersección, se combinan los datos de dos *DataFrames* en función de una o más columnas comunes, pero solo se conservan las filas donde las columnas coinciden en ambos DataFrames. Como tenemos una columna en común pero que se llaman diferente en los *DataFrames* usaremos el parámetro `right_on` y `left_on`.

In [12]:
mergeado_inner = df_concat0.merge(df_mar, left_on='ID', right_on = "id_")
mergeado_inner.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [18]:
print(f"las filas y columnas que tenemos en el df concatenado son {df_concat0.shape}")
print("-------------------------------------------------------------------")

print(f"las filas y columnas que tenemos en el df de marketing son {df_mar.shape}")
print("-------------------------------------------------------------------")

print(f"las filas y columnas que tenemos en el mergeado_inner son {mergeado_inner.shape}")
print("-------------------------------------------------------------------")



las filas y columnas que tenemos en el df concatenado son (43170, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df de marketing son (43000, 23)
-------------------------------------------------------------------
las filas y columnas que tenemos en el mergeado_inner son (43000, 29)
-------------------------------------------------------------------


Fijaos que ahora tenemos nuestros *datasets* unidos, se nos han juntado las columnas de los *DataFrames* en aquellos valores que coinciden los valores de `id_`, que es por donde hemos especificado que mergee. 

> Tenemos el mismo número filas en el *DataFrame* mergeado que en el de la campaña de marketing.  Esto es así porque hay 'id'  que están en `df_concat0` y no en `df_mar`. Como no encuentra el "match" los elimina. Es decir no se ha llamado a todos los clientes. 
>
>El *DataFrame* `mergeado_inner` resultante contiene todas las columnas de `df_concat` así como todas las columnas de `df_mar`.
>
>También observamos que la columna del 'id_' y 'ID', es decir las columnas por las que hemos mergeado están incluidas en *DataFrame* final, es decir, tenemos columnas redundantes. 

```python
# 📌en caso de que las columnas que vamos a unir se hubieran llamado igual tendríamos que hacer usado la siguiente sintaxis, usando el parámetro 'on', en vez de 'right_on' y 'left_on': 

mergeado_inner2 = df_2002.merge(df_species, on = "NOMBRE_COLUMNA_COMÚN")
mergeado_inner2.head()
```

### Left merge

Cuando se realiza un *left merge*, también conocido como unión izquierda, se combinan los datos de dos *DataFrames* en función de una o más columnas comunes, y se conservan todas las filas del *DataFrame* de la izquierda (el primer *DataFrame* especificado en la fusión), incluyendo las filas que no tienen coincidencias en el *DataFrame* de la derecha.

In [19]:
mergeado_izq = df_concat0.merge( right=df_mar, how='left',
                        left_on='ID', right_on='id_')

mergeado_izq.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [20]:
print(f"las filas y columnas que tenemos en el df_concat son {df_concat0.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el mergeado_izquierda son {mergeado_izq.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el df_concat son (43170, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el mergeado_izquierda son (43170, 29)
-------------------------------------------------------------------


El *DataFrame* resultante de una *left join* se parece mucho al resultado del *inner join* en cuanto a las columnas que contiene. Sin embargo, a diferencia del *inner_join* (`mergeado_inner`), *left_join* (`mergeado_izq`) contiene el mismo número de filas que el *DataFrame* original de `df_concat0`. 

Cuando examinamos `mergeado_izq`, encontramos que hay filas en las que falta la información que debería proceder de `df_mar`. Es decir, se han generado 170 nulos en algunas columnas

> Tenemos 170 NaN , esto significa que hay 170 clientes que teníamos en el `df_concat0` que NO aparecían en `df_mar`, es decir, los clientes a los que no se contacto en la campaña de marketing. 

## `join()`

Se utiliza para combinar los datos de dos DataFrames en función de los índices de las filas. Proporciona una forma conveniente de realizar uniones basadas en índices en lugar de columnas.

La sintaxis básica del método `join()` es la siguiente:

```python
resultado = df_left.join(df_right, how='tipo_de_join',  lsuffix='', rsuffix='')



In [25]:
# volvamos a nuestros dataframes originales y comprobemos primero sus formas.

print(f"las filas y columnas que tenemos en el df_concat0 son {df_concat0.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_mar son {df_mar.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el df_concat0 son (43170, 6)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_mar son (43000, 23)
-------------------------------------------------------------------


Lo primero que vamos a hacer es cambiar el nombre de la columna `id_` por `ID`, para eso usaremos el método `rename()`. Este método se utiliza para cambiar los nombres de columnas, índices o ambos en un DataFrame. Proporciona la capacidad de renombrar las etiquetas de las filas y columnas de manera flexible y conveniente.

La sintaxis básica del método `rename()` es la siguiente:

```python
dataframe.rename(columns=nombre_columnas, index=nombre_filas, inplace=False)
```

Donde:
- `dataframe`: Es el DataFrame al que deseas aplicar la operación de renombrar.

- `columns`: Es un diccionario o mapeo que especifica los nombres de columnas a cambiar. Las claves del diccionario representan los nombres actuales de las columnas, y los valores correspondientes son los nombres nuevos que deseas asignarles.

- `index` (opcional): Es un diccionario o mapeo que especifica los nombres de filas a cambiar. Las claves del diccionario representan los nombres actuales de las filas, y los valores correspondientes son los nombres nuevos que deseas asignarles.

- `inplace` (opcional): Es un parámetro booleano opcional que indica si se debe modificar el DataFrame original o si se debe crear un nuevo DataFrame con los nombres cambiados. Por defecto, su valor es `False`, lo que significa que se creará un nuevo DataFrame con los nombres modificados.

In [26]:
df_mar.head(1)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079


In [27]:
# cambiamos el nombre de la columna 'id_' por 'ID' en el DataFrame de df_mar usando el método rename()
df_mar.rename(columns = {"id_": "ID"}, inplace = True )

# chequeamos que el cambio se ha realizado
df_mar.head(2)


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,ID
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


Una vez que hemos cambiado el nombre de una de las columnas lo siguiente que tenemos que hacer es establecer alguna de las columnas que tienen en común los dos *DataFrames* (`ID` o `id_`) como índice. Para eso vamos a usar un método que no habíamos visto todavía, el `set_index()`. Este método se utiliza para establecer una o más columnas como índices de un *DataFrame*. Cambia la estructura del DataFrame de modo que los valores de una o más columnas se conviertan en los índices de las filas.

La sintaxis básica del método `set_index()` es la siguiente:

```python
dataframe.set_index(keys, drop=True, inplace=False)
```

Donde:

- `dataframe`: Es el DataFrame al que deseas aplicar la función.

- `keys`: Especifica la columna o columnas que se utilizarán como índices. Puede ser un solo nombre de columna o una lista de nombres de columnas si se desean múltiples índices.

- `drop`(opcional): Es un parámetro booleano opcional que indica si se deben eliminar las columnas utilizadas como índices del DataFrame resultante. Por defecto, su valor es `True`, lo que significa que las columnas utilizadas como índices se eliminarán del DataFrame.

- `inplace` (opcional): Es un parámetro booleano opcional que indica si se debe modificar el DataFrame original o si se debe crear un nuevo DataFrame con los índices establecidos. Por defecto, su valor es `False`, lo que significa que se creará un nuevo DataFrame.

El método `set_index()` devuelve un nuevo DataFrame con los índices establecidos según las columnas especificadas. Si `inplace=True`, el método modifica el DataFrame original y no devuelve nada.

In [28]:
# utilizamos el método 'set_index()' para poner la columna de 'ID' como índice de nuestro DataFrame
df_mar.set_index(["ID"], inplace = True)

# vemos como ha quedado el DataFrame
df_mar.head(1)

Unnamed: 0_level_0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233


In [29]:
# Veamos como estaba compuesto el dataframe df_concat0.
df_concat0.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [30]:
# en este punto el orden es importante, y tendremos pasar primero el DataFrame que no tiene en el índice la columna y dentro del paréntesis el DataFrame que tiene la columna común en el índice. 
df_join = df_concat0.join(df_mar, on = "ID")
df_join.sample() #recuerden que sample es solo para traernos una muestra del dataframe

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
32255,12310.0,0.0,2.0,2014-12-23,28.0,0e5f1b66-6447-41bb-b1f6-71948c685321,38.0,management,MARRIED,university.degree,0.0,0.0,0.0,cellular,525.0,1.0,999.0,0.0,NONEXISTENT,-1.8,92893,-462,,50991,no,25-septiembre-2019,34.458,-117.013


In [32]:
print(f"las filas y columnas que tenemos en el df_mar son {df_mar.shape}")
print("-------------------------------------------------------------------")


print(f"las filas y columnas que tenemos en el df_join son {df_join.shape}")
print("-------------------------------------------------------------------")

las filas y columnas que tenemos en el df_mar son (43000, 22)
-------------------------------------------------------------------
las filas y columnas que tenemos en el df_join son (43170, 28)
-------------------------------------------------------------------
