# Clase: Unión y Limpieza de Datos con Pandas

## Introducción a la Unión y Limpieza de Datos

En el mundo del análisis de datos, rara vez trabajamos con una única fuente de información perfecta. A menudo, necesitamos **combinar múltiples conjuntos de datos** y **prepararlos** para el análisis. Aquí es donde entran en juego la unión y la limpieza.

### ¿Por qué son cruciales la Unión y Limpieza de Datos?
*   **Combinar datos de múltiples fuentes**: Es una realidad común tener datos dispersos en diferentes archivos (CSV, Excel) o bases de datos que necesitan ser integrados. Pandas nos ofrece métodos para unir estos datos y obtener una visión completa.
*   **Ampliar conjuntos de datos**: Podemos agregar información adicional a un dataset existente, enriqueciendo nuestros análisis.
*   **Análisis de datos relacionales**: Al igual que en SQL, podemos vincular tablas basándonos en claves comunes para realizar análisis combinados.
*   **Mejorar la calidad y consistencia**: Los datos pueden contener errores, valores nulos, formatos inconsistentes o caracteres incorrectos. La limpieza nos ayuda a corregir estos problemas, asegurando la precisión y fiabilidad de nuestros resultados.
*   **Facilitar el análisis y optimizar el rendimiento**: Datos limpios y estandarizados son más fáciles de comprender, trabajar y procesar, lo que es especialmente útil con grandes volúmenes de información.
*   **Preparación para análisis avanzados**: La limpieza es un paso crítico antes de cualquier visualización de datos o modelado estadístico.

En esta clase, aprenderemos a utilizar los métodos `concat()`, `merge()`, y `join()` para unir datos, y varias técnicas de limpieza y transformación de datos en Pandas.

### Datos que utilizaremos
Trabajaremos con dos conjuntos de datos principales:
*   `bank-additional.csv`: Contiene información de una campaña de marketing bancaria.
*   `customer-details.xlsx`: Un archivo Excel con detalles demográficos y de comportamiento de clientes, dividido en tres hojas (`2012`, `2013`, `2014`), cada una representando clientes que ingresaron al banco en diferentes años.

Nuestro objetivo es unir todos estos datos para tener una única fuente centralizada y luego limpiarla para un análisis más eficiente.

---

## 1. Preparación del Entorno y Carga de Datos

Primero, importaremos las librerías necesarias y cargaremos los DataFrames con los que trabajaremos.



In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np

# Configuración de Pandas para visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None)

In [None]:
# Cargamos el DataFrame de la campaña de marketing desde un archivo CSV
df_mar = pd.read_csv("data/bank-additional.csv")
df_mar.head(2) # Nos sale la columna Unnamed:0

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [3]:
df_mar = pd.read_csv("data/bank-additional.csv", index_col=0)
df_mar.head(2)  

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [None]:
# Cargamos los DataFrames de detalles de clientes desde las hojas del archivo Excel
df_2012 = pd.read_excel("data/customer-details.xlsx", sheet_name="2012")
df_2013 = pd.read_excel("data/customer-details.xlsx", sheet_name="2013")
df_2014 = pd.read_excel("data/customer-details.xlsx", sheet_name="2014")
display(df_2012.head(1))
display(df_2013.head(1))
display(df_2014.head(1))
# Otra vez nos sale el Unnamed:0 !!!

Unnamed: 0.1,Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079


Unnamed: 0.1,Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,0,82407,0,1,2013-10-07,29,ef81336c-e41a-46d0-8a30-5d4ac3b836be


Unnamed: 0.1,Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,0,168812,1,1,2014-06-10,27,4d6c811c-0f24-4a73-b374-2ebd1f80d46e


In [5]:
df_2012 = pd.read_excel("data/customer-details.xlsx", sheet_name="2012", index_col = 0)
df_2013 = pd.read_excel("data/customer-details.xlsx", sheet_name="2013", index_col = 0)
df_2014 = pd.read_excel("data/customer-details.xlsx", sheet_name="2014", index_col = 0)
display(df_2012.head(1))
display(df_2013.head(1))
display(df_2014.head(1))

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079


Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,82407,0,1,2013-10-07,29,ef81336c-e41a-46d0-8a30-5d4ac3b836be


Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,168812,1,1,2014-06-10,27,4d6c811c-0f24-4a73-b374-2ebd1f80d46e




---

## 2. Métodos de Unión de Datos en Pandas

Pandas ofrece tres métodos principales para unir DataFrames: `concat()`, `merge()`, y `join()`.

### 2.1. Método `concat()`

El método `concat()` se utiliza para **apilar** DataFrames o Series, ya sea verticalmente (filas) u horizontalmente (columnas). No requiere una columna de referencia específica para la unión, simplemente los coloca uno tras otro.

**Sintaxis básica**:


In [None]:
# pd.concat(objs, axis=0, join='outer', ignore_index=False)


**Parámetros clave**:
*   `objs`: Una lista o diccionario de objetos Pandas a concatenar.
*   `axis`:
    *   `axis=0` (por defecto): Concatena por filas, apilando un DataFrame debajo de otro. Similar al Union de SQL. Requiere que las columnas sean las mismas o completará con `NaN`.
    *   `axis=1`: Concatena por columnas, colocando un DataFrame al lado de otro.
*   `join` (opcional): Define cómo manejar las columnas no comunes. `'outer'` (unión de todas las columnas, por defecto) o `'inner'` (intersección de columnas comunes).
*   `ignore_index` (opcional): Si es `True`, borra los índices originales y genera nuevos índices secuenciales en el resultado.

**Ejemplo práctico: Unir los DataFrames de clientes (`df_2012`, `df_2013`, `df_2014`) verticalmente.**
El objetivo es tener toda la información personal de los clientes en un único DataFrame.



In [6]:
# Recordamos las primeras filas de los DataFrames de clientes
display(df_2012.head(2))
print("-" * 50)
display(df_2013.head(2))
print("-" * 50)
display(df_2014.head(2))
print("-" * 50)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097


--------------------------------------------------


Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,82407,0,1,2013-10-07,29,ef81336c-e41a-46d0-8a30-5d4ac3b836be
1,24877,0,0,2013-04-21,32,50b224ac-84b4-42a7-aba9-3e1d1d620479


--------------------------------------------------


Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,168812,1,1,2014-06-10,27,4d6c811c-0f24-4a73-b374-2ebd1f80d46e
1,108615,2,1,2014-04-05,24,eef0f24f-cbdb-4c67-b371-09d7bc59695e


--------------------------------------------------


In [7]:
# Verificamos las dimensiones de los DataFrames para entender el efecto de concat
display(df_2012.shape)
display(df_2013.shape)
display(df_2014.shape)

(20115, 6)

(8965, 6)

(14090, 6)

In [8]:
df_2012.shape[0] + df_2013.shape[0] + df_2014.shape[0]

43170

In [15]:
# Concatenamos los tres DataFrames por filas (axis=0)
# Usamos ignore_index=True para que los índices sean secuenciales y no se repitan
df_concat0 = pd.concat([df_2012, df_2013, df_2014], axis=0, ignore_index=True)
df_concat0.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [16]:
df_concat0.tail()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
43165,156980,1,2,2014-05-17,7,5f432048-d515-4bb5-9c94-62db451f88d4
43166,139820,0,0,2014-09-29,1,993bbbd6-4dbc-4a40-a408-f91f8462bee6
43167,78470,2,2,2014-10-28,12,d6271666-319d-42c8-a741-cb22bf2c2093
43168,144218,0,1,2014-07-01,9,f67fbfa8-6573-414d-a805-b26a2f1b1ceb
43169,115155,0,2,2014-12-25,7,9727bc06-c11a-461a-a5bb-3d210467cc2a


In [17]:
df_concat0.shape

(43170, 6)

In [18]:
# Ejemplo de concatenación horizontal (axis=1) - solo para demostración
# Esto apilaría los DataFrames uno al lado del otro, útil si las filas estuvieran relacionadas
df_concat1 = pd.concat([df_2012, df_2013, df_2014], axis=1)
df_concat1.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,Income.1,Kidhome.1,Teenhome.1,Dt_Customer.1,NumWebVisitsMonth.1,ID.1,Income.2,Kidhome.2,Teenhome.2,Dt_Customer.2,NumWebVisitsMonth.2,ID.2
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,82407.0,0.0,1.0,2013-10-07,29.0,ef81336c-e41a-46d0-8a30-5d4ac3b836be,168812.0,1.0,1.0,2014-06-10,27.0,4d6c811c-0f24-4a73-b374-2ebd1f80d46e
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,24877.0,0.0,0.0,2013-04-21,32.0,50b224ac-84b4-42a7-aba9-3e1d1d620479,108615.0,2.0,1.0,2014-04-05,24.0,eef0f24f-cbdb-4c67-b371-09d7bc59695e


In [19]:
df_concat1.shape

(20115, 18)

In [20]:
df_concat1.tail()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,Income.1,Kidhome.1,Teenhome.1,Dt_Customer.1,NumWebVisitsMonth.1,ID.1,Income.2,Kidhome.2,Teenhome.2,Dt_Customer.2,NumWebVisitsMonth.2,ID.2
20110,114469,0,2,2012-10-28,13,25f35a3f-0fd2-4e6a-b4d5-74fa1a1f4cfc,,,,NaT,,,,,,NaT,,
20111,82207,0,1,2012-02-10,27,a3d2d088-3781-44ea-9944-a4a40df51285,,,,NaT,,,,,,NaT,,
20112,135009,0,0,2012-09-14,17,3769cb72-26be-40f2-9a93-f752fc96d628,,,,NaT,,,,,,NaT,,
20113,8486,1,1,2012-07-04,18,d507f6b3-a030-46d7-9615-61fe3f6b8028,,,,NaT,,,,,,NaT,,
20114,144419,1,0,2012-04-12,29,8299f0a6-e4c0-49fc-87ab-81308b70f80f,,,,NaT,,,,,,NaT,,




### 2.2. Método `merge()`

El método `merge()` es la forma más común de unir DataFrames basándose en una o más **columnas comunes**, similar a la operación `JOIN` en SQL. Permite especificar diferentes tipos de combinaciones (inner, left, right, outer, cross).

**Sintaxis básica**:


In [None]:
# df_left.merge(df_right, how='inner', on=None, left_on=None, right_on=None)


**Parámetros clave**:
*   `df_left`, `df_right`: Los DataFrames a combinar.
*   `how`: Tipo de unión:
    *   `'inner'` (por defecto): Intersección de las claves de ambos DataFrames, conservando solo las filas donde hay coincidencias en ambas.
    *   `'left'`: Conserva todas las filas del DataFrame izquierdo y las que coinciden del derecho. Introduce `NaN` para las no coincidentes en el derecho.
    *   `'right'`: Conserva todas las filas del DataFrame derecho y las que coinciden del izquierdo. Introduce `NaN` para las no coincidentes en el izquierdo.
    *   `'outer'`: Unión de todas las claves de ambos DataFrames, conservando todas las filas y rellenando con `NaN` donde no hay coincidencia.
    *   `'cross'`: Producto cartesiano de ambos DataFrames.
*   `on`: Columna(s) común(es) si tienen el mismo nombre en ambos DataFrames.
*   `left_on`, `right_on`: Permiten especificar columnas diferentes en los DataFrames `left` y `right` en las que se basará la fusión.
*   `suffixes`: Sufijos a agregar a las columnas que se solapan para distinguirlas.

**Ejemplo práctico: Unir `df_concat0` (clientes) con `df_mar` (marketing).**
Utilizaremos las columnas `ID` de `df_concat0` y `id_` de `df_mar`, ya que ambas representan el identificador del cliente.



In [21]:
# Recordamos los DataFrames que vamos a unir
display(df_mar.head(2))
print("-" * 100)
display(df_concat0.head(2))

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


----------------------------------------------------------------------------------------------------


Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097


In [26]:
# Verificamos las dimensiones actuales
display(df_concat0.shape)
display(df_mar.shape)

(43170, 6)

(43000, 23)

In [28]:
df_concat0.columns.to_list()

['Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'NumWebVisitsMonth', 'ID']

In [None]:
list(df_concat0.columns)

['Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'NumWebVisitsMonth', 'ID']

In [30]:
# Verificamos los nombres de las columnas para identificar las claves de unión
display(df_concat0.columns.tolist())
display(df_mar.columns.tolist())
# Las columnas de unión son 'ID' en df_concat0 y 'id_' en df_mar.

['Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'NumWebVisitsMonth', 'ID']

['age',
 'job',
 'marital',
 'education',
 'default',
 'housing',
 'loan',
 'contact',
 'duration',
 'campaign',
 'pdays',
 'previous',
 'poutcome',
 'emp.var.rate',
 'cons.price.idx',
 'cons.conf.idx',
 'euribor3m',
 'nr.employed',
 'y',
 'date',
 'latitude',
 'longitude',
 'id_']

In [31]:
### Inner Merge
# Realizamos un inner merge usando 'ID' de df_concat0 y 'id_' de df_mar
# El inner merge solo conserva las filas donde los IDs coinciden en AMBOS DataFrames.
mergeado_inner = df_concat0.merge(df_mar, left_on='ID', right_on="id_") 

In [32]:
mergeado_inner.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [33]:
mergeado_inner.shape # Notamos que el número de filas en mergeado_inner es igual al número de filas en df_mar 
                     #(el más pequeño de los dos), porque solo se conservan los 'ID' que coinciden en ambos.

(43000, 29)

In [38]:
mergeado_inner.tail(3)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
42997,9816,2,2,2014-09-18,31,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b,,blue-collar,SINGLE,basic.6y,0.0,1.0,0.0,cellular,391,2,999,0,NONEXISTENT,1.4,93918,-427,,52281,no,15-septiembre-2016,40.679,-120.015,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b
42998,156980,1,2,2014-05-17,7,5f432048-d515-4bb5-9c94-62db451f88d4,,admin.,MARRIED,university.degree,,0.0,0.0,cellular,674,3,999,0,NONEXISTENT,1.4,93918,-427,4958.0,52281,no,23-septiembre-2019,27.772,-117.518,5f432048-d515-4bb5-9c94-62db451f88d4
42999,139820,0,0,2014-09-29,1,993bbbd6-4dbc-4a40-a408-f91f8462bee6,,unemployed,SINGLE,university.degree,0.0,0.0,1.0,cellular,104,2,999,0,NONEXISTENT,-0.1,932,-42,4021.0,51958,no,6-noviembre-2019,41.146,-105.026,993bbbd6-4dbc-4a40-a408-f91f8462bee6


In [34]:
### Left Merge
# Realizamos un left merge. Esto conservará TODAS las filas de df_concat0
# y añadirá información de df_mar donde haya coincidencias de ID.
# Si no hay coincidencia en df_mar, las columnas de df_mar aparecerán como NaN.
mergeado_izq = df_concat0.merge(right=df_mar, how='left', left_on='ID', right_on='id_')
mergeado_izq.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149.0,1.0,999.0,0.0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [35]:
df_concat0.shape

(43170, 6)

In [36]:
mergeado_izq.shape # Observamos que el número de filas en mergeado_izq es el mismo que en df_concat0 (el DataFrame de la izquierda).
                   # Esto significa que se han incluido todos los clientes de df_concat0. Donde no hubo 'match' con df_mar, aparecerán valores NaN.

(43170, 29)

In [37]:
mergeado_izq.tail(3)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
43167,78470,2,2,2014-10-28,12,d6271666-319d-42c8-a741-cb22bf2c2093,,,,,,,,,,,,,,,,,,,,,,,
43168,144218,0,1,2014-07-01,9,f67fbfa8-6573-414d-a805-b26a2f1b1ceb,,,,,,,,,,,,,,,,,,,,,,,
43169,115155,0,2,2014-12-25,7,9727bc06-c11a-461a-a5bb-3d210467cc2a,,,,,,,,,,,,,,,,,,,,,,,




### 2.3. Método `join()`

El método `join()` se utiliza para combinar DataFrames **basándose en los índices de las filas**. Es una forma conveniente de realizar uniones basadas en índices en lugar de columnas.

**Sintaxis básica**:


In [None]:
# resultado = df_left.join(df_right, how='tipo_de_join', lsuffix='', rsuffix='')


**Parámetros clave**:
*   `df_left`, `df_right`: Los DataFrames a combinar.
*   `how`: Tipo de unión (`'left'`, `'right'`, `'inner'`, `'outer'`).
*   `lsuffix`, `rsuffix`: Sufijos a añadir a las columnas con nombres coincidentes en los DataFrames izquierdo y derecho, respectivamente.

**Nota importante**: Para usar `join()`, **una de las columnas por las que queremos unir debe estar en el índice** y las columnas de unión deben llamarse **exactamente igual**.

**Ejemplo práctico: Unir `df_concat0` y `df_mar` utilizando `join()`**.
Para esto, necesitamos renombrar la columna `id_` a `ID` en `df_mar` y luego establecer `ID` como índice en `df_mar`.



In [39]:
# Verificamos las dimensiones de los DataFrames antes de la unión
display(df_concat0.shape)
display(df_mar.shape)

(43170, 6)

(43000, 23)

In [40]:
# Paso 1: Renombrar la columna 'id_' a 'ID' en df_mar
# Usamos el método .rename() para cambiar el nombre de la columna.
# El parámetro inplace=True modifica el DataFrame original.
df_mar.rename(columns={"id_": "ID"}, inplace=True)
df_mar.head(2)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,ID
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [41]:
# Paso 2: Establecer la columna 'ID' como índice en df_mar
# Usamos el método .set_index().
# El parámetro drop=True (por defecto) elimina la columna 'ID' del DataFrame después de usarla como índice.
# inplace=True modifica el DataFrame original.
df_mar.set_index("ID", inplace=True)
df_mar.head(2)

Unnamed: 0_level_0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923


In [42]:
df_concat0.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097


In [43]:
# Paso 3: Realizar la unión con .join()
# El DataFrame de la izquierda (df_concat0) es el que no tiene la columna de unión en el índice.
# El DataFrame de la derecha (df_mar) es el que sí tiene la columna de unión en el índice.
# El parámetro 'on' especifica la columna en df_concat0 que coincide con el índice de df_mar.
df_join = df_concat0.join(df_mar, on="ID")

In [48]:
df_concat0.shape

(43170, 6)

In [46]:
df_join.sample(5) # Muestra aleatoria de 5 filas

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
25991,161152,0,0,2013-01-20,18,55310dc6-92ef-4cb9-bb64-e4a4403c0f46,34.0,entrepreneur,SINGLE,basic.9y,0.0,0.0,0.0,cellular,191.0,1.0,999.0,1.0,FAILURE,-0.1,932,-42,412,51958,no,22-julio-2017,38.862,-113.362
34374,64217,1,1,2014-07-23,12,b45f6329-a5b9-49ea-90fa-b26ea7713a33,39.0,admin.,MARRIED,high.school,0.0,0.0,0.0,cellular,76.0,1.0,999.0,0.0,NONEXISTENT,-1.8,92893,-462,1266,50991,no,9-octubre-2015,26.873,-84.495
36892,79880,2,0,2014-02-23,4,c10f4959-3d67-459e-b205-11db4f113ee9,32.0,technician,MARRIED,high.school,0.0,0.0,1.0,cellular,112.0,4.0,999.0,1.0,FAILURE,-2.9,92963,-408,1224,50762,no,18-octubre-2017,43.831,-107.875
40014,32858,2,0,2014-02-24,12,9a3b116b-63a1-440a-bd08-e23c62f2123f,60.0,management,MARRIED,university.degree,0.0,1.0,1.0,cellular,395.0,1.0,4.0,2.0,SUCCESS,-1.7,94215,-403,782,49916,yes,18-junio-2018,28.061,-110.001
10355,128265,2,2,2012-01-14,22,0960a252-285d-4fab-b6a4-4e0b25a56322,29.0,blue-collar,SINGLE,high.school,0.0,0.0,0.0,telephone,203.0,2.0,999.0,0.0,NONEXISTENT,1.4,94465,-418,496,52281,no,21-octubre-2019,42.891,-100.428


In [47]:
display(df_mar.shape) # El 'join' en este caso se comporta como un left join por defecto,
display(df_join.shape) # manteniendo todas las filas del DataFrame de la izquierda.

(43000, 22)

(43170, 28)


Ahora tenemos nuestro DataFrame combinado para iniciar la limpieza. A partir de este punto, utilizaremos una copia del DataFrame `mergeado_inner` y la llamaremos `df_final` para trabajar en ella.



In [49]:
# Creamos una copia del DataFrame mergeado_inner para las operaciones de limpieza
df_final = mergeado_inner.copy()
df_final.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [None]:
import this # camel case vs snake case

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!




---

## 3. Limpieza y Transformación de Datos en Pandas

La limpieza de datos es fundamental en el proceso ETL (Extract, Transform, Load) para asegurar que los datos sean precisos, consistentes y estén en un formato adecuado.

### 3.1. Eliminación de Columnas Redundantes

Identificamos que las columnas `ID` y `id_` contienen la misma información y son redundantes. Eliminaremos una de ellas, por ejemplo, `id_`.

**Método**: `.drop()`.
**Sintaxis básica**:


In [None]:
# DataFrame.drop(labels=None, axis=0, inplace=False, errors='raise')


**Parámetros clave**:
*   `labels`: Nombre(s) de las filas o columnas a eliminar (puede ser un solo valor o una lista).
*   `axis`: `0` para filas, `1` para columnas.
*   `inplace`: `True` para modificar el DataFrame original; `False` (por defecto) para devolver un nuevo DataFrame.



In [52]:
# Eliminamos la columna 'id_' del DataFrame df_final
# axis=1 indica que queremos eliminar una columna
# inplace=True aplica el cambio directamente al DataFrame original
df_final.drop("id_", axis=1, inplace=True)

In [53]:
df_final.head(2) # La columna 'id_' ha sido eliminada, eliminando la redundancia.

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923




### 3.2. Homogeneización del Nombre de las Columnas

Los nombres de las columnas a menudo no son homogéneos (mayúsculas, puntos, espacios). Cambiaremos todos los nombres a minúsculas y reemplazaremos los puntos por espacios.

**Método**: `.rename()`.
**Sintaxis básica**:


In [None]:
# dataframe.rename(columns=nombre_columnas, index=nombre_filas, inplace=False)


**Parámetros clave**:
*   `columns`: Diccionario con `{nombre_antiguo: nombre_nuevo}` para las columnas.
*   `inplace`: `True` para modificar el DataFrame original.



In [54]:
df_final.columns

Index(['Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'NumWebVisitsMonth',
       'ID', 'age', 'job', 'marital', 'education', 'default', 'housing',
       'loan', 'contact', 'duration', 'campaign', 'pdays', 'previous',
       'poutcome', 'emp.var.rate', 'cons.price.idx', 'cons.conf.idx',
       'euribor3m', 'nr.employed', 'y', 'date', 'latitude', 'longitude'],
      dtype='object')

In [55]:
# Creamos un diccionario para mapear los nombres de las columnas
# Iteramos sobre las columnas actuales, las convertimos a minúsculas y reemplazamos los puntos por espacios
nuevas_columnas = {columna: columna.lower().replace(".", "") for columna in df_final.columns}
nuevas_columnas

{'Income': 'income',
 'Kidhome': 'kidhome',
 'Teenhome': 'teenhome',
 'Dt_Customer': 'dt_customer',
 'NumWebVisitsMonth': 'numwebvisitsmonth',
 'ID': 'id',
 'age': 'age',
 'job': 'job',
 'marital': 'marital',
 'education': 'education',
 'default': 'default',
 'housing': 'housing',
 'loan': 'loan',
 'contact': 'contact',
 'duration': 'duration',
 'campaign': 'campaign',
 'pdays': 'pdays',
 'previous': 'previous',
 'poutcome': 'poutcome',
 'emp.var.rate': 'empvarrate',
 'cons.price.idx': 'conspriceidx',
 'cons.conf.idx': 'consconfidx',
 'euribor3m': 'euribor3m',
 'nr.employed': 'nremployed',
 'y': 'y',
 'date': 'date',
 'latitude': 'latitude',
 'longitude': 'longitude'}

In [56]:
# Aplicamos el método .rename() con el diccionario de nuevos nombres
df_final.rename(columns=nuevas_columnas, inplace=True)
df_final.head(2) # Ahora todos los nombres de columnas están en minúsculas y sin puntos.

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923


In [57]:
df_final.columns


Index(['income', 'kidhome', 'teenhome', 'dt_customer', 'numwebvisitsmonth',
       'id', 'age', 'job', 'marital', 'education', 'default', 'housing',
       'loan', 'contact', 'duration', 'campaign', 'pdays', 'previous',
       'poutcome', 'empvarrate', 'conspriceidx', 'consconfidx', 'euribor3m',
       'nremployed', 'y', 'date', 'latitude', 'longitude'],
      dtype='object')



### 3.3. Cambiar los Valores de las Columnas a Minúscula

Algunas columnas categóricas, como `marital` y `poutcome`, pueden tener valores en mayúsculas. Es una buena práctica estandarizarlos a minúsculas.

**Método**: `str.lower()`. Pandas extiende los métodos de string de Python a Series con el prefijo `str.`.



In [58]:
df_final["marital"].unique()

array(['MARRIED', 'SINGLE', 'DIVORCED', nan], dtype=object)

In [61]:
# Convertimos los valores de la columna 'marital' a minúsculas
df_final["marital"] = df_final["marital"].str.lower()
df_final["marital"].unique()

array(['married', 'single', 'divorced', nan], dtype=object)

In [None]:
df_final["poutcome"].unique()

array(['NONEXISTENT', 'FAILURE', 'SUCCESS'], dtype=object)

In [63]:
# Hacemos lo mismo para la columna 'poutcome'
df_final["poutcome"] = df_final["poutcome"].str.lower()
df_final["poutcome"].unique()

array(['nonexistent', 'failure', 'success'], dtype=object)

In [64]:
# DataFrame df_final con valores de 'marital' y 'poutcome' en minúsculas
df_final.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high.school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923




### 3.4. Creación de Nuevas Columnas (Mes y Año de Contacto)

Crearemos dos nuevas columnas, `contact_month` y `contact_year`, a partir de la columna `date`.

**Método**: `str.split()`. Este método divide una cadena de texto en partes más pequeñas usando un delimitador.
**Sintaxis básica**:


In [None]:
# dataframe[columna].str.split(pat=None, expand=False)


**Parámetros clave**:
*   `pat`: Patrón o delimitador (ej., `'-'`).
*   `expand`: Si es `True`, expande las partes divididas en nuevas columnas de un DataFrame.



In [65]:
df_final.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high.school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923


In [66]:
# Dividimos la columna 'date' por el delimitador '-'
# Usamos expand=True para que el resultado sean nuevas columnas en lugar de una lista por celda
date_parts = df_final["date"].str.split("-", expand=True)
date_parts.head()

Unnamed: 0,0,1,2
0,2,agosto,2019
1,14,septiembre,2016
2,15,febrero,2019
3,29,noviembre,2015
4,29,enero,2017


In [67]:
date_parts2 = df_final["date"].str.split("-") # Así sería sin el expand
date_parts2.head()

0         [2, agosto, 2019]
1    [14, septiembre, 2016]
2       [15, febrero, 2019]
3     [29, noviembre, 2015]
4         [29, enero, 2017]
Name: date, dtype: object

In [68]:
# Asignamos las partes correspondientes al mes (índice 1) y año (índice 2) a nuevas columnas
df_final[["contact_month", "contact_year"]] = date_parts.get([1, 2])

In [69]:
df_final.head(3)


Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high.school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high.school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019




### 3.5. Reemplazar Caracteres en una Columna

La columna `education` tiene puntos (`.`) en lugar de espacios (ej. 'basic.6y'). Reemplazaremos los puntos por espacios.

**Método**: `str.replace()`. Se usa para reemplazar ocurrencias de una subcadena por otra.
**Sintaxis básica**:


In [None]:
# dataframe[columna].str.replace(pat, repl, n=-1, case=True, regex=False)


**Parámetros clave**:
*   `pat`: La subcadena a buscar.
*   `repl`: La subcadena de reemplazo.
*   `n`: Número máximo de ocurrencias a reemplazar.
*   `regex`: Si `True`, `pat` se interpreta como una expresión regular.



In [70]:
df_final["education"].unique()


array(['basic.4y', 'high.school', 'basic.6y', 'basic.9y',
       'professional.course', nan, 'university.degree', 'illiterate'],
      dtype=object)

In [71]:
# Reemplazamos los puntos por espacios en la columna 'education'
df_final["education"] = df_final["education"].str.replace(".", " ", regex=False)
# Se añade regex=False ya que '.' en regex es un carácter especial y queremos que reemplace el punto literal.

In [72]:
df_final["education"].unique()


array(['basic 4y', 'high school', 'basic 6y', 'basic 9y',
       'professional course', nan, 'university degree', 'illiterate'],
      dtype=object)

In [73]:
df_final.head(2)


Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016




### 3.6. Transformación de Tipo de Dato (Opcional pero Recomendado para Fechas)

La columna `dt_customer` (fecha en que el cliente se hizo cliente) es de tipo 'object' (string). Para poder realizar filtros o análisis basados en fechas, la convertiremos a tipo `datetime`.

**Método**: `pd.to_datetime()`.



In [75]:
# Verificamos los tipos de datos actuales de las columnas
df_final.dtypes[:5]

income                        int64
kidhome                       int64
teenhome                      int64
dt_customer          datetime64[ns]
numwebvisitsmonth             int64
dtype: object

In [76]:
df_final["dt_customer"] = df_final["dt_customer"].astype(str)

In [77]:
df_final.dtypes[:5]

income                int64
kidhome               int64
teenhome              int64
dt_customer          object
numwebvisitsmonth     int64
dtype: object

In [78]:
# Convertimos la columna 'dt_customer' a tipo datetime
df_final['dt_customer'] = pd.to_datetime(df_final['dt_customer'])

In [79]:
df_final.dtypes[:5]


income                        int64
kidhome                       int64
teenhome                      int64
dt_customer          datetime64[ns]
numwebvisitsmonth             int64
dtype: object



---

## 4. Filtrado de Datos en Pandas

El filtrado de datos es una etapa crucial para seleccionar subconjuntos de datos que cumplen con ciertas condiciones, eliminando información irrelevante o enfocándose en grupos específicos de interés.

### 4.1. Filtrado con Operadores de Comparación

Podemos usar operadores como `>`, `<`, `>=`, `<=`, `==`, `!=` para crear condiciones de filtrado.



In [80]:
df_final["marital"].unique()


array(['married', 'single', 'divorced', nan], dtype=object)

In [81]:
# Queremos quedarnos solo con los clientes casados
# Primero, definimos la condición de filtrado: columna 'marital' es igual a 'married'
condicion_casados = df_final["marital"] == "married"

In [82]:
condicion_casados.sample(5) # Muestra de la máscara booleana

1400      True
9406     False
24466    False
7912      True
3544      True
Name: marital, dtype: bool

In [83]:
# Aplicamos la condición al DataFrame para obtener solo las filas que la cumplen
df_casados = df_final[condicion_casados]

In [84]:
df_casados.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016


In [85]:
df_casados['marital'].unique()

array(['married'], dtype=object)

In [86]:
# Queremos clientes con un 'income' mayor de 150000
condicion_income = df_final["income"] > 150000
df_income_150 = df_final[condicion_income]
df_income_150.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017


In [87]:
df_income_150['income'].min() # Ingreso mínimo en df_income_150

150008

In [88]:
# Combinar dos condiciones: casados Y con 'income' > 150000
# Usamos el operador '&' para la operación AND
df_income_casados = df_final[condicion_casados & condicion_income]
df_income_casados.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017




### 4.2. Método `.isin()`

Se utiliza para filtrar filas basándose en una **lista de valores permitidos** en una columna específica.



In [89]:
# Nos interesan solo los clientes con nivel de educación 'basic 6y' o 'basic 9y'
df_final['education'].unique()

array(['basic 4y', 'high school', 'basic 6y', 'basic 9y',
       'professional course', nan, 'university degree', 'illiterate'],
      dtype=object)

In [90]:
# Definimos una lista con los valores que queremos filtrar
filtro_educacion = ['basic 6y', 'basic 9y']

In [94]:
# Aplicamos el método .isin() a la columna 'education'
df_educacion = df_final[df_final["education"].isin(filtro_educacion)]
df_educacion.education.sample(6)

14101    basic 6y
461      basic 9y
14743    basic 9y
12480    basic 9y
13531    basic 6y
35919    basic 9y
Name: education, dtype: object

In [95]:
df_educacion['education'].unique() # Valores únicos en 'education' de df_educacion


array(['basic 6y', 'basic 9y'], dtype=object)



### 4.3. Método `.between()`

Se utiliza para filtrar filas basándose en un **rango de valores** (numérico o de fechas).



In [96]:
# Queremos clientes que visitaron la web entre 15 y 25 veces (inclusive)
df_web = df_final[df_final["numwebvisitsmonth"].between(15, 25, inclusive="both")]
df_web.head(3)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017
8,179933,0,0,2012-08-22,18,87b79988-2be5-419d-88f4-56655852c565,24.0,technician,single,professional course,0.0,1.0,0.0,telephone,380,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,18-enero-2018,44.632,-85.811,enero,2018


In [97]:
# Mínimo visitas
df_web['numwebvisitsmonth'].min()

15

In [98]:
# Máximo visitas
df_web['numwebvisitsmonth'].max()

25

In [100]:
# Clientes que entraron al banco en enero de 2013 (filtro por fechas)
# Ya convertimos 'dt_customer' a datetime previamente
inicio = pd.to_datetime('2013-01-01')
fin = pd.to_datetime('2013-01-31')

In [101]:
df_fechas = df_final[df_final["dt_customer"].between(inicio, fin, inclusive="both")]
df_fechas.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
20021,113859,1,1,2013-01-06,12,f8aaf334-949d-4943-a214-b64fe9c088b4,52.0,services,married,high school,,1.0,0.0,cellular,99,1,999,0,nonexistent,1.4,93444,-361,,52281,no,15-septiembre-2016,32.499,-115.779,septiembre,2016
20028,169825,2,2,2013-01-01,10,9df0599f-1bc9-4772-9289-b6f9a8178714,51.0,technician,married,professional course,,1.0,1.0,cellular,273,1,999,0,nonexistent,1.4,93444,-361,4965.0,52281,no,6-noviembre-2015,48.691,-73.914,noviembre,2015


In [102]:
display(df_fechas['dt_customer'].min())
display(df_fechas['dt_customer'].max())

Timestamp('2013-01-01 00:00:00')

Timestamp('2013-01-31 00:00:00')



### 4.4. Método `.str.contains()`

Se utiliza para filtrar datos basados en la **presencia de una subcadena o patrón de expresión regular** en una columna de tipo string.



In [103]:
# Queremos sacar todos los clientes cuya 'education' contiene un dígito (valor numérico)
df_final['education'].unique()

array(['basic 4y', 'high school', 'basic 6y', 'basic 9y',
       'professional course', nan, 'university degree', 'illiterate'],
      dtype=object)

In [104]:
# Definimos el patrón de expresión regular para buscar uno o más dígitos
patron_regex = "\d+"

In [105]:
# Aplicamos str.contains() a la columna 'education'
# regex=True: interpreta el patrón como regex
# na=False: los valores nulos en la columna 'education' se excluyen del resultado
df_numeros_na_false = df_final[df_final["education"].str.contains(patron_regex, regex=True, na=False)]
df_numeros_na_false.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015


In [106]:
# Número de filas con na=False
df_numeros_na_false.shape

(13051, 30)

In [107]:
df_numeros_na_false.education.unique()

array(['basic 4y', 'basic 6y', 'basic 9y'], dtype=object)

In [108]:
# Para entender el parámetro 'na', probemos con na=True
# na=True: si hay nulos, los incluye en el resultado
df_numeros_na_true = df_final[df_final["education"].str.contains(patron_regex, regex=True, na=True)]
df_numeros_na_true.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015


In [109]:
# Número de filas con na=True
df_numeros_na_true.shape 
# Cuando 'na=True', se incluyen las filas que tienen valores nulos en la columna filtrada.

(14858, 30)

In [110]:
df_numeros_na_true.education.unique()

array(['basic 4y', 'basic 6y', 'basic 9y', nan], dtype=object)



---

## 5. Guardar el DataFrame Limpio

Finalmente, guardaremos nuestro DataFrame `df_final_limpieza.csv` para usarlo en futuros análisis.



In [111]:
df_final.head(2)


Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016


In [112]:
# Guardar el DataFrame df_final a un archivo CSV
# index=False evita guardar el índice del DataFrame como una columna en el CSV
df_final.to_csv("df_final_limpieza.csv", index=False)

print("DataFrame 'df_final' guardado exitosamente como 'df_final_limpieza.csv'.")

DataFrame 'df_final' guardado exitosamente como 'df_final_limpieza.csv'.
