# Clase: Agrupación y Manipulación de Datos con Pandas
## GroupBy, Apply, Map y Replace

---

## 1. Introducción

Hoy veremos herramientas fundamentales de **Pandas** para el análisis y la preparación de datos: **`GroupBy()`**, **`Apply()`**, **`Map()`** y **`Replace()`**. Estas funciones son esenciales para transformar nuestros datos en información útil, limpiar inconsistencias y extraer patrones.

-   **`GroupBy()`**: Nos permite **agrupar datos** basándonos en una o varias columnas y luego aplicar operaciones de agregación a cada grupo. Es vital para resumir información, entender subconjuntos de datos, identificar patrones y preparar datos para análisis más complejos.

-   **`Apply()`**: Se utiliza para **aplicar una función personalizada** (ya sea una función `lambda` o una definida por nosotros) a los elementos de un `DataFrame` o una `Serie`. Su gran utilidad radica en la flexibilidad para realizar operaciones complejas, limpiar datos, categorizar, extraer información y normalizar.

-   **`Map()` y `Replace()`**: Son otros métodos de limpieza muy útiles. **`Map()`** transforma o reemplaza elementos de una `Serie` basándose en un mapeo (comúnmente un diccionario). **`Replace()`** se usa para reemplazar valores específicos en un `DataFrame` o `Serie`.

Comencemos configurando nuestro entorno y cargando el dataset con el que trabajaremos.



In [1]:
# Importamos las librerías necesarias
import pandas as pd # Para manipulación y análisis de datos
import numpy as np  # Para operaciones numéricas, incluyendo valores nulos (NaN)

# Configuración para visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None)

In [2]:
# Cargamos el DataFrame de trabajo
# Usaremos 'bank-additional_full.csv' para empezar
df = pd.read_csv("data/bank-additional_full.csv")
# Mostramos las primeras filas para familiarizarnos con los datos
df.head(3)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0


In [3]:
# Información general del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43000 entries, 0 to 42999
Data columns (total 30 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   income             43000 non-null  int64  
 1   kidhome            43000 non-null  int64  
 2   teenhome           43000 non-null  int64  
 3   dt_customer        43000 non-null  object 
 4   numwebvisitsmonth  43000 non-null  int64  
 5   id                 43000 non-null  object 
 6   age                37880 non-null  float64
 7   job                42655 non-null  object 
 8   marital            42915 non-null  object 
 9   education          41193 non-null  object 
 10  default            34019 non-null  float64
 11  housing            41974 non-null  float64
 12  loan               41974 non-null  float64
 13  contact            43000 non-null  object 
 14  duration           43000 non-null  int64  
 15  campaign           43000 non-null  int64  
 16  pdays              430



---

## 2. Agrupación de Datos con `GroupBy()` 

El método `groupby()` es la estrella cuando necesitamos resumir datos por categorías.

### 2.1. Concepto y Uso Básico

Cuando aplicamos `groupby()` sin una operación de agregación, nos devuelve un objeto `groupby`. Para obtener resultados, necesitamos especificar qué operación queremos realizar sobre los grupos (ej., media, suma, conteo).

**Sintaxis básica:** `df.groupby(by=columna_o_lista_de_columnas)`.



In [None]:
# Veamos qué sucede si solo aplicamos groupby sin una operación de agregación
df.groupby("education")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x10f974610>

In [5]:
type(df.groupby("education"))

pandas.core.groupby.generic.DataFrameGroupBy



### 2.2. Cálculo de la Media para una Columna

Una pregunta común podría ser: **¿Cuál es la edad media de los clientes en función de su nivel de educación?** Para responder, agrupamos por "education" y calculamos la media de la columna "age".

Si aplicamos `.mean()` directamente después de `groupby()`, obtendremos la media de *todas* las columnas numéricas.



In [None]:
# Media de todas las columnas numéricas agrupadas por educación
df.groupby("education").mean(numeric_only=True).T # transpose

education,basic 4y,basic 6y,basic 9y,high school,illiterate,professional course,university degree
income,92337.678375,92193.844929,93563.3644,94141.961411,80480.388889,93669.489867,92738.460148
kidhome,0.990817,1.03311,1.002853,1.007053,0.888889,1.019536,0.998349
teenhome,1.00023,0.989941,0.998098,0.989521,0.888889,1.005477,1.002673
numwebvisitsmonth,16.729109,16.545683,16.537328,16.496222,16.222222,16.653825,16.610753
age,47.6049,40.418783,39.101327,37.909434,48.785714,39.994828,38.844152
default,0.0,0.0,0.0,0.000121,0.0,0.000433,0.0
housing,0.520425,0.520448,0.532423,0.528666,0.555556,0.554039,0.546566
loan,0.152538,0.145932,0.149033,0.155702,0.166667,0.158003,0.162619
duration,264.402204,263.083822,260.404977,260.479295,276.777778,252.658755,252.436567
campaign,2.602388,2.559514,2.536852,2.562217,2.277778,2.594303,2.559896




Pero si solo nos interesa la media de una columna específica (como "age"), la sintaxis es diferente:



In [15]:
# Media de la edad por educación
educacion_edad = df.groupby("education")["age"].mean()
educacion_edad # Edad media por educación (como Serie)

education
basic 4y               47.604900
basic 6y               40.418783
basic 9y               39.101327
high school            37.909434
illiterate             48.785714
professional course    39.994828
university degree      38.844152
Name: age, dtype: float64

In [16]:
educacion_edad.index

Index(['basic 4y', 'basic 6y', 'basic 9y', 'high school', 'illiterate',
       'professional course', 'university degree'],
      dtype='object', name='education')

In [17]:
type(educacion_edad)

pandas.core.series.Series

In [18]:
# El resultado es una Serie. A menudo, queremos un DataFrame.
# Para convertirlo en DataFrame, usamos el método .reset_index()
df_educacion_edad = educacion_edad.reset_index()
df_educacion_edad

Unnamed: 0,education,age
0,basic 4y,47.6049
1,basic 6y,40.418783
2,basic 9y,39.101327
3,high school,37.909434
4,illiterate,48.785714
5,professional course,39.994828
6,university degree,38.844152


In [19]:
type(df_educacion_edad)

pandas.core.frame.DataFrame



### 2.3. Agrupación por Múltiples Columnas

Podemos agrupar por más de una columna pasando una lista de nombres de columnas a `groupby()`.

Pregunta: **¿Hay diferencia entre la cantidad de gente que acepta nuestra propuesta o no y su estado civil?** Aquí, necesitamos agrupar por "marital" y "y" (si aceptó o no el producto) y luego contar los clientes.



In [24]:
# Agrupamos por 'marital' y 'y', y contamos el número de 'id' en cada grupo
# Usamos .reset_index() para obtener un DataFrame legible
df_aceptacion_estado_civil = df.groupby(["marital", "y"])["id"].count().reset_index()
df_aceptacion_estado_civil # Número de clientes por estado civil y aceptación del producto

Unnamed: 0,marital,y,id
0,divorced,no,4321
1,divorced,yes,490
2,married,no,23344
3,married,yes,2655
4,single,no,10419
5,single,yes,1686




### 2.4. Otros Estadísticos de Agregación Comunes

Además de `mean()` y `count()`, podemos usar otros métodos de agregación comunes con `groupby()`:
-   `count()`: Número de observaciones no nulas.
-   `describe()`: Resumen de los principales estadísticos.
-   `sum()`: Suma de todos los valores.
-   `median()`: Mediana de los valores.
-   `min()`: Valor mínimo.
-   `max()`: Valor máximo.
-   `std()`: Desviación estándar.
-   `var()`: Varianza.

### 2.5. Aplicación de Múltiples Agregaciones con `.agg()`

El método **`.agg()`** es muy potente, ya que nos permite aplicar **múltiples funciones de agregación** a los grupos resultantes de un `groupby()`.

Volvamos a la pregunta de la edad por educación, pero esta vez calcularemos la media, mediana, desviación estándar, varianza, mínimo y máximo.



In [29]:
# Usamos .agg() para calcular múltiples estadísticos para la edad por educación
educacion_edad_ampliada = df.groupby("education")["age"].agg(["mean", "median", "std", "var", "min", "max"])
educacion_edad_ampliada # Estadísticos de edad ampliados por educación

Unnamed: 0_level_0,mean,median,std,var,min,max
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
basic 4y,47.6049,47.0,12.261436,150.342812,18.0,98.0
basic 6y,40.418783,39.0,8.680987,75.359532,18.0,95.0
basic 9y,39.101327,38.0,9.604425,92.244978,17.0,94.0
high school,37.909434,36.0,9.681421,93.729917,18.0,88.0
illiterate,48.785714,45.0,11.709159,137.104396,34.0,80.0
professional course,39.994828,38.0,9.869948,97.415864,20.0,86.0
university degree,38.844152,36.0,9.626975,92.67864,20.0,91.0


In [32]:
educacion_edad_ampliada = df.groupby("education")["age"].describe() # También podemos usar un describe
educacion_edad_ampliada

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
basic 4y,3837.0,47.6049,12.261436,18.0,39.0,47.0,55.0,98.0
basic 6y,2087.0,40.418783,8.680987,18.0,34.0,39.0,46.0,95.0
basic 9y,5576.0,39.101327,9.604425,17.0,32.0,38.0,46.0,94.0
high school,8734.0,37.909434,9.681421,18.0,31.0,36.0,44.0,88.0
illiterate,14.0,48.785714,11.709159,34.0,42.5,45.0,54.0,80.0
professional course,4834.0,39.994828,9.869948,20.0,33.0,38.0,47.0,86.0
university degree,11261.0,38.844152,9.626975,20.0,31.0,36.0,45.0,91.0






### 2.6. Atributo `ngroups`

El atributo **`.ngroups`** nos dice el **número de grupos distintos** que se han creado con la cláusula `groupby()`. Es importante recordar que este atributo se aplica **directamente sobre el objeto `groupby`**, no sobre un `DataFrame` o `Serie` resultante.



In [33]:
# Creamos un objeto groupby sin función de agregación para usar .ngroups
df_contact_acept = df.groupby(["contact", "y"])

# Obtenemos el número de grupos distintos
num_grupos = df_contact_acept.ngroups
print(f"\nNúmero de grupos distintos creados por 'contact' y 'y': {num_grupos}")

# Para ver qué grupos se han formado, podemos aplicar un count:
print("\nConteo de IDs por contacto y aceptación:")
df_contact_acept['id'].count().reset_index()


Número de grupos distintos creados por 'contact' y 'y': 4

Conteo de IDs por contacto y aceptación:


Unnamed: 0,contact,y,id
0,cellular,no,23357
1,cellular,yes,4039
2,telephone,no,14799
3,telephone,yes,805




---

## 3. Manipulación de Datos con `Apply()` 

El método `apply()` es increíblemente versátil para aplicar funciones personalizadas a nuestros datos.

### 3.1. Concepto y Flexibilidad

`apply()` es fundamental cuando las operaciones vectorizadas de Pandas o NumPy no son suficientes para nuestras necesidades. Nos permite definir una función (`func`) y aplicarla a cada elemento de una `Serie` o a cada fila/columna de un `DataFrame`.

**Sintaxis:** `df['columna'].apply(funcion)` o `df.apply(funcion, axis=1)` para aplicar por filas.

### 3.2. Ejemplo: Categorización de la Columna `age`

Vamos a categorizar la columna `age` en grupos de edad para un mejor análisis.

-   Jóvenes adultos: 17 a 25 años
-   Adultos jóvenes: 26 a 39 años
-   Mediana edad: 40 a 59 años
-   Adultos mayores: 60 en adelante

Primero, revisamos los rangos de edad en nuestros datos:



In [34]:
# Verificamos los valores mínimo y máximo de la columna 'age'
print(f"\nEl valor mínimo de la edad es: {df['age'].min()}")
print(f"El valor máximo de la edad es: {df['age'].max()}")


El valor mínimo de la edad es: 17.0
El valor máximo de la edad es: 98.0




Ahora, creamos una función que categorice una edad dada y la probamos:



In [35]:
# Definimaos la función para categorizar la edad
def categorizar_edad(numero):
    """
    Categoriza la edad en grupos específicos.
    Esta función toma un número (edad) y devuelve una categoría de edad.
    """
    if 17 <= numero <= 25:
        return "Jóvenes adultos"
    elif 26 <= numero <= 39:
        return "Adultos jóvenes"
    elif 40 <= numero <= 59:
        return "Mediana edad"
    else:
        return "Adultos mayores"

# Probamos la función con algunos valores de ejemplo
print(f"\nUna persona de 56 pertenece a la categoría: {categorizar_edad(56)}")
print(f"Una persona de 20 pertenece a la categoría: {categorizar_edad(20)}")
print(f"Una persona de 33 pertenece a la categoría: {categorizar_edad(33)}")


Una persona de 56 pertenece a la categoría: Mediana edad
Una persona de 20 pertenece a la categoría: Jóvenes adultos
Una persona de 33 pertenece a la categoría: Adultos jóvenes




Ahora aplicamos esta función a la columna 'age' y guardamos el resultado en una nueva columna llamada `age_cat`.



In [36]:
df.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0


In [37]:
# Aplicamos la función categorizar_edad a la columna 'age'
df["age_cat"] = df["age"].apply(categorizar_edad)

# Chequeamos las primeras filas para ver la nueva columna
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad




### 3.3. Ejemplo: Convertir Columnas de `string` a `float` (con manejo de nulos)

A veces, los datos numéricos se cargan como `string` y usan comas en lugar de puntos para los decimales. Además, pueden contener valores nulos. `apply()` nos ayudará a resolver esto.



In [38]:
# Las columnas 'conspriceidx', 'consconfidx', 'euribor3m' tienen comas como decimales y valores nulos
df[['conspriceidx', 'consconfidx', 'euribor3m']].sample(5)

Unnamed: 0,conspriceidx,consconfidx,euribor3m
25779,932,-42,
22718,93444,-361,
18034,93918,-427,
10017,94465,-418,4958.0
32598,92893,-462,


In [39]:
# Verificamos sus tipos de datos
df[['conspriceidx', 'consconfidx', 'euribor3m']].dtypes

conspriceidx    object
consconfidx     object
euribor3m       object
dtype: object



Creamos una función para cambiar las comas por puntos y convertir a `float`, incluyendo un bloque `try-except` para manejar posibles errores (como nulos que Pandas interpreta como `float` y no pueden usar `.replace()`).



In [41]:
# Definimos la función para cambiar comas por puntos y convertir a float
def cambiar_comas(cadena):
    """
    Convierte una cadena que representa un número decimal (con comas) a float.
    Maneja valores no-string o errores de conversión devolviendo np.nan.
    """
    try:
        # Reemplazamos las comas por puntos y convertimos a float
        return float(cadena.replace(",", "."))
    except:
        # Si hay un error (ej. es np.nan o no es una cadena), devolvemos np.nan
        return np.nan

# Aplicamos la función a 'conspriceidx' y sobreescribimos la columna
df["conspriceidx"] = df["conspriceidx"].apply(cambiar_comas)

# Verificamos el nuevo tipo de dato de 'conspriceidx'
df['conspriceidx'].dtype

dtype('float64')

In [42]:
df["conspriceidx"].sample(3)

28330    93.075
17531    93.918
8222     94.465
Name: conspriceidx, dtype: float64



Ahora, aplicamos esta misma función a otras columnas que tienen el mismo problema, utilizando un bucle `for`.



In [44]:
# Lista de columnas a las que queremos aplicar la función
lista_columnas = ['consconfidx', 'euribor3m']

# Iteramos sobre la lista y aplicamos la función a cada columna
for col in lista_columnas:
    df[col] = df[col].apply(cambiar_comas)

# Chequeamos los tipos de datos para confirmar los cambios
print("\nTipos de datos de las columnas después de las conversiones:")
df[['conspriceidx', 'consconfidx', 'euribor3m']].dtypes


Tipos de datos de las columnas después de las conversiones:


conspriceidx    float64
consconfidx     float64
euribor3m       float64
dtype: object

In [45]:
df[['conspriceidx', 'consconfidx', 'euribor3m']].sample(3)


Unnamed: 0,conspriceidx,consconfidx,euribor3m
29414,93.075,-47.1,
38514,92.649,-30.1,0.716
25620,93.2,-42.0,4.12




---

## 4. Otros Métodos de Limpieza: `Map()` y `Replace()` 

`Map()` y `Replace()` son métodos de limpieza de datos más específicos y a menudo más eficientes que `apply()` para transformaciones directas o reemplazos de valores.


### 4.1. Método `.map()`

El método `map()` se usa para aplicar una transformación o reemplazo a cada elemento de una **Serie** (columna). Es ideal para sustituir valores basándose en un mapeo, generalmente un diccionario.

**Sintaxis:** `Serie.map(diccionario)`.

Vamos a usar `map()` para reemplazar los valores numéricos `0` y `1` en las columnas 'loan', 'housing' y 'default' por 'No' y 'Si', respectivamente, haciéndolos más intuitivos.


In [46]:
# Primero vemos los valores únicos antes de cambiarlos:
display(df["loan"].unique())
display(df["housing"].unique())
display(df["default"].unique())

array([ 0.,  1., nan])

array([ 0.,  1., nan])

array([ 0., nan,  1.])

In [47]:
# Creamos un diccionario de mapeo: 0 por "No", 1 por "Si"
diccionario_mapa = {0: "No", 1: "Si"}

# Aplicamos .map() a la columna 'loan'
df["loan"] = df["loan"].map(diccionario_mapa)

# Verificamos los valores únicos en 'loan' para confirmar el cambio
print("\nValores únicos en la columna 'loan' después de .map():")
display(df["loan"].unique())


Valores únicos en la columna 'loan' después de .map():


array(['No', 'Si', nan], dtype=object)

In [48]:
# Hacemos lo mismo para 'housing' y 'default'
df["housing"] = df["housing"].map(diccionario_mapa)
df["default"] = df["default"].map(diccionario_mapa)

# Verificamos los valores únicos en 'housing' y 'default'
print("Valores únicos en la columna 'housing' después de .map():")
display(df["housing"].unique())
print("Valores únicos en la columna 'default' después de .map():")
display(df["default"].unique())

# Mostramos una muestra del DataFrame para ver los cambios
print("\nMuestra del DataFrame con 'loan', 'housing' y 'default' transformadas:")
df[['loan', 'housing', 'default']].sample(6)

Valores únicos en la columna 'housing' después de .map():


array(['No', 'Si', nan], dtype=object)

Valores únicos en la columna 'default' después de .map():


array(['No', nan, 'Si'], dtype=object)


Muestra del DataFrame con 'loan', 'housing' y 'default' transformadas:


Unnamed: 0,loan,housing,default
21494,Si,Si,No
26345,No,Si,No
33211,No,Si,No
10504,No,No,No
23969,No,Si,No
41028,No,No,No




### 4.2. Método `.replace()`

El método `replace()` se usa para reemplazar valores específicos en un **`DataFrame` o `Serie`** con otros valores. A diferencia de `map()`, no requiere un mapeo completo y es útil para sustituciones directas o múltiples.

**Sintaxis básica:** `DataFrame.replace(to_replace=None, value=None, inplace=False, ...)`.
- Parámetros clave: 
    - `to_replace` (el valor a reemplazar)
    - `value` (el nuevo valor)
    - `inplace` (si modifica el original)
    - `regex` (para usar expresiones regulares).

Vamos a usar `replace()` para limpiar la columna 'pdays'. En este dataset, el valor `999` en `pdays` indica que el cliente nunca fue contactado antes de la campaña, lo cual es equivalente a un valor nulo. Reemplazaremos `999` por `np.nan` (Not a Number) para representarlo como nulo.



In [49]:
df['pdays'].unique()


array([999,   6,   4,   3,   5,   1,   0,  10,   7,   8,   9,  11,   2,
        12,  13,  14,  15,  16,  21,  17,  18,  22,  25,  26,  19,  27,
        20])

In [50]:
df['pdays'].head()


0    999
1    999
2    999
3    999
4    999
Name: pdays, dtype: int64

In [51]:
# Reemplazamos los valores 999 en 'pdays' por nulos de NumPy (np.nan)
df["pdays"] = df["pdays"].replace(999, np.nan)

# Comprobamos que ya no hay valores 999 en la columna 'pdays'
# Una tabla vacía indica que no hay filas donde 'pdays' sea 999
print("\nFilas donde 'pdays' es 999 (debería estar vacío):")
display(df[df["pdays"] == 999])

# Verificamos los primeros valores de 'pdays' para ver los nulos si los hay
print("\nPrimeras filas de la columna 'pdays' después del reemplazo:")
df['pdays'].head()


Filas donde 'pdays' es 999 (debería estar vacío):


Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat



Primeras filas de la columna 'pdays' después del reemplazo:


0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
Name: pdays, dtype: float64

Finalmente, guardamos nuestro `DataFrame` limpio.


In [52]:
# Guardamos el DataFrame limpio para usarlo en futuras lecciones
df.to_csv("data/bank-additional_clean.csv", index=False)
print("\nDataFrame guardado como 'bank-additional_clean.csv'.")


DataFrame guardado como 'bank-additional_clean.csv'.
