# **2. Data Cleaning**

In [111]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('../data/interim/01campana_marketing.csv')

# Mostrar las primeras 4 filas
print(df.head(4))

     ID  Year_Birth   Education Marital_Status   Income  Kidhome  Teenhome  \
0  5524        1957  Graduation         Single  58138.0        0         0   
1  2174        1954  Graduation         Single  46344.0        1         1   
2  4141        1965  Graduation       Together  71613.0        0         0   
3  6182        1984  Graduation       Together  26646.0        1         0   

  Dt_Customer  Recency  MntWines  ...  NumWebVisitsMonth  AcceptedCmp3  \
0  04-09-2012       58       635  ...                  7             0   
1  08-03-2014       38        11  ...                  5             0   
2  21-08-2013       26       426  ...                  4             0   
3  10-02-2014       26        11  ...                  6             0   

   AcceptedCmp4  AcceptedCmp5  AcceptedCmp1  AcceptedCmp2  Complain  \
0             0             0             0             0         0   
1             0             0             0             0         0   
2             0          

### Exploración de datos:
Comprobación de los datos limpios

In [112]:
# Obtener información sobre el dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

In [113]:
print(df["Z_CostContact"].unique())
print(df["Z_Revenue"].unique())

[3]
[11]


### Eliminar las columnas `Z_CostContact` y `Z_Revenue`
Estas dos columnas tienen el mismo valor en todos los puntos de datos. Por lo tanto, estas dos columnas no son relevantes y pueden eliminarse.

In [114]:
# Eliminar las columnas Z_CostContact y Z_Revenue
df.drop(columns=['Z_CostContact', 'Z_Revenue'], inplace=True)

# Verificar que las columnas se han eliminado
print("\nDespués de eliminar columnas:")
print(df.info())


Después de eliminar columnas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDeal

In [115]:
df["Education"].unique()

array(['Graduation', 'PhD', 'Master', 'Basic', '2n Cycle'], dtype=object)

En [**Feature Engineering**](3_feature_engineering.ipynb) haremos un **Label Encoding** de `Education`

In [116]:
df["Marital_Status"].unique()

array(['Single', 'Together', 'Married', 'Divorced', 'Widow', 'Alone',
       'Absurd', 'YOLO'], dtype=object)

In [117]:
# Contar las ocurrencias de cada categoría en la columna "Marital_Status"
marital_counts = df['Marital_Status'].value_counts()

# Mostrar los resultados
print(marital_counts)

Marital_Status
Married     864
Together    580
Single      480
Divorced    232
Widow        77
Alone         3
Absurd        2
YOLO          2
Name: count, dtype: int64


### Cambiamos en las filas que contienen `Alone` a `Single`. Y eliminamos las filas que contienen `Absurd` y `YOLO` (no son más que 4 filas)

In [118]:
# Reemplazar "Alone" por "Single" en la columna "Marital_Status"
df['Marital_Status'] = df['Marital_Status'].replace('Alone', 'Single')

# Eliminar las filas que contienen "Absurd" y "YOLO" en la columna "Marital_Status"
df = df[~df['Marital_Status'].isin(['Absurd', 'YOLO'])]

# Verificar los cambios
print(df['Marital_Status'].unique())

['Single' 'Together' 'Married' 'Divorced' 'Widow']


También haremos en [**Feature Engineering**](3_feature_engineering.ipynb) un **One-Hot Encoding** de `Marital_Status`

### Ponemos `Dt_Customer` (object) a un formato de fecha adecuado

In [119]:
# Convertir la columna 'Dt_Customer' a tipo datetime
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], format='%d-%m-%Y')
# Asegúrate de que 'Dt_Customer' sea de tipo datetime
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'])

# Verificar el cambio
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 2236 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID                   2236 non-null   int64         
 1   Year_Birth           2236 non-null   int64         
 2   Education            2236 non-null   object        
 3   Marital_Status       2236 non-null   object        
 4   Income               2212 non-null   float64       
 5   Kidhome              2236 non-null   int64         
 6   Teenhome             2236 non-null   int64         
 7   Dt_Customer          2236 non-null   datetime64[ns]
 8   Recency              2236 non-null   int64         
 9   MntWines             2236 non-null   int64         
 10  MntFruits            2236 non-null   int64         
 11  MntMeatProducts      2236 non-null   int64         
 12  MntFishProducts      2236 non-null   int64         
 13  MntSweetProducts     2236 non-null   i

En [**Feature Engineering**](3_feature_engineering.ipynb) crearemos 2 características nuevas a partir de `Dt_Customer` para determinar mejor la antigüedad del cliente.

In [120]:
print(df['Dt_Customer'].describe())
print(df['Dt_Customer'].head())

count                             2236
mean     2013-07-10 15:56:21.037566976
min                2012-07-30 00:00:00
25%                2013-01-17 00:00:00
50%                2013-07-09 00:00:00
75%                2013-12-30 06:00:00
max                2014-06-29 00:00:00
Name: Dt_Customer, dtype: object
0   2012-09-04
1   2014-03-08
2   2013-08-21
3   2014-02-10
4   2014-01-19
Name: Dt_Customer, dtype: datetime64[ns]


In [121]:
print(df['Income'].dtype)

float64


In [122]:
#Primer intento de pasar el sueldo Income a número entero, ya que no contiene decimales
"""
# Convertir la columna 'Income' de float64 a int64
df['Income'] = df['Income'].astype('int64')

# Verificar el cambio
print(df.info())
print(df.head())
print(df['Income'].dtype)
"""

"\n# Convertir la columna 'Income' de float64 a int64\ndf['Income'] = df['Income'].astype('int64')\n\n# Verificar el cambio\nprint(df.info())\nprint(df.head())\nprint(df['Income'].dtype)\n"

In [123]:
# Verificar valores faltantes (NaN) en la columna 'Income'
df['Income'].isnull().any()

np.True_

### En `Year_Birt` hay años que no son lógicos

In [124]:
# Filtrar filas donde Year_Birth es inferior a 1940
filas_inferior_1940 = df[df['Year_Birth'] < 1940]

# Mostrar los encabezados y las primeras tres filas
print(filas_inferior_1940.head(3))

        ID  Year_Birth Education Marital_Status   Income  Kidhome  Teenhome  \
192   7829        1900  2n Cycle       Divorced  36640.0        1         0   
239  11004        1893  2n Cycle         Single  60182.0        0         1   
339   1150        1899       PhD       Together  83532.0        0         0   

    Dt_Customer  Recency  MntWines  ...  NumCatalogPurchases  \
192  2013-09-26       99        15  ...                    1   
239  2014-05-17       23         8  ...                    0   
339  2013-09-26       36       755  ...                    6   

     NumStorePurchases  NumWebVisitsMonth  AcceptedCmp3  AcceptedCmp4  \
192                  2                  5             0             0   
239                  2                  4             0             0   
339                  4                  1             0             0   

     AcceptedCmp5  AcceptedCmp1  AcceptedCmp2  Complain  Response  
192             0             0             0         1         0

**Donde Year_Birth es 1893 y 1899, parece un error al teclear o introducir el dato. Lo pasamos a 1993 y 1999.**

In [125]:
# Reemplazar los valores erróneos
df.loc[df['Year_Birth'] == 1893, 'Year_Birth'] = 1993
df.loc[df['Year_Birth'] == 1899, 'Year_Birth'] = 1999

# Filtrar filas donde Year_Birth es inferior a 1940
filas_inferior_1940 = df[df['Year_Birth'] < 1940]

# Mostrar los encabezados y las primeras tres filas
print(filas_inferior_1940.head(3))

       ID  Year_Birth Education Marital_Status   Income  Kidhome  Teenhome  \
192  7829        1900  2n Cycle       Divorced  36640.0        1         0   

    Dt_Customer  Recency  MntWines  ...  NumCatalogPurchases  \
192  2013-09-26       99        15  ...                    1   

     NumStorePurchases  NumWebVisitsMonth  AcceptedCmp3  AcceptedCmp4  \
192                  2                  5             0             0   

     AcceptedCmp5  AcceptedCmp1  AcceptedCmp2  Complain  Response  
192             0             0             0         1         0  

[1 rows x 27 columns]


**Reemplazamos el dato 1900 del año de nacimiento por la media.**

In [126]:
# Calcular la media de Year_Birth, excluyendo el valor 1900
mean_year_birth = df[df['Year_Birth'] != 1900]['Year_Birth'].mean()

# Reemplazar 1900 con la media calculada
df.loc[df['Year_Birth'] == 1900, 'Year_Birth'] = round(mean_year_birth)

In [127]:
# Mostrar filas con Year_Birth igual a la media después de la corrección
print(df[df['Year_Birth'] == round(mean_year_birth)])

         ID  Year_Birth   Education Marital_Status   Income  Kidhome  \
25     7892        1969  Graduation         Single  18589.0        0   
81     2261        1969  Graduation        Married  26304.0        1   
107    2683        1969  Graduation        Married  52413.0        0   
119    9862        1969  Graduation       Together  21918.0        1   
132    9597        1969  Graduation        Married  73448.0        0   
...     ...         ...         ...            ...      ...      ...   
2091   2686        1969       Basic       Together  22390.0        0   
2115   9907        1969      Master       Together  66476.0        0   
2136    271        1969  Graduation          Widow  40590.0        1   
2153   7699        1969  Graduation          Widow  40590.0        1   
2201  10968        1969  Graduation         Single  57731.0        0   

      Teenhome Dt_Customer  Recency  MntWines  ...  NumCatalogPurchases  \
25           0  2013-01-02       89         6  ...          

En [**Feature Engineering**](3_feature_engineering.ipynb) crearemos otra características nueva a partir de `Year_Birth` para determinar la edad del cliente.

### Eliminar filas con valores NaN en `Income`

In [128]:
# Contar valores faltantes (NaN) en la columna 'Income'
missing_values = df['Income'].isna().sum()

print(f'Número de valores faltantes en la columna Income: {missing_values}')

Número de valores faltantes en la columna Income: 24


Eliminar estas 24 filas implica solo una disminución del 1,07%, lo que es insignificante para la muestra

In [129]:
# Eliminar las filas donde 'Income' es NaN
df.dropna(subset=['Income'], inplace=True)

# Verificar el cambio
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 2212 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID                   2212 non-null   int64         
 1   Year_Birth           2212 non-null   int64         
 2   Education            2212 non-null   object        
 3   Marital_Status       2212 non-null   object        
 4   Income               2212 non-null   float64       
 5   Kidhome              2212 non-null   int64         
 6   Teenhome             2212 non-null   int64         
 7   Dt_Customer          2212 non-null   datetime64[ns]
 8   Recency              2212 non-null   int64         
 9   MntWines             2212 non-null   int64         
 10  MntFruits            2212 non-null   int64         
 11  MntMeatProducts      2212 non-null   int64         
 12  MntFishProducts      2212 non-null   int64         
 13  MntSweetProducts     2212 non-null   i

In [130]:
# Contar los valores con decimales en la columna 'Income'
count_decimals = df['Income'].apply(lambda x: (x - int(x)) != 0).sum()

# Contar los valores sin decimales en la columna 'Income'
count_no_decimals = df.shape[0] - count_decimals

print(f"Número de veces con decimales en 'Income': {count_decimals}")
print(f"Número de veces sin decimales en 'Income': {count_no_decimals}")

Número de veces con decimales en 'Income': 0
Número de veces sin decimales en 'Income': 2212


### Ya que no tiene decimales, pasamos Income al mismo formato que la mayoría de datos

In [131]:
# Convertir la columna 'Income' de float64 a int64
df['Income'] = df['Income'].astype('int64')

# Verificar el cambio
print(df.info())
print(df.head())
print(df['Income'].dtype)

<class 'pandas.core.frame.DataFrame'>
Index: 2212 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID                   2212 non-null   int64         
 1   Year_Birth           2212 non-null   int64         
 2   Education            2212 non-null   object        
 3   Marital_Status       2212 non-null   object        
 4   Income               2212 non-null   int64         
 5   Kidhome              2212 non-null   int64         
 6   Teenhome             2212 non-null   int64         
 7   Dt_Customer          2212 non-null   datetime64[ns]
 8   Recency              2212 non-null   int64         
 9   MntWines             2212 non-null   int64         
 10  MntFruits            2212 non-null   int64         
 11  MntMeatProducts      2212 non-null   int64         
 12  MntFishProducts      2212 non-null   int64         
 13  MntSweetProducts     2212 non-null   i

### Datos atípicos (**outliers**) en `Income`

In [132]:
# Resumen estadístico de la columna Income
resumen = df['Income'].describe()
print(resumen)

# Calcular el rango intercuartílico (IQR)
IQR = resumen['75%'] - resumen['25%']
limite_inferior = resumen['25%'] - 1.5 * IQR
limite_superior = resumen['75%'] + 1.5 * IQR

print(f"Rango Intercuartílico (IQR): {IQR}")
print(f"Límite inferior: {limite_inferior}")
print(f"Límite superior: {limite_superior}")

# Identificar outliers
outliers = df[(df['Income'] < limite_inferior) | (df['Income'] > limite_superior)]
print(f"Número de outliers: {len(outliers)}")
print(outliers)

count      2212.000000
mean      52232.510850
std       25187.455359
min        1730.000000
25%       35233.500000
50%       51381.500000
75%       68522.000000
max      666666.000000
Name: Income, dtype: float64
Rango Intercuartílico (IQR): 33288.5
Límite inferior: -14699.25
Límite superior: 118454.75
Número de outliers: 8
         ID  Year_Birth   Education Marital_Status  Income  Kidhome  Teenhome  \
164    8475        1973         PhD        Married  157243        0         1   
617    1503        1976         PhD       Together  162397        1         1   
655    5555        1975  Graduation       Divorced  153924        0         0   
687    1501        1982         PhD        Married  160803        0         0   
1300   5336        1971      Master       Together  157733        1         0   
1653   4931        1977  Graduation       Together  157146        0         0   
2132  11181        1949         PhD        Married  156924        0         0   
2233   9432        1977  G

**Income 666666 es probable que sea un dato inventado por el usuario.
Reemplazamos el valor atípico en la columna Income para el ID 9432 con la media de Income sin contar los outliers**

In [133]:
# Filtrar ingresos válidos (sin outliers)
ingresos_validos = df[(df['Income'] >= limite_inferior) & (df['Income'] <= limite_superior)]

# Calcular la media de los ingresos válidos
media_sin_outliers = ingresos_validos['Income'].mean()

# Reemplazar el valor atípico para el ID 9432 con la media calculada
df.loc[df['ID'] == 9432, 'Income'] = media_sin_outliers

# Verificar el cambio
print(df.loc[df['ID'] == 9432, 'Income'])
print(df['Income'].describe())

2233    51617.73049
Name: Income, dtype: float64
count      2212.000000
mean      51954.460095
std       21530.922239
min        1730.000000
25%       35233.500000
50%       51381.500000
75%       68487.000000
max      162397.000000
Name: Income, dtype: float64


  df.loc[df['ID'] == 9432, 'Income'] = media_sin_outliers


In [134]:
# Verificar si hay algún otro valor NaN en todo el DataFrame
print(df.isna().any().any())
# Esto imprimirá True si hay al menos un valor NaN en cualquier parte del DataFrame

False


### Guardar los datos limpios en un nuevo archivo

In [135]:
# Guardar el DataFrame modificado en un nuevo archivo CSV
df.to_csv('../data/interim/02campana_marketing.csv', index=False)

print("Archivo guardado como '02campana_marketing.csv'")

Archivo guardado como '02campana_marketing.csv'
