In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt


# Transformación de datos

En el siguiente notebook vamos a trabajar en la transformación de datos de modo de poder dejarlos listos para poder ser procesados por algún algoritmo.

Para ello vamos a utilizar un dataset que intenta representar la personalidad de los clientes al momento de realizar compras. 




El dataset lo puedes ver aquí también: https://www.kaggle.com/code/karnikakapoor/customer-segmentation-clustering/notebook

In [2]:
df = pd.read_csv('marketing_campaign.csv')
df

Unnamed: 0,ID\tYear_Birth\tEducation\tMarital_Status\tIncome\tKidhome\tTeenhome\tDt_Customer\tRecency\tMntWines\tMntFruits\tMntMeatProducts\tMntFishProducts\tMntSweetProducts\tMntGoldProds\tNumDealsPurchases\tNumWebPurchases\tNumCatalogPurchases\tNumStorePurchases\tNumWebVisitsMonth\tAcceptedCmp3\tAcceptedCmp4\tAcceptedCmp5\tAcceptedCmp1\tAcceptedCmp2\tComplain\tZ_CostContact\tZ_Revenue\tResponse
0,5524\t1957\tGraduation\tSingle\t58138\t0\t0\t0...
1,2174\t1954\tGraduation\tSingle\t46344\t1\t1\t0...
2,4141\t1965\tGraduation\tTogether\t71613\t0\t0\...
3,6182\t1984\tGraduation\tTogether\t26646\t1\t0\...
4,5324\t1981\tPhD\tMarried\t58293\t1\t0\t19-01-2...
...,...
2235,10870\t1967\tGraduation\tMarried\t61223\t0\t1\...
2236,4001\t1946\tPhD\tTogether\t64014\t2\t1\t10-06-...
2237,7270\t1981\tGraduation\tDivorced\t56981\t0\t0\...
2238,8235\t1956\tMaster\tTogether\t69245\t0\t1\t24-...


Primer problema al que nos enfrentamos es que la separación de los datos es distinta y pandas no lo reconoce automáticamente. 
Para solucionarlo hacemos lo siguiente:

In [3]:
df = pd.read_csv('marketing_campaign.csv', sep='\t')
df

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10870,1967,Graduation,Married,61223.0,0,1,13-06-2013,46,709,...,5,0,0,0,0,0,0,3,11,0
2236,4001,1946,PhD,Together,64014.0,2,1,10-06-2014,56,406,...,7,0,0,0,1,0,0,3,11,0
2237,7270,1981,Graduation,Divorced,56981.0,0,0,25-01-2014,91,908,...,6,0,1,0,0,0,0,3,11,0
2238,8235,1956,Master,Together,69245.0,0,1,24-01-2014,8,428,...,3,0,0,0,0,0,0,3,11,0


## Análisis exploratorio de datos

Nos interesa revisar el estado actual de lo datos. Si existen valores perdidos (Missing values: NaN), el formato de las columnas de los datos, entre otros.

In [4]:
#Nos interesa conocer los tipos de datos por columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

#### Encontrar si existen valores nulos por column

In [5]:
# Codigo muy simple, por cada columna chequea si en esa columna hay al menos un valor nulo. Si es así printeamos que en esa columna hay va
def exists_nan_values_in_columns(df):
    for column in df.columns:
        if df[column].isnull().values.any():
            print(f'Columna {column} tiene valores nulos')

exists_nan_values_in_columns(df)


# otra opción es usar el comando directamente, pero no nos da información de que columna es y por lo tanto no sabemos que hacer
#df.isnull().values.any()


Columna Income tiene valores nulos


## Data Cleaning 

### Alternativas a como proceder:

1. Eliminar todos los valores nulos sin revisarlos. 

In [6]:
df_drop_na = df
df_drop_na.dropna(inplace=True)
df_drop_na

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10870,1967,Graduation,Married,61223.0,0,1,13-06-2013,46,709,...,5,0,0,0,0,0,0,3,11,0
2236,4001,1946,PhD,Together,64014.0,2,1,10-06-2014,56,406,...,7,0,0,0,1,0,0,3,11,0
2237,7270,1981,Graduation,Divorced,56981.0,0,0,25-01-2014,91,908,...,6,0,1,0,0,0,0,3,11,0
2238,8235,1956,Master,Together,69245.0,0,1,24-01-2014,8,428,...,3,0,0,0,0,0,0,3,11,0


En este caso solo perdemos 24 filas, lo cual no es tan relevante ya que la pérdida de datos es mínima.

In [None]:
# otra opcion seria rellenar los valores nulos con algun valor si es que el resto de los datos de las filas nos importan mucho
#df_fill_mean = df
#df_fill_mean[Income].fillna(df[Income].mean(), inplace=True)

### Una columna que nos llama la atención es la columna Fecha. Al hacer df.info() se ve como Object y no como un número (Esto podría ser desventajoso si en el futuro quisieramos entrenar un modelo de ML por ejemplo)

In [7]:
df['Dt_Customer']

0       04-09-2012
1       08-03-2014
2       21-08-2013
3       10-02-2014
4       19-01-2014
           ...    
2235    13-06-2013
2236    10-06-2014
2237    25-01-2014
2238    24-01-2014
2239    15-10-2012
Name: Dt_Customer, Length: 2216, dtype: object

In [8]:
from datetime import datetime
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], format='%d-%m-%Y')
df['Dt_Customer']

0      2012-09-04
1      2014-03-08
2      2013-08-21
3      2014-02-10
4      2014-01-19
          ...    
2235   2013-06-13
2236   2014-06-10
2237   2014-01-25
2238   2014-01-24
2239   2012-10-15
Name: Dt_Customer, Length: 2216, dtype: datetime64[ns]

Si observas bien ahora está en formato datetime y no object como era antes. 

Otra alternativa sería que necesitemos las fechas en otro formato, por ejemplo en días netos desde la menor fecha hasta la mayor fecha.

In [9]:
#Ahora podemos restar las fechas para conocer los dias que pasaron entre una fecha y otra
df['Dt_Customer'][1]-df['Dt_Customer'][0]

Timedelta('550 days 00:00:00')

Ahora que sabemos esto, podríamos por ejemplo crear una columna que tiene la cantidad de días con respecto a la fecha mínima, es decir:

fecha_actual - min(df['Dt_Customer'])

con esto convertiríamos las fechas a números (lo cual puede ser útil para mejorar los análisis estadísticos que haremos.)

In [10]:
# Encontrar el minimo
min = df['Dt_Customer'].min()

df['Days_Customer'] = df['Dt_Customer'].apply(lambda x: (x - min).days) # Otra opción para esto es que lo hagas manualmente con un for iterando por cada fecha


df['Days_Customer']

0        36
1       586
2       387
3       560
4       538
       ... 
2235    318
2236    680
2237    544
2238    543
2239     77
Name: Days_Customer, Length: 2216, dtype: int64

### Analizando datos categóricos.

Los datos categóricos también son de especial importancia, ya que al no ser valores enteros, cuando hacemos análisis estadísticos nos pueden molestar. 

La idea es entonces, intentar convertirlos a variables numéricas o bien eliminar esas columnas si según tu criterio piensas que no aportan mucho.


Estás técnicas suelen llamarse encoding:




1. **Label Encoding**: Cuando la variable categórica posee más de 2 categorías, podemos hacer una asignación de equivalencia desde 0 hasta n-1 (Por ejemplo) para reasignar las categorías con números. El problema de esta técnica es que al agregar números más grandes, esas categorías empiezan a tener mayor importancia en el modelo.

2. **One Hot Encoding**: Cuando la variable categórica es binaria (Por ejemplo género masculino y femenino o es de elección Si o no), podemos representar esto con valores entre 0 y 1.

### Las dos columnas que nos importan son Marital Status y Education.

### Ejemplo de Label Encoding.

In [11]:
df['Marital_Status'].unique()

array(['Single', 'Together', 'Married', 'Divorced', 'Widow', 'Alone',
       'Absurd', 'YOLO'], dtype=object)

Para este caso lo que haremos es asumir que Alone, Absurd, YOLO y Widow son personas solteras **Single** (Esta elección es netamente por motivos pedagógicos, podría ser distinta dependiendo de que resultados queremos).

La categoria Together y Married la reemplazaremos por una categoría llamada **Compromised** (Simplemente porque nos interesa si la persona convive en pareja o no)

Y finalmente vamos a convertir divorced y Widow en una categoría llamada **inthepast** para mencionar que esa persona estuvo comprometida en algun momento.

In [12]:
df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('Alone', 'Single'))
df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('Absurd', 'Single'))
df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('YOLO', 'Single'))

df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('Together', 'Compromised'))
df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('Married', 'Compromised'))


df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('Divorced', 'inthepast'))
df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x.replace('Widow', 'inthepast'))


df['Marital_Status'].unique()

array(['Single', 'Compromised', 'inthepast'], dtype=object)

In [13]:
unique_values = df['Marital_Status'].unique()
for i in range(len(unique_values)):
    print(f'El valor {unique_values[i]} se reemplazará por {i}')

El valor Single se reemplazará por 0
El valor Compromised se reemplazará por 1
El valor inthepast se reemplazará por 2


In [14]:
#Ahora aplicamos un label encoder para convertir las categorias en numeros

def label_encoder(df, column):
    unique_values = df[column].unique()
    for i in range(len(unique_values)):
        df[column] = df[column].apply(lambda x: i if x == unique_values[i] else x) # Nuevamente usamos una función lambda 


label_encoder(df, 'Marital_Status')


In [15]:
df

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response,Days_Customer
0,5524,1957,Graduation,0,58138.0,0,0,2012-09-04,58,635,...,0,0,0,0,0,0,3,11,1,36
1,2174,1954,Graduation,0,46344.0,1,1,2014-03-08,38,11,...,0,0,0,0,0,0,3,11,0,586
2,4141,1965,Graduation,1,71613.0,0,0,2013-08-21,26,426,...,0,0,0,0,0,0,3,11,0,387
3,6182,1984,Graduation,1,26646.0,1,0,2014-02-10,26,11,...,0,0,0,0,0,0,3,11,0,560
4,5324,1981,PhD,1,58293.0,1,0,2014-01-19,94,173,...,0,0,0,0,0,0,3,11,0,538
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10870,1967,Graduation,1,61223.0,0,1,2013-06-13,46,709,...,0,0,0,0,0,0,3,11,0,318
2236,4001,1946,PhD,1,64014.0,2,1,2014-06-10,56,406,...,0,0,0,1,0,0,3,11,0,680
2237,7270,1981,Graduation,2,56981.0,0,0,2014-01-25,91,908,...,0,1,0,0,0,0,3,11,0,544
2238,8235,1956,Master,1,69245.0,0,1,2014-01-24,8,428,...,0,0,0,0,0,0,3,11,0,543


Otra alternativa a esto es usar variables dummy, pero esto se explicará cuando empecemos a ver modelos de Machine Learning.

Ejemplo de One Hot encoding.

In [16]:
df['Education'].unique()

array(['Graduation', 'PhD', 'Master', 'Basic', '2n Cycle'], dtype=object)

Aquí lo que haremos es separar a la gente en personas con estudios de pregrado y postgrado.

In [17]:
df['Education'] = df['Education'].apply(lambda x: x.replace('Basic', 'pregrado'))
df['Education'] = df['Education'].apply(lambda x: x.replace('2n Cycle', 'pregrado'))
df['Education'] = df['Education'].apply(lambda x: x.replace('Graduation', 'pregrado'))

df['Education'] = df['Education'].apply(lambda x: x.replace('Master', 'postgrado'))
df['Education'] = df['Education'].apply(lambda x: x.replace('PhD', 'postgrado'))

print(df['Education'].unique())

label_encoder(df, 'Education')

df['Education'].unique()

['pregrado' 'postgrado']


array([0, 1])

In [18]:
df.to_csv('../simulacion_prueba/marketing_campaign_clean.csv', index=False) # Así podemos guardar el archivo en otra carpeta (usar los .. para subir un nivel en la jerarquía de carpetas)