# Fase 1. Transformación y limpieza de los datos (Excel)

#### 1. Transformamos el archivo Excel en CSV

In [31]:
import pandas as pd

# Leemos el archivo Excel
# df = pd.read_excel('../data/customer_details.xlsx')

# Guardamos el DataFrame como un archivo CSV, ya que Pandas no es capaz de leer el archivo Excel. Podemos realizar esta opción, o abrir el archivo Excel desde la propia aplicación de Excel. En caso de no ponemos el delimitador, automáticamente detecta las comas (,). Con index false, no guardamos las columnas de índices.
# df.to_csv('data_excel.csv', index=False)

print("Archivo convertido a CSV exitosamente.")

Archivo convertido a CSV exitosamente.


#### 2. Cargamos el archivo Excel convertido a CSV

In [32]:
# Cargar el archivo CSV y establecer la columna 'Unnamed: 0' como índice
df = pd.read_csv('../data/data_excel.csv', index_col=0)

# Ver el DataFrame para comprobar que se ha eliminado la columna 'Unnamed: 0'
print(df.head())

            Income  Kidhome  Teenhome Dt_Customer  NumWebVisitsMonth  \
Unnamed: 0                                                             
0           161770        1         0  2012-04-04                 29   
1            85477        1         1  2012-12-30                  7   
2           147233        1         1  2012-02-02                  5   
3           121393        1         2  2012-12-21                 29   
4            63164        1         2  2012-06-20                 20   

                                              ID  
Unnamed: 0                                        
0           089b39d8-e4d0-461b-87d4-814d71e0e079  
1           e9d37224-cb6f-4942-98d7-46672963d097  
2           3f9f49b5-e410-4948-bf6e-f9244f04918b  
3           9991fafb-4447-451a-8be2-b0df6098d13e  
4           eca60b76-70b6-4077-80ba-bc52e8ebb0eb  


#### 3. Obtenemos información sobre el tipo de dato de cada columna y su previsualización

In [33]:
# El .head nos permite obtener una visualización previa de las 5 primeras filas
df.head()

Unnamed: 0_level_0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [34]:
# El .info nos aporta información sobre el tipo de dato de cada columna
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20115 entries, 0 to 20114
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Income             20115 non-null  int64 
 1   Kidhome            20115 non-null  int64 
 2   Teenhome           20115 non-null  int64 
 3   Dt_Customer        20115 non-null  object
 4   NumWebVisitsMonth  20115 non-null  int64 
 5   ID                 20115 non-null  object
dtypes: int64(4), object(2)
memory usage: 1.1+ MB


In [35]:
# Comprobamos el tipo de dato de cada columna
df.dtypes

Income                int64
Kidhome               int64
Teenhome              int64
Dt_Customer          object
NumWebVisitsMonth     int64
ID                   object
dtype: object

#### 4. Analizamos si existen o no valores duplicados

In [36]:
# Comprobamos si existen valores duplicados
if df.duplicated().values.any():
    print("Existen valores duplicados por eliminar")
else:
    print("No existen valores duplicados")

# Comprobamos y verificamos que no existen valores duplicados
print(df.duplicated().sum())

No existen valores duplicados
0


#### 5. Analizamos y eliminamos los valores nulos existentes

In [37]:
# Comprobamos si existen valores nulos
if df.isnull().values.any():
    print("Existen valores nulos en los datos.")
else:
    print("No existen valores nulos.")

# Comprobamos y verificamos que no existen valores nulos
print(df.isnull().sum())

No existen valores nulos.
Income               0
Kidhome              0
Teenhome             0
Dt_Customer          0
NumWebVisitsMonth    0
ID                   0
dtype: int64


#### 6. Revisamos y cambiamos el tipo de dato de cada columna que sea necesario

In [38]:
# Convertimos 'Dt_Customer' a datetime
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], errors='coerce')

# Convertimos 'ID' a string
df['ID'] = df['ID'].astype(str)

# Verificamos los tipos de datos después de las conversiones
print(df.dtypes)

Income                        int64
Kidhome                       int64
Teenhome                      int64
Dt_Customer          datetime64[ns]
NumWebVisitsMonth             int64
ID                           object
dtype: object


#### 7. Realizamos la estandarización de valores categóricos

In [39]:
# Aplicamos las modificaciones solo a las columnas 'object' puesto que son las únicas que contienen texto. No tendría sentido hacerlo para columnas de tipo int, float etc
for columna in df.select_dtypes(include=['object']).columns:

# Eliminamos espacios al principio y al final, y convertimos a minúsculas para evitar conflictos
    df[columna] = df[columna].str.strip().str.lower()

# Verificamos que se aplicaron los cambios
print(df.head())

            Income  Kidhome  Teenhome Dt_Customer  NumWebVisitsMonth  \
Unnamed: 0                                                             
0           161770        1         0  2012-04-04                 29   
1            85477        1         1  2012-12-30                  7   
2           147233        1         1  2012-02-02                  5   
3           121393        1         2  2012-12-21                 29   
4            63164        1         2  2012-06-20                 20   

                                              ID  
Unnamed: 0                                        
0           089b39d8-e4d0-461b-87d4-814d71e0e079  
1           e9d37224-cb6f-4942-98d7-46672963d097  
2           3f9f49b5-e410-4948-bf6e-f9244f04918b  
3           9991fafb-4447-451a-8be2-b0df6098d13e  
4           eca60b76-70b6-4077-80ba-bc52e8ebb0eb  
