#Preparación y Limpieza de Datos
El objetivo de esta sección es documentar de manera detallada el proceso de preparación y limpieza de los datos del proyecto. Un conjunto de datos íntegro y consistente es fundamental para garantizar la fiabilidad del análisis posterior, especialmente antes de la fase de modelado y visualización en Power BI.

Este proceso se centró en abordar los desafíos más comunes en el preprocesamiento de datos: la gestión de valores faltantes, la estandarización de los nombres de las columnas, la identificación de registros duplicados y la revisión de valores atípicos, aunque la estrategia para estos últimos se definirá en una etapa de análisis más profunda.


##1. Carga y Análisis Preliminar del Dataset
El primer paso consistió en cargar el conjunto de datos marketing_campaign.csv, que se encuentra en un formato delimitado por punto y coma (;). Tras la carga, se realizó un análisis preliminar para entender la estructura de los datos, incluyendo su dimensionalidad (número de filas y columnas) y una inspección de las primeras filas.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Load dataset
df = pd.read_csv('/content/data/marketing_campaign.csv', sep=';')

#2. Análisis Preliminar


In [None]:
#analisis previo de los datos
print(df.shape)
df.head()

(2240, 29)


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,...,5,0,0,0,0,0,0,3,11,0


In [None]:
#analisamos tambien las variables categoricas y numericas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

La revisión de la información del DataFrame (df.info()) reveló la presencia de valores nulos. Específicamente, se identificó que la columna de Income (Ingresos) era la única con datos faltantes. Tras una evaluación, se determinó que la cantidad de registros incompletos era insignificante en comparación con el tamaño total del dataset.

Para preservar la integridad de los datos y evitar sesgos potenciales que podrían surgir de la imputación de valores, la estrategia adoptada fue la eliminación de las filas que contenían valores nulos en la columna Income. Este proceso se documenta a continuación, creando un nuevo DataFrame (df_cleaned) para mantener el conjunto de datos original intacto.

In [None]:
# Eliminar filas donde 'Ingresos' es nulo
# Estamos creando un nuevo DataFrame 'df_cleaned' para almacenar el resultado, # de modo que el 'df' original permanezca sin cambios si es necesario.
df_cleaned = df.dropna(subset=['Income'])
# --- Fin del código para corregir los valores faltantes en 'Ingresos' ---

# --- Pasos de verificación (opcionales, pero recomendables) ---
print("Original DataFrame shape:", df.shape)
print("Shape after dropping rows with missing Income:", df_cleaned.shape)
print("Number of nulls in 'Income' column of cleaned DataFrame:", df_cleaned['Income'].isnull().sum())

Original DataFrame shape: (2240, 29)
Shape after dropping rows with missing Income: (2216, 29)
Number of nulls in 'Income' column of cleaned DataFrame: 0


##3. Estandarización de Nombres de Columnas
Para mejorar la legibilidad y facilitar el trabajo en Power BI, se renombraron todas las columnas del DataFrame de su nombre original en inglés a un formato en español claro y descriptivo. Este paso garantiza la consistencia del lenguaje a lo largo de todo el proyecto y mejora la comprensión del modelo de datos para futuros usuarios.

Se utilizó un diccionario para mapear los nombres de las columnas, lo que permite un proceso de renombrado eficiente y fácil de auditar.

In [None]:
# Creamos un diccionario con el mapeo de nombres de columnas de inglés a español
column_name_mapping = {
    'ID': 'ID',
    'Year_Birth': 'Año_Nacimiento',
    'Education': 'Educacion',
    'Marital_Status': 'Estado_Civil',
    'Income': 'Ingresos',
    'Kidhome': 'Hijos_Casa',
    'Teenhome': 'Adolescentes_Casa',
    'Dt_Customer': 'Fecha_Registro_Cliente',
    'Recency': 'Dias_Desde_Ultima_Compra',
    'MntWines': 'Gasto_Vinos',
    'MntFruits': 'Gasto_Frutas',
    'MntMeatProducts': 'Gasto_Carne',
    'MntFishProducts': 'Gasto_Pescado',
    'MntSweetProducts': 'Gasto_Dulces',
    'MntGoldProds': 'Gasto_Oro',
    'NumDealsPurchases': 'Compras_Descuento',
    'NumWebPurchases': 'Compras_Web',
    'NumCatalogPurchases': 'Compras_Catalogo',
    'NumStorePurchases': 'Compras_Tienda',
    'NumWebVisitsMonth': 'Visitas_Web_Mes',
    'AcceptedCmp3': 'Acepto_Campaña3',
    'AcceptedCmp4': 'Acepto_Campaña4',
    'AcceptedCmp5': 'Acepto_Campaña5',
    'AcceptedCmp1': 'Acepto_Campaña1',
    'AcceptedCmp2': 'Acepto_Campaña2',
    'Complain': 'Queja',
    'Z_CostContact': 'Costo_Contacto_Z',
    'Z_Revenue': 'Ingresos_Z',
    'Response': 'Respuesta_Ultima_Campaña'
}

# Renombrar las columnas del DataFrame
# Si estás trabajando con el DataFrame limpio de nulos, usa df_cleaned
df_cleaned = df_cleaned.rename(columns=column_name_mapping)

# --- Fin del código para renombrar columnas en df_cleaned ---


##4. Verificación de la Estructura Final del Dataset
Para confirmar que los cambios se aplicaron correctamente, se realizó una nueva inspección del DataFrame limpio, verificando los nuevos nombres de las columnas y el tipo de dato de cada una. Esto asegura que el dataset está listo para ser exportado y utilizado en Power BI.

In [None]:
# --- Verificación (opcional, pero buena práctica) ---
print("Nuevos nombres de columnas en df_cleaned:")
print(df_cleaned.columns)
print("\nInformación del DataFrame df_cleaned con nombres en español:")
df_cleaned.info()


Nuevos nombres de columnas en df_cleaned:
Index(['ID', 'Año_Nacimiento', 'Educacion', 'Estado_Civil', 'Ingresos',
       'Hijos_Casa', 'Adolescentes_Casa', 'Fecha_Registro_Cliente',
       'Dias_Desde_Ultima_Compra', 'Gasto_Vinos', 'Gasto_Frutas',
       'Gasto_Carne', 'Gasto_Pescado', 'Gasto_Dulces', 'Gasto_Oro',
       'Compras_Descuento', 'Compras_Web', 'Compras_Catalogo',
       'Compras_Tienda', 'Visitas_Web_Mes', 'Acepto_Campaña3',
       'Acepto_Campaña4', 'Acepto_Campaña5', 'Acepto_Campaña1',
       'Acepto_Campaña2', 'Queja', 'Costo_Contacto_Z', 'Ingresos_Z',
       'Respuesta_Ultima_Campaña'],
      dtype='object')

Información del DataFrame df_cleaned con nombres en español:
<class 'pandas.core.frame.DataFrame'>
Index: 2216 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID                        2216 non-null   int64  
 1   Año_Nacimiento            2216 no

##5. Análisis de Nivel en Columnas Categóricas y Numéricas
Como paso final antes de concluir la fase de preparación, se realizó un conteo de los niveles únicos en las variables categóricas, así como una revisión de la cantidad de valores únicos en las columnas numéricas. Esto se hizo para identificar cualquier error tipográfico, inconsistencia o la presencia de columnas con un solo valor, las cuales no aportarían información al modelo. Los resultados de este análisis guiarán la creación de las tablas de dimensiones en Power BI.

In [None]:
# Conteo de los niveles en las diferentes columnas categóricas
# Identificamos las columnas categóricas por su tipo 'object'
cols_cat = df_cleaned.select_dtypes(include='object').columns.tolist()

print("Conteo de subniveles en columnas categóricas:")
for col in cols_cat:
    print(f"Columna '{col}': {df_cleaned[col].nunique()} subniveles")

# --- Fin del código adaptado ---

Conteo de subniveles en columnas categóricas:
Columna 'Educacion': 5 subniveles
Columna 'Estado_Civil': 8 subniveles
Columna 'Fecha_Registro_Cliente': 662 subniveles


In [None]:
# Identificamos las columnas categóricas por su tipo 'object'
cols_cat = df_cleaned.select_dtypes(include='object').columns.tolist()

print("--- Categorías actuales en las columnas) ---")
print("Prepara estos valores para crear un diccionario de traducción.")
print("-" * 70)

# Iterar sobre las columnas categóricas para mostrar sus valores únicos
for col in cols_cat:
    unique_values = df_cleaned[col].unique()
    print(f"Columna '{col}':")
    print(f"  Valores únicos: {unique_values}")
    print("-" * 30)


# --- Fin: Identificar y mostrar categorías ---


--- Categorías actuales en las columnas) ---
Prepara estos valores para crear un diccionario de traducción.
----------------------------------------------------------------------
Columna 'Educacion':
  Valores únicos: ['Graduation' 'PhD' 'Master' 'Basic' '2n Cycle']
------------------------------
Columna 'Estado_Civil':
  Valores únicos: ['Single' 'Together' 'Married' 'Divorced' 'Widow' 'Alone' 'Absurd' 'YOLO']
------------------------------
Columna 'Fecha_Registro_Cliente':
  Valores únicos: ['2012-09-04' '2014-03-08' '2013-08-21' '2014-02-10' '2014-01-19'
 '2013-09-09' '2012-11-13' '2013-05-08' '2013-06-06' '2014-03-13'
 '2013-11-15' '2012-10-10' '2012-11-24' '2012-12-24' '2012-08-31'
 '2013-03-28' '2012-11-03' '2012-08-08' '2013-01-06' '2012-12-23'
 '2014-01-11' '2013-03-18' '2013-01-02' '2013-05-27' '2013-05-31'
 '2013-11-22' '2014-05-22' '2013-05-11' '2012-10-29' '2013-02-20'
 '2013-08-29' '2013-12-31' '2013-09-02' '2014-02-11' '2013-02-01'
 '2013-04-29' '2013-03-12' '2013-10-02' 

##6. Estandarización de Categorías y Creación de la Columna de Edad
Un paso crucial para la segmentación de clientes es estandarizar los valores en las variables categóricas para corregir inconsistencias y simplificar su uso en el análisis. El análisis preliminar de las variables de Educacion y Estado_Civil reveló varias categorías. Para simplificar el análisis y agrupar los datos de forma más efectiva, se crearon diccionarios de mapeo para estandarizar estas categorías.

Asimismo, se creó una nueva columna, Edad, a partir de la columna Año_Nacimiento. Esta variable es fundamental para cualquier análisis demográfico.

In [None]:
# --analizar categorias de estado civil 'Absurd' y 'YOLO' ---

# Contar cuántas veces aparece 'Absurd'
count_absurd = df_cleaned[df_cleaned['Estado_Civil'] == 'Absurd'].shape[0]
print(f"Número de registros con 'Estado_Civil' = 'Absurd': {count_absurd}")

# Contar cuántas veces aparece 'YOLO'
count_yolo = df_cleaned[df_cleaned['Estado_Civil'] == 'YOLO'].shape[0]
print(f"Número de registros con 'Estado_Civil' = 'YOLO': {count_yolo}")

# También puedes ver el value_counts() completo para tener una visión general
print("\nConteo completo de categorías en 'Estado_Civil':")
print(df_cleaned['Estado_Civil'].value_counts())

Número de registros con 'Estado_Civil' = 'Absurd': 2
Número de registros con 'Estado_Civil' = 'YOLO': 2

Conteo completo de categorías en 'Estado_Civil':
Estado_Civil
Married     857
Together    573
Single      471
Divorced    232
Widow        76
Alone         3
Absurd        2
YOLO          2
Name: count, dtype: int64


In [None]:
# ---CÓDIGO PARA UNIFICAR Y TRADUCIR CATEGORÍAS ---

# Diccionario de mapeo para 'Educacion'
education_mapping = {
    'Graduation': 'Licenciatura',
    'PhD': 'Doctorado',
    'Master': 'Maestria',
    '2n Cycle': 'Educacion_Tecnica', # Asumiendo un nivel intermedio/técnico
    'Basic': 'Educacion_Basica'
}

# Diccionario de mapeo para 'Estado_Civil' incluyendo unificación
marital_status_mapping = {
    'Single': 'Soltero',
    'Alone': 'Soltero',       # Unificación: 'Alone' a 'Soltero'
    'Absurd': 'Soltero',      # Unificación: 'Absurd' a 'Soltero'
    'YOLO': 'Soltero',        # Unificación: 'YOLO' a 'Soltero'
    'Together': 'En_Pareja',
    'Married': 'Casado',
    'Divorced': 'Divorciado',
    'Widow': 'Viudo'
}

# Aplicar los mapeos a las columnas respectivas en df_cleaned
df_cleaned['Educacion'] = df_cleaned['Educacion'].replace(education_mapping)
df_cleaned['Estado_Civil'] = df_cleaned['Estado_Civil'].replace(marital_status_mapping)

# --- FIN DEL CÓDIGO PARA UNIFICAR Y TRADUCIR CATEGORÍAS ---

In [None]:
# --- Verificación de los cambios ---
print("\n--- Categorías en 'Educacion' después de traducir y unificar ---")
print(df_cleaned['Educacion'].unique())
print("\nConteo de categorías en 'Educacion' después de traducir y unificar:")
print(df_cleaned['Educacion'].value_counts())


print("\n--- Categorías en 'Estado_Civil' después de traducir y unificar ---")
print(df_cleaned['Estado_Civil'].unique())
print("\nConteo de categorías en 'Estado_Civil' después de traducir y unificar:")
print(df_cleaned['Estado_Civil'].value_counts())


--- Categorías en 'Educacion' después de traducir y unificar ---
['Licenciatura' 'Doctorado' 'Maestria' 'Educacion_Basica'
 'Educacion_Tecnica']

Conteo de categorías en 'Educacion' después de traducir y unificar:
Educacion
Licenciatura         1116
Doctorado             481
Maestria              365
Educacion_Tecnica     200
Educacion_Basica       54
Name: count, dtype: int64

--- Categorías en 'Estado_Civil' después de traducir y unificar ---
['Soltero' 'En_Pareja' 'Casado' 'Divorciado' 'Viudo']

Conteo de categorías en 'Estado_Civil' después de traducir y unificar:
Estado_Civil
Casado        857
En_Pareja     573
Soltero       478
Divorciado    232
Viudo          76
Name: count, dtype: int64


#7. Conclusión y Exportación del Conjunto de Datos Limpio
Una vez completadas todas las etapas de limpieza (manejo de nulos, estandarización de nombres y categorías, y creación de nuevas variables relevantes como Edad), el conjunto de datos está listo para el análisis y el modelado.

El paso final es exportar este DataFrame limpio a un archivo CSV, que será el insumo principal para la fase de construcción del modelo de datos en Power BI. Se ha especificado un nombre de archivo claro y se ha omitido la escritura del índice del DataFrame para asegurar que el archivo de salida sea lo más limpio y utilizable posible.

In [None]:
 ## INICIO DEL CÓDIGO PARA EXPORTAR A CSV ---

# Define el nombre del archivo CSV de salida
output_csv_filename = 'marketing_campaign_cleaned_for_pb.csv'

# Exportar el DataFrame a un archivo CSV
# 'index=False' es muy importante para evitar que pandas escriba el índice del DataFrame como una columna en el CSV.
# 'encoding='utf-8'' es recomendado para asegurar que los caracteres especiales (como 'ñ', tildes) se guarden correctamente.
df_cleaned.to_csv(output_csv_filename, index=False, encoding='utf-8')

print(f"DataFrame exportado exitosamente a '{output_csv_filename}'")
print(f"Puedes descargar este archivo desde Google Colab para usarlo en Power BI.")


# --- FIN DEL CÓDIGO PARA EXPORTAR A CSV ---

DataFrame exportado exitosamente a 'marketing_campaign_cleaned_for_pb.csv'
Puedes descargar este archivo desde Google Colab para usarlo en Power BI.
