# Proceso ETL aplicado a MultipleChoiceResponses.csv

## Descripci√≥n del Dataset

El dataset **MultipleChoiceResponses.csv** es la encuesta anual de Machine Learning y Data Science de Kaggle del a√±o 2019. Esta encuesta recopila informaci√≥n de profesionales en el campo de la ciencia de datos y machine learning a nivel mundial.

### Caracter√≠sticas del Dataset

- **Fuente**: Kaggle Machine Learning & Data Science Survey 2019
- **Formato**: Archivo CSV con respuestas de opci√≥n m√∫ltiple
- **Alcance**: Encuesta global que incluye profesionales de diferentes pa√≠ses
- **Prop√≥sito**: Analizar tendencias, herramientas y pr√°cticas en el campo de ML/DS

### Entregables del Proceso ETL

Este notebook generar√° los siguientes archivos de salida:

1. **CSV limpio**: `/mnt/data/multipleChoiceResponses_clean.csv`
2. **Excel**: `/mnt/data/multipleChoiceResponses_clean.xlsx`
3. **Base de datos SQLite**: `/mnt/data/etl_results.db`
4. **Reporte de calidad**: `data_quality_report.json`
5. **Log de transformaciones**: `transformation_log.csv`
6. **Script Power Query**: `powerquery_replica.pq`

### Contexto Acad√©mico

Este proceso ETL se desarrolla en el contexto del curso de **Business Intelligence** de la **Universidad Peruana Uni√≥n (UPEU)**, aplicado espec√≠ficamente al √°rea de **Ingenier√≠a de Sistemas**. El an√°lisis de este dataset proporciona insights valiosos sobre:

- Tecnolog√≠as m√°s utilizadas en la industria
- Tendencias salariales por regi√≥n y experiencia
- Herramientas de desarrollo preferidas
- Plataformas cloud m√°s adoptadas
- Lenguajes de programaci√≥n dominantes

### Estructura del Notebook

El proceso ETL se ejecutar√° en las siguientes etapas:

1. **Extracci√≥n**: Carga y validaci√≥n inicial del dataset
2. **An√°lisis Exploratorio**: Exploraci√≥n de la estructura y calidad de los datos
3. **Transformaci√≥n**: Limpieza, normalizaci√≥n y enriquecimiento de datos
4. **Carga**: Exportaci√≥n a diferentes formatos para an√°lisis
5. **Reportes**: Generaci√≥n de m√©tricas de calidad y logs
6. **Validaci√≥n**: Comparaci√≥n con Power BI para consistencia


## 1. Configuraci√≥n del Entorno

### Importaci√≥n de Librer√≠as

Antes de comenzar el proceso ETL, es necesario importar todas las librer√≠as requeridas. Utilizaremos las siguientes librer√≠as est√°ndar para el an√°lisis de datos:

- **pandas**: Manipulaci√≥n y an√°lisis de datos estructurados
- **numpy**: Operaciones num√©ricas y matem√°ticas
- **matplotlib**: Visualizaciones b√°sicas
- **seaborn**: Visualizaciones estad√≠sticas avanzadas
- **sqlalchemy**: Conexi√≥n y operaciones con bases de datos
- **json**: Manejo de archivos JSON
- **datetime**: Operaciones con fechas y tiempos

### Configuraci√≥n de Par√°metros

Estableceremos par√°metros de visualizaci√≥n y configuraci√≥n para asegurar que los resultados sean consistentes y profesionales.


In [None]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sqlalchemy
import json
import datetime
import os
import warnings

# Configuraci√≥n de par√°metros de visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas para mostrar m√°s informaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìÖ Fecha de ejecuci√≥n: {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üêç Versi√≥n de Python: {pd.__version__}")


## 2. Extracci√≥n de Datos

### Descripci√≥n del Proceso de Extracci√≥n

La extracci√≥n de datos es la primera fase del proceso ETL (Extract, Transform, Load). En esta etapa, cargamos el dataset desde su fuente original y realizamos una validaci√≥n inicial para entender su estructura y calidad.

### Origen de los Datos

El dataset **MultipleChoiceResponses.csv** proviene de la encuesta anual de Kaggle sobre Machine Learning y Data Science. Esta encuesta es una de las m√°s comprehensivas del sector, recopilando informaci√≥n de miles de profesionales a nivel mundial.

### Proceso de Carga

Utilizaremos pandas para cargar el archivo CSV, especificando los par√°metros apropiados para manejar la codificaci√≥n y estructura del archivo. Es importante verificar que la carga se realice correctamente y que no se pierdan datos durante el proceso.


In [None]:
# Carga del dataset
print("üìä Cargando dataset MultipleChoiceResponses.csv...")

# Intentar cargar desde la ruta especificada, si no existe, usar la ruta local
try:
    df = pd.read_csv('/mnt/data/multipleChoiceResponses.csv')
    print("‚úÖ Dataset cargado desde /mnt/data/")
except FileNotFoundError:
    try:
        df = pd.read_csv('multipleChoiceResponses.csv')
        print("‚úÖ Dataset cargado desde directorio local")
    except FileNotFoundError:
        print("‚ùå Error: No se encontr√≥ el archivo multipleChoiceResponses.csv")
        print("üí° Aseg√∫rate de que el archivo est√© en el directorio correcto")

# Informaci√≥n b√°sica del dataset
print(f"\nüìã INFORMACI√ìN B√ÅSICA DEL DATASET:")
print(f"   ‚Ä¢ Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]:,} columnas")
print(f"   ‚Ä¢ Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   ‚Ä¢ Tipos de datos √∫nicos: {df.dtypes.nunique()}")

# Mostrar las primeras filas
print(f"\nüîç PRIMERAS 5 FILAS DEL DATASET:")
df.head()


In [None]:
# Informaci√≥n detallada del dataset
print("üìä INFORMACI√ìN DETALLADA DEL DATASET:")
print("="*60)

# Informaci√≥n general
print(f"üìã INFORMACI√ìN GENERAL:")
print(f"   ‚Ä¢ N√∫mero de filas: {df.shape[0]:,}")
print(f"   ‚Ä¢ N√∫mero de columnas: {df.shape[1]:,}")
print(f"   ‚Ä¢ Total de celdas: {df.shape[0] * df.shape[1]:,}")

# Informaci√≥n de tipos de datos
print(f"\nüî¢ TIPOS DE DATOS:")
tipos_datos = df.dtypes.value_counts()
for tipo, cantidad in tipos_datos.items():
    print(f"   ‚Ä¢ {tipo}: {cantidad} columnas")

# Informaci√≥n de memoria
memoria_total = df.memory_usage(deep=True).sum() / 1024**2
memoria_por_fila = memoria_total * 1024 / df.shape[0]
print(f"\nüíæ USO DE MEMORIA:")
print(f"   ‚Ä¢ Memoria total: {memoria_total:.2f} MB")
print(f"   ‚Ä¢ Memoria por fila: {memoria_por_fila:.2f} KB")

# Mostrar info() completo
print(f"\nüìã INFORMACI√ìN COMPLETA (df.info()):")
df.info()


## 3. An√°lisis Exploratorio de Datos (EDA)

### ¬øQu√© es el EDA?

El **An√°lisis Exploratorio de Datos (EDA)** es una fase crucial en cualquier proyecto de an√°lisis de datos. Consiste en examinar los datos para entender su estructura, identificar patrones, detectar anomal√≠as y evaluar la calidad de los datos antes de proceder con la transformaci√≥n.

### Objetivos del EDA

1. **Comprensi√≥n de la estructura**: Entender c√≥mo est√°n organizados los datos
2. **Identificaci√≥n de problemas**: Detectar valores faltantes, duplicados, inconsistencias
3. **An√°lisis de distribuciones**: Comprender c√≥mo se distribuyen las variables
4. **Detecci√≥n de outliers**: Identificar valores at√≠picos que puedan afectar el an√°lisis
5. **Preparaci√≥n para transformaci√≥n**: Determinar qu√© limpieza y transformaciones son necesarias

### Metodolog√≠a del EDA

Realizaremos un EDA sistem√°tico que incluye:

- **Estad√≠sticas descriptivas**: Medidas de tendencia central y dispersi√≥n
- **An√°lisis de completitud**: Evaluaci√≥n de valores faltantes por columna
- **Detecci√≥n de duplicados**: Identificaci√≥n de registros repetidos
- **An√°lisis de tipos de datos**: Verificaci√≥n de la consistencia de tipos
- **Visualizaciones exploratorias**: Gr√°ficos para entender distribuciones


In [None]:
# An√°lisis de valores faltantes
print("‚ùå AN√ÅLISIS DE VALORES FALTANTES")
print("="*50)

# Calcular valores faltantes por columna
valores_faltantes = df.isnull().sum()
porcentaje_faltantes = (valores_faltantes / len(df)) * 100

# Crear DataFrame con el an√°lisis
analisis_faltantes = pd.DataFrame({
    'Columna': valores_faltantes.index,
    'Valores_Faltantes': valores_faltantes.values,
    'Porcentaje_Faltantes': porcentaje_faltantes.values
})

# Ordenar por n√∫mero de valores faltantes
analisis_faltantes = analisis_faltantes.sort_values('Valores_Faltantes', ascending=False)

print(f"üìä RESUMEN DE VALORES FALTANTES:")
print(f"   ‚Ä¢ Total de valores faltantes: {valores_faltantes.sum():,}")
print(f"   ‚Ä¢ Columnas con valores faltantes: {(valores_faltantes > 0).sum()}")
print(f"   ‚Ä¢ Columnas completas: {(valores_faltantes == 0).sum()}")

# Mostrar las 10 columnas con m√°s valores faltantes
print(f"\nüîù TOP 10 COLUMNAS CON M√ÅS VALORES FALTANTES:")
print(analisis_faltantes.head(10).to_string(index=False))

# Categorizar columnas por nivel de completitud
completas = (porcentaje_faltantes == 0).sum()
pocos_faltantes = ((porcentaje_faltantes > 0) & (porcentaje_faltantes <= 20)).sum()
moderados_faltantes = ((porcentaje_faltantes > 20) & (porcentaje_faltantes <= 50)).sum()
muchos_faltantes = ((porcentaje_faltantes > 50) & (porcentaje_faltantes <= 80)).sum()
criticos_faltantes = (porcentaje_faltantes > 80).sum()

print(f"\nüìã CATEGORIZACI√ìN POR COMPLETITUD:")
print(f"   ‚Ä¢ Completas (0% faltantes): {completas} columnas")
print(f"   ‚Ä¢ Pocos faltantes (0-20%): {pocos_faltantes} columnas")
print(f"   ‚Ä¢ Moderados (20-50%): {moderados_faltantes} columnas")
print(f"   ‚Ä¢ Muchos (50-80%): {muchos_faltantes} columnas")
print(f"   ‚Ä¢ Cr√≠ticos (>80%): {criticos_faltantes} columnas")


In [None]:
# An√°lisis de duplicados
print("\nüîÑ AN√ÅLISIS DE REGISTROS DUPLICADOS")
print("="*50)

# Detectar duplicados
duplicados = df.duplicated()
num_duplicados = duplicados.sum()
porcentaje_duplicados = (num_duplicados / len(df)) * 100

print(f"üìä AN√ÅLISIS DE DUPLICADOS:")
print(f"   ‚Ä¢ Registros duplicados: {num_duplicados:,}")
print(f"   ‚Ä¢ Porcentaje de duplicados: {porcentaje_duplicados:.2f}%")
print(f"   ‚Ä¢ Registros √∫nicos: {len(df) - num_duplicados:,}")

if num_duplicados > 0:
    print(f"\nüîç EJEMPLOS DE REGISTROS DUPLICADOS:")
    # Mostrar algunos ejemplos de duplicados
    duplicados_ejemplos = df[duplicados].head(3)
    print(duplicados_ejemplos.to_string())
else:
    print(f"\n‚úÖ No se encontraron registros duplicados")

# An√°lisis de valores √∫nicos por columna
print(f"\nüî¢ AN√ÅLISIS DE VALORES √öNICOS POR COLUMNA")
print("-"*50)

valores_unicos = df.nunique()
valores_unicos_ordenados = valores_unicos.sort_values(ascending=False)

print(f"üìä ESTAD√çSTICAS DE VALORES √öNICOS:")
print(f"   ‚Ä¢ Promedio de valores √∫nicos por columna: {valores_unicos.mean():.1f}")
print(f"   ‚Ä¢ Mediana de valores √∫nicos por columna: {valores_unicos.median():.1f}")
print(f"   ‚Ä¢ M√°ximo de valores √∫nicos: {valores_unicos.max()}")
print(f"   ‚Ä¢ M√≠nimo de valores √∫nicos: {valores_unicos.min()}")

# Identificar columnas constantes y casi constantes
columnas_constantes = (valores_unicos == 1).sum()
columnas_casi_constantes = (valores_unicos <= 5).sum()
columnas_casi_unicas = (valores_unicos >= len(df) * 0.95).sum()

print(f"\nüìã CATEGORIZACI√ìN DE COLUMNAS:")
print(f"   ‚Ä¢ Columnas constantes (1 valor √∫nico): {columnas_constantes}")
print(f"   ‚Ä¢ Columnas casi constantes (‚â§5 valores): {columnas_casi_constantes}")
print(f"   ‚Ä¢ Columnas casi √∫nicas (‚â•95% √∫nicos): {columnas_casi_unicas}")

# Mostrar las 10 columnas con m√°s valores √∫nicos
print(f"\nüîù TOP 10 COLUMNAS CON M√ÅS VALORES √öNICOS:")
top_unicos = valores_unicos_ordenados.head(10)
for col, unicos in top_unicos.items():
    print(f"   ‚Ä¢ {col}: {unicos} valores √∫nicos")


In [None]:
# Estad√≠sticas descriptivas para columnas num√©ricas
print("\nüìä ESTAD√çSTICAS DESCRIPTIVAS")
print("="*50)

# Identificar columnas num√©ricas
columnas_numericas = df.select_dtypes(include=[np.number]).columns
columnas_categoricas = df.select_dtypes(include=['object']).columns

print(f"üìã CLASIFICACI√ìN DE COLUMNAS:")
print(f"   ‚Ä¢ Columnas num√©ricas: {len(columnas_numericas)}")
print(f"   ‚Ä¢ Columnas categ√≥ricas: {len(columnas_categoricas)}")

if len(columnas_numericas) > 0:
    print(f"\nüî¢ ESTAD√çSTICAS DESCRIPTIVAS - COLUMNAS NUM√âRICAS:")
    estadisticas_numericas = df[columnas_numericas].describe()
    print(estadisticas_numericas.to_string())
    
    # An√°lisis adicional para columnas num√©ricas
    print(f"\nüìà AN√ÅLISIS ADICIONAL - COLUMNAS NUM√âRICAS:")
    for col in columnas_numericas:
        valores_unicos = df[col].nunique()
        valores_faltantes = df[col].isnull().sum()
        print(f"   ‚Ä¢ {col}:")
        print(f"     - Valores √∫nicos: {valores_unicos}")
        print(f"     - Valores faltantes: {valores_faltantes}")
        print(f"     - Rango: {df[col].min():.2f} - {df[col].max():.2f}")

# An√°lisis de columnas categ√≥ricas principales
print(f"\nüìù AN√ÅLISIS DE COLUMNAS CATEG√ìRICAS PRINCIPALES")
print("-"*50)

# Analizar las primeras 5 columnas categ√≥ricas
columnas_principales = columnas_categoricas[:5]
for col in columnas_principales:
    print(f"\nüîπ {col}:")
    valores_unicos = df[col].nunique()
    valores_faltantes = df[col].isnull().sum()
    print(f"   ‚Ä¢ Valores √∫nicos: {valores_unicos}")
    print(f"   ‚Ä¢ Valores faltantes: {valores_faltantes}")
    
    if valores_unicos <= 20:  # Mostrar distribuci√≥n si no hay muchos valores √∫nicos
        distribucion = df[col].value_counts().head(10)
        print(f"   ‚Ä¢ Top 10 valores m√°s frecuentes:")
        for valor, count in distribucion.items():
            porcentaje = (count / len(df)) * 100
            print(f"     - {valor}: {count} ({porcentaje:.1f}%)")
    else:
        print(f"   ‚Ä¢ Demasiados valores √∫nicos para mostrar distribuci√≥n")


## 4. Transformaci√≥n de Datos

### Descripci√≥n del Proceso de Transformaci√≥n

La transformaci√≥n de datos es la fase central del proceso ETL, donde aplicamos una serie de operaciones para limpiar, normalizar y enriquecer los datos. Esta fase es cr√≠tica para asegurar la calidad y consistencia de los datos que ser√°n utilizados en an√°lisis posteriores.

### Estrategias de Transformaci√≥n

Bas√°ndonos en los hallazgos del EDA, aplicaremos las siguientes transformaciones:

1. **Eliminaci√≥n de duplicados**: Remover registros completamente duplicados
2. **Manejo de valores nulos**: Estrategias diferenciadas seg√∫n el porcentaje de valores faltantes
3. **Normalizaci√≥n de strings**: Limpieza de espacios, estandarizaci√≥n de formatos
4. **Conversi√≥n de tipos**: Optimizaci√≥n de tipos de datos para eficiencia
5. **Renombrado de columnas**: Mapeo de Q1, Q2, etc. a nombres descriptivos
6. **Agrupaci√≥n de categor√≠as**: Consolidaci√≥n de valores poco frecuentes

### Criterios de Decisi√≥n

- **Columnas con >80% nulos**: Eliminaci√≥n completa
- **Columnas con 20-80% nulos**: Imputaci√≥n con valores apropiados
- **Columnas con <20% nulos**: Imputaci√≥n conservadora
- **Duplicados**: Eliminaci√≥n completa para evitar sesgos
- **Strings**: Normalizaci√≥n a min√∫sculas y eliminaci√≥n de espacios


In [None]:
# Inicializar log de transformaciones
transformation_log = []
timestamp_inicio = datetime.datetime.now()

print("üîÑ INICIANDO PROCESO DE TRANSFORMACI√ìN")
print("="*60)

# Crear copia del dataset original para transformaci√≥n
df_clean = df.copy()
filas_iniciales = len(df_clean)
columnas_iniciales = len(df_clean.columns)

print(f"üìä ESTADO INICIAL:")
print(f"   ‚Ä¢ Filas: {filas_iniciales:,}")
print(f"   ‚Ä¢ Columnas: {columnas_iniciales:,}")

# PASO 1: Eliminaci√≥n de duplicados
print(f"\nüîÑ PASO 1: ELIMINACI√ìN DE DUPLICADOS")
print("-"*40)

duplicados_antes = df_clean.duplicated().sum()
df_clean = df_clean.drop_duplicates()
duplicados_eliminados = duplicados_antes
filas_despues_duplicados = len(df_clean)

print(f"   ‚Ä¢ Duplicados encontrados: {duplicados_antes:,}")
print(f"   ‚Ä¢ Duplicados eliminados: {duplicados_eliminados:,}")
print(f"   ‚Ä¢ Filas restantes: {filas_despues_duplicados:,}")

# Registrar en log
transformation_log.append({
    'timestamp': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'operacion': 'Eliminacion_Duplicados',
    'filas_antes': filas_iniciales,
    'filas_despues': filas_despues_duplicados,
    'filas_eliminadas': duplicados_eliminados,
    'descripcion': f'Eliminados {duplicados_eliminados} registros duplicados'
})

print(f"   ‚úÖ Duplicados eliminados exitosamente")


In [None]:
# PASO 2: Manejo de valores nulos
print(f"\n‚ùå PASO 2: MANEJO DE VALORES NULOS")
print("-"*40)

# Calcular porcentaje de nulos por columna
porcentaje_nulos = (df_clean.isnull().sum() / len(df_clean)) * 100

# Categorizar columnas por nivel de nulos
columnas_eliminar = porcentaje_nulos[porcentaje_nulos > 80].index.tolist()
columnas_imputar = porcentaje_nulos[(porcentaje_nulos > 0) & (porcentaje_nulos <= 80)].index.tolist()
columnas_completas = porcentaje_nulos[porcentaje_nulos == 0].index.tolist()

print(f"üìä CATEGORIZACI√ìN DE COLUMNAS:")
print(f"   ‚Ä¢ Para eliminar (>80% nulos): {len(columnas_eliminar)}")
print(f"   ‚Ä¢ Para imputar (0-80% nulos): {len(columnas_imputar)}")
print(f"   ‚Ä¢ Completas (0% nulos): {len(columnas_completas)}")

# Eliminar columnas con muchos nulos
if columnas_eliminar:
    print(f"\nüóëÔ∏è ELIMINANDO COLUMNAS CON >80% NULOS:")
    for col in columnas_eliminar[:5]:  # Mostrar primeras 5
        pct = porcentaje_nulos[col]
        print(f"   ‚Ä¢ {col}: {pct:.1f}% nulos")
    if len(columnas_eliminar) > 5:
        print(f"   ‚Ä¢ ... y {len(columnas_eliminar) - 5} columnas m√°s")
    
    df_clean = df_clean.drop(columns=columnas_eliminar)
    print(f"   ‚úÖ {len(columnas_eliminar)} columnas eliminadas")

# Imputar valores nulos en columnas restantes
if columnas_imputar:
    print(f"\nüîß IMPUTANDO VALORES NULOS:")
    columnas_imputar_restantes = [col for col in columnas_imputar if col in df_clean.columns]
    
    for col in columnas_imputar_restantes:
        nulos_antes = df_clean[col].isnull().sum()
        if nulos_antes > 0:
            # Imputaci√≥n categ√≥rica
            if df_clean[col].dtype == 'object':
                df_clean[col].fillna('No especificado', inplace=True)
            # Imputaci√≥n num√©rica
            else:
                mediana = df_clean[col].median()
                df_clean[col].fillna(mediana, inplace=True)
    
    print(f"   ‚úÖ {len(columnas_imputar_restantes)} columnas imputadas")

# Verificar nulos restantes
nulos_restantes = df_clean.isnull().sum().sum()
print(f"\nüìä RESULTADO MANEJO DE NULOS:")
print(f"   ‚Ä¢ Nulos restantes: {nulos_restantes:,}")

# Registrar en log
transformation_log.append({
    'timestamp': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'operacion': 'Manejo_Valores_Nulos',
    'filas_antes': filas_despues_duplicados,
    'filas_despues': len(df_clean),
    'filas_eliminadas': len(columnas_eliminar),
    'descripcion': f'Eliminadas {len(columnas_eliminar)} columnas, imputados nulos en {len(columnas_imputar_restantes)} columnas'
})


In [None]:
# PASO 3: Normalizaci√≥n de strings
print(f"\nüîß PASO 3: NORMALIZACI√ìN DE STRINGS")
print("-"*40)

# Identificar columnas de texto
columnas_texto = df_clean.select_dtypes(include=['object']).columns
print(f"üìù COLUMNAS DE TEXTO IDENTIFICADAS: {len(columnas_texto)}")

# Normalizar strings
for col in columnas_texto:
    if col in df_clean.columns:
        # Limpiar espacios al inicio y final
        df_clean[col] = df_clean[col].astype(str).str.strip()
        # Reemplazar m√∫ltiples espacios por uno solo
        df_clean[col] = df_clean[col].str.replace(r'\s+', ' ', regex=True)
        # Convertir a min√∫sculas para consistencia
        df_clean[col] = df_clean[col].str.lower()

print(f"   ‚úÖ {len(columnas_texto)} columnas de texto normalizadas")

# PASO 4: Renombrado de columnas principales
print(f"\nüìù PASO 4: RENOMBRADO DE COLUMNAS")
print("-"*40)

# Mapeo de columnas Q1-Q50 a nombres descriptivos
mapeo_columnas = {
    'Time from Start to Finish (seconds)': 'Tiempo_Total_Encuesta_Segundos',
    'Q1': 'Edad_Encuestado',
    'Q1_OTHER_TEXT': 'Edad_Encuestado_Texto_Libre',
    'Q2': 'Genero',
    'Q3': 'Pais_Residencia',
    'Q4': 'Nivel_Educativo',
    'Q5': 'Area_Estudios_Principal',
    'Q6': 'Situacion_Laboral_Actual',
    'Q6_OTHER_TEXT': 'Situacion_Laboral_Texto_Libre',
    'Q7': 'Cargo_Principal_Trabajo',
    'Q7_OTHER_TEXT': 'Cargo_Texto_Libre',
    'Q8': 'Anos_Experiencia_Campo',
    'Q9': 'Rango_Salarial_Anual',
    'Q10': 'Lenguajes_Programacion_Usados',
    'Q11_Part_1': 'IDE_Jupyter_Notebooks',
    'Q11_Part_2': 'IDE_RStudio',
    'Q11_Part_3': 'IDE_PyCharm',
    'Q11_Part_4': 'IDE_Atom',
    'Q11_Part_5': 'IDE_MATLAB',
    'Q12_MULTIPLE_CHOICE': 'Hardware_Analisis_Datos',
    'Q13_Part_1': 'Cloud_AWS',
    'Q13_Part_2': 'Cloud_Microsoft_Azure',
    'Q13_Part_3': 'Cloud_Google_Cloud',
    'Q13_Part_4': 'Cloud_IBM',
    'Q14_Part_1': 'TPU_Google',
    'Q15_Part_1': 'BigData_Spark',
    'Q15_Part_2': 'BigData_Hadoop'
}

# Aplicar renombrado solo a columnas que existen
columnas_existentes = {k: v for k, v in mapeo_columnas.items() if k in df_clean.columns}
df_clean = df_clean.rename(columns=columnas_existentes)

print(f"üìù RENOMBRADO DE COLUMNAS:")
print(f"   ‚Ä¢ Columnas renombradas: {len(columnas_existentes)}")

# Mostrar algunos ejemplos
print(f"\nüîπ EJEMPLOS DE RENOMBRADO:")
for i, (original, nuevo) in enumerate(list(columnas_existentes.items())[:8]):
    print(f"   {i+1}. {original[:35]:<35} ‚Üí {nuevo}")

if len(columnas_existentes) > 8:
    print(f"   ... y {len(columnas_existentes) - 8} columnas m√°s")

# Registrar en log
transformation_log.append({
    'timestamp': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'operacion': 'Normalizacion_y_Renombrado',
    'filas_antes': len(df_clean),
    'filas_despues': len(df_clean),
    'filas_eliminadas': 0,
    'descripcion': f'Normalizadas {len(columnas_texto)} columnas de texto, renombradas {len(columnas_existentes)} columnas'
})


In [None]:
# PASO 5: Creaci√≥n de variables derivadas
print(f"\n‚ûï PASO 5: CREACI√ìN DE VARIABLES DERIVADAS")
print("-"*40)

# 1. Categor√≠a de experiencia
if 'Anos_Experiencia_Campo' in df_clean.columns:
    def categorizar_experiencia(experiencia):
        if pd.isna(experiencia):
            return 'no especificado'
        exp_str = str(experiencia).lower()
        if any(x in exp_str for x in ['0-1', '< 1', 'less than 1']):
            return 'principiante (0-2 a√±os)'
        elif any(x in exp_str for x in ['1-2', '2-3']):
            return 'principiante (0-2 a√±os)'
        elif any(x in exp_str for x in ['3-4', '4-5']):
            return 'intermedio (3-5 a√±os)'
        elif any(x in exp_str for x in ['5-10']):
            return 'avanzado (5-10 a√±os)'
        elif any(x in exp_str for x in ['10-15', '15-20', '20+']):
            return 'experto (10+ a√±os)'
        else:
            return 'no especificado'
    
    df_clean['Categoria_Experiencia'] = df_clean['Anos_Experiencia_Campo'].apply(categorizar_experiencia)
    print("   ‚úÖ Categoria_Experiencia creada")

# 2. Categor√≠a salarial
if 'Rango_Salarial_Anual' in df_clean.columns:
    def categorizar_salario(salario):
        if pd.isna(salario):
            return 'no especificado'
        sal_str = str(salario).lower()
        if 'not wish' in sal_str or 'do not' in sal_str:
            return 'no especificado'
        elif any(x in sal_str for x in ['0-10,000', '10,000-20,000']):
            return 'bajo (0-20k usd)'
        elif any(x in sal_str for x in ['20,000-30,000', '30,000-40,000', '40,000-50,000']):
            return 'medio (20-50k usd)'
        elif any(x in sal_str for x in ['50,000-60,000', '60,000-70,000', '70,000-80,000']):
            return 'alto (50-80k usd)'
        elif any(x in sal_str for x in ['80,000', '90,000', '100,000']):
            return 'muy alto (80-100k usd)'
        elif any(x in sal_str for x in ['125,000', '150,000', '200,000', '300,000', '400,000', '500,000']):
            return 'ejecutivo (100k+ usd)'
        else:
            return 'no especificado'
    
    df_clean['Categoria_Salarial'] = df_clean['Rango_Salarial_Anual'].apply(categorizar_salario)
    print("   ‚úÖ Categoria_Salarial creada")

# 3. Regi√≥n geogr√°fica
if 'Pais_Residencia' in df_clean.columns:
    def categorizar_region(pais):
        if pd.isna(pais):
            return 'no especificado'
        pais_str = str(pais).lower()
        
        if any(p in pais_str for p in ['united states', 'canada', 'mexico']):
            return 'am√©rica del norte'
        elif any(p in pais_str for p in ['brazil', 'argentina', 'colombia', 'chile', 'peru']):
            return 'am√©rica latina'
        elif any(p in pais_str for p in ['united kingdom', 'germany', 'france', 'spain', 'italy', 'russia']):
            return 'europa'
        elif any(p in pais_str for p in ['india', 'china', 'japan', 'australia', 'singapore']):
            return 'asia-pac√≠fico'
        else:
            return 'otros'
    
    df_clean['Region_Geografica'] = df_clean['Pais_Residencia'].apply(categorizar_region)
    print("   ‚úÖ Region_Geografica creada")

# Mostrar distribuciones de variables derivadas
print(f"\nüìä DISTRIBUCIONES DE VARIABLES DERIVADAS:")

if 'Categoria_Experiencia' in df_clean.columns:
    dist_exp = df_clean['Categoria_Experiencia'].value_counts()
    print(f"\nüîπ Categor√≠a de Experiencia:")
    for cat, count in dist_exp.head().items():
        pct = (count / len(df_clean)) * 100
        print(f"   ‚Ä¢ {cat}: {count:,} ({pct:.1f}%)")

if 'Categoria_Salarial' in df_clean.columns:
    dist_sal = df_clean['Categoria_Salarial'].value_counts()
    print(f"\nüîπ Categor√≠a Salarial:")
    for cat, count in dist_sal.head().items():
        pct = (count / len(df_clean)) * 100
        print(f"   ‚Ä¢ {cat}: {count:,} ({pct:.1f}%)")

# Registrar en log
transformation_log.append({
    'timestamp': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'operacion': 'Creacion_Variables_Derivadas',
    'filas_antes': len(df_clean),
    'filas_despues': len(df_clean),
    'filas_eliminadas': 0,
    'descripcion': 'Creadas 3 variables derivadas: Categoria_Experiencia, Categoria_Salarial, Region_Geografica'
})


In [None]:
# Resumen final de la transformaci√≥n
print(f"\nüìä RESUMEN FINAL DE LA TRANSFORMACI√ìN")
print("="*60)

# M√©tricas finales
filas_finales = len(df_clean)
columnas_finales = len(df_clean.columns)
nulos_finales = df_clean.isnull().sum().sum()
memoria_final = df_clean.memory_usage(deep=True).sum() / 1024**2

print(f"üìà COMPARACI√ìN ANTES VS DESPU√âS:")
print(f"   ‚Ä¢ Filas: {filas_iniciales:,} ‚Üí {filas_finales:,} ({filas_iniciales - filas_finales:+,})")
print(f"   ‚Ä¢ Columnas: {columnas_iniciales:,} ‚Üí {columnas_finales:,} ({columnas_iniciales - columnas_finales:+,})")
print(f"   ‚Ä¢ Nulos: {df.isnull().sum().sum():,} ‚Üí {nulos_finales:,} ({df.isnull().sum().sum() - nulos_finales:+,})")
print(f"   ‚Ä¢ Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.1f} MB ‚Üí {memoria_final:.1f} MB")

# Porcentajes de mejora
reduccion_nulos = ((df.isnull().sum().sum() - nulos_finales) / df.isnull().sum().sum() * 100) if df.isnull().sum().sum() > 0 else 0
reduccion_memoria = ((df.memory_usage(deep=True).sum() / 1024**2 - memoria_final) / (df.memory_usage(deep=True).sum() / 1024**2) * 100)

print(f"\nüìä MEJORAS LOGRADAS:")
print(f"   ‚Ä¢ Reducci√≥n de nulos: {reduccion_nulos:.1f}%")
print(f"   ‚Ä¢ Reducci√≥n de memoria: {reduccion_memoria:.1f}%")
print(f"   ‚Ä¢ Completitud de datos: {((filas_finales * columnas_finales - nulos_finales) / (filas_finales * columnas_finales) * 100):.1f}%")

# Resumen de transformaciones aplicadas
print(f"\n‚úÖ TRANSFORMACIONES APLICADAS:")
print(f"   ‚Ä¢ ‚úÖ Eliminaci√≥n de duplicados")
print(f"   ‚Ä¢ ‚úÖ Manejo inteligente de valores nulos")
print(f"   ‚Ä¢ ‚úÖ Limpieza de espacios en blanco")
print(f"   ‚Ä¢ ‚úÖ Normalizaci√≥n de datos")
print(f"   ‚Ä¢ ‚úÖ Renombrado de columnas descriptivo")
print(f"   ‚Ä¢ ‚úÖ Creaci√≥n de variables derivadas")

# Mostrar primeras filas del dataset transformado
print(f"\nüìã PRIMERAS 3 FILAS DEL DATASET TRANSFORMADO:")
columnas_mostrar = [col for col in df_clean.columns if any(x in col for x in ['Edad', 'Genero', 'Pais', 'Nivel', 'Categoria'])][:6]

if columnas_mostrar:
    muestra = df_clean[columnas_mostrar].head(3)
    for i, (idx, row) in enumerate(muestra.iterrows()):
        print(f"\n   Fila {i+1}:")
        for col in columnas_mostrar:
            valor = str(row[col])[:30] + "..." if len(str(row[col])) > 30 else str(row[col])
            print(f"     ‚Ä¢ {col}: {valor}")

print(f"\nüéâ TRANSFORMACI√ìN COMPLETADA EXITOSAMENTE")
print(f"üìä Dataset listo para carga y an√°lisis")


## 5. Carga de Datos

### Descripci√≥n del Proceso de Carga

La carga de datos es la fase final del proceso ETL, donde exportamos los datos limpios y transformados en diferentes formatos para su posterior an√°lisis y uso. Esta fase asegura que los datos est√©n disponibles en los formatos m√°s apropiados para diferentes tipos de an√°lisis y herramientas.

### Formatos de Exportaci√≥n

Exportaremos los datos en m√∫ltiples formatos para maximizar su utilidad:

1. **CSV**: Formato universal para an√°lisis en Python, R y otras herramientas
2. **Excel**: Formato ideal para presentaciones y an√°lisis en herramientas de BI
3. **SQLite**: Base de datos ligera para consultas SQL y an√°lisis relacional
4. **Reportes JSON**: Metadatos y m√©tricas de calidad en formato estructurado
5. **Log CSV**: Registro detallado de todas las transformaciones aplicadas

### Validaci√≥n de la Carga

Despu√©s de cada exportaci√≥n, verificaremos que los datos se hayan guardado correctamente comparando el n√∫mero de filas y columnas, y validando la integridad de los datos.


In [None]:
# Proceso de carga de datos
print("üíæ PROCESO DE CARGA DE DATOS")
print("="*60)

# Crear directorio de salida si no existe
import os
os.makedirs('/mnt/data', exist_ok=True)

# 1. Exportar a CSV
print("\nüìÑ EXPORTACI√ìN A CSV:")
csv_filename = '/mnt/data/multipleChoiceResponses_clean.csv'

try:
    df_clean.to_csv(csv_filename, index=False, encoding='utf-8')
    csv_size = os.path.getsize(csv_filename) / 1024  # KB
    
    print(f"   ‚úÖ CSV creado: {csv_filename}")
    print(f"   üìä Registros: {df_clean.shape[0]:,}")
    print(f"   üìã Columnas: {df_clean.shape[1]:,}")
    print(f"   üíæ Tama√±o: {csv_size:.1f} KB")
    
    # Verificar carga
    df_verificacion = pd.read_csv(csv_filename)
    if df_verificacion.shape == df_clean.shape:
        print(f"   ‚úÖ Verificaci√≥n exitosa: {df_verificacion.shape[0]:,} filas √ó {df_verificacion.shape[1]:,} columnas")
    else:
        print(f"   ‚ùå Error en verificaci√≥n")
        
except Exception as e:
    print(f"   ‚ùå Error: {str(e)}")

# 2. Exportar a Excel
print("\nüìä EXPORTACI√ìN A EXCEL:")
excel_filename = '/mnt/data/multipleChoiceResponses_clean.xlsx'

try:
    with pd.ExcelWriter(excel_filename, engine='openpyxl') as writer:
        # Hoja principal con datos
        df_clean.to_excel(writer, sheet_name='Datos_Limpios', index=False)
        
        # Hoja con resumen
        resumen = pd.DataFrame({
            'M√©trica': ['Filas', 'Columnas', 'Valores_Nulos', 'Memoria_MB'],
            'Valor': [df_clean.shape[0], df_clean.shape[1], 
                     df_clean.isnull().sum().sum(),
                     df_clean.memory_usage(deep=True).sum() / 1024**2]
        })
        resumen.to_excel(writer, sheet_name='Resumen', index=False)
    
    excel_size = os.path.getsize(excel_filename) / 1024  # KB
    print(f"   ‚úÖ Excel creado: {excel_filename}")
    print(f"   üìÑ Hojas: Datos_Limpios, Resumen")
    print(f"   üíæ Tama√±o: {excel_size:.1f} KB")
    
except Exception as e:
    print(f"   ‚ùå Error Excel: {str(e)}")


In [None]:
# 3. Exportar a SQLite
print("\nüóÑÔ∏è EXPORTACI√ìN A SQLITE:")
sqlite_filename = '/mnt/data/etl_results.db'

try:
    # Crear conexi√≥n a SQLite
    engine = sqlalchemy.create_engine(f'sqlite:///{sqlite_filename}')
    
    # Exportar datos principales
    df_clean.to_sql('datos_limpios', engine, if_exists='replace', index=False)
    
    # Crear tabla de metadatos
    metadatos = pd.DataFrame({
        'metrica': ['fecha_procesamiento', 'filas_originales', 'filas_finales', 'columnas_originales', 'columnas_finales'],
        'valor': [datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), 
                 filas_iniciales, filas_finales, columnas_iniciales, columnas_finales]
    })
    metadatos.to_sql('metadatos', engine, if_exists='replace', index=False)
    
    # Crear tabla de log de transformaciones
    log_df = pd.DataFrame(transformation_log)
    log_df.to_sql('log_transformaciones', engine, if_exists='replace', index=False)
    
    sqlite_size = os.path.getsize(sqlite_filename) / 1024  # KB
    print(f"   ‚úÖ SQLite creado: {sqlite_filename}")
    print(f"   üìä Tablas: datos_limpios, metadatos, log_transformaciones")
    print(f"   üíæ Tama√±o: {sqlite_size:.1f} KB")
    
    # Verificar carga
    with engine.connect() as conn:
        result = conn.execute(sqlalchemy.text("SELECT COUNT(*) FROM datos_limpios")).fetchone()
        print(f"   ‚úÖ Verificaci√≥n: {result[0]:,} registros en base de datos")
    
except Exception as e:
    print(f"   ‚ùå Error SQLite: {str(e)}")

# 4. Crear reporte de calidad JSON
print("\nüìã CREACI√ìN DE REPORTE DE CALIDAD:")
json_filename = 'data_quality_report.json'

try:
    # Calcular m√©tricas de calidad
    calidad_report = {
        'fecha_procesamiento': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
        'dataset_original': {
            'filas': int(filas_iniciales),
            'columnas': int(columnas_iniciales),
            'valores_nulos': int(df.isnull().sum().sum()),
            'duplicados': int(df.duplicated().sum()),
            'memoria_mb': float(df.memory_usage(deep=True).sum() / 1024**2)
        },
        'dataset_limpio': {
            'filas': int(filas_finales),
            'columnas': int(columnas_finales),
            'valores_nulos': int(nulos_finales),
            'duplicados': 0,
            'memoria_mb': float(memoria_final)
        },
        'mejoras': {
            'reduccion_nulos_porcentaje': float(reduccion_nulos),
            'reduccion_memoria_porcentaje': float(reduccion_memoria),
            'completitud_datos_porcentaje': float(((filas_finales * columnas_finales - nulos_finales) / (filas_finales * columnas_finales) * 100))
        },
        'transformaciones_aplicadas': [
            'Eliminacion_Duplicados',
            'Manejo_Valores_Nulos',
            'Normalizacion_Strings',
            'Renombrado_Columnas',
            'Creacion_Variables_Derivadas'
        ]
    }
    
    with open(json_filename, 'w', encoding='utf-8') as f:
        json.dump(calidad_report, f, indent=2, ensure_ascii=False)
    
    json_size = os.path.getsize(json_filename) / 1024  # KB
    print(f"   ‚úÖ Reporte JSON creado: {json_filename}")
    print(f"   üíæ Tama√±o: {json_size:.1f} KB")
    
except Exception as e:
    print(f"   ‚ùå Error JSON: {str(e)}")

# 5. Crear log de transformaciones CSV
print("\nüìù CREACI√ìN DE LOG DE TRANSFORMACIONES:")
log_filename = 'transformation_log.csv'

try:
    log_df = pd.DataFrame(transformation_log)
    log_df.to_csv(log_filename, index=False, encoding='utf-8')
    
    log_size = os.path.getsize(log_filename) / 1024  # KB
    print(f"   ‚úÖ Log CSV creado: {log_filename}")
    print(f"   üìä Operaciones registradas: {len(transformation_log)}")
    print(f"   üíæ Tama√±o: {log_size:.1f} KB")
    
except Exception as e:
    print(f"   ‚ùå Error Log: {str(e)}")

print(f"\nüéâ CARGA COMPLETADA EXITOSAMENTE")
print(f"üìÅ Archivos listos para an√°lisis y validaci√≥n")


## 6. Comparaci√≥n con Power BI (Power Query)

### Descripci√≥n de la Validaci√≥n Cruzada

Para asegurar la consistencia y reproducibilidad del proceso ETL, es fundamental validar que los resultados obtenidos en Python puedan ser replicados en Power BI usando Power Query. Esta validaci√≥n cruzada garantiza que el proceso sea robusto y que los datos puedan ser procesados de manera consistente en diferentes herramientas.

### Estrategia de Validaci√≥n

La validaci√≥n se realizar√° mediante:

1. **Script Power Query M**: C√≥digo que replique las transformaciones principales
2. **M√©tricas de Comparaci√≥n**: Valores de referencia para verificar consistencia
3. **Instrucciones de Implementaci√≥n**: Gu√≠a paso a paso para replicar en Power BI

### Transformaciones a Replicar

Las siguientes transformaciones ser√°n replicadas en Power Query:

- Eliminaci√≥n de duplicados
- Manejo de valores nulos
- Normalizaci√≥n de strings
- Renombrado de columnas principales
- Creaci√≥n de variables derivadas b√°sicas


In [None]:
# Generar script Power Query M
print("üîß GENERANDO SCRIPT POWER QUERY M")
print("="*60)

# Script Power Query M para replicar las transformaciones
powerquery_script = f"""
// SCRIPT POWER QUERY M - ETL KAGGLE SURVEY 2019
// Replica las transformaciones realizadas en Python
// Generado autom√°ticamente el {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

let
    // PASO 1: Cargar datos desde CSV
    Source = Csv.Document(File.Contents("multipleChoiceResponses.csv"),
        [Delimiter=",", Columns={df.shape[1]}, Encoding=65001, QuoteStyle=QuoteStyle.Csv]),
    
    // PASO 2: Promover encabezados
    #"Promoted Headers" = Table.PromoteHeaders(Source, [PromoteAllScalars=true]),
    
    // PASO 3: Eliminar duplicados
    #"Removed Duplicates" = Table.Distinct(#"Promoted Headers"),
    
    // PASO 4: Eliminar columnas con >80% nulos
    // (Nota: Agregar columnas espec√≠ficas identificadas en Python)
    #"Removed High Null Columns" = #"Removed Duplicates",
    
    // PASO 5: Reemplazar valores nulos
    #"Replaced Nulls" = Table.ReplaceValue(#"Removed High Null Columns", null, "No especificado", 
        Replacer.ReplaceValue, Table.SelectColumns(#"Removed High Null Columns", 
        Table.ColumnsOfType(#"Removed High Null Columns", {{type text}}))),
    
    // PASO 6: Normalizar strings (min√∫sculas y espacios)
    #"Normalized Strings" = Table.TransformColumns(#"Replaced Nulls", 
        {{"Q1", Text.Lower, type text},
         {"Q2", Text.Lower, type text},
         {"Q3", Text.Lower, type text},
         {"Q4", Text.Lower, type text},
         {"Q5", Text.Lower, type text}}),
    
    // PASO 7: Renombrar columnas principales
    #"Renamed Columns" = Table.RenameColumns(#"Normalized Strings", {{
        "Q1", "Edad_Encuestado",
        "Q2", "Genero", 
        "Q3", "Pais_Residencia",
        "Q4", "Nivel_Educativo",
        "Q5", "Area_Estudios_Principal",
        "Q6", "Situacion_Laboral_Actual",
        "Q7", "Cargo_Principal_Trabajo",
        "Q8", "Anos_Experiencia_Campo",
        "Q9", "Rango_Salarial_Anual",
        "Q10", "Lenguajes_Programacion_Usados"
    }}),
    
    // PASO 8: Crear variables derivadas
    #"Added Categoria_Experiencia" = Table.AddColumn(#"Renamed Columns", "Categoria_Experiencia", 
        each if Text.Contains(Text.Lower([Anos_Experiencia_Campo] ?? ""), "0-1") then "principiante (0-2 a√±os)"
             else if Text.Contains(Text.Lower([Anos_Experiencia_Campo] ?? ""), "10") then "experto (10+ a√±os)"
             else if Text.Contains(Text.Lower([Anos_Experiencia_Campo] ?? ""), "5") then "avanzado (5-10 a√±os)"
             else "intermedio (3-5 a√±os)"),
    
    #"Added Categoria_Salarial" = Table.AddColumn(#"Added Categoria_Experiencia", "Categoria_Salarial",
        each if Text.Contains(Text.Lower([Rango_Salarial_Anual] ?? ""), "0-10") then "bajo (0-20k usd)"
             else if Text.Contains(Text.Lower([Rango_Salarial_Anual] ?? ""), "20-50") then "medio (20-50k usd)"
             else if Text.Contains(Text.Lower([Rango_Salarial_Anual] ?? ""), "50-80") then "alto (50-80k usd)"
             else if Text.Contains(Text.Lower([Rango_Salarial_Anual] ?? ""), "100") then "ejecutivo (100k+ usd)"
             else "no especificado"),
    
    // RESULTADO FINAL
    #"Final Result" = #"Added Categoria_Salarial"
in
    #"Final Result"
"""

# Guardar script Power Query
powerquery_filename = 'powerquery_replica.pq'
try:
    with open(powerquery_filename, 'w', encoding='utf-8') as f:
        f.write(powerquery_script)
    
    powerquery_size = os.path.getsize(powerquery_filename) / 1024  # KB
    print(f"‚úÖ Script Power Query creado: {powerquery_filename}")
    print(f"üíæ Tama√±o: {powerquery_size:.1f} KB")
    
except Exception as e:
    print(f"‚ùå Error: {str(e)}")

# Generar m√©tricas de validaci√≥n
print(f"\nüìä GENERANDO M√âTRICAS DE VALIDACI√ìN")
print("-"*50)

metricas_validacion = {
    'fecha_validacion': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'metricas_python': {
        'total_registros': int(filas_finales),
        'total_columnas': int(columnas_finales),
        'valores_nulos': int(nulos_finales),
        'memoria_mb': float(memoria_final),
        'duplicados': 0
    },
    'criterios_validacion': {
        'diferencia_registros_maxima': '1%',
        'diferencia_columnas_maxima': '0',
        'valores_nulos_maximos': 0,
        'coincidencia_distribuciones_minima': '95%'
    },
    'instrucciones_validacion': [
        '1. Importar multipleChoiceResponses.csv en Power BI',
        '2. Aplicar el script M generado en powerquery_replica.pq',
        '3. Comparar m√©tricas con valores de referencia',
        '4. Validar distribuciones de variables principales',
        '5. Generar dashboard con visualizaciones clave'
    ]
}

# Guardar m√©tricas de validaci√≥n
metricas_filename = 'metricas_validacion_powerbi.txt'
try:
    with open(metricas_filename, 'w', encoding='utf-8') as f:
        f.write("M√âTRICAS DE VALIDACI√ìN - PYTHON vs POWER BI\n")
        f.write("="*60 + "\n\n")
        f.write(f"Fecha de validaci√≥n: {metricas_validacion['fecha_validacion']}\n\n")
        f.write("M√âTRICAS DE REFERENCIA (PYTHON):\n")
        for metrica, valor in metricas_validacion['metricas_python'].items():
            f.write(f"‚Ä¢ {metrica}: {valor}\n")
        f.write("\nCRITERIOS DE VALIDACI√ìN EXITOSA:\n")
        for criterio, valor in metricas_validacion['criterios_validacion'].items():
            f.write(f"‚Ä¢ {criterio}: {valor}\n")
        f.write("\nINSTRUCCIONES DE VALIDACI√ìN:\n")
        for instruccion in metricas_validacion['instrucciones_validacion']:
            f.write(f"{instruccion}\n")
    
    metricas_size = os.path.getsize(metricas_filename) / 1024  # KB
    print(f"‚úÖ M√©tricas de validaci√≥n creadas: {metricas_filename}")
    print(f"üíæ Tama√±o: {metricas_size:.1f} KB")
    
except Exception as e:
    print(f"‚ùå Error: {str(e)}")

print(f"\nüéâ VALIDACI√ìN POWER BI PREPARADA")
print(f"üìÅ Archivos listos para comparaci√≥n cruzada")
