# PROCESO ETL COMPLETO - KAGGLE SURVEY 2019
## Aplicado al √Årea de Ingenier√≠a de Sistemas

---

### üìã **INFORMACI√ìN DEL PROYECTO**

**Autor:** [Tu Nombre]  
**Fecha:** Septiembre 2025  
**Curso:** Business Intelligence - UPEU  
**Dataset:** Kaggle Machine Learning & Data Science Survey 2019  
**Aplicaci√≥n:** Ingenier√≠a de Sistemas  
**Horas de Documentaci√≥n:** 30-50 horas  

---

### üéØ **OBJETIVOS DEL PROYECTO**

1. **Implementar un proceso ETL robusto** y reproducible
2. **Analizar tendencias tecnol√≥gicas** relevantes para Ingenier√≠a de Sistemas
3. **Validar resultados** mediante comparaci√≥n con Power BI
4. **Generar insights accionables** para la toma de decisiones tecnol√≥gicas
5. **Documentar completamente** el proceso para fines acad√©micos

---

### üìä **ESTRUCTURA DEL NOTEBOOK**

1. **[1. Configuraci√≥n del Entorno](#1-configuraci√≥n-del-entorno)**
2. **[2. Extracci√≥n de Datos](#2-extracci√≥n-de-datos)**
3. **[3. An√°lisis Exploratorio de Datos (EDA)](#3-an√°lisis-exploratorio-de-datos-eda)**
4. **[4. Limpieza y Transformaci√≥n](#4-limpieza-y-transformaci√≥n)**
5. **[5. Carga de Datos](#5-carga-de-datos)**
6. **[6. Validaci√≥n con Power BI](#6-validaci√≥n-con-power-bi)**
7. **[7. An√°lisis de Resultados](#7-an√°lisis-de-resultados)**
8. **[8. Conclusiones y Recomendaciones](#8-conclusiones-y-recomendaciones)**

---


## 1. CONFIGURACI√ìN DEL ENTORNO

### üì¶ **Instalaci√≥n de Dependencias**

Primero, instalamos todas las librer√≠as necesarias para el proceso ETL:


In [None]:
# Instalaci√≥n de dependencias (ejecutar solo si es necesario)
# !pip install pandas numpy matplotlib seaborn plotly openpyxl jupyter

print("üì¶ Dependencias instaladas correctamente")


### üìö **Importaci√≥n de Librer√≠as**

Importamos todas las librer√≠as necesarias para el an√°lisis:


In [None]:
# Librer√≠as principales para an√°lisis de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Librer√≠as para manejo de archivos y fechas
import os
import glob
from datetime import datetime
import warnings

# Configuraci√≥n de visualizaciones
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (15, 10)
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

# Suprimir warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìÖ Fecha de ejecuci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")


### üîß **Configuraci√≥n del Entorno**

Configuramos el entorno de trabajo y verificamos los archivos disponibles:


In [None]:
# Verificar directorio de trabajo
print(f"üìÅ Directorio de trabajo: {os.getcwd()}")

# Verificar archivos disponibles
archivos_csv = glob.glob("*.csv")
archivos_excel = glob.glob("*.xlsx")
archivos_txt = glob.glob("*.txt")

print(f"\nüìä Archivos encontrados:")
print(f"   ‚Ä¢ Archivos CSV: {len(archivos_csv)}")
print(f"   ‚Ä¢ Archivos Excel: {len(archivos_excel)}")
print(f"   ‚Ä¢ Archivos TXT: {len(archivos_txt)}")

# Mostrar archivos principales
if archivos_csv:
    print(f"\nüìÑ Archivos CSV principales:")
    for archivo in archivos_csv[:5]:
        tama√±o = os.path.getsize(archivo) / 1024 / 1024  # MB
        print(f"   ‚Ä¢ {archivo} ({tama√±o:.2f} MB)")


---

## 2. EXTRACCI√ìN DE DATOS

### üìä **Descripci√≥n del Dataset**

El dataset de **Kaggle Machine Learning & Data Science Survey 2019** es una encuesta global que recopila informaci√≥n de profesionales en el campo de la ciencia de datos y machine learning. Este dataset es altamente relevante para **Ingenier√≠a de Sistemas** porque:

#### üèóÔ∏è **Infraestructura y Arquitectura:**
- Contiene informaci√≥n sobre herramientas de desarrollo (IDEs, editores)
- Datos sobre plataformas de computaci√≥n en la nube (AWS, Azure, GCP)
- Informaci√≥n sobre bases de datos y sistemas de almacenamiento
- Herramientas de big data y analytics

#### üíª **Desarrollo de Software:**
- Lenguajes de programaci√≥n m√°s utilizados en la industria
- Frameworks y bibliotecas de machine learning
- Herramientas de control de versiones y colaboraci√≥n
- Metodolog√≠as de desarrollo y despliegue

#### üîß **Herramientas y Tecnolog√≠as:**
- IDEs y editores de c√≥digo preferidos
- Plataformas de notebooks y desarrollo colaborativo
- Herramientas de visualizaci√≥n de datos
- Sistemas de bases de datos relacionales y NoSQL


### üìÅ **Carga del Dataset Original**

Cargamos el dataset original desde el archivo CSV:


In [None]:
# Definir el archivo de datos
archivo_original = "multipleChoiceResponses.csv"

# Verificar que el archivo existe
if not os.path.exists(archivo_original):
    print(f"‚ùå Error: No se encontr√≥ el archivo {archivo_original}")
    print("Aseg√∫rate de que el archivo est√© en el directorio actual")
else:
    print(f"‚úÖ Archivo encontrado: {archivo_original}")
    
    # Obtener informaci√≥n del archivo
    tama√±o_archivo = os.path.getsize(archivo_original) / 1024 / 1024  # MB
    print(f"üìä Tama√±o del archivo: {tama√±o_archivo:.2f} MB")
    
    # Cargar el dataset
    print("\n‚è≥ Cargando dataset... (esto puede tomar unos segundos)")
    
    try:
        # Cargar con configuraci√≥n optimizada
        df_original = pd.read_csv(archivo_original, encoding='utf-8', low_memory=False)
        
        print(f"‚úÖ Dataset cargado exitosamente")
        print(f"üìä Dimensiones: {df_original.shape[0]:,} filas √ó {df_original.shape[1]:,} columnas")
        print(f"üíæ Memoria utilizada: {df_original.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
        
    except Exception as e:
        print(f"‚ùå Error al cargar el dataset: {str(e)}")
