# PROCESO ETL COMPLETO - KAGGLE SURVEY 2019
## Aplicado al Área de Ingeniería de Sistemas

---

### 📋 **INFORMACIÓN DEL PROYECTO**

**Autor:** [Tu Nombre]  
**Fecha:** Septiembre 2025  
**Curso:** Business Intelligence - UPEU  
**Dataset:** Kaggle Machine Learning & Data Science Survey 2019  
**Aplicación:** Ingeniería de Sistemas  
**Horas de Documentación:** 30-50 horas  

---

### 🎯 **OBJETIVOS DEL PROYECTO**

1. **Implementar un proceso ETL robusto** y reproducible
2. **Analizar tendencias tecnológicas** relevantes para Ingeniería de Sistemas
3. **Validar resultados** mediante comparación con Power BI
4. **Generar insights accionables** para la toma de decisiones tecnológicas
5. **Documentar completamente** el proceso para fines académicos

---

### 📊 **ESTRUCTURA DEL NOTEBOOK**

1. **[1. Configuración del Entorno](#1-configuración-del-entorno)**
2. **[2. Extracción de Datos](#2-extracción-de-datos)**
3. **[3. Análisis Exploratorio de Datos (EDA)](#3-análisis-exploratorio-de-datos-eda)**
4. **[4. Limpieza y Transformación](#4-limpieza-y-transformación)**
5. **[5. Carga de Datos](#5-carga-de-datos)**
6. **[6. Validación con Power BI](#6-validación-con-power-bi)**
7. **[7. Análisis de Resultados](#7-análisis-de-resultados)**
8. **[8. Conclusiones y Recomendaciones](#8-conclusiones-y-recomendaciones)**

---


## 1. CONFIGURACIÓN DEL ENTORNO

### 📦 **Instalación de Dependencias**

Primero, instalamos todas las librerías necesarias para el proceso ETL:


In [None]:
# Instalación de dependencias (ejecutar solo si es necesario)
# !pip install pandas numpy matplotlib seaborn plotly openpyxl jupyter

print("📦 Dependencias instaladas correctamente")


### 📚 **Importación de Librerías**

Importamos todas las librerías necesarias para el análisis:


In [None]:
# Librerías principales para análisis de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Librerías para manejo de archivos y fechas
import os
import glob
from datetime import datetime
import warnings

# Configuración de visualizaciones
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (15, 10)
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14

# Configuración de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

# Suprimir warnings
warnings.filterwarnings('ignore')

print("✅ Librerías importadas correctamente")
print(f"📅 Fecha de ejecución: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")


### 🔧 **Configuración del Entorno**

Configuramos el entorno de trabajo y verificamos los archivos disponibles:


In [None]:
# Verificar directorio de trabajo
print(f"📁 Directorio de trabajo: {os.getcwd()}")

# Verificar archivos disponibles
archivos_csv = glob.glob("*.csv")
archivos_excel = glob.glob("*.xlsx")
archivos_txt = glob.glob("*.txt")

print(f"\n📊 Archivos encontrados:")
print(f"   • Archivos CSV: {len(archivos_csv)}")
print(f"   • Archivos Excel: {len(archivos_excel)}")
print(f"   • Archivos TXT: {len(archivos_txt)}")

# Mostrar archivos principales
if archivos_csv:
    print(f"\n📄 Archivos CSV principales:")
    for archivo in archivos_csv[:5]:
        tamaño = os.path.getsize(archivo) / 1024 / 1024  # MB
        print(f"   • {archivo} ({tamaño:.2f} MB)")


---

## 2. EXTRACCIÓN DE DATOS

### 📊 **Descripción del Dataset**

El dataset de **Kaggle Machine Learning & Data Science Survey 2019** es una encuesta global que recopila información de profesionales en el campo de la ciencia de datos y machine learning. Este dataset es altamente relevante para **Ingeniería de Sistemas** porque:

#### 🏗️ **Infraestructura y Arquitectura:**
- Contiene información sobre herramientas de desarrollo (IDEs, editores)
- Datos sobre plataformas de computación en la nube (AWS, Azure, GCP)
- Información sobre bases de datos y sistemas de almacenamiento
- Herramientas de big data y analytics

#### 💻 **Desarrollo de Software:**
- Lenguajes de programación más utilizados en la industria
- Frameworks y bibliotecas de machine learning
- Herramientas de control de versiones y colaboración
- Metodologías de desarrollo y despliegue

#### 🔧 **Herramientas y Tecnologías:**
- IDEs y editores de código preferidos
- Plataformas de notebooks y desarrollo colaborativo
- Herramientas de visualización de datos
- Sistemas de bases de datos relacionales y NoSQL


### 📁 **Carga del Dataset Original**

Cargamos el dataset original desde el archivo CSV:


In [None]:
# Definir el archivo de datos
archivo_original = "multipleChoiceResponses.csv"

# Verificar que el archivo existe
if not os.path.exists(archivo_original):
    print(f"❌ Error: No se encontró el archivo {archivo_original}")
    print("Asegúrate de que el archivo esté en el directorio actual")
else:
    print(f"✅ Archivo encontrado: {archivo_original}")
    
    # Obtener información del archivo
    tamaño_archivo = os.path.getsize(archivo_original) / 1024 / 1024  # MB
    print(f"📊 Tamaño del archivo: {tamaño_archivo:.2f} MB")
    
    # Cargar el dataset
    print("\n⏳ Cargando dataset... (esto puede tomar unos segundos)")
    
    try:
        # Cargar con configuración optimizada
        df_original = pd.read_csv(archivo_original, encoding='utf-8', low_memory=False)
        
        print(f"✅ Dataset cargado exitosamente")
        print(f"📊 Dimensiones: {df_original.shape[0]:,} filas × {df_original.shape[1]:,} columnas")
        print(f"💾 Memoria utilizada: {df_original.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
        
    except Exception as e:
        print(f"❌ Error al cargar el dataset: {str(e)}")
