# 📊 Junior - 01. Introducción a la Ingeniería de Datos

**Objetivos de Aprendizaje:**
- [ ] Comprender qué es la Ingeniería de Datos y su importancia
- [ ] Diferenciar roles: Data Engineer vs Data Scientist vs Data Analyst
- [ ] Entender el concepto de pipeline de datos
- [ ] Conocer herramientas y tecnologías fundamentales
- [ ] Realizar primeros ejercicios prácticos con Python

**Duración Estimada:** 60-75 minutos  
**Nivel de Dificultad:** Principiante  
**Prerrequisitos:** Conocimientos básicos de programación

---

## 🎯 ¿Qué es la Ingeniería de Datos?

La **Ingeniería de Datos** es la disciplina que se encarga de:

✅ **Extraer** datos de múltiples fuentes  
✅ **Transformar** y limpiar los datos  
✅ **Cargar** datos en sistemas de almacenamiento  
✅ **Orquestar** procesos automatizados  
✅ **Monitorear** la calidad y performance  

### 🌟 Analogía: El Data Engineer como "Plomero de Datos"

Imagina que los datos son como agua en una ciudad:

- **Fuentes de agua** = Bases de datos, APIs, archivos
- **Tuberías** = Pipelines de datos
- **Tratamiento** = Limpieza y transformación
- **Distribución** = Data warehouses, dashboards
- **Calidad** = Monitoreo y alertas

El Data Engineer construye y mantiene toda esta "infraestructura de datos".

## 👥 Comparación de Roles en el Ecosistema de Datos

| Aspecto | Data Engineer | Data Scientist | Data Analyst |
|---------|---------------|----------------|---------------|
| **Foco Principal** | Infraestructura y pipelines | Modelos y algoritmos | Reportes y insights |
| **Herramientas** | Python, SQL, Airflow | Python, R, TensorFlow | SQL, Excel, Tableau |
| **Output** | Datos limpios y accesibles | Modelos predictivos | Dashboards y reportes |
| **Skills Técnicos** | ETL, Bases de datos, Cloud | Estadística, ML, Programación | SQL, Visualización, Business |
| **Tiempo en Código** | 80% | 60% | 30% |

### 🔄 Flujo de Trabajo Colaborativo

```
Data Engineer → Prepara los datos
      ↓
Data Scientist → Crea modelos
      ↓
Data Analyst → Genera insights de negocio
```

## 🏗️ Anatomía de un Pipeline de Datos

Un **pipeline de datos** es un conjunto de procesos que mueve y transforma datos desde su origen hasta su destino.

### 📋 Componentes Principales:

1. **Extract (Extraer)** 🔽
   - APIs, bases de datos, archivos
   - Web scraping
   - Streams en tiempo real

2. **Transform (Transformar)** ⚙️
   - Limpiar datos (nulls, duplicados)
   - Cambiar formatos
   - Calcular métricas
   - Validar calidad

3. **Load (Cargar)** 📤
   - Data warehouses
   - Bases de datos
   - Data lakes
   - APIs de destino

## 🛠️ Stack Tecnológico del Data Engineer

### 🐍 Lenguajes de Programación
- **Python** (más popular)
- **SQL** (fundamental)
- **Scala** (para Spark)
- **Java** (ecosistema big data)

### 🗄️ Almacenamiento
- **Relacionales**: PostgreSQL, MySQL
- **NoSQL**: MongoDB, Cassandra
- **Cloud**: BigQuery, Redshift, Snowflake

### ⚡ Procesamiento
- **Batch**: Apache Spark, pandas
- **Streaming**: Kafka, Apache Beam
- **Orquestación**: Airflow, Prefect

### ☁️ Cloud Platforms
- **AWS**: S3, Glue, Lambda
- **GCP**: BigQuery, Dataflow
- **Azure**: Synapse, Data Factory

## 🚀 Ejercicio Práctico: Mi Primer Pipeline

Vamos a crear un pipeline simple que:
1. **Extraiga** datos de una API pública
2. **Transforme** la información
3. **Cargue** el resultado en un archivo CSV

¡Empecemos!

In [None]:
# Importar librerías necesarias
import requests
import pandas as pd
import json
from datetime import datetime
import os

print("✅ Librerías importadas correctamente")
print(f"📅 Fecha de ejecución: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

### 🔽 Paso 1: Extract - Extraer datos de una API

Usaremos la API pública **JSONPlaceholder** para obtener datos de usuarios ficticios.

In [None]:
# Función para extraer datos de la API
def extraer_datos_usuarios():
    """
    Extrae datos de usuarios desde JSONPlaceholder API
    Returns: dict con los datos o None si hay error
    """
    try:
        print("🔄 Conectando a la API...")
        
        # Hacer petición a la API
        url = "https://jsonplaceholder.typicode.com/users"
        response = requests.get(url, timeout=10)
        
        # Verificar que la petición fue exitosa
        response.raise_for_status()
        
        # Convertir respuesta a JSON
        datos = response.json()
        
        print(f"✅ Datos extraídos exitosamente: {len(datos)} usuarios")
        return datos
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Error al conectar con la API: {e}")
        return None
    except json.JSONDecodeError as e:
        print(f"❌ Error al decodificar JSON: {e}")
        return None

# Extraer los datos
datos_raw = extraer_datos_usuarios()

# Mostrar los primeros registros
if datos_raw:
    print("\n📋 Primeros 2 registros:")
    for i, usuario in enumerate(datos_raw[:2]):
        print(f"Usuario {i+1}: {usuario['name']} ({usuario['email']})")

### ⚙️ Paso 2: Transform - Transformar y limpiar los datos

Ahora vamos a:
- Aplanar la estructura JSON
- Seleccionar solo las columnas que necesitamos
- Limpiar y validar los datos

In [None]:
def transformar_datos_usuarios(datos_raw):
    """
    Transforma los datos raw en un formato limpio y estructurado
    Args: datos_raw (list): Lista de usuarios desde la API
    Returns: pd.DataFrame con datos transformados
    """
    if not datos_raw:
        print("❌ No hay datos para transformar")
        return None
    
    print("🔄 Iniciando transformación de datos...")
    
    # Lista para almacenar usuarios transformados
    usuarios_transformados = []
    
    for usuario in datos_raw:
        # Extraer y aplanar información relevante
        usuario_limpio = {
            'id': usuario['id'],
            'nombre': usuario['name'],
            'username': usuario['username'],
            'email': usuario['email'].lower(),  # Normalizar email
            'telefono': usuario['phone'],
            'website': usuario['website'],
            'ciudad': usuario['address']['city'],
            'codigo_postal': usuario['address']['zipcode'],
            'latitud': float(usuario['address']['geo']['lat']),
            'longitud': float(usuario['address']['geo']['lng']),
            'empresa': usuario['company']['name'],
            'empresa_sector': usuario['company']['bs'],
            'fecha_procesamiento': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        }
        
        usuarios_transformados.append(usuario_limpio)
    
    # Convertir a DataFrame
    df = pd.DataFrame(usuarios_transformados)
    
    # Validaciones básicas
    print(f"📊 Datos transformados: {len(df)} filas, {len(df.columns)} columnas")
    print(f"📧 Emails únicos: {df['email'].nunique()}/{len(df)}")
    print(f"🏢 Empresas únicas: {df['empresa'].nunique()}")
    
    # Verificar datos faltantes
    valores_nulos = df.isnull().sum().sum()
    print(f"❓ Valores nulos encontrados: {valores_nulos}")
    
    return df

# Transformar los datos
df_usuarios = transformar_datos_usuarios(datos_raw)

# Mostrar resumen de los datos transformados
if df_usuarios is not None:
    print("\n📋 Muestra de datos transformados:")
    print(df_usuarios.head(3))
    
    print("\n📊 Información del DataFrame:")
    print(df_usuarios.info())

### 📤 Paso 3: Load - Cargar datos en destino final

Finalmente, guardaremos los datos procesados en un archivo CSV.

In [None]:
def cargar_datos(df, ruta_destino):
    """
    Carga los datos transformados en un archivo CSV
    Args:
        df (pd.DataFrame): Datos a guardar
        ruta_destino (str): Ruta donde guardar el archivo
    Returns:
        bool: True si se guardó exitosamente
    """
    if df is None or df.empty:
        print("❌ No hay datos para cargar")
        return False
    
    try:
        print(f"🔄 Guardando datos en: {ruta_destino}")
        
        # Crear directorio si no existe
        directorio = os.path.dirname(ruta_destino)
        os.makedirs(directorio, exist_ok=True)
        
        # Guardar CSV con encoding UTF-8
        df.to_csv(ruta_destino, index=False, encoding='utf-8')
        
        # Verificar que el archivo se creó correctamente
        if os.path.exists(ruta_destino):
            tamaño_archivo = os.path.getsize(ruta_destino)
            print(f"✅ Datos guardados exitosamente")
            print(f"📁 Archivo: {ruta_destino}")
            print(f"📏 Tamaño: {tamaño_archivo:,} bytes")
            return True
        else:
            print("❌ Error: El archivo no se creó")
            return False
            
    except Exception as e:
        print(f"❌ Error al guardar datos: {e}")
        return False

# Definir ruta de destino
ruta_output = "../datasets/processed/usuarios_transformados.csv"

# Cargar los datos
exito = cargar_datos(df_usuarios, ruta_output)

if exito:
    print("\n🎉 ¡Pipeline ejecutado exitosamente!")
    print("\n📊 Resumen del pipeline:")
    print(f"   • Extraídos: {len(datos_raw)} registros")
    print(f"   • Transformados: {len(df_usuarios)} registros")
    print(f"   • Cargados: {len(df_usuarios)} registros")
    print(f"   • Archivo generado: {ruta_output}")

## 📊 Análisis Básico de los Datos Procesados

Ahora que tenemos nuestros datos procesados, hagamos un análisis exploratorio básico:

In [None]:
# Análisis exploratorio básico
if df_usuarios is not None:
    print("🔍 ANÁLISIS EXPLORATORIO DE DATOS")
    print("=" * 40)
    
    # Estadísticas básicas
    print(f"📊 Total de usuarios: {len(df_usuarios)}")
    print(f"🏢 Empresas únicas: {df_usuarios['empresa'].nunique()}")
    print(f"🌍 Ciudades únicas: {df_usuarios['ciudad'].nunique()}")
    
    # Top 5 ciudades
    print("\n🏙️ Top 5 ciudades:")
    ciudades_top = df_usuarios['ciudad'].value_counts().head()
    for ciudad, count in ciudades_top.items():
        print(f"   • {ciudad}: {count} usuarios")
    
    # Dominios de email más comunes
    print("\n📧 Dominios de email:")
    df_usuarios['dominio_email'] = df_usuarios['email'].str.split('@').str[1]
    dominios_top = df_usuarios['dominio_email'].value_counts().head()
    for dominio, count in dominios_top.items():
        print(f"   • {dominio}: {count} usuarios")
    
    # Coordenadas geográficas (rango)
    print("\n🌐 Rango geográfico:")
    print(f"   • Latitud: {df_usuarios['latitud'].min():.2f} a {df_usuarios['latitud'].max():.2f}")
    print(f"   • Longitud: {df_usuarios['longitud'].min():.2f} a {df_usuarios['longitud'].max():.2f}")

## 📈 Visualización Básica

Vamos a crear algunas visualizaciones simples para entender mejor nuestros datos:

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gráficos
plt.style.use('default')
sns.set_palette("husl")

if df_usuarios is not None:
    # Crear figura con subplots
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    fig.suptitle('📊 Análisis de Datos de Usuarios', fontsize=16, fontweight='bold')
    
    # Gráfico 1: Distribución por ciudades
    ciudades_count = df_usuarios['ciudad'].value_counts()
    axes[0, 0].bar(range(len(ciudades_count)), ciudades_count.values)
    axes[0, 0].set_title('🏙️ Usuarios por Ciudad')
    axes[0, 0].set_xlabel('Ciudad')
    axes[0, 0].set_ylabel('Número de Usuarios')
    axes[0, 0].set_xticks(range(len(ciudades_count)))
    axes[0, 0].set_xticklabels(ciudades_count.index, rotation=45, ha='right')
    
    # Gráfico 2: Distribución de dominios de email
    dominios_count = df_usuarios['dominio_email'].value_counts()
    axes[0, 1].pie(dominios_count.values, labels=dominios_count.index, autopct='%1.1f%%')
    axes[0, 1].set_title('📧 Distribución de Dominios de Email')
    
    # Gráfico 3: Distribución geográfica
    scatter = axes[1, 0].scatter(df_usuarios['longitud'], df_usuarios['latitud'], 
                                c=range(len(df_usuarios)), cmap='viridis', alpha=0.7)
    axes[1, 0].set_title('🌍 Distribución Geográfica')
    axes[1, 0].set_xlabel('Longitud')
    axes[1, 0].set_ylabel('Latitud')
    axes[1, 0].grid(True, alpha=0.3)
    
    # Gráfico 4: Longitud de nombres de empresa
    df_usuarios['empresa_longitud'] = df_usuarios['empresa'].str.len()
    axes[1, 1].hist(df_usuarios['empresa_longitud'], bins=8, alpha=0.7, color='skyblue')
    axes[1, 1].set_title('📏 Longitud de Nombres de Empresa')
    axes[1, 1].set_xlabel('Caracteres')
    axes[1, 1].set_ylabel('Frecuencia')
    axes[1, 1].grid(True, alpha=0.3)
    
    # Ajustar layout
    plt.tight_layout()
    plt.show()
    
    print("✅ Visualizaciones generadas exitosamente")

## 🏆 Ejercicio Práctico: ¡Tu Turno!

Ahora es tu turno de crear un pipeline. Vamos a trabajar con otra API pública.

### 📝 Instrucciones:
1. Usa la API de **Posts**: `https://jsonplaceholder.typicode.com/posts`
2. Extrae todos los posts
3. Transforma los datos agregando:
   - Longitud del título
   - Longitud del cuerpo
   - Categoría basada en el userId (ej: "usuario_1", "usuario_2", etc.)
4. Guarda el resultado en `../datasets/processed/posts_transformados.csv`

¡Usa el código anterior como referencia!

In [None]:
# 🚀 EJERCICIO: Completa el código siguiente

def extraer_posts():
    """
    Extrae posts desde JSONPlaceholder API
    TODO: Implementar la función
    """
    # Tu código aquí
    pass

def transformar_posts(posts_raw):
    """
    Transforma los posts agregando métricas adicionales
    TODO: Implementar la función
    """
    # Tu código aquí
    pass

# Ejecutar tu pipeline
print("🚀 Ejecutando tu pipeline de posts...")

# posts_raw = extraer_posts()
# df_posts = transformar_posts(posts_raw)
# exito_posts = cargar_datos(df_posts, "../datasets/processed/posts_transformados.csv")

print("\n📝 Descomenta las líneas anteriores cuando hayas completado las funciones")

## 💡 Solución del Ejercicio

Aquí tienes una posible solución. ¡Compárala con tu implementación!

In [None]:
# SOLUCIÓN DEL EJERCICIO

def extraer_posts():
    """
    Extrae posts desde JSONPlaceholder API
    """
    try:
        url = "https://jsonplaceholder.typicode.com/posts"
        response = requests.get(url, timeout=10)
        response.raise_for_status()
        posts = response.json()
        print(f"✅ Posts extraídos: {len(posts)}")
        return posts
    except Exception as e:
        print(f"❌ Error: {e}")
        return None

def transformar_posts(posts_raw):
    """
    Transforma los posts agregando métricas adicionales
    """
    if not posts_raw:
        return None
    
    posts_transformados = []
    
    for post in posts_raw:
        post_limpio = {
            'id': post['id'],
            'userId': post['userId'],
            'titulo': post['title'],
            'cuerpo': post['body'],
            'longitud_titulo': len(post['title']),
            'longitud_cuerpo': len(post['body']),
            'categoria_usuario': f"usuario_{post['userId']}",
            'palabras_titulo': len(post['title'].split()),
            'fecha_procesamiento': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        }
        posts_transformados.append(post_limpio)
    
    df = pd.DataFrame(posts_transformados)
    print(f"📊 Posts transformados: {len(df)} registros")
    return df

# Ejecutar pipeline de posts
posts_raw = extraer_posts()
df_posts = transformar_posts(posts_raw)

if df_posts is not None:
    # Mostrar estadísticas
    print("\n📊 Estadísticas de Posts:")
    print(f"   • Total posts: {len(df_posts)}")
    print(f"   • Usuarios únicos: {df_posts['userId'].nunique()}")
    print(f"   • Promedio palabras título: {df_posts['palabras_titulo'].mean():.1f}")
    print(f"   • Promedio caracteres cuerpo: {df_posts['longitud_cuerpo'].mean():.0f}")
    
    # Guardar datos
    exito_posts = cargar_datos(df_posts, "../datasets/processed/posts_transformados.csv")
    
    if exito_posts:
        print("\n🎉 ¡Ejercicio completado exitosamente!")

## 🎯 Resumen y Próximos Pasos

### ✅ Lo que Aprendiste Hoy:

1. **Conceptos Fundamentales**:
   - Qué es la Ingeniería de Datos
   - Diferencias entre roles de datos
   - Componentes de un pipeline ETL

2. **Habilidades Prácticas**:
   - Extracción de datos desde APIs
   - Transformación y limpieza básica
   - Carga de datos en archivos CSV
   - Análisis exploratorio simple

3. **Herramientas Utilizadas**:
   - `requests` para APIs
   - `pandas` para manipulación
   - `matplotlib/seaborn` para visualización

### 🔮 Próximos Notebooks:

- **02_setup_entorno_desarrollo.ipynb**: Configuración avanzada
- **03_git_version_control.ipynb**: Control de versiones
- **04_python_estructuras_datos.ipynb**: Python intermedio

### 🏠 Tarea Opcional:

1. Experimenta con otras APIs públicas:
   - [GitHub API](https://api.github.com)
   - [OpenWeather API](https://openweathermap.org/api)
   - [REST Countries](https://restcountries.com)

2. Modifica el pipeline para agregar validaciones de calidad de datos

3. Investiga qué es Apache Airflow y cómo se relaciona con lo que hicimos

---

## 🎊 ¡Felicitaciones!

Has completado tu primer notebook de Ingeniería de Datos y creado tu primer pipeline ETL. 

**¡Bienvenido al fascinante mundo de la Ingeniería de Datos!** 🚀

---

*¿Tienes preguntas o sugerencias? ¡Abre un issue en el repositorio!*