# üìä Junior - 01. Introducci√≥n a la Ingenier√≠a de Datos

**Objetivos de Aprendizaje:**
- [ ] Comprender qu√© es la Ingenier√≠a de Datos y su importancia
- [ ] Diferenciar roles: Data Engineer vs Data Scientist vs Data Analyst
- [ ] Entender el concepto de pipeline de datos
- [ ] Conocer herramientas y tecnolog√≠as fundamentales
- [ ] Realizar primeros ejercicios pr√°cticos con Python

**Duraci√≥n Estimada:** 60-75 minutos  
**Nivel de Dificultad:** Principiante  
**Prerrequisitos:** Conocimientos b√°sicos de programaci√≥n

---

## üéØ ¬øQu√© es la Ingenier√≠a de Datos?

La **Ingenier√≠a de Datos** es la disciplina que se encarga de:

‚úÖ **Extraer** datos de m√∫ltiples fuentes  
‚úÖ **Transformar** y limpiar los datos  
‚úÖ **Cargar** datos en sistemas de almacenamiento  
‚úÖ **Orquestar** procesos automatizados  
‚úÖ **Monitorear** la calidad y performance  

### üåü Analog√≠a: El Data Engineer como "Plomero de Datos"

Imagina que los datos son como agua en una ciudad:

- **Fuentes de agua** = Bases de datos, APIs, archivos
- **Tuber√≠as** = Pipelines de datos
- **Tratamiento** = Limpieza y transformaci√≥n
- **Distribuci√≥n** = Data warehouses, dashboards
- **Calidad** = Monitoreo y alertas

El Data Engineer construye y mantiene toda esta "infraestructura de datos".

## üë• Comparaci√≥n de Roles en el Ecosistema de Datos

| Aspecto | Data Engineer | Data Scientist | Data Analyst |
|---------|---------------|----------------|---------------|
| **Foco Principal** | Infraestructura y pipelines | Modelos y algoritmos | Reportes y insights |
| **Herramientas** | Python, SQL, Airflow | Python, R, TensorFlow | SQL, Excel, Tableau |
| **Output** | Datos limpios y accesibles | Modelos predictivos | Dashboards y reportes |
| **Skills T√©cnicos** | ETL, Bases de datos, Cloud | Estad√≠stica, ML, Programaci√≥n | SQL, Visualizaci√≥n, Business |
| **Tiempo en C√≥digo** | 80% | 60% | 30% |

### üîÑ Flujo de Trabajo Colaborativo

```
Data Engineer ‚Üí Prepara los datos
      ‚Üì
Data Scientist ‚Üí Crea modelos
      ‚Üì
Data Analyst ‚Üí Genera insights de negocio
```

## üèóÔ∏è Anatom√≠a de un Pipeline de Datos

Un **pipeline de datos** es un conjunto de procesos que mueve y transforma datos desde su origen hasta su destino.

### üìã Componentes Principales:

1. **Extract (Extraer)** üîΩ
   - APIs, bases de datos, archivos
   - Web scraping
   - Streams en tiempo real

2. **Transform (Transformar)** ‚öôÔ∏è
   - Limpiar datos (nulls, duplicados)
   - Cambiar formatos
   - Calcular m√©tricas
   - Validar calidad

3. **Load (Cargar)** üì§
   - Data warehouses
   - Bases de datos
   - Data lakes
   - APIs de destino

## üõ†Ô∏è Stack Tecnol√≥gico del Data Engineer

### üêç Lenguajes de Programaci√≥n
- **Python** (m√°s popular)
- **SQL** (fundamental)
- **Scala** (para Spark)
- **Java** (ecosistema big data)

### üóÑÔ∏è Almacenamiento
- **Relacionales**: PostgreSQL, MySQL
- **NoSQL**: MongoDB, Cassandra
- **Cloud**: BigQuery, Redshift, Snowflake

### ‚ö° Procesamiento
- **Batch**: Apache Spark, pandas
- **Streaming**: Kafka, Apache Beam
- **Orquestaci√≥n**: Airflow, Prefect

### ‚òÅÔ∏è Cloud Platforms
- **AWS**: S3, Glue, Lambda
- **GCP**: BigQuery, Dataflow
- **Azure**: Synapse, Data Factory

## üöÄ Ejercicio Pr√°ctico: Mi Primer Pipeline

Vamos a crear un pipeline simple que:
1. **Extraiga** datos de una API p√∫blica
2. **Transforme** la informaci√≥n
3. **Cargue** el resultado en un archivo CSV

¬°Empecemos!

In [None]:
# Importar librer√≠as necesarias
import requests
import pandas as pd
import json
from datetime import datetime
import os

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìÖ Fecha de ejecuci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

### üîΩ Paso 1: Extract - Extraer datos de una API

Usaremos la API p√∫blica **JSONPlaceholder** para obtener datos de usuarios ficticios.

In [None]:
# Funci√≥n para extraer datos de la API
def extraer_datos_usuarios():
    """
    Extrae datos de usuarios desde JSONPlaceholder API
    Returns: dict con los datos o None si hay error
    """
    try:
        print("üîÑ Conectando a la API...")
        
        # Hacer petici√≥n a la API
        url = "https://jsonplaceholder.typicode.com/users"
        response = requests.get(url, timeout=10)
        
        # Verificar que la petici√≥n fue exitosa
        response.raise_for_status()
        
        # Convertir respuesta a JSON
        datos = response.json()
        
        print(f"‚úÖ Datos extra√≠dos exitosamente: {len(datos)} usuarios")
        return datos
        
    except requests.exceptions.RequestException as e:
        print(f"‚ùå Error al conectar con la API: {e}")
        return None
    except json.JSONDecodeError as e:
        print(f"‚ùå Error al decodificar JSON: {e}")
        return None

# Extraer los datos
datos_raw = extraer_datos_usuarios()

# Mostrar los primeros registros
if datos_raw:
    print("\nüìã Primeros 2 registros:")
    for i, usuario in enumerate(datos_raw[:2]):
        print(f"Usuario {i+1}: {usuario['name']} ({usuario['email']})")

### ‚öôÔ∏è Paso 2: Transform - Transformar y limpiar los datos

Ahora vamos a:
- Aplanar la estructura JSON
- Seleccionar solo las columnas que necesitamos
- Limpiar y validar los datos

In [None]:
def transformar_datos_usuarios(datos_raw):
    """
    Transforma los datos raw en un formato limpio y estructurado
    Args: datos_raw (list): Lista de usuarios desde la API
    Returns: pd.DataFrame con datos transformados
    """
    if not datos_raw:
        print("‚ùå No hay datos para transformar")
        return None
    
    print("üîÑ Iniciando transformaci√≥n de datos...")
    
    # Lista para almacenar usuarios transformados
    usuarios_transformados = []
    
    for usuario in datos_raw:
        # Extraer y aplanar informaci√≥n relevante
        usuario_limpio = {
            'id': usuario['id'],
            'nombre': usuario['name'],
            'username': usuario['username'],
            'email': usuario['email'].lower(),  # Normalizar email
            'telefono': usuario['phone'],
            'website': usuario['website'],
            'ciudad': usuario['address']['city'],
            'codigo_postal': usuario['address']['zipcode'],
            'latitud': float(usuario['address']['geo']['lat']),
            'longitud': float(usuario['address']['geo']['lng']),
            'empresa': usuario['company']['name'],
            'empresa_sector': usuario['company']['bs'],
            'fecha_procesamiento': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        }
        
        usuarios_transformados.append(usuario_limpio)
    
    # Convertir a DataFrame
    df = pd.DataFrame(usuarios_transformados)
    
    # Validaciones b√°sicas
    print(f"üìä Datos transformados: {len(df)} filas, {len(df.columns)} columnas")
    print(f"üìß Emails √∫nicos: {df['email'].nunique()}/{len(df)}")
    print(f"üè¢ Empresas √∫nicas: {df['empresa'].nunique()}")
    
    # Verificar datos faltantes
    valores_nulos = df.isnull().sum().sum()
    print(f"‚ùì Valores nulos encontrados: {valores_nulos}")
    
    return df

# Transformar los datos
df_usuarios = transformar_datos_usuarios(datos_raw)

# Mostrar resumen de los datos transformados
if df_usuarios is not None:
    print("\nüìã Muestra de datos transformados:")
    print(df_usuarios.head(3))
    
    print("\nüìä Informaci√≥n del DataFrame:")
    print(df_usuarios.info())

### üì§ Paso 3: Load - Cargar datos en destino final

Finalmente, guardaremos los datos procesados en un archivo CSV.

In [None]:
def cargar_datos(df, ruta_destino):
    """
    Carga los datos transformados en un archivo CSV
    Args:
        df (pd.DataFrame): Datos a guardar
        ruta_destino (str): Ruta donde guardar el archivo
    Returns:
        bool: True si se guard√≥ exitosamente
    """
    if df is None or df.empty:
        print("‚ùå No hay datos para cargar")
        return False
    
    try:
        print(f"üîÑ Guardando datos en: {ruta_destino}")
        
        # Crear directorio si no existe
        directorio = os.path.dirname(ruta_destino)
        os.makedirs(directorio, exist_ok=True)
        
        # Guardar CSV con encoding UTF-8
        df.to_csv(ruta_destino, index=False, encoding='utf-8')
        
        # Verificar que el archivo se cre√≥ correctamente
        if os.path.exists(ruta_destino):
            tama√±o_archivo = os.path.getsize(ruta_destino)
            print(f"‚úÖ Datos guardados exitosamente")
            print(f"üìÅ Archivo: {ruta_destino}")
            print(f"üìè Tama√±o: {tama√±o_archivo:,} bytes")
            return True
        else:
            print("‚ùå Error: El archivo no se cre√≥")
            return False
            
    except Exception as e:
        print(f"‚ùå Error al guardar datos: {e}")
        return False

# Definir ruta de destino
ruta_output = "../datasets/processed/usuarios_transformados.csv"

# Cargar los datos
exito = cargar_datos(df_usuarios, ruta_output)

if exito:
    print("\nüéâ ¬°Pipeline ejecutado exitosamente!")
    print("\nüìä Resumen del pipeline:")
    print(f"   ‚Ä¢ Extra√≠dos: {len(datos_raw)} registros")
    print(f"   ‚Ä¢ Transformados: {len(df_usuarios)} registros")
    print(f"   ‚Ä¢ Cargados: {len(df_usuarios)} registros")
    print(f"   ‚Ä¢ Archivo generado: {ruta_output}")

## üìä An√°lisis B√°sico de los Datos Procesados

Ahora que tenemos nuestros datos procesados, hagamos un an√°lisis exploratorio b√°sico:

In [None]:
# An√°lisis exploratorio b√°sico
if df_usuarios is not None:
    print("üîç AN√ÅLISIS EXPLORATORIO DE DATOS")
    print("=" * 40)
    
    # Estad√≠sticas b√°sicas
    print(f"üìä Total de usuarios: {len(df_usuarios)}")
    print(f"üè¢ Empresas √∫nicas: {df_usuarios['empresa'].nunique()}")
    print(f"üåç Ciudades √∫nicas: {df_usuarios['ciudad'].nunique()}")
    
    # Top 5 ciudades
    print("\nüèôÔ∏è Top 5 ciudades:")
    ciudades_top = df_usuarios['ciudad'].value_counts().head()
    for ciudad, count in ciudades_top.items():
        print(f"   ‚Ä¢ {ciudad}: {count} usuarios")
    
    # Dominios de email m√°s comunes
    print("\nüìß Dominios de email:")
    df_usuarios['dominio_email'] = df_usuarios['email'].str.split('@').str[1]
    dominios_top = df_usuarios['dominio_email'].value_counts().head()
    for dominio, count in dominios_top.items():
        print(f"   ‚Ä¢ {dominio}: {count} usuarios")
    
    # Coordenadas geogr√°ficas (rango)
    print("\nüåê Rango geogr√°fico:")
    print(f"   ‚Ä¢ Latitud: {df_usuarios['latitud'].min():.2f} a {df_usuarios['latitud'].max():.2f}")
    print(f"   ‚Ä¢ Longitud: {df_usuarios['longitud'].min():.2f} a {df_usuarios['longitud'].max():.2f}")

## üìà Visualizaci√≥n B√°sica

Vamos a crear algunas visualizaciones simples para entender mejor nuestros datos:

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gr√°ficos
plt.style.use('default')
sns.set_palette("husl")

if df_usuarios is not None:
    # Crear figura con subplots
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    fig.suptitle('üìä An√°lisis de Datos de Usuarios', fontsize=16, fontweight='bold')
    
    # Gr√°fico 1: Distribuci√≥n por ciudades
    ciudades_count = df_usuarios['ciudad'].value_counts()
    axes[0, 0].bar(range(len(ciudades_count)), ciudades_count.values)
    axes[0, 0].set_title('üèôÔ∏è Usuarios por Ciudad')
    axes[0, 0].set_xlabel('Ciudad')
    axes[0, 0].set_ylabel('N√∫mero de Usuarios')
    axes[0, 0].set_xticks(range(len(ciudades_count)))
    axes[0, 0].set_xticklabels(ciudades_count.index, rotation=45, ha='right')
    
    # Gr√°fico 2: Distribuci√≥n de dominios de email
    dominios_count = df_usuarios['dominio_email'].value_counts()
    axes[0, 1].pie(dominios_count.values, labels=dominios_count.index, autopct='%1.1f%%')
    axes[0, 1].set_title('üìß Distribuci√≥n de Dominios de Email')
    
    # Gr√°fico 3: Distribuci√≥n geogr√°fica
    scatter = axes[1, 0].scatter(df_usuarios['longitud'], df_usuarios['latitud'], 
                                c=range(len(df_usuarios)), cmap='viridis', alpha=0.7)
    axes[1, 0].set_title('üåç Distribuci√≥n Geogr√°fica')
    axes[1, 0].set_xlabel('Longitud')
    axes[1, 0].set_ylabel('Latitud')
    axes[1, 0].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Longitud de nombres de empresa
    df_usuarios['empresa_longitud'] = df_usuarios['empresa'].str.len()
    axes[1, 1].hist(df_usuarios['empresa_longitud'], bins=8, alpha=0.7, color='skyblue')
    axes[1, 1].set_title('üìè Longitud de Nombres de Empresa')
    axes[1, 1].set_xlabel('Caracteres')
    axes[1, 1].set_ylabel('Frecuencia')
    axes[1, 1].grid(True, alpha=0.3)
    
    # Ajustar layout
    plt.tight_layout()
    plt.show()
    
    print("‚úÖ Visualizaciones generadas exitosamente")

## üèÜ Ejercicio Pr√°ctico: ¬°Tu Turno!

Ahora es tu turno de crear un pipeline. Vamos a trabajar con otra API p√∫blica.

### üìù Instrucciones:
1. Usa la API de **Posts**: `https://jsonplaceholder.typicode.com/posts`
2. Extrae todos los posts
3. Transforma los datos agregando:
   - Longitud del t√≠tulo
   - Longitud del cuerpo
   - Categor√≠a basada en el userId (ej: "usuario_1", "usuario_2", etc.)
4. Guarda el resultado en `../datasets/processed/posts_transformados.csv`

¬°Usa el c√≥digo anterior como referencia!

In [None]:
# üöÄ EJERCICIO: Completa el c√≥digo siguiente

def extraer_posts():
    """
    Extrae posts desde JSONPlaceholder API
    TODO: Implementar la funci√≥n
    """
    # Tu c√≥digo aqu√≠
    pass

def transformar_posts(posts_raw):
    """
    Transforma los posts agregando m√©tricas adicionales
    TODO: Implementar la funci√≥n
    """
    # Tu c√≥digo aqu√≠
    pass

# Ejecutar tu pipeline
print("üöÄ Ejecutando tu pipeline de posts...")

# posts_raw = extraer_posts()
# df_posts = transformar_posts(posts_raw)
# exito_posts = cargar_datos(df_posts, "../datasets/processed/posts_transformados.csv")

print("\nüìù Descomenta las l√≠neas anteriores cuando hayas completado las funciones")

## üí° Soluci√≥n del Ejercicio

Aqu√≠ tienes una posible soluci√≥n. ¬°Comp√°rala con tu implementaci√≥n!

In [None]:
# SOLUCI√ìN DEL EJERCICIO

def extraer_posts():
    """
    Extrae posts desde JSONPlaceholder API
    """
    try:
        url = "https://jsonplaceholder.typicode.com/posts"
        response = requests.get(url, timeout=10)
        response.raise_for_status()
        posts = response.json()
        print(f"‚úÖ Posts extra√≠dos: {len(posts)}")
        return posts
    except Exception as e:
        print(f"‚ùå Error: {e}")
        return None

def transformar_posts(posts_raw):
    """
    Transforma los posts agregando m√©tricas adicionales
    """
    if not posts_raw:
        return None
    
    posts_transformados = []
    
    for post in posts_raw:
        post_limpio = {
            'id': post['id'],
            'userId': post['userId'],
            'titulo': post['title'],
            'cuerpo': post['body'],
            'longitud_titulo': len(post['title']),
            'longitud_cuerpo': len(post['body']),
            'categoria_usuario': f"usuario_{post['userId']}",
            'palabras_titulo': len(post['title'].split()),
            'fecha_procesamiento': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        }
        posts_transformados.append(post_limpio)
    
    df = pd.DataFrame(posts_transformados)
    print(f"üìä Posts transformados: {len(df)} registros")
    return df

# Ejecutar pipeline de posts
posts_raw = extraer_posts()
df_posts = transformar_posts(posts_raw)

if df_posts is not None:
    # Mostrar estad√≠sticas
    print("\nüìä Estad√≠sticas de Posts:")
    print(f"   ‚Ä¢ Total posts: {len(df_posts)}")
    print(f"   ‚Ä¢ Usuarios √∫nicos: {df_posts['userId'].nunique()}")
    print(f"   ‚Ä¢ Promedio palabras t√≠tulo: {df_posts['palabras_titulo'].mean():.1f}")
    print(f"   ‚Ä¢ Promedio caracteres cuerpo: {df_posts['longitud_cuerpo'].mean():.0f}")
    
    # Guardar datos
    exito_posts = cargar_datos(df_posts, "../datasets/processed/posts_transformados.csv")
    
    if exito_posts:
        print("\nüéâ ¬°Ejercicio completado exitosamente!")

## üéØ Resumen y Pr√≥ximos Pasos

### ‚úÖ Lo que Aprendiste Hoy:

1. **Conceptos Fundamentales**:
   - Qu√© es la Ingenier√≠a de Datos
   - Diferencias entre roles de datos
   - Componentes de un pipeline ETL

2. **Habilidades Pr√°cticas**:
   - Extracci√≥n de datos desde APIs
   - Transformaci√≥n y limpieza b√°sica
   - Carga de datos en archivos CSV
   - An√°lisis exploratorio simple

3. **Herramientas Utilizadas**:
   - `requests` para APIs
   - `pandas` para manipulaci√≥n
   - `matplotlib/seaborn` para visualizaci√≥n

### üîÆ Pr√≥ximos Notebooks:

- **02_setup_entorno_desarrollo.ipynb**: Configuraci√≥n avanzada
- **03_git_version_control.ipynb**: Control de versiones
- **04_python_estructuras_datos.ipynb**: Python intermedio

### üè† Tarea Opcional:

1. Experimenta con otras APIs p√∫blicas:
   - [GitHub API](https://api.github.com)
   - [OpenWeather API](https://openweathermap.org/api)
   - [REST Countries](https://restcountries.com)

2. Modifica el pipeline para agregar validaciones de calidad de datos

3. Investiga qu√© es Apache Airflow y c√≥mo se relaciona con lo que hicimos

---

## üéä ¬°Felicitaciones!

Has completado tu primer notebook de Ingenier√≠a de Datos y creado tu primer pipeline ETL. 

**¬°Bienvenido al fascinante mundo de la Ingenier√≠a de Datos!** üöÄ

---

*¬øTienes preguntas o sugerencias? ¬°Abre un issue en el repositorio!*