# Verificaci√≥n del Entorno

## Objetivos de Aprendizaje
- Verificar que el entorno de desarrollo est√° correctamente configurado
- Comprobar la conexi√≥n con el cluster de Spark
- Familiarizarse con Jupyter Lab

## Prerequisitos
- Docker Desktop corriendo
- Cluster iniciado con:
  - **macOS/Linux:** `./infrastructure/scripts/start-cluster.sh spark`
  - **Windows:** `.\infrastructure\scripts\start-cluster.ps1 spark`
  - **Alternativa (todas las plataformas):** `docker compose -f infrastructure/docker-compose.spark.yml up -d --build`

## Tiempo Estimado
‚è±Ô∏è 15 minutos

## M√≥dulo AWS Academy Relacionado
üìö Este notebook es preparaci√≥n para todos los m√≥dulos del curso

---
# === SECCI√ìN 1 ===
## 1. Verificaci√≥n de Python

### Explicaci√≥n Conceptual
Python es el lenguaje principal que usaremos. Piensa en Python como el "idioma" que usamos para comunicarnos con las herramientas de Big Data. Necesitamos verificar que Python est√° instalado y funcionando correctamente.

In [None]:
# Importamos el modulo sys que nos da informacion del sistema
import sys

# Mostramos la version de Python instalada
print(f"Version de Python: {sys.version}")

# Mostramos la ubicacion del ejecutable de Python
print(f"Ubicacion: {sys.executable}")

# Output esperado:
# Version de Python: 3.11.x (o superior)
# Ubicacion: /opt/conda/bin/python

### ‚úÖ Verificaci√≥n
Si ves la versi√≥n de Python 3.11 o superior, ¬°Python est√° funcionando correctamente!

---
# === SECCI√ìN 2 ===
## 2. Verificaci√≥n de PySpark

### Explicaci√≥n Conceptual
PySpark es la interfaz de Python para Apache Spark. Imagina que Spark es un equipo de trabajadores muy eficientes que pueden procesar grandes cantidades de datos. PySpark es el "traductor" que nos permite dar instrucciones a ese equipo usando Python.

In [None]:
# Importamos pyspark para verificar que esta instalado
import pyspark

# Mostramos la version de PySpark
print(f"Version de PySpark: {pyspark.__version__}")

# Output esperado:
# Version de PySpark: 3.5.0

---
# === SECCI√ìN 3 ===
## 3. Crear una Sesi√≥n de Spark

### Explicaci√≥n Conceptual
Una "sesi√≥n de Spark" es como abrir una aplicaci√≥n en tu computadora. Antes de poder usar Spark, necesitamos "iniciar" una sesi√≥n. Esta sesi√≥n es nuestra conexi√≥n con el cluster de Spark que procesa los datos.

**Analog√≠a del mundo real:** Es como encender un auto antes de conducir. La sesi√≥n de Spark es el "encendido" que nos permite usar todas las capacidades del motor (cluster).

In [None]:
# Importamos SparkSession, la clase principal para crear sesiones
from pyspark.sql import SparkSession

# Creamos una sesion de Spark
# .builder inicia el proceso de construccion de la sesion
# .appName() le da un nombre a nuestra aplicacion (aparece en la UI de Spark)
# .getOrCreate() crea una nueva sesion o reutiliza una existente
spark = SparkSession.builder \
    .appName("EnvironmentCheck") \
    .getOrCreate()

# Mostramos informacion de la sesion creada
print(f"Sesion de Spark creada exitosamente!")
print(f"Version de Spark: {spark.version}")
print(f"Aplicacion: {spark.sparkContext.appName}")

# Output esperado:
# Sesion de Spark creada exitosamente!
# Version de Spark: 3.5.0
# Aplicacion: EnvironmentCheck

### üí° Tip
Una vez creada la sesi√≥n, puedes ver tu aplicaci√≥n en la Spark UI: http://localhost:4040

---
# === SECCI√ìN 4 ===
## 4. Crear un DataFrame de Prueba

### Explicaci√≥n Conceptual
Un DataFrame es como una tabla de Excel: tiene filas y columnas. En Spark, los DataFrames pueden contener millones o billones de filas y se procesan de forma distribuida (en m√∫ltiples computadoras a la vez).

**Analog√≠a del mundo real:** Si tienes que contar monedas, un DataFrame te permite dividir las monedas entre varios amigos para contar m√°s r√°pido, y luego sumar los resultados.

In [None]:
# Creamos una lista de datos de ejemplo
# Cada tupla representa una fila: (nombre, edad, ciudad)
datos = [
    ("Ana", 25, "CDMX"),
    ("Carlos", 30, "Guadalajara"),
    ("Maria", 28, "Monterrey"),
    ("Juan", 35, "CDMX"),
    ("Laura", 22, "Guadalajara")
]

# Definimos los nombres de las columnas
columnas = ["nombre", "edad", "ciudad"]

# Creamos el DataFrame usando spark.createDataFrame()
# El primer argumento son los datos
# El segundo argumento son los nombres de las columnas
df = spark.createDataFrame(datos, columnas)

# Mostramos el contenido del DataFrame
# show() muestra las primeras filas en formato tabla
print("Contenido del DataFrame:")
df.show()

# Output esperado:
# +------+----+-----------+
# |nombre|edad|     ciudad|
# +------+----+-----------+
# |   Ana|  25|       CDMX|
# |Carlos|  30|Guadalajara|
# | Maria|  28|  Monterrey|
# |  Juan|  35|       CDMX|
# | Laura|  22|Guadalajara|
# +------+----+-----------+

In [None]:
# Mostramos el esquema del DataFrame
# El esquema describe la estructura: nombre y tipo de cada columna
print("Esquema del DataFrame:")
df.printSchema()

# Output esperado:
# root
#  |-- nombre: string (nullable = true)
#  |-- edad: long (nullable = true)
#  |-- ciudad: string (nullable = true)

In [None]:
# Contamos el numero de filas
# count() es una "accion" que ejecuta el calculo y retorna un numero
num_filas = df.count()
print(f"Numero de filas: {num_filas}")

# Contamos el numero de columnas
# len(df.columns) nos da la cantidad de columnas
num_columnas = len(df.columns)
print(f"Numero de columnas: {num_columnas}")

# Output esperado:
# Numero de filas: 5
# Numero de columnas: 3

---
# === SECCI√ìN 5 ===
## 5. Verificaci√≥n de Librer√≠as de Data Science

### Explicaci√≥n Conceptual
Adem√°s de Spark, usaremos librer√≠as populares de Python para an√°lisis y visualizaci√≥n de datos. Estas librer√≠as complementan a Spark para tareas espec√≠ficas.

In [None]:
# Importamos las librerias principales de data science
import pandas as pd        # Analisis de datos (DataFrames locales)
import numpy as np         # Operaciones numericas
import matplotlib.pyplot as plt  # Graficas basicas

# Mostramos las versiones de cada libreria
print(f"Pandas: {pd.__version__}")
print(f"NumPy: {np.__version__}")
print(f"Matplotlib: {plt.matplotlib.__version__}")

# Output esperado:
# Pandas: 2.x.x
# NumPy: 1.x.x
# Matplotlib: 3.x.x

In [None]:
# Verificamos que Delta Lake esta disponible
# Delta Lake es un formato de almacenamiento optimizado para Big Data
try:
    import delta
    print(f"Delta Lake: {delta.__version__}")
    print("‚úÖ Delta Lake disponible")
except ImportError:
    print("‚ö†Ô∏è Delta Lake no instalado (se usara en labs avanzados)")

# Output esperado:
# Delta Lake: 3.1.0
# ‚úÖ Delta Lake disponible

---
# === SECCI√ìN 6 ===
## 6. Verificaci√≥n de Directorios

### Explicaci√≥n Conceptual
El proyecto tiene una estructura de directorios organizada. Verificamos que podemos acceder a los directorios de datos donde guardaremos y leeremos archivos.

In [None]:
# Importamos os para operaciones del sistema de archivos
import os

# Definimos los directorios que deberian existir
directorios = [
    "/home/jovyan/data",           # Directorio principal de datos
    "/home/jovyan/data/raw",       # Datos sin procesar
    "/home/jovyan/data/processed", # Datos procesados
    "/home/jovyan/data/sample",    # Datos de ejemplo
    "/home/jovyan/labs",           # Notebooks
    "/home/jovyan/src"             # Codigo reutilizable
]

# Verificamos cada directorio
print("Verificacion de directorios:")
print("-" * 50)

for directorio in directorios:
    # os.path.exists() retorna True si el directorio existe
    existe = os.path.exists(directorio)
    # Usamos emoji para indicar el estado
    estado = "‚úÖ" if existe else "‚ùå"
    print(f"{estado} {directorio}")

# Output esperado:
# ‚úÖ /home/jovyan/data
# ‚úÖ /home/jovyan/data/raw
# ... etc

---
# === SECCI√ìN 7 ===
## 7. Prueba de Escritura y Lectura

### Explicaci√≥n Conceptual
Verificamos que podemos escribir y leer archivos. Esto es fundamental porque en Big Data constantemente guardamos y cargamos datos de diferentes fuentes.

In [None]:
# Definimos la ruta donde guardaremos el archivo de prueba
ruta_prueba = "/home/jovyan/data/sample/test_check.csv"

# Guardamos el DataFrame como archivo CSV
# .toPandas() convierte el DataFrame de Spark a Pandas (para archivos pequenos)
# .to_csv() guarda el DataFrame de Pandas como CSV
df.toPandas().to_csv(ruta_prueba, index=False)

print(f"Archivo guardado en: {ruta_prueba}")

# Output esperado:
# Archivo guardado en: /home/jovyan/data/sample/test_check.csv

In [None]:
# Leemos el archivo CSV con Spark
# spark.read.csv() lee archivos CSV
# header=True indica que la primera fila son los nombres de columnas
# inferSchema=True hace que Spark detecte automaticamente los tipos de datos
df_leido = spark.read.csv(ruta_prueba, header=True, inferSchema=True)

# Mostramos el contenido leido
print("Contenido leido del archivo:")
df_leido.show()

# Verificamos que los datos son iguales
print(f"Filas originales: {df.count()}")
print(f"Filas leidas: {df_leido.count()}")

# Output esperado:
# +------+----+-----------+
# |nombre|edad|     ciudad|
# ... (mismos datos que antes)

---
# === SECCI√ìN 8 ===
## 8. Resumen de Verificaci√≥n

### Explicaci√≥n Conceptual
Hacemos un resumen de todas las verificaciones para tener una vista completa del estado del entorno.

In [None]:
# Creamos un resumen de todas las verificaciones
print("=" * 60)
print("         RESUMEN DE VERIFICACI√ìN DEL ENTORNO")
print("=" * 60)
print()
print(f"‚úÖ Python: {sys.version.split()[0]}")
print(f"‚úÖ PySpark: {pyspark.__version__}")
print(f"‚úÖ Spark Session: Activa")
print(f"‚úÖ DataFrame: {df.count()} filas creadas")
print(f"‚úÖ Pandas: {pd.__version__}")
print(f"‚úÖ NumPy: {np.__version__}")
print(f"‚úÖ Lectura/Escritura: Funcionando")
print()
print("=" * 60)
print("   üéâ ¬°Tu entorno est√° listo para Big Data!")
print("=" * 60)
print()
print("Pr√≥ximo paso: Abre 02_spark_basics.ipynb")

---
# === EJERCICIOS PR√ÅCTICOS ===

### üéØ Ejercicio 1.1: Explorar la Spark UI

1. Abre http://localhost:4040 en tu navegador
2. Encuentra la pesta√±a "Jobs"
3. ¬øCu√°ntos jobs se han ejecutado?

**Pistas:**
- Cada `df.count()` o `df.show()` genera al menos un job
- La UI muestra el historial de todos los jobs

In [None]:
# TODO: Escribe aqui tus observaciones de la Spark UI
# ¬øCuantos jobs viste?
# ¬øQue informacion te parecio interesante?

# Respuesta:
# 

### üéØ Ejercicio 1.2: Crear tu propio DataFrame

Crea un DataFrame con informaci√≥n de 3 productos:
- Columnas: producto, precio, cantidad
- Muestra el DataFrame con `show()`

**Pistas:**
- Usa `spark.createDataFrame(datos, columnas)`
- Los datos son una lista de tuplas

In [None]:
# TODO: Crea tu DataFrame de productos aqui



### ‚úÖ Soluci√≥n Ejercicio 1.2

In [None]:
# Solucion: DataFrame de productos

# Definimos los datos de productos
productos_datos = [
    ("Laptop", 15000.00, 5),
    ("Mouse", 350.00, 20),
    ("Teclado", 800.00, 15)
]

# Definimos los nombres de columnas
productos_columnas = ["producto", "precio", "cantidad"]

# Creamos el DataFrame
df_productos = spark.createDataFrame(productos_datos, productos_columnas)

# Mostramos el resultado
df_productos.show()

# Output esperado:
# +--------+-------+--------+
# |producto| precio|cantidad|
# +--------+-------+--------+
# |  Laptop|15000.0|       5|
# |   Mouse|  350.0|      20|
# | Teclado|  800.0|      15|
# +--------+-------+--------+

### üéØ Ejercicio 1.3: Contar y Filtrar

Usando el DataFrame de personas creado anteriormente (`df`):
1. Cuenta cu√°ntas personas tienen m√°s de 25 a√±os
2. Muestra solo las personas de CDMX

**Pistas:**
- Usa `df.filter(condicion)` para filtrar
- La condici√≥n se escribe como `df["columna"] > valor`

In [None]:
# TODO: Filtra el DataFrame aqui



### ‚úÖ Soluci√≥n Ejercicio 1.3

In [None]:
# Solucion: Filtrar DataFrame

# 1. Personas mayores de 25 anos
# filter() selecciona solo las filas que cumplen la condicion
mayores_25 = df.filter(df["edad"] > 25)

print(f"Personas mayores de 25: {mayores_25.count()}")
mayores_25.show()

# 2. Personas de CDMX
# Filtramos por igualdad de string
de_cdmx = df.filter(df["ciudad"] == "CDMX")

print(f"Personas de CDMX: {de_cdmx.count()}")
de_cdmx.show()

# Output esperado:
# Personas mayores de 25: 3
# +------+----+-----------+
# |nombre|edad|     ciudad|
# +------+----+-----------+
# |Carlos|  30|Guadalajara|
# | Maria|  28|  Monterrey|
# |  Juan|  35|       CDMX|
# +------+----+-----------+
#
# Personas de CDMX: 2
# +------+----+------+
# |nombre|edad|ciudad|
# +------+----+------+
# |   Ana|  25|  CDMX|
# |  Juan|  35|  CDMX|
# +------+----+------+

---
# === RESUMEN FINAL ===

## Resumen

### Conceptos Clave
- **SparkSession**: Punto de entrada para usar Spark. Como "encender" el motor.
- **DataFrame**: Tabla de datos distribuida. Como Excel pero para Big Data.
- **Esquema**: Estructura de un DataFrame (columnas y tipos de datos).
- **Acciones**: Operaciones que ejecutan c√°lculos (`count()`, `show()`, `collect()`).

### Conexi√≥n con AWS
- **Amazon EMR**: Servicio AWS que ejecuta clusters de Spark en la nube
- **AWS Glue**: Servicio serverless que tambi√©n usa Spark internamente
- Lo que aprendas con Spark local aplica directamente en AWS

### Siguiente Paso
Contin√∫a con: `02_spark_basics.ipynb` para aprender operaciones fundamentales de Spark

In [None]:
# Limpieza: Eliminamos el archivo de prueba (opcional)
import os
if os.path.exists(ruta_prueba):
    os.remove(ruta_prueba)
    print("Archivo de prueba eliminado")