# üóÑÔ∏è PySpark + MySQL - Configuraci√≥n y Uso

Notebook especializado para trabajar con PySpark y MySQL sin problemas de configuraci√≥n.

## üéØ Objetivos:
- Configurar PySpark para MySQL autom√°ticamente
- Probar conectividad
- Cargar y procesar datos
- Optimizar performance
- Mejores pr√°cticas

## ‚öôÔ∏è 1. Configuraci√≥n Inicial

In [None]:
# Importar librer√≠as necesarias
import sys
sys.path.append('../src')

from etl.mysql_spark import create_mysql_spark_connector
from pyspark.sql import functions as F
from pyspark.sql.types import *
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

print("üìö Librer√≠as importadas correctamente")

## üîó 2. Crear Conexi√≥n MySQL + Spark

In [None]:
# Crear conector (ajustar config.yaml con tus credenciales)
connector = create_mysql_spark_connector('../config.yaml')

# Verificar que Spark est√© funcionando
spark = connector.spark
print(f"‚úÖ Spark versi√≥n: {spark.version}")
print(f"‚úÖ Aplicaci√≥n: {spark.sparkContext.appName}")
print(f"‚úÖ Master: {spark.sparkContext.master}")
print(f"‚úÖ Spark UI: {spark.sparkContext.uiWebUrl}")

## üß™ 3. Probar Conectividad MySQL

In [None]:
# Probar conexi√≥n directa a MySQL
if connector.test_mysql_connection():
    print("üéâ ¬°Conexi√≥n a MySQL exitosa!")
else:
    print("‚ùå Problema de conexi√≥n a MySQL")
    print("\nüîß Verifica en config.yaml:")
    print("   - host, port, database")
    print("   - user, password")
    print("   - Que el servidor MySQL est√© ejecut√°ndose")

## üìã 4. Explorar Base de Datos

In [None]:
# Listar todas las tablas disponibles
tables = connector.list_tables()

print(f"üìä Tablas encontradas ({len(tables)}):")
for i, table in enumerate(tables, 1):
    print(f"  {i}. {table}")

if not tables:
    print("‚ö†Ô∏è  No se encontraron tablas o no hay permisos")

In [None]:
# Si tienes tablas, obtener informaci√≥n de una
if tables:
    # Cambiar por el nombre de tu tabla
    table_name = tables[0]  # Usar la primera tabla encontrada
    
    print(f"üîç Analizando tabla: {table_name}")
    table_info = connector.get_table_info(table_name)
    
    if table_info:
        print(f"   üìè Total filas: {table_info['total_rows']:,}")
        print(f"   üìã Columnas ({len(table_info['columns'])}): {', '.join(table_info['columns'])}")
        print(f"   üéØ Tipos de datos:")
        for col, dtype in table_info['dtypes']:
            print(f"      {col}: {dtype}")

## üìä 5. Cargar Datos con Spark

In [None]:
# M√©todo 1: Cargar tabla completa (para tablas peque√±as-medianas)
if tables:
    table_name = tables[0]  # Ajustar seg√∫n tu tabla
    
    # Cargar muestra primero para tablas grandes
    print(f"üì• Cargando muestra de {table_name}...")
    df_sample = connector.read_table(table_name, sample_fraction=0.1)  # 10% de muestra
    
    print(f"‚úÖ Muestra cargada: {df_sample.count():,} filas")
    print("\nüîç Primeras 5 filas:")
    df_sample.show(5)
    
    print("\nüìä Schema:")
    df_sample.printSchema()

In [None]:
# M√©todo 2: Query personalizada
if tables:
    table_name = tables[0]
    
    # Ejemplo de query personalizada
    custom_query = f"""
    SELECT * 
    FROM {table_name} 
    LIMIT 1000
    """
    
    print("üìù Ejecutando query personalizada...")
    df_query = connector.read_query(custom_query)
    
    print(f"‚úÖ Query ejecutada: {df_query.count():,} filas")
    df_query.show(3)

In [None]:
# M√©todo 3: Carga particionada (para tablas muy grandes)
# Requiere una columna num√©rica para particionar

# Ejemplo (ajustar seg√∫n tu tabla):
# df_partitioned = connector.read_partitioned(
#     table_name="mi_tabla",
#     partition_column="id",  # Columna num√©rica
#     lower_bound=1,
#     upper_bound=100000,
#     num_partitions=8
# )

print("üí° M√©todo 3 comentado - descomentar y ajustar seg√∫n tu tabla")

## üîÑ 6. Procesamiento de Datos

In [None]:
# Trabajar con el DataFrame cargado
if 'df_sample' in locals():
    df = df_sample  # Usar la muestra cargada
    
    print("üîÑ Realizando transformaciones...")
    
    # Optimizar DataFrame
    df = connector.optimize_dataframe(df, cache=True)
    
    # An√°lisis b√°sico
    print(f"üìä Particiones: {df.rdd.getNumPartitions()}")
    print(f"üìè Total filas: {df.count():,}")
    
    # Estad√≠sticas descriptivas
    print("\nüìà Estad√≠sticas:")
    df.describe().show()
    
    # Contar valores nulos
    print("\nüîç Valores nulos por columna:")
    null_counts = df.select([F.count(F.when(F.col(c).isNull(), c)).alias(c) for c in df.columns])
    null_counts.show()

In [None]:
# Ejemplo de transformaciones comunes
if 'df' in locals():
    print("üõ†Ô∏è Aplicando transformaciones...")
    
    # Seleccionar columnas espec√≠ficas (ajustar seg√∫n tu tabla)
    # df_selected = df.select("col1", "col2", "col3")
    
    # Filtrar datos
    # df_filtered = df.filter(F.col("columna") > 100)
    
    # Agregar nueva columna
    # df_with_new_col = df.withColumn("nueva_col", F.lit("valor"))
    
    # Agrupaciones
    # df_grouped = df.groupBy("categoria").agg(
    #     F.count("*").alias("total"),
    #     F.avg("valor").alias("promedio")
    # )
    
    print("‚úÖ Transformaciones definidas (descomentar seg√∫n necesites)")

## üíæ 7. Guardar Resultados

In [None]:
# Guardar en formato Parquet (recomendado)
if 'df' in locals():
    output_path = "../data/processed/mysql_spark_output"
    
    print(f"üíæ Guardando datos en: {output_path}")
    
    # Guardar como Parquet
    df.coalesce(1).write.mode("overwrite").parquet(output_path + "/parquet")
    
    # Guardar como CSV
    df.coalesce(1).write.mode("overwrite").option("header", "true").csv(output_path + "/csv")
    
    print("‚úÖ Datos guardados exitosamente")

In [None]:
# Opcional: Escribir de vuelta a MySQL
# Crear tabla nueva con los datos procesados

# if 'df' in locals():
#     print("üîÑ Escribiendo datos procesados de vuelta a MySQL...")
#     
#     connector.write_table(
#         df=df_sample.limit(100),  # Solo primeras 100 filas como ejemplo
#         table_name="tabla_procesada_spark",
#         mode="overwrite",
#         batch_size=500
#     )
#     
#     print("‚úÖ Datos escritos a MySQL")

print("üí° Escritura a MySQL comentada - descomentar si necesitas")

## üìä 8. Monitoreo y Performance

In [None]:
# Informaci√≥n del contexto Spark
sc = spark.sparkContext

print("üìä INFORMACI√ìN DE SPARK")
print(f"   üéØ Aplicaci√≥n ID: {sc.applicationId}")
print(f"   üåê Spark UI: {sc.uiWebUrl}")
print(f"   üíª Master: {sc.master}")
print(f"   üîß Configuraciones activas:")

# Mostrar configuraciones importantes
important_configs = [
    'spark.driver.memory',
    'spark.executor.memory', 
    'spark.sql.adaptive.enabled',
    'spark.jars.packages'
]

for config in important_configs:
    value = spark.conf.get(config, 'No configurado')
    print(f"      {config}: {value}")

In [None]:
# Verificar drivers JDBC disponibles
print("üîå DRIVERS JDBC DISPONIBLES")
try:
    # Verificar que el driver MySQL est√© cargado
    test_df = spark.sql("SELECT 1 as test")
    print("   ‚úÖ Spark SQL funcionando")
    
    # Mostrar packages cargados
    packages = spark.conf.get('spark.jars.packages', 'No configurado')
    print(f"   üì¶ Packages: {packages}")
    
except Exception as e:
    print(f"   ‚ùå Error: {e}")

## üßπ 9. Limpieza

In [None]:
# Limpiar cache si fue usado
if 'df' in locals():
    df.unpersist()
    print("üßπ Cache limpiado")

# Opcional: Cerrar Spark (descomentar si quieres)
# connector.close()
# print("üîö SparkSession cerrada")

print("‚úÖ Limpieza completada")

## üõ†Ô∏è 10. Troubleshooting y Tips

### ‚ùå Problemas Comunes:

#### 1. **Error de conexi√≥n MySQL**
```
Communications link failure
```
**Soluci√≥n:**
- Verificar que MySQL est√© ejecut√°ndose
- Revisar host, port, user, password en config.yaml
- Verificar permisos del usuario MySQL

#### 2. **Driver JDBC no encontrado**
```
No suitable driver found
```
**Soluci√≥n:**
- El conector descarga autom√°ticamente el driver
- Verificar conexi√≥n a internet
- Revisar spark.jars.packages en configuraci√≥n

#### 3. **OutOfMemoryError**
```
Java heap space
```
**Soluci√≥n:**
- Aumentar spark.driver.memory en config.yaml
- Usar muestras m√°s peque√±as
- Particionar datos grandes

### ‚úÖ Mejores Pr√°cticas:

1. **Performance:**
   - Usar `cache()` para DataFrames reutilizados
   - Particionar tablas grandes
   - Filtrar en la query MySQL cuando sea posible

2. **Memoria:**
   - Empezar con muestras peque√±as
   - Aumentar memoria gradualmente
   - Usar `coalesce()` para reducir particiones

3. **Desarrollo:**
   - Probar conexiones antes de cargas grandes
   - Usar LIMIT en queries de prueba
   - Monitorear Spark UI durante desarrollo

### üîß Configuraci√≥n Recomendada:

Para tablas **peque√±as** (< 1M filas):
```yaml
spark:
  driver_memory: "2g"
  executor_memory: "2g"
```

Para tablas **medianas** (1M - 10M filas):
```yaml
spark:
  driver_memory: "4g"
  executor_memory: "4g"
```

Para tablas **grandes** (> 10M filas):
```yaml
spark:
  driver_memory: "8g"
  executor_memory: "8g"
```