In [0]:
# Configuración para Databricks Serverless
print("=== CONFIGURACIÓN DATABRICKS SERVERLESS ===")
print(f"Versión de Spark: {spark.version}")

# Obtener configuración de manera compatible con Serverless
print("\n=== INFORMACIÓN DEL SISTEMA ===")
import sys
print(f"Versión de Python: {sys.version}")

# Información disponible en Serverless
print("\n=== CONFIGURACIÓN DISPONIBLE ===")
try:
    # Estas configuraciones deberían funcionar en Serverless
    configs_to_check = [
        "spark.sql.adaptive.enabled",
        "spark.databricks.clusterUsageTags.clusterName", 
        "spark.databricks.clusterUsageTags.clusterId"
    ]
    
    for config in configs_to_check:
        try:
            value = spark.conf.get(config)
            print(f"{config}: {value}")
        except:
            print(f"{config}: No disponible")
            
except Exception as e:
    print(f"Algunas configuraciones no disponibles en Serverless: {e}")

print("\n=== ESTRUCTURA DBFS ===")
try:
    display(dbutils.fs.ls("/"))
except Exception as e:
    print(f"No se puede acceder a DBFS root: {e}")

# Verificar acceso a FileStore
print("\n=== FILE STORE ===")
try:
    display(dbutils.fs.ls("/FileStore"))
except Exception as e:
    print(f"FileStore no accesible: {e}")

=== CONFIGURACIÓN DATABRICKS SERVERLESS ===
Versión de Spark: 4.0.0

=== INFORMACIÓN DEL SISTEMA ===
Versión de Python: 3.12.3 (main, Aug 14 2025, 17:47:21) [GCC 13.3.0]

=== CONFIGURACIÓN DISPONIBLE ===
spark.sql.adaptive.enabled: No disponible
spark.databricks.clusterUsageTags.clusterName: No disponible
spark.databricks.clusterUsageTags.clusterId: 1124-024201-9yh8c1zi-v2n

=== ESTRUCTURA DBFS ===


path,name,size,modificationTime
dbfs:/Volumes/,Volumes/,0,0
dbfs:/Workspace/,Workspace/,0,0
dbfs:/databricks-datasets/,databricks-datasets/,0,0



=== FILE STORE ===
FileStore no accesible: Public DBFS root is disabled. Access is denied on path: /FileStore

JVM stacktrace:
java.lang.UnsupportedOperationException
	at com.databricks.backend.daemon.data.client.DisabledDatabricksFileSystem.rejectOperation(DisabledDatabricksFileSystem.scala:31)
	at com.databricks.backend.daemon.data.client.DisabledDatabricksFileSystem.listStatus(DisabledDatabricksFileSystem.scala:96)
	at com.databricks.backend.daemon.data.client.DBFSV2.$anonfun$listStatus$2(DatabricksFileSystemV2.scala:177)
	at com.databricks.s3a.S3AExceptionUtils$.convertAWSExceptionToJavaIOException(DatabricksStreamUtils.scala:64)
	at com.databricks.backend.daemon.data.client.DBFSV2.$anonfun$listStatus$1(DatabricksFileSystemV2.scala:174)
	at com.databricks.logging.UsageLogging.$anonfun$recordOperation$1(UsageLogging.scala:510)
	at com.databricks.logging.UsageLogging.executeThunkAndCaptureResultTags$1(UsageLogging.scala:616)
	at com.databricks.logging.UsageLogging.$anonfun$recordOpe

In [0]:
# Tu tabla YA EXISTE - trabajemos directamente con ella
df = spark.table("default.Train")

print("✅ Conectado a tabla 'default.Train'")
print(f"Total registros: {df.count()}")
print("\nPrimeros 5 registros:")
df.show(5)

✅ Conectado a tabla 'default.Train'
Total registros: 891

Primeros 5 registros:
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| NULL|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| NULL|       S|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| NULL|       S|


In [0]:
# ACTUALIZA ESTA RUTA con la que te dio Databricks al subir el archivo
print("=== ESQUEMA DE LA TABLA ===")
df.printSchema()

# También podemos verlo con SQL
print("\n=== DESCRIBE TABLE ===")
spark.sql("DESCRIBE default.Train").show()

=== ESQUEMA DE LA TABLA ===
root
 |-- PassengerId: long (nullable = true)
 |-- Survived: long (nullable = true)
 |-- Pclass: long (nullable = true)
 |-- Name: string (nullable = true)
 |-- Sex: string (nullable = true)
 |-- Age: double (nullable = true)
 |-- SibSp: long (nullable = true)
 |-- Parch: long (nullable = true)
 |-- Ticket: string (nullable = true)
 |-- Fare: double (nullable = true)
 |-- Cabin: string (nullable = true)
 |-- Embarked: string (nullable = true)


=== DESCRIBE TABLE ===
+-----------+---------+-------+
|   col_name|data_type|comment|
+-----------+---------+-------+
|PassengerId|   bigint|   NULL|
|   Survived|   bigint|   NULL|
|     Pclass|   bigint|   NULL|
|       Name|   string|   NULL|
|        Sex|   string|   NULL|
|        Age|   double|   NULL|
|      SibSp|   bigint|   NULL|
|      Parch|   bigint|   NULL|
|     Ticket|   string|   NULL|
|       Fare|   double|   NULL|
|      Cabin|   string|   NULL|
|   Embarked|   string|   NULL|
+-----------+-------

In [0]:
print("=== VALIDACIONES BÁSICAS ===")

# 1. Conteo total
total_count = df.count()
print(f"1. Total de registros: {total_count}")

# 2. Columnas disponibles
print(f"2. Columnas: {df.columns}")

# 3. Estadísticas descriptivas
print("3. Estadísticas descriptivas:")
df.describe().show()

# 4. Conteo por clase
print("4. Distribución por clase:")
df.groupBy("Pclass").count().show()

=== VALIDACIONES BÁSICAS ===
1. Total de registros: 891
2. Columnas: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
3. Estadísticas descriptivas:
+-------+-----------------+------------------+------------------+--------------------+------+------------------+------------------+-------------------+------------------+------------------+-----+--------+
|summary|      PassengerId|          Survived|            Pclass|                Name|   Sex|               Age|             SibSp|              Parch|            Ticket|              Fare|Cabin|Embarked|
+-------+-----------------+------------------+------------------+--------------------+------+------------------+------------------+-------------------+------------------+------------------+-----+--------+
|  count|              891|               891|               891|                 891|   891|               714|               891|                891|               891

In [0]:
# Crear vista temporal para consultas SQL
df.createOrReplaceTempView("titanic_view")

print("✅ Vista temporal 'titanic_view' creada")
print("Ahora puedes usar consultas SQL con: spark.sql('...') o %sql")

✅ Vista temporal 'titanic_view' creada
Ahora puedes usar consultas SQL con: spark.sql('...') o %sql


In [0]:
%sql
-- Consultas SQL funcionan perfectamente en Serverless
-- 1. Metadatos de la tabla
DESCRIBE default.Train;

-- 2. Estadísticas básicas
SELECT 
    COUNT(*) as total_pasajeros,
    AVG(Survived) as tasa_supervivencia,
    AVG(Age) as edad_promedio,
    AVG(Fare) as tarifa_promedio
FROM default.Train;

-- 3. Supervivencia por clase
SELECT 
    Pclass,
    COUNT(*) as total,
    AVG(Survived) as tasa_supervivencia
FROM default.Train 
GROUP BY Pclass 
ORDER BY Pclass;

Pclass,total,tasa_supervivencia
1,216,0.6296296296296297
2,184,0.4728260869565217
3,491,0.2423625254582484


In [0]:
# PySpark - Análisis por clase y género
from pyspark.sql.functions import avg, count

print("=== ANÁLISIS CON PYSPARK ===")
result_spark = df.groupBy("Pclass", "Sex") \
    .agg(
        count("*").alias("total"),
        avg("Survived").alias("tasa_supervivencia")
    ) \
    .orderBy("Pclass", "Sex")

result_spark.show()

print("=== MISMO ANÁLISIS CON SQL ===")
result_sql = spark.sql("""
    SELECT 
        Pclass,
        Sex,
        COUNT(*) as total,
        AVG(Survived) as tasa_supervivencia
    FROM titanic_view 
    GROUP BY Pclass, Sex 
    ORDER BY Pclass, Sex
""")
result_sql.show()

=== ANÁLISIS CON PYSPARK ===
+------+------+-----+-------------------+
|Pclass|   Sex|total| tasa_supervivencia|
+------+------+-----+-------------------+
|     1|female|   94| 0.9680851063829787|
|     1|  male|  122|0.36885245901639346|
|     2|female|   76| 0.9210526315789473|
|     2|  male|  108| 0.1574074074074074|
|     3|female|  144|                0.5|
|     3|  male|  347|0.13544668587896252|
+------+------+-----+-------------------+

=== MISMO ANÁLISIS CON SQL ===
+------+------+-----+-------------------+
|Pclass|   Sex|total| tasa_supervivencia|
+------+------+-----+-------------------+
|     1|female|   94| 0.9680851063829787|
|     1|  male|  122|0.36885245901639346|
|     2|female|   76| 0.9210526315789473|
|     2|  male|  108| 0.1574074074074074|
|     3|female|  144|                0.5|
|     3|  male|  347|0.13544668587896252|
+------+------+-----+-------------------+



## Comparación: SQL vs Spark

### Ventajas de SQL
- **Sintaxis familiar**: Muchos analistas de datos conocen SQL.
- **Declarativo**: Especificas qué quieres, no cómo obtenerlo.
- **Optimización**: El motor de SQL puede optimizar la consulta automáticamente.
- **Integración**: Fácil integración con herramientas de BI.

### Desventajas de SQL
- **Limitaciones en transformaciones complejas**: Algunas transformaciones son más difíciles de expresar en SQL.
- **Menos flexibilidad**: Para pipelines complejos, puede ser menos flexible que Spark.

### Ventajas de Spark (PySpark)
- **Escalabilidad**: Diseñado para big data y procesamiento distribuido.
- **APIs ricas**: DataFrame y Dataset APIs para transformaciones complejas.
- **UDFs**: Permite definir funciones personalizadas en Python, Scala, etc.
- **Integración con MLlib**: Para machine learning.

### Desventajas de Spark
- **Curva de aprendizaje**: Requiere aprender nuevas APIs y conceptos.
- **Configuración**: Puede requerir ajustes de rendimiento.
- **Overhead**: Para consultas simples, puede ser más lento que SQL.

### Conclusión
En entornos como Databricks, podemos aprovechar lo mejor de ambos: usar SQL para consultas ad-hoc y PySpark para pipelines de datos más complejos. La elección depende del caso de uso y de la familiaridad del equipo con cada tecnología.

## Diseño del Esquema - Dataset Titanic

### Diccionario de Datos
| Columna | Tipo | Descripción | Nulable |
|---------|------|-------------|---------|
| PassengerId | BIGINT | ID único del pasajero | NO |
| Survived | BIGINT | Supervivencia (0=No, 1=Sí) | SÍ |
| Pclass | BIGINT | Clase del ticket (1,2,3) | SÍ |
| Name | STRING | Nombre completo | SÍ |
| Sex | STRING | Género | SÍ |
| Age | DOUBLE | Edad | SÍ |
| SibSp | BIGINT | Hermanos/Esposos a bordo | SÍ |
| Parch | BIGINT | Padres/Hijos a bordo | SÍ |
| Ticket | STRING | Número de ticket | SÍ |
| Fare | DOUBLE | Tarifa pagada | SÍ |
| Cabin | STRING | Cabina | SÍ |
| Embarked | STRING | Puerto de embarque | SÍ |

**Llave primaria:** PassengerId

In [0]:
print("=== ANÁLISIS POR GRUPOS DE EDAD ===")

from pyspark.sql.functions import when, col

# Crear grupos de edad
df_age_groups = df.withColumn(
    "age_group",
    when(col("Age").isNull(), "Desconocido")
    .when(col("Age") < 18, "Niño")
    .when(col("Age") < 30, "Joven")
    .when(col("Age") < 50, "Adulto")
    .otherwise("Mayor")
)

# Análisis de supervivencia por grupo de edad
age_analysis = df_age_groups.groupBy("age_group") \
    .agg(
        count("*").alias("total"),
        avg("Survived").alias("tasa_supervivencia"),
        avg("Fare").alias("tarifa_promedio")
    ) \
    .orderBy("tasa_supervivencia", ascending=False)

print("Supervivencia por Grupo de Edad:")
age_analysis.show()

=== ANÁLISIS POR GRUPOS DE EDAD ===
Supervivencia por Grupo de Edad:
+-----------+-----+-------------------+------------------+
|  age_group|total| tasa_supervivencia|   tarifa_promedio|
+-----------+-----+-------------------+------------------+
|       Niño|  113| 0.5398230088495575| 31.22079823008851|
|     Adulto|  256|         0.41796875|   39.551611328125|
|      Mayor|   74|0.36486486486486486| 46.36441486486488|
|      Joven|  271| 0.3505535055350554|28.368094464944658|
|Desconocido|  177| 0.2937853107344633|22.158566666666673|
+-----------+-----+-------------------+------------------+



In [0]:
%sql
-- Análisis por grupos de edad con SQL
SELECT 
    CASE 
        WHEN Age IS NULL THEN 'Desconocido'
        WHEN Age < 18 THEN 'Niño'
        WHEN Age < 30 THEN 'Joven' 
        WHEN Age < 50 THEN 'Adulto'
        ELSE 'Mayor'
    END as age_group,
    COUNT(*) as total,
    AVG(Survived) as tasa_supervivencia,
    AVG(Fare) as tarifa_promedio
FROM default.Train 
GROUP BY 
    CASE 
        WHEN Age IS NULL THEN 'Desconocido'
        WHEN Age < 18 THEN 'Niño'
        WHEN Age < 30 THEN 'Joven'
        WHEN Age < 50 THEN 'Adulto'
        ELSE 'Mayor'
    END
ORDER BY tasa_supervivencia DESC;

age_group,total,tasa_supervivencia,tarifa_promedio
Niño,113,0.5398230088495575,31.22079823008851
Adulto,256,0.41796875,39.551611328125
Mayor,74,0.3648648648648648,46.36441486486488
Joven,271,0.3505535055350554,28.368094464944654
Desconocido,177,0.2937853107344633,22.158566666666676


In [0]:
print("=== ANÁLISIS COMPLEJO: CLASE + GÉNERO + EMBARQUE ===")

complex_analysis = (df
    .groupBy("Pclass", "Sex", "Embarked")
    .agg(
        count("*").alias("total_pasajeros"),
        avg("Survived").alias("tasa_supervivencia"),
        avg("Age").alias("edad_promedio"),
        avg("Fare").alias("tarifa_promedio")
    )
    .filter(col("total_pasajeros") > 10)   # Filtrar grupos pequeños
    .orderBy("Pclass", "Sex", "Embarked")
)

print("Análisis Multidimensional:")
complex_analysis.show()

=== ANÁLISIS COMPLEJO: CLASE + GÉNERO + EMBARQUE ===
Análisis Multidimensional:
+------+------+--------+---------------+-------------------+------------------+------------------+
|Pclass|   Sex|Embarked|total_pasajeros| tasa_supervivencia|     edad_promedio|   tarifa_promedio|
+------+------+--------+---------------+-------------------+------------------+------------------+
|     1|female|       C|             43| 0.9767441860465116| 36.05263157894737| 115.6403093023256|
|     1|female|       S|             48| 0.9583333333333334| 32.70454545454545| 99.02691041666664|
|     1|  male|       C|             42|0.40476190476190477|40.111111111111114| 93.53670714285715|
|     1|  male|       S|             79|0.35443037974683544|        41.8971875| 52.94994683544305|
|     2|female|       S|             67| 0.9104477611940298| 29.71969696969697| 21.91268656716418|
|     2|  male|       S|             97|0.15463917525773196|30.875888888888888|19.232474226804122|
|     3|female|       C|     