<center>
  <h1>
    PROCESAMIENTO DE DATOS EN UNA INFRAESTRUCTURA CLOUD
  </h1>
</center>

<h1>
  Autor: Felipe Fernández Rodriguez
<h1>

<ul>
  <li>
    <h3>Esquema</h3>
  </li>
</ul>

![Esquema](https://github.com/felipefernandezr-datascience/BigData/blob/main/images/Esquema.png?raw=true)

<ul>
  <li>
    <h3>Creación y configuración de un Clúster en Databricks</h3>
  </li>
</ul>

<p>
  Para ejecutar notebooks, cargar datos y trabajar con PySpark en Databricks, es necesario contar con un clúster activo. Un clúster es un conjunto de recursos de cómputo (CPU, RAM, disco y motor Spark) en el cual se ejecutarán todas las consultas y transformaciones. A continuación se describe el proceso de creación y configuración recomendado.
</p>

<ol>

  <li>
    Ingresar al apartado de clústeres:
    <ul>
      <li>En la barra lateral izquierda de Databricks, haga clic en <strong>Compute</strong> (Clústeres).</li>
      <li>Seleccione la opción <strong>Create Cluster</strong> para iniciar la configuración.</li>
    </ul>
  </li>

  <li>
    Asignar un nombre al clúster:
    <ul>
      <li>En el campo <strong>Cluster Name</strong>, escriba un nombre descriptivo. Es recomendable usar nombres que identifiquen el proyecto o dataset.</li>
    </ul>
  </li>

  <li>
    Seleccionar la versión del Databricks Runtime:
    <p>En <strong>Databricks Runtime Version</strong>, elija la versión correspondiente al entorno requerido.</p>
    <ul>
      <li>Para trabajos con PySpark y SQL: Databricks Runtime 12.x / 13.x / 14.x ML (o Standard)</li>
      <li>Para machine learning o librerías de ciencia de datos: Runtime ML (Machine Learning)</li>
      <li>Para compatibilidad general: Runtime Standard</li>
    </ul>
  </li>

  <li>
    Seleccionar el tipo de clúster:
    <p>Databricks permite dos modalidades:</p>
    <ul>
      <li><strong>All-purpose cluster:</strong> Ideal cuando se ejecutan consultas de forma manual.</li>
      <li><strong>Job cluster:</strong> Ideal para pipelines ETL automatizados.</li>
    </ul>
  </li>

  <li>
    Configurar el tamaño del clúster (núcleos y RAM):
    <p>En <strong>Node Type</strong> es posible elegir máquinas con diversas capacidades.</p>
    <p>Se debe elegir considerando:</p>
    <ul>
      <li>Tamaño del dataset</li>
      <li>Complejidad de las transformaciones</li>
      <li>Presupuesto o créditos disponibles</li>
    </ul>
  </li>

  <li>
    Habilitar o deshabilitar el autoscaling:
    <p>Databricks permite que el clúster aumente o disminuya el número de nodos automáticamente.</p>
    <ul>
      <li>
        Autoscaling activado:
        <ul>
          <li>Aumenta nodos cuando crece la carga</li>
          <li>Reduce nodos cuando baja</li>
          <li>Optimiza costos</li>
        </ul>
      </li>
      <li>
        Autoscaling desactivado:
        <ul>
          <li>Control total sobre los recursos</li>
          <li>Recomendado solo si se requieren tiempos exactos o pruebas controladas</li>
        </ul>
      </li>
    </ul>
  </li>

  <li>
    Crear el clúster:
    <p>Después de definir todas las configuraciones, presione <strong>Create Cluster</strong>.</p>
    <p>El proceso tomará entre 1 y 3 minutos. Una vez activo, ya podrá ejecutarse código PySpark o SQL.</p>
  </li>

  <li>
    Verificar versiones de Spark y Python:
    <p>Una vez que el clúster está en ejecución, es importante validar sus versiones reales desde PySpark:</p>
    <ul>
      <li>
        Versión de Spark:
        <p><code>spark.version</code></p>
      </li>
      <li>
        Configuraciones del contexto de Spark:
        <p><code>spark.sparkContext.getConf().getAll()</code></p>
      </li>
      <li>
        Versión de Python:
        <p><code>import sys</code></p>
        <p><code>print(sys.version)</code></p>
      </li>
    </ul>
  </li>

</ol>

<p>
  Configurar un clúster en Databricks es un paso fundamental para iniciar un flujo de trabajo con Spark. La correcta selección de la versión del runtime, tipo de clúster, tamaño, autoscaling y almacenamiento garantiza que los notebooks se ejecuten de forma eficiente y segura. Además, validar las versiones de Spark y Python permite asegurar compatibilidad con librerías y evitar errores futuros.
</p>

<ul>
  <li>
    <h3>DDL</h3>
  </li>
</ul>

<h4>
  SPARK
</h4>

In [0]:
name_catalog = 'hospital_san_juan_de_dios'
name_schema = 'hospital_beds_db'
volume_name = 'raw_data'
table_name = ['tbl_patients', 'tbl_services', 'tbl_staff', 'tbl_schedule']
csv_name = ['patients.csv', 'services_weekly.csv', 'staff.csv', 'staff_schedule.csv']

In [0]:
# Creación del catalogo
spark.sql("""
        CREATE CATALOG IF NOT EXISTS {}
        COMMENT 'Catálogo del Hospital San Juan de Dios - Proyecto Big Data'
    """.format(name_catalog))

DataFrame[]

In [0]:
spark.sql("""
       USE CATALOG {}   
    """.format(name_catalog))

DataFrame[]

In [0]:
# Creación del schema
spark.sql("""
    CREATE SCHEMA IF NOT EXISTS {}
    COMMENT 'Esquema principal del proyecto Hospital Beds Management'
    """.format(name_schema))

DataFrame[]

In [0]:
spark.sql("""
    USE SCHEMA {}
    """.format(name_schema))

DataFrame[]

In [0]:
# Creación del volumen para el almacenamiento de los archivos CSV
spark.sql("""
    CREATE VOLUME IF NOT EXISTS {}
    COMMENT 'Volumen que almacena los archivos CSV del proyecto'
    """.format(volume_name))

DataFrame[]

In [0]:
# Obtener la ruta del volumen
volume_path = '/Volumes/hospital_san_juan_de_dios/hospital_beds_db/raw_data/'

In [0]:
# Lectura de los archivos CSV y carga de los DataFrames en el esquema 'hospital_beds_db'
for i in range(4):
    # Lee el archivo CSV y lo carga en un DataFrame de Spark
    df = spark.read\
        .option('header', True)\
        .option('delimiter', ',')\
        .option('inferSchema', True)\
        .csv('{}{}'.format(volume_path, csv_name[i]))
    
    print('---------------------------------------------------------------------')
    # Muestra la estructura del DataFrame, incluyendo los nombres de las columnas y sus tipos de datos
    print(f'df.printSchema(): {csv_name[i]}')
    df.printSchema()

    print('---------------------------------------------------------------------')
    # Obtener estadísticas generales: conteos, medias, mínimos y máximos
    print(f'df.describe().show(): {csv_name[i]}')
    df.describe().show()

    # Guarda el DataFrame como una tabla permanente en el esquema 'hospital_beds_db'
    df.write.mode('overwrite').saveAsTable("{}.{}.{}".format(name_catalog, name_schema, table_name[i]))

---------------------------------------------------------------------
df.printSchema(): patients.csv
root
 |-- patient_id: string (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- arrival_date: date (nullable = true)
 |-- departure_date: date (nullable = true)
 |-- service: string (nullable = true)
 |-- satisfaction: integer (nullable = true)

---------------------------------------------------------------------
df.describe().show(): patients.csv
+-------+------------+----------------+-----------------+-------+------------------+
|summary|  patient_id|            name|              age|service|      satisfaction|
+-------+------------+----------------+-----------------+-------+------------------+
|  count|        1000|            1000|             1000|   1000|              1000|
|   mean|        NULL|            NULL|           45.337|   NULL|            79.597|
| stddev|        NULL|            NULL|25.99991204651333|   NULL|11.55032471409

In [0]:
# Conteo de registros por servicio para el df con la información del archivo 'staff_schedule.csv'
df.groupBy("service").count().show()


+----------------+-----+
|         service|count|
+----------------+-----+
|             ICU| 1768|
|       emergency| 2028|
|         surgery| 1300|
|general_medicine| 1456|
+----------------+-----+



In [0]:
# Análisis de asistencia del personal por semana utilizando PySpark
df\
    .groupBy('week')\
    .sum('present')\
    .orderBy('week')\
    .show(truncate = False)

+----+------------+
|week|sum(present)|
+----+------------+
|1   |116         |
|2   |115         |
|3   |0           |
|4   |107         |
|5   |108         |
|6   |0           |
|7   |115         |
|8   |109         |
|9   |0           |
|10  |112         |
|11  |110         |
|12  |0           |
|13  |107         |
|14  |104         |
|15  |0           |
|16  |113         |
|17  |110         |
|18  |0           |
|19  |118         |
|20  |115         |
+----+------------+
only showing top 20 rows


<h4>
  SQL
</h4>

In [0]:
%sql
-- Creación de la tabla tbl_patients
CREATE TABLE IF NOT EXISTS tbl_patients (
  patient_id STRING,
  name STRING,
  age INT,
  arrival_date DATE,
  departure_date DATE,
  service STRING,
  satisfaction INT
);

In [0]:
%sql
-- Carga de los datos del archivo patients.csv a la tabla tbl_patients
COPY INTO hospital_san_juan_de_dios.hospital_beds_db.tbl_patients
FROM '/Volumes/hospital_san_juan_de_dios/hospital_beds_db/raw_data/patients.csv'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  "header" = "true",
  "inferSchema" = "true"
)
COPY_OPTIONS ("mergeSchema" = "true");

num_affected_rows,num_inserted_rows,num_skipped_corrupt_files
1000,1000,0


In [0]:
%sql
-- Mostrar columnas, tipos de datos y metadatos almacenados en el metastore.
DESCRIBE hospital_san_juan_de_dios.hospital_beds_db.tbl_patients

col_name,data_type,comment
patient_id,string,
name,string,
age,int,
arrival_date,date,
departure_date,date,
service,string,
satisfaction,int,


In [0]:
%sql
-- Confirmar la definición exacta generada: ubicación, formato, columnas y propiedades.
SHOW CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_patients

createtab_stmt
"CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_patients (  patient_id STRING,  name STRING,  age INT,  arrival_date DATE,  departure_date DATE,  service STRING,  satisfaction INT) USING delta COMMENT 'The table contains data related to patient visits, including their demographics and service details. It records information such as patient ID, name, age, arrival and departure dates, the type of service received, and patient satisfaction ratings. This data can be used to analyze patient flow, assess service quality, and identify trends in patient demographics and satisfaction.' COLLATION 'UTF8_BINARY' TBLPROPERTIES (  'delta.enableDeletionVectors' = 'true',  'delta.feature.appendOnly' = 'supported',  'delta.feature.deletionVectors' = 'supported',  'delta.feature.invariants' = 'supported',  'delta.minReaderVersion' = '3',  'delta.minWriterVersion' = '7')"


In [0]:
%sql
-- Calcula estadísticas básicas de la tabla de pacientes: total de registros, edad mínima, edad máxima y promedio de satisfacción.
SELECT 
    COUNT(*) AS total_registros,
    MIN(age) AS edad_minima,
    MAX(age) AS edad_maxima,
    AVG(satisfaction) AS satisfaccion_promedio
FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_patients

total_registros,edad_minima,edad_maxima,satisfaccion_promedio
1000,0,89,79.597


In [0]:
%sql
-- Visualización de los primeros 5 registros
SELECT * FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_patients LIMIT 5;

patient_id,name,age,arrival_date,departure_date,service,satisfaction
PAT-09484753,Richard Rodriguez,24,2025-03-16,2025-03-22,surgery,61
PAT-f0644084,Shannon Walker,6,2025-12-13,2025-12-14,surgery,83
PAT-ac6162e4,Julia Torres,24,2025-06-29,2025-07-05,general_medicine,83
PAT-3dda2bb5,Crystal Johnson,32,2025-10-12,2025-10-23,emergency,81
PAT-08591375,Garrett Lin,25,2025-02-18,2025-02-25,ICU,76


In [0]:
%sql
-- Creación de la tabla tbl_services
CREATE TABLE IF NOT EXISTS hospital_san_juan_de_dios.hospital_beds_db.tbl_services (
    week INT,
    month INT,
    service STRING,
    available_beds INT,
    patients_request INT,
    patients_admitted INT,
    patients_refused INT,
    patient_satisfaction INT,
    staff_morale INT,
    event STRING
);

In [0]:
%sql
-- Carga de datos del archivo services_weekly.csv a la tabla tbl_services
COPY INTO hospital_san_juan_de_dios.hospital_beds_db.tbl_services
FROM '/Volumes/hospital_san_juan_de_dios/hospital_beds_db/raw_data/services_weekly.csv'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  "header" = "true",
  "inferSchema" = "true"
)
COPY_OPTIONS ("mergeSchema" = "true");

num_affected_rows,num_inserted_rows,num_skipped_corrupt_files
0,0,0


In [0]:
%sql
-- Mostrar columnas, tipos de datos y metadatos almacenados en el metastore.
DESCRIBE hospital_san_juan_de_dios.hospital_beds_db.tbl_services

col_name,data_type,comment
week,int,
month,int,
service,string,
available_beds,int,
patients_request,int,
patients_admitted,int,
patients_refused,int,
patient_satisfaction,int,
staff_morale,int,
event,string,


In [0]:
%sql
-- Confirmar la definición exacta generada: ubicación, formato, columnas y propiedades.
SHOW CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_services

createtab_stmt
"CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_services (  week INT,  month INT,  service STRING,  available_beds INT,  patients_request INT,  patients_admitted INT,  patients_refused INT,  patient_satisfaction INT,  staff_morale INT,  event STRING) USING delta COMMENT 'The table tracks weekly and monthly data related to healthcare services. It includes metrics such as the number of available beds, patient requests, admissions, refusals, and satisfaction levels. This data can be used to analyze service demand, patient flow, and staff morale, helping to identify trends and areas for improvement in healthcare delivery.' COLLATION 'UTF8_BINARY' TBLPROPERTIES (  'delta.enableDeletionVectors' = 'true',  'delta.feature.appendOnly' = 'supported',  'delta.feature.deletionVectors' = 'supported',  'delta.feature.invariants' = 'supported',  'delta.minReaderVersion' = '3',  'delta.minWriterVersion' = '7')"


In [0]:
%sql
-- Obtiene estadísticas descriptivas sobre los servicios: total de registros, cantidad de servicios distintos y métricas de camas disponibles.
SELECT
    COUNT(*) AS total_registros,
    COUNT(DISTINCT service) AS servicios_distintos,
    MIN(available_beds) AS camas_minimas,
    MAX(available_beds) AS camas_maximas,
    AVG(available_beds) AS promedio_camas_disponibles,
    STDDEV(available_beds) AS desviacion_camas
FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_services;

total_registros,servicios_distintos,camas_minimas,camas_maximas,promedio_camas_disponibles,desviacion_camas
208,4,8,74,30.346153846153847,15.172928620191128


In [0]:
%sql
-- Creación de la tabla tbl_staff
CREATE TABLE IF NOT EXISTS hospital_san_juan_de_dios.hospital_beds_db.tbl_staff (
    staff_id STRING,
    staff_name STRING,
    role STRING,
    service STRING
);

In [0]:
%sql
-- Carga de datos del archivo staff.csv a la tabla tbl_staff
COPY INTO hospital_san_juan_de_dios.hospital_beds_db.tbl_staff
FROM '/Volumes/hospital_san_juan_de_dios/hospital_beds_db/raw_data/staff.csv'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  "header" = "true",
  "inferSchema" = "true"
)
COPY_OPTIONS ("mergeSchema" = "true");

num_affected_rows,num_inserted_rows,num_skipped_corrupt_files
110,110,0


In [0]:
%sql
-- Mostrar columnas, tipos de datos y metadatos almacenados en el metastore.
DESCRIBE hospital_san_juan_de_dios.hospital_beds_db.tbl_staff

col_name,data_type,comment
staff_id,string,
staff_name,string,
role,string,
service,string,


In [0]:
%sql
-- Confirmar la definición exacta generada: ubicación, formato, columnas y propiedades.
SHOW CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_staff

createtab_stmt
"CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_staff (  staff_id STRING,  staff_name STRING,  role STRING,  service STRING) USING delta COLLATION 'UTF8_BINARY' TBLPROPERTIES (  'delta.enableDeletionVectors' = 'true',  'delta.enableRowTracking' = 'true',  'delta.feature.appendOnly' = 'supported',  'delta.feature.deletionVectors' = 'supported',  'delta.feature.domainMetadata' = 'supported',  'delta.feature.invariants' = 'supported',  'delta.feature.rowTracking' = 'supported',  'delta.minReaderVersion' = '3',  'delta.minWriterVersion' = '7')"


In [0]:
%sql
-- Cantidad total de empleados por cada tipo de rol
SELECT 
    role,
    COUNT(*) as total_staff
FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_staff
GROUP BY role;


role,total_staff
doctor,18
nurse,69
nursing_assistant,23


In [0]:
%sql
-- Creación de la tabla tbl_schedule
CREATE TABLE IF NOT EXISTS hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule (
    week INT,
    staff_id STRING,
    staff_name STRING,
    role STRING,
    service STRING,
    present INT
);

In [0]:
%sql
-- Carga de datos del archivo staff_schedule.csv a la tabla tbl_schedule
COPY INTO hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule
FROM '/Volumes/hospital_san_juan_de_dios/hospital_beds_db/raw_data/staff_schedule.csv'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  "header" = "true",
  "inferSchema" = "true"
)
COPY_OPTIONS ("mergeSchema" = "true");

num_affected_rows,num_inserted_rows,num_skipped_corrupt_files
6552,6552,0


In [0]:
%sql
-- Mostrar columnas, tipos de datos y metadatos almacenados en el metastore.
DESCRIBE hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule

col_name,data_type,comment
week,int,
staff_id,string,
staff_name,string,
role,string,
service,string,
present,int,


In [0]:
%sql
-- Confirmar la definición exacta generada: ubicación, formato, columnas y propiedades.
SHOW CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule

createtab_stmt
"CREATE TABLE hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule (  week INT,  staff_id STRING,  staff_name STRING,  role STRING,  service STRING,  present INT) USING delta COMMENT 'The table tracks staff attendance on a weekly basis. It includes details such as staff ID, name, role, and the specific service they are associated with, along with the number of days they were present. This data can be used for monitoring attendance patterns, evaluating staff engagement, and managing workforce resources.' COLLATION 'UTF8_BINARY' TBLPROPERTIES (  'delta.enableDeletionVectors' = 'true',  'delta.feature.appendOnly' = 'supported',  'delta.feature.deletionVectors' = 'supported',  'delta.feature.invariants' = 'supported',  'delta.minReaderVersion' = '3',  'delta.minWriterVersion' = '7')"


In [0]:
%sql
-- Cuántas veces el personal estuvo presente en cada servicio
SELECT 
    service,
    SUM(present) as total_presencias
FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule
GROUP BY service;


service,total_presencias
emergency,1225
surgery,783
general_medicine,859
ICU,1063


In [0]:
%sql
-- Conteo de registros por servicio de la tabla tbl_schedule
SELECT 
    service, 
    COUNT(*) AS total_registros
FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule
GROUP BY service;


service,total_registros
emergency,2028
surgery,1300
general_medicine,1456
ICU,1768


In [0]:
%sql
-- Cantidad de empleados presentes por semana
SELECT 
    week, 
    SUM(present) AS total_presentes
FROM hospital_san_juan_de_dios.hospital_beds_db.tbl_schedule
GROUP BY week
ORDER BY week;

week,total_presentes
1,116
2,115
3,0
4,107
5,108
6,0
7,115
8,109
9,0
10,112


<ul>
  <li>
    <h3>SQL vs Spark: Ventajas y Desventajas</h3>
  </li>
</ul>

<h4>
  SQL
</h4>

<table border="1">
  <tr>
    <th>VENTAJAS</th>
    <th>DESVENTAJAS</th>
  </tr>

  <tr>
    <td>Es intuitivo y muy extendido; cualquier analista puede ejecutar queries rápidamente.</td>
    <td>Limitado para pipelines complejos que incluyen ETL avanzado, streaming o transformaciones iterativas.</td>
  </tr>

  <tr>
    <td>Permite escribir qué se desea obtener sin definir cómo procesarlo.</td>
    <td>Escasa flexibilidad para UDFs complejas o lógicas no SQL-like.</td>
  </tr>

  <tr>
    <td>Funciona perfectamente con Power BI, Tableau, Looker, Superset, etc.</td>
    <td>No escala horizontalmente de forma nativa como Spark (depende del motor subyacente).</td>
  </tr>

  <tr>
    <td>Excelente para consultas analíticas, Joins, agregaciones, filtros y reportes muy eficientes.</td>
    <td>No es adecuado para procesar grandes volúmenes distribuidos (TB–PB) sin un motor distribuido adicional.</td>
  </tr>

  <tr>
    <td>Óptimo para datos estructurados en motores relacionales tradicionales.</td>
    <td>Menor integración con ML o procesamiento avanzado.</td>
  </tr>

</table>

<h4>
  SPARK
</h4>

<table border="1">
  <tr>
    <th>VENTAJAS</th>
    <th>DESVENTAJAS</th>
  </tr>

  <tr>
    <td>Procesa datos distribuidos en múltiples nodos (ideal para Big Data).</td>
    <td>Curva de aprendizaje más alta que SQL.</td>
  </tr>

  <tr>
    <td>APIs ricas y flexibles, DataFrames, SQL, RDDs, funciones nativas, expresiones, etc.</td>
    <td>Requiere ajustes de rendimiento (particiones, caché, shuffle, broadcast…).</td>
  </tr>

  <tr>
    <td>Permite UDFs complejas en Python, Scala o SQL.</td>
    <td>El debug es más complejo, especialmente en clústeres distribuidos.</td>
  </tr>

  <tr>
    <td>Integración con MLlib, Facilita pipelines de machine learning distribuidos.</td>
    <td>Mayor consumo de recursos comparado con SQL tradicional.</td>
  </tr>

  <tr>
    <td>Ideal para ETL sofisticado, limpieza intensiva y procesamiento batch o streaming.</td>
    <td>Requiere ambiente ejecutor (Databricks, EMR, Cloudera, etc.), no corre “solo”.</td>
  </tr>

</table>

<h4>
  Tabla Comparativa: SQL vs Spark
</h4>

<table border="1">
  <tr>
    <th>Característica</th>
    <th>SQL</th>
    <th>Spark (PySpark)</th>
  </tr>

  <tr>
    <td>Curva de Aprendizaje</td>
    <td>Baja. Es intuitivo, declarativo (dices qué quieres) y es el estándar de la industria.</td>
    <td>Media/Alta. Requiere conocimientos de programación y entender computación distribuida.</td>
  </tr>

  <tr>
    <td>Casos de Uso Ideales</td>
    <td>Consultas ad-hoc, BI, reportes estándar, agregaciones simples y limpieza básica.</td>
    <td>Pipelines ETL complejos, Machine Learning (MLlib), Streaming y datos no estructurados.</td>
  </tr>

  <tr>
    <td>Flexibilidad</td>
    <td>Limitada. Difícil de usar para lógica iterativa o algoritmos complejos.</td>
    <td>Alta. Acceso a todo el ecosistema de Python/Scala, bucles complejos y UDFs potentes.</td>
  </tr>

  <tr>
    <td>Rendimiento (Tuning)</td>
    <td>El motor optimiza la consulta por ti. Menos control manual.</td>
    <td>Permite control total sobre particiones, caché y memoria (pero es fácil cometer errores).</td>
  </tr>

  <tr>
    <td>Integración</td>
    <td>Perfecta con herramientas de visualización (Tableau, PowerBI).</td>
    <td>Ideal para integración con ingeniería de software, APIs y modelos de IA.</td>
  </tr>

</table>