# SQLab: SQL para investigación científica

## ¿Qué es SQL?

SQL (o Structured Query Language) es un lenguaje de programación utilizado para gestionar y manipular bases de datos relacionales.

Es básicamente un Excel en esteroides, ya que maneja de manera eficiente grandes volúmenes de datos (desde 10 GB hasta cientos de petabytes) manteniendo una interfaz de usuario sencilla.


![SQL](https://upload.wikimedia.org/wikipedia/commons/thumb/8/87/Sql_data_base_with_logo.png/640px-Sql_data_base_with_logo.png)

La manera en que se accede a la información de la base de datos se llama *Query* o *Consulta*


## Anatomía de una Query

Una query se conforma de distintas partes:

![Query anatomy](https://www.w3resource.com/w3r_images/select-syntax.gif)


### **SELECT**
Esta es la cláusula principal que especifica **qué columnas** quieres ver. Es lo que pides.

* **Ejemplo:** `SELECT nombre_del_producto, precio`
* **Función:** Le dice a la base de datos "dame los datos de estas columnas".

***

### **FROM**
Esta cláusula indica **de dónde** vas a obtener los datos.

* **Ejemplo:** `FROM tabla_de_productos`
* **Función:** Le dice a la base de datos "busca estos datos en esta tabla".

***

### **WHERE**
Esta cláusula es un filtro que especifica **qué filas** cumplen con una condición.

* **Ejemplo:** `WHERE precio > 100`
* **Función:** Le dice a la base de datos "solo muéstrame las filas donde el precio es mayor a 100".

***

### **GROUP BY**
Esta cláusula agrupa filas que tienen el mismo valor en una o más columnas. Se usa con funciones de agregación como `COUNT`, `SUM` o `AVG`.

* **Ejemplo:** `GROUP BY categoria`
* **Función:** "Agrupa los resultados por cada categoría única, para que pueda contar cuántos productos hay en cada una".

***

### **ORDER BY**
Esta cláusula ordena los resultados de la consulta.

* **Ejemplo:** `ORDER BY precio DESC`
* **Función:** "Ordena los resultados de manera descendente (mayor a menor) basándose en el precio".

***

### **HAVING**
Similar a `WHERE`, pero se usa para filtrar los resultados de un `GROUP BY`.

* **Ejemplo:** `HAVING COUNT(producto) > 50`
* **Función:** "Después de agrupar por categoría, solo incluye las categorías que tienen más de 50 productos".

### **El flujo de una query**

A pesar de que escribes la consulta con `SELECT` al principio, el motor de la base de datos la procesa de una manera diferente. El orden de ejecución es:

1.  **`FROM`**: Selecciona la tabla de origen.
2.  **`WHERE`**: Filtra las filas de esa tabla.
3.  **`GROUP BY`**: Agrupa las filas restantes.
4.  **`HAVING`**: Filtra los grupos.
5.  **`SELECT`**: Elige las columnas que se van a mostrar.
6.  **`ORDER BY`**: Ordena el resultado final.


## Primer query


En este taller vamos a estar ocupando datos de colisiones de partíclas medidos con el detector ATLAS del CERN.
Para más información consultar: 

> ATLAS collaboration (2025). ATLAS ROOT ntuple format Run 2 2015+2016 proton-proton collision data beta release, 2J2LMET30 skim. CERN Open Data Portal. DOI:10.7483/OPENDATA.ATLAS.0CJR.N7ZT

Primero conectamos a la base de datos

In [None]:
import mysql.connector

# Datos de conexión
#Primero declaramos los datos para conectarse
config = {
    'user':"<user>", 
    'password':"<pwd>", 
    'host':"<host address>", 
    'port':3306, 
    'database':"particles"
}

try:
    mydb = mysql.connector.connect(**config)
    cursor = mydb.cursor()
    print("Conexión exitosa a MySQL.")
except mysql.connector.Error as err:
    print(f"Error: {err}")

Conexión exitosa a MySQL.


In [21]:
tables_query = "SHOW TABLES"
cursor.execute(tables_query)
tables = cursor.fetchall()
print("Tablas: ",tables)


Tablas:  [('collisions',), ('jets',), ('leptons',), ('photons',)]


## Usando SELECT

In [22]:
# Consulta 1: Seleccionar todas las columnas de la tabla 'collisions'
query_1 = """
SELECT * 
FROM collisions 
LIMIT 5""" # Usamos LIMIT para no saturar la salida
cursor.execute(query_1)
results_1 = cursor.fetchall()
print("Resultados de la tabla 'collisions':")
for row in results_1:
    print(row)

# Consulta 2: Seleccionar 'met' y 'met_phi' de las colisiones
query_2 = """
SELECT met, met_phi 
FROM collisions 
LIMIT 5"""
cursor.execute(query_2)
results_2 = cursor.fetchall()
print("\nResultados de 'met' y 'met_phi':")
for row in results_2:
    print(row)

Resultados de la tabla 'collisions':
(0, 1, 1, 1, Decimal('57'), Decimal('1'), Decimal('43'), Decimal('38'))
(1, 1, 1, 1, Decimal('32'), Decimal('1'), Decimal('16'), Decimal('28'))
(2, 1, 1, 1, Decimal('41'), Decimal('2'), Decimal('-5'), Decimal('41'))
(3, 1, 1, 1, Decimal('50'), Decimal('-1'), Decimal('17'), Decimal('-47'))
(4, 1, 1, 1, Decimal('39'), Decimal('-3'), Decimal('-39'), Decimal('-7'))

Resultados de 'met' y 'met_phi':
(Decimal('57'), Decimal('1'))
(Decimal('32'), Decimal('1'))
(Decimal('41'), Decimal('2'))
(Decimal('50'), Decimal('-1'))
(Decimal('39'), Decimal('-3'))


#### Reto 1
Escribe una query que obtenga las columnas *lep_type*, *lep_charge* y *lep_eta* de la tabla *leptons*:

In [23]:

reto_1 = """

""" #Escribe la query aquí
cursor.execute(reto_1)
reto_1_res = cursor.fetchall()
print("Resultados del reto 1:")
for row in reto_1_res:
    print(row)

ProgrammingError: 1065 (42000): Query was empty

## Usando WHERE

In [24]:
# Consulta 3: Colisiones donde 'met' es mayor a 50
query_3 = """
SELECT met, met_phi 
FROM collisions 
WHERE met > 50 LIMIT 10"""
cursor.execute(query_3)
results_3 = cursor.fetchall()
print("Colisiones con met > 50:")
for row in results_3:
    print(row)

Colisiones con met > 50:
(Decimal('57'), Decimal('1'))
(Decimal('59'), Decimal('-1'))
(Decimal('82'), Decimal('-2'))
(Decimal('69'), Decimal('3'))
(Decimal('69'), Decimal('1'))
(Decimal('59'), Decimal('1'))
(Decimal('61'), Decimal('1'))
(Decimal('63'), Decimal('1'))
(Decimal('52'), Decimal('-1'))
(Decimal('73'), Decimal('-1'))


#### Reto 2
Escribe una query que devuelva todas las partículas jet de la tabla *jets* cuya energía (jet_e) sea mayor a 100 

In [None]:
reto_2 = """

""" #Escribe la query aquí
cursor.execute(reto_2)
reto_2_res = cursor.fetchall()
print("Resultados del reto 2:")
for row in reto_2_res:
    print(row)

## Usando ORDER BY

In [25]:
# Consulta 4: Las 5 colisiones con el met más alto
query_4 = """
SELECT met, met_phi 
FROM collisions 
ORDER BY met DESC 
LIMIT 5"""
cursor.execute(query_4)
results_4 = cursor.fetchall()
print("\nLas 5 colisiones con el met más alto:")
for row in results_4:
    print(f"met: {row[0]}, met_phi: {row[1]}")  


Las 5 colisiones con el met más alto:
met: 546, met_phi: -2
met: 418, met_phi: -3
met: 398, met_phi: 0
met: 395, met_phi: 3
met: 377, met_phi: 2


#### Reto 3
Escribe una query que muestre los 10 fotones con menor tiempo estimado de llegada (photon_eta) de la tabla photons

In [None]:
reto_3 = """

""" #Escribe la query aquí
cursor.execute(reto_3)
reto_3_res = cursor.fetchall()
print("Resultados del reto 3:")
for row in reto_3_res:
    print(row)

## Usando funciones de agregación

In [27]:
# Consulta 5: Encontrar la energía promedio de los jets
query_5 = """
SELECT AVG(jet_e) 
FROM jets"""
cursor.execute(query_5)
result_5 = cursor.fetchone() # Usamos fetchone() porque la consulta solo devuelve una fila
print(f"\nEnergía promedio de los jets: {result_5[0]}")

# Consulta 6: Contar el número total de leptones
query_6 = """
SELECT COUNT(*) 
FROM leptons"""
cursor.execute(query_6)
result_6 = cursor.fetchone()
print(f"Número total de leptones: {result_6[0]}")


Energía promedio de los jets: 100.8668
Número total de leptones: 21461


### Usando funciones de agregación con GROUP BY

In [28]:
# Consulta 7: Contar el número de leptones por 'lep_type'
query_7 = """
SELECT lep_type, COUNT(*) AS total_leptones
FROM leptons
GROUP BY lep_type
"""
cursor.execute(query_7)
results_7 = cursor.fetchall()
print("\nConteo de leptones por tipo:")
for row in results_7:
    print(f"Tipo {row[0]}: {row[1]} leptones")


Conteo de leptones por tipo:
Tipo 11: 6303 leptones
Tipo 13: 15158 leptones


#### Reto 4
Escribe una query para mostrar la mayor cantidad de energía (*MAX()*) por colisión de la tabla photons.

In [None]:
reto_4 = """

""" #Escribe la query aquí
cursor.execute(reto_4)
reto_4_res = cursor.fetchall()
print("Resultados del reto 4:")
for row in reto_4_res:
    print(row)

## Usando joins

Los **JOINs** en SQL son la forma de combinar filas de dos o más tablas basándose en una columna común. Piensa en ellos como la manera de vincular información relacionada que se encuentra en lugares separados.

-----

### **Tipos principales de JOINs**

#### **1. INNER JOIN**

Este es el tipo más común. Un `INNER JOIN` devuelve solo las filas donde hay una **coincidencia en ambas tablas**. Es como encontrar la intersección de dos conjuntos.

  * **Cuándo usarlo:** Cuando quieres ver solo los registros que tienen información relacionada en ambas tablas.
  * **Ejemplo:** Si quieres una lista de todos los clientes que **han hecho una compra**, vinculas la tabla de `clientes` con la tabla de `pedidos`.
  * 
#### **2. LEFT JOIN** (o LEFT OUTER JOIN)

Un `LEFT JOIN` devuelve **todas las filas de la tabla de la izquierda** y las filas coincidentes de la tabla de la derecha. Si no hay una coincidencia en la tabla derecha, los valores para esa fila serán `NULL`.

  * **Cuándo usarlo:** Cuando quieres ver todos los registros de una tabla, incluso si no tienen una coincidencia en la otra.
  * **Ejemplo:** Si quieres una lista de **todos los clientes**, incluyendo aquellos que **nunca han hecho un pedido**.
  * 
#### **3. RIGHT JOIN** (o RIGHT OUTER JOIN)

Funciona de manera opuesta al `LEFT JOIN`. Un `RIGHT JOIN` devuelve **todas las filas de la tabla de la derecha** y las filas coincidentes de la tabla de la izquierda. Si no hay coincidencia, los valores de la tabla izquierda serán `NULL`.

  * **Cuándo usarlo:** Cuando la tabla de la derecha es tu punto de referencia principal.
  * **Ejemplo:** Si quieres ver **todos los pedidos**, incluso si por alguna razón no tienen un cliente asociado.
  * 
#### **4. FULL OUTER JOIN**

Un `FULL OUTER JOIN` devuelve **todas las filas de ambas tablas**, combinando las que coinciden y mostrando `NULL` donde no hay una coincidencia en una u otra tabla.

  * **Cuándo usarlo:** Cuando quieres ver todos los registros de ambas tablas para encontrar coincidencias o valores faltantes en ambos lados.
  * **Ejemplo:** Si quieres una lista de **todos los clientes y todos los pedidos**, y quieres ver qué pedidos no tienen cliente y qué clientes no tienen pedido.
  * 

-----

![Join types](https://miro.medium.com/1*O1OF5tmI-g7CnAERuUv1Wg.png)

### **Sintaxis Básica**

La sintaxis para todos los JOINs es similar:

```sql
SELECT
    columnas
FROM
    tabla_A
TIPO_DE_JOIN tabla_B ON tabla_A.columna_común = tabla_B.columna_común;
```

In [29]:
# Consulta 8: Obtener el met de la colisión junto con el tipo y carga del leptón
query_8 = """
SELECT T1.met, T2.lep_type, T2.lep_charge
FROM collisions AS T1
JOIN leptons AS T2 ON T1.collision_ID = T2.collision_ID
LIMIT 10
"""
cursor.execute(query_8)
results_8 = cursor.fetchall()
print("\nUnión de colisiones y leptones:")
for row in results_8:
    print(f"met: {row[0]}, Tipo de leptón: {row[1]}, Carga: {row[2]}")


Unión de colisiones y leptones:
met: 57, Tipo de leptón: 11, Carga: -1
met: 57, Tipo de leptón: 11, Carga: -1
met: 57, Tipo de leptón: 13, Carga: 1
met: 32, Tipo de leptón: 11, Carga: 1
met: 32, Tipo de leptón: 11, Carga: -1
met: 41, Tipo de leptón: 13, Carga: -1
met: 41, Tipo de leptón: 13, Carga: 1
met: 50, Tipo de leptón: 13, Carga: -1
met: 50, Tipo de leptón: 13, Carga: 1
met: 39, Tipo de leptón: 13, Carga: 1


#### Reto 5
Escribe una query para unir la tabla collisions con la tabla jets y muestra el collision_ID,  jet_pt,   jet_eta,  jet_phi,  jet_e, jet_btag_quantile

In [None]:
reto_5 = """

""" #Escribe la query aquí
cursor.execute(reto_5)
reto_5_res = cursor.fetchall()
print("Resultados del reto 5:")
for row in reto_5_res:
    print(row)

## Subqueries

Las subqueries son consultas SQL que están **dentro de otra query SQL**. Permiten realizar operaciones mas complejas.

-----

### **Tipos de Subqueries**

Hay dos tipos principales de subqueries, según su posición en la query principal:

#### **1. Subqueries en la cláusula `WHERE`**

Este es el uso más común. La subquery se utiliza para filtrar filas en la consulta externa. A menudo se usan con operadores como `=`, `IN`, `EXISTS` o con operadores de comparación como `>`, `<`.

  * **Ejemplo:** ¿Qué empleados ganan más que el salario promedio?
      * **Consulta Principal:** `SELECT nombre FROM empleados`
      * **Subquery (dentro de `WHERE`):** `(SELECT AVG(salario) FROM empleados)`
      * **Consulta Completa:**
        ```sql
        SELECT nombre
        FROM empleados
        WHERE salario > (SELECT AVG(salario) FROM empleados);
        ```

#### **2. Subqueries en la cláusula `FROM`**

Una subquery en la cláusula `FROM` se conoce como **tabla derivada**. El resultado de la subquery se trata como una tabla temporal que la consulta principal puede usar.

  * **Ejemplo:** ¿Cuál es el salario promedio por departamento?
      * **Consulta Principal:** `SELECT AVG(salario_promedio)`
      * **Subquery (dentro de `FROM`):** `(SELECT departamento, AVG(salario) AS salario_promedio FROM empleados GROUP BY departamento)`
      * **Consulta Completa:**
        ```sql
        SELECT AVG(salario_promedio)
        FROM (
            SELECT departamento, AVG(salario) AS salario_promedio
            FROM empleados
            GROUP BY departamento
        ) AS salarios_por_depto;
        ```
      * **Nota:** La tabla derivada (`salarios_por_depto`) debe tener un alias (`AS`) para ser referenciada por la consulta principal.

-----


![Subqueries](https://media.geeksforgeeks.org/wp-content/uploads/20240109190230/Correlated_Subquery.png)


In [30]:
# %%
# Consulta 9: Obtener la energía promedio de los fotones por colisión
query_9 = """
SELECT * 
FROM
(SELECT
  collision_ID,
  AVG(photon_e) AS avg_photon_energy
FROM
  photons
GROUP BY collision_ID) AS avg_e
WHERE avg_photon_energy > 50
LIMIT 10
"""
cursor.execute(query_9)
results_10 = cursor.fetchall()

print("\nEnergía Promedio de Fotones por Colisión:")
for row in results_10:
    print(f"Colisión ID: {row[0]}, Energía Promedio de Fotones: {row[1]:.2f} MeV")


Energía Promedio de Fotones por Colisión:
Colisión ID: 119, Energía Promedio de Fotones: 81.68 MeV
Colisión ID: 243, Energía Promedio de Fotones: 145.51 MeV
Colisión ID: 451, Energía Promedio de Fotones: 86.14 MeV
Colisión ID: 652, Energía Promedio de Fotones: 60.39 MeV
Colisión ID: 725, Energía Promedio de Fotones: 256.07 MeV
Colisión ID: 834, Energía Promedio de Fotones: 163.21 MeV
Colisión ID: 862, Energía Promedio de Fotones: 68.84 MeV
Colisión ID: 1433, Energía Promedio de Fotones: 99.76 MeV
Colisión ID: 1492, Energía Promedio de Fotones: 67.32 MeV
Colisión ID: 1502, Energía Promedio de Fotones: 62.90 MeV


### Reto 6

Obten la energía promedio por colisión de los leptones

In [None]:
reto_6 = """

""" #Escribe la query aquí
cursor.execute(reto_6)
reto_6_res = cursor.fetchall()
print("Resultados del reto 6:")
for row in reto_6_res:
    print(row)

# Siguientes pasos

## Obtener la certificación de SQL de Hackerrank

![SQL cert](https://cdn.cookielaw.org/logos/1584f550-08c0-4bad-96c7-defdf4ec01af/01950562-180d-7c3f-b1f4-95192c23808c/185ef56f-a601-4a52-a61e-0f8cbbafe82d/Screenshot_2025-02-14_at_16.51.18.png)

***

### 1. Accede a la página de Certificaciones

Ir al sitio web de [HackerRank](https://www.hackerrank.com/skills-verification/sql_basic) y navegar hasta la sección de Certificaciones. Buscar  **SQL (Basic)**.

***

### 2. Revisar temario

El examen básico de SQL cubre temas como:
* **Consultas básicas:** `SELECT`, `FROM`, `WHERE`.
* **Uniones de tablas:** `JOIN`, `LEFT JOIN`, `RIGHT JOIN`, `INNER JOIN`.
* **Funciones de agregación:** `COUNT()`, `SUM()`, `AVG()`, `MIN()`, `MAX()`.
* **Agrupamiento y filtrado:** `GROUP BY`
* **Consultas anidadas:** `Subqueries`.



***

### 3. Practicar en la Plataforma

[HackerRank](https://www.hackerrank.com/domains/sql) tiene ejercicios HandsOn diseñados para el examen. Intentar resolver tantos como se pueda.

***

### 4. Tomar el Examen

El examen de SQL (Básico) tiene un formato de 30 minutos y consta de desafíos de queries. 
Hay que escribir consultas SQL en un editor de código y ejecutar un conjunto de pruebas para verificar que tus respuestas sean correctas.

***

### 5. Recibir Certificado

Si pasas el examen, el certificado digital se generará y estará disponible para que lo descargues en tu perfil de HackerRank. Puedes compartir el enlace en tu currículum o en redes profesionales como LinkedIn.

## ¡Muchas gracias por su tiempo, espero hayan aprendido y se hayan divertido!  ❤️❤️