# SQLab: SQL para investigación científica

## ¿Qué es SQL?

SQL (o Structured Query Language) es un lenguaje de programación utilizado para gestionar y manipular bases de datos relacionales.

Es básicamente un Excel en esteroides, ya que maneja de manera eficiente grandes volúmenes de datos (desde 10 GB hasta cientos de petabytes) manteniendo una interfaz de usuario sencilla.


![SQL](https://upload.wikimedia.org/wikipedia/commons/thumb/8/87/Sql_data_base_with_logo.png/640px-Sql_data_base_with_logo.png)

La manera en que se accede a la información de la base de datos se llama *Query* o *Consulta*


## Anatomía de una Query

Una query se conforma de distintas partes:

![Query anatomy](https://www.w3resource.com/w3r_images/select-syntax.gif)


### **SELECT**
Esta es la cláusula principal que especifica **qué columnas** quieres ver. Es lo que pides.

* **Ejemplo:** `SELECT nombre_del_producto, precio`
* **Función:** Le dice a la base de datos "dame los datos de estas columnas".

***

### **FROM**
Esta cláusula indica **de dónde** vas a obtener los datos.

* **Ejemplo:** `FROM tabla_de_productos`
* **Función:** Le dice a la base de datos "busca estos datos en esta tabla".

***

### **WHERE**
Esta cláusula es un filtro que especifica **qué filas** cumplen con una condición.

* **Ejemplo:** `WHERE precio > 100`
* **Función:** Le dice a la base de datos "solo muéstrame las filas donde el precio es mayor a 100".

***

### **GROUP BY**
Esta cláusula agrupa filas que tienen el mismo valor en una o más columnas. Se usa con funciones de agregación como `COUNT`, `SUM` o `AVG`.

* **Ejemplo:** `GROUP BY categoria`
* **Función:** "Agrupa los resultados por cada categoría única, para que pueda contar cuántos productos hay en cada una".

***

### **ORDER BY**
Esta cláusula ordena los resultados de la consulta.

* **Ejemplo:** `ORDER BY precio DESC`
* **Función:** "Ordena los resultados de manera descendente (mayor a menor) basándose en el precio".

***

### **HAVING**
Similar a `WHERE`, pero se usa para filtrar los resultados de un `GROUP BY`.

* **Ejemplo:** `HAVING COUNT(producto) > 50`
* **Función:** "Después de agrupar por categoría, solo incluye las categorías que tienen más de 50 productos".

### **El flujo de una query**

A pesar de que escribes la consulta con `SELECT` al principio, el motor de la base de datos la procesa de una manera diferente. El orden de ejecución es:

1.  **`FROM`**: Selecciona la tabla de origen.
2.  **`WHERE`**: Filtra las filas de esa tabla.
3.  **`GROUP BY`**: Agrupa las filas restantes.
4.  **`HAVING`**: Filtra los grupos.
5.  **`SELECT`**: Elige las columnas que se van a mostrar.
6.  **`ORDER BY`**: Ordena el resultado final.


## Primer query


En este taller vamos a estar ocupando datos de colisiones de partíclas medidos con el detector ATLAS del CERN.
Para más información consultar: 

> ATLAS collaboration (2025). ATLAS ROOT ntuple format Run 2 2015+2016 proton-proton collision data beta release, 2J2LMET30 skim. CERN Open Data Portal. DOI:10.7483/OPENDATA.ATLAS.0CJR.N7ZT

Primero conectamos a la base de datos

In [None]:
import mysql.connector

# Datos de conexión
#Primero declaramos los datos para conectarse
config = {
    'user':"<user>", 
    'password':"<pwd>", 
    'host':"<host address>", 
    'port':3306, 
    'database':"particles"
}

try:
    mydb = mysql.connector.connect(**config)
    cursor = mydb.cursor()
    print("Conexión exitosa a MySQL.")
except mysql.connector.Error as err:
    print(f"Error: {err}")

Conexión exitosa a MySQL.


In [3]:
# Consulta 1: Seleccionar todas las columnas de la tabla 'collisions'
query_1 = "SELECT * FROM collisions LIMIT 5" # Usamos LIMIT para no saturar la salida
cursor.execute(query_1)
results_1 = cursor.fetchall()
print("Resultados de la tabla 'collisions':")
for row in results_1:
    print(row)

# Consulta 2: Seleccionar 'met' y 'met_phi' de las colisiones
query_2 = "SELECT met, met_phi FROM collisions LIMIT 5"
cursor.execute(query_2)
results_2 = cursor.fetchall()
print("\nResultados de 'met' y 'met_phi':")
for row in results_2:
    print(row)

Resultados de la tabla 'collisions':
(0, 1, 1, 1, Decimal('57'), Decimal('1'), Decimal('43'), Decimal('38'))
(1, 1, 1, 1, Decimal('32'), Decimal('1'), Decimal('16'), Decimal('28'))
(2, 1, 1, 1, Decimal('41'), Decimal('2'), Decimal('-5'), Decimal('41'))
(3, 1, 1, 1, Decimal('50'), Decimal('-1'), Decimal('17'), Decimal('-47'))
(4, 1, 1, 1, Decimal('39'), Decimal('-3'), Decimal('-39'), Decimal('-7'))

Resultados de 'met' y 'met_phi':
(Decimal('57'), Decimal('1'))
(Decimal('32'), Decimal('1'))
(Decimal('41'), Decimal('2'))
(Decimal('50'), Decimal('-1'))
(Decimal('39'), Decimal('-3'))


In [4]:
# Consulta 3: Colisiones donde 'met' es mayor a 50
query_3 = "SELECT met, met_phi FROM collisions WHERE met > 50 LIMIT 10"
cursor.execute(query_3)
results_3 = cursor.fetchall()
print("Colisiones con met > 50:")
for row in results_3:
    print(row)

Colisiones con met > 50:
(Decimal('57'), Decimal('1'))
(Decimal('59'), Decimal('-1'))
(Decimal('82'), Decimal('-2'))
(Decimal('69'), Decimal('3'))
(Decimal('69'), Decimal('1'))
(Decimal('59'), Decimal('1'))
(Decimal('61'), Decimal('1'))
(Decimal('63'), Decimal('1'))
(Decimal('52'), Decimal('-1'))
(Decimal('73'), Decimal('-1'))


In [5]:
# Consulta 4: Encontrar la energía promedio de los jets
query_4 = "SELECT AVG(jet_e) FROM jets"
cursor.execute(query_4)
result_4 = cursor.fetchone() # Usamos fetchone() porque la consulta solo devuelve una fila
print(f"\nEnergía promedio de los jets: {result_4[0]}")

# Consulta 5: Contar el número total de leptones
query_5 = "SELECT COUNT(*) FROM leptons"
cursor.execute(query_5)
result_5 = cursor.fetchone()
print(f"Número total de leptones: {result_5[0]}")


Energía promedio de los jets: 100.8668
Número total de leptones: 21461


In [6]:
# Consulta 6: Contar el número de leptones por 'lep_type'
query_6 = """
SELECT lep_type, COUNT(*) AS total_leptones
FROM leptons
GROUP BY lep_type
"""
cursor.execute(query_6)
results_6 = cursor.fetchall()
print("\nConteo de leptones por tipo:")
for row in results_6:
    print(f"Tipo {row[0]}: {row[1]} leptones")


Conteo de leptones por tipo:
Tipo 11: 6303 leptones
Tipo 13: 15158 leptones


In [7]:
# Consulta 7: Obtener el met de la colisión junto con el tipo y carga del leptón
query_7 = """
SELECT T1.met, T2.lep_type, T2.lep_charge
FROM collisions AS T1
JOIN leptons AS T2 ON T1.collision_ID = T2.collision_ID
LIMIT 10
"""
cursor.execute(query_7)
results_7 = cursor.fetchall()
print("\nUnión de colisiones y leptones:")
for row in results_7:
    print(f"met: {row[0]}, Tipo de leptón: {row[1]}, Carga: {row[2]}")


Unión de colisiones y leptones:
met: 57, Tipo de leptón: 11, Carga: -1
met: 57, Tipo de leptón: 11, Carga: -1
met: 57, Tipo de leptón: 13, Carga: 1
met: 32, Tipo de leptón: 11, Carga: 1
met: 32, Tipo de leptón: 11, Carga: -1
met: 41, Tipo de leptón: 13, Carga: -1
met: 41, Tipo de leptón: 13, Carga: 1
met: 50, Tipo de leptón: 13, Carga: -1
met: 50, Tipo de leptón: 13, Carga: 1
met: 39, Tipo de leptón: 13, Carga: 1


In [8]:
# Consulta 8: Las 5 colisiones con el met más alto
query_8 = "SELECT met, met_phi FROM collisions ORDER BY met DESC LIMIT 5"
cursor.execute(query_8)
results_8 = cursor.fetchall()
print("\nLas 5 colisiones con el met más alto:")
for row in results_8:
    print(f"met: {row[0]}, met_phi: {row[1]}")  


Las 5 colisiones con el met más alto:
met: 546, met_phi: -2
met: 418, met_phi: -3
met: 398, met_phi: 0
met: 395, met_phi: 3
met: 377, met_phi: 2
