# Clase 2: SQL

<a id="section_toc"></a> 
## Tabla de Contenidos

[0. Introducción](#introduccion)

[$\hspace{.5cm}$ 1).¿Por qué y para qué fue creado SQL?](#porque)

[$\hspace{.5cm}$ 2). ¿Por qué aprender SQL si ya vimos pandas?](#pandas)

[$\hspace{.5cm}$ 4). Objetivo de la clase ](#objetivo)

[$\hspace{.5cm}$ 5). JupySQL](#jupy)


[1. Comandos Básicos](#comandos)

[$\hspace{.5cm}$ 1). `SELECT` y `FROM`](#select)

[$\hspace{.5cm}$ 2). `LIMIT`](#limit)

[$\hspace{.5cm}$ 3). `WHERE` ?](#where)

[$\hspace{.5cm}$ 4). `COUNT()`](#count)

[$\hspace{.5cm}$ 5). `ORDER BY`](#order)

[$\hspace{.5cm}$ 6). `GROUP BY`](#group)


[2. Operaciones avanzadas de filtrado con `WHERE`](#where2)

[$\hspace{.5cm}$ 1). Múltiples criterios (`AND` y `OR`)](#mcriterios)

[$\hspace{.5cm}$ 2).`BETWEEN`](#between)

[$\hspace{.5cm}$ 3). Filtrando texto (`LIKE` y `NOT LIKE`)](#texto)

[3. Funciones de agregación](#agregacion)

[$\hspace{.5cm}$ 1). Funciones de agregación básicas](#basicas)

[$\hspace{.5cm}$ 2). `ROUND()`](#round)

[$\hspace{.5cm}$ 3). Operaciones avanzadas con `GROUP BY` y `ORDER BY` (`HAVING`) ](#avan)

[4. JOINS](#comandos)

[$\hspace{.5cm}$ 1). `INNER JOIN`](#inner)

[$\hspace{.5cm}$ 1'). `INNER JOIN` con dos columnas](#inner2)

[$\hspace{.5cm}$ 2). `OUTER JOIN`](#outer)

[$\hspace{.9cm}$ a. `LEFT JOIN`](#left)

[$\hspace{.9cm}$ b.`RIGHT JOIN`](#right)

[$\hspace{.9cm}$ c. `FULL JOIN`](#full)

[$\hspace{.5cm}$ 3). `CROSS JOIN`](#cross)

[$\hspace{.5cm}$ 4). `SELF JOIN`](#self)

[$\hspace{.5cm}$ 3). `CROSS JOIN`](#cross)

[5. Operaciones de conjuntos con SQL](#set)

[$\hspace{.5cm}$ 1). `UNION ALL`](#unionall)

[$\hspace{.5cm}$ 2). `UNION`](#union)

[$\hspace{.5cm}$ 3). `INTERSECT`](#intersect)

[$\hspace{.5cm}$ 4). `EXCEPT`](#except)

<a id="introduccion"></a> 

# Introducción

<a id="porque"></a> 

## 1). ¿Por qué y para qué fue creado SQL?


SQL (Structured Query Language) fue creado para proporcionar una forma estandarizada de interactuar con bases de datos relacionales. A continuación te explico el propósito específico de su creación y algunas de las razones clave detrás de su desarrollo:

### 1. Facilitar la manipulación de datos estructurados**

SQL fue creado en la década de 1970 en IBM por Donald D. Chamberlin y Raymond F. Boyce como parte del proyecto System R, un sistema que implementaba el modelo relacional propuesto por Edgar F. Codd. Este modelo organizaba los datos en tablas (o relaciones), y SQL fue diseñado como un lenguaje que permitiera consultar, manipular y gestionar estos datos de manera estructurada y coherente.

### 2. Un lenguaje declarativo para bases de datos relacionales
SQL fue creado como un lenguaje declarativo, lo que significa que los usuarios pueden especificar "qué" quieren obtener sin necesidad de indicar "cómo" debe hacerlo el sistema. Esto facilita el trabajo con bases de datos, ya que el motor de la base de datos es responsable de optimizar y ejecutar las consultas de la manera más eficiente posible.

### 3. Estandarización del acceso a los datos
Antes de SQL, cada sistema de bases de datos tenía su propio lenguaje para interactuar con los datos, lo que complicaba el uso de diferentes tecnologías. SQL fue creado como un estándar que permitiera a los usuarios interactuar con diferentes sistemas de bases de datos utilizando un único lenguaje común, promoviendo la interoperabilidad entre sistemas.

### 4. Proveer acceso eficiente a datos almacenados
SQL fue diseñado para realizar consultas eficientes en bases de datos de gran tamaño. Permitía a los usuarios recuperar solo los datos necesarios, sin tener que manejar grandes volúmenes de información directamente en la aplicación, lo que ahorraba memoria y tiempo de procesamiento.

### 5. Manipulación y gestión de datos de manera sencilla
SQL facilita tanto la consulta de datos (con operaciones como SELECT) como su manipulación (con comandos como INSERT, UPDATE y DELETE). Además, permite la creación y modificación de la estructura de la base de datos (con CREATE, ALTER, DROP), proporcionando un control total sobre la gestión de datos en un sistema relacional.

### 6. Soporte para múltiples usuarios y transacciones
SQL también fue diseñado para permitir la concurrencia, es decir, el acceso simultáneo de múltiples usuarios a la base de datos sin que las consultas se afecten entre sí. Esto incluye el manejo de transacciones, que asegura que las operaciones en la base de datos sean atómicas (todo o nada), consistentes, aisladas y duraderas (propiedades ACID).

### 7. Manipulación de datos relacionales
Una de las razones claves de la creación de SQL fue proporcionar un lenguaje para manejar los datos en un formato relacional, lo que significa que los datos están organizados en tablas con filas y columnas. SQL permite realizar operaciones complejas en estos datos como joins, agregaciones y subconsultas, permitiendo trabajar con datos interrelacionados de una manera eficiente.

### 8. Acceso interactivo a los datos
En sus inicios, SQL fue diseñado para proporcionar un acceso interactivo a los datos, permitiendo a los usuarios realizar consultas en tiempo real y obtener resultados instantáneamente, sin necesidad de escribir programas completos para hacer estas consultas.

En resumen, SQL fue creado para ofrecer un lenguaje simple, eficiente y estandarizado para interactuar con bases de datos relacionales, permitiendo consultas, manipulación y gestión de datos estructurados de manera declarativa y eficiente, todo dentro de un marco de trabajo que soporta la concurrencia y garantiza la integridad de los datos.

<a id="pandas"></a> 

## 2). ¿Por qué aprender SQL si ya vimos pandas?
Si bien lo vimos la clase pasada, me parece importante recalcar por qué es necesario aprender SQL si existe Python y pandas:

### 1. Acceso directo a bases de datos relacionales
SQL es el lenguaje estándar para interactuar directamente con bases de datos relacionales. Si bien Pandas es excelente para análisis y transformación de datos, no está diseñado para consultar grandes bases de datos directamente. SQL te permite obtener exactamente los datos que necesitas de una base de datos, aplicando filtros, agregaciones y transformaciones desde la fuente, lo que reduce la cantidad de datos que necesitas cargar en memoria.

### 2. Eficiencia en el manejo de grandes volúmenes de datos
Cuando trabajas con datasets muy grandes, como los que pueden encontrarse en aplicaciones empresariales o en big data, es mucho más eficiente dejar que el sistema de bases de datos realice las operaciones pesadas. Las consultas SQL se ejecutan en el servidor de la base de datos, que está optimizado para manejar grandes volúmenes de datos y ejecutar operaciones de manera eficiente, mientras que cargar estos datos en Pandas puede ser lento e intensivo en términos de memoria.

### 3. Optimización y escalabilidad
Los sistemas de bases de datos están diseñados para optimizar la ejecución de consultas SQL a través de índices, partitions, caching, y otras técnicas avanzadas. Las operaciones en SQL suelen ser más rápidas y escalables para grandes conjuntos de datos que hacer lo mismo con Pandas o Python, que dependen de la capacidad de procesamiento local.

### 4. Operaciones distribuidas y concurrentes
Muchas bases de datos permiten ejecutar consultas en paralelo o en clústeres distribuidos, lo cual es mucho más difícil de implementar con Pandas o Python sin usar herramientas adicionales de computación distribuida como Dask o Spark. SQL está diseñado para ejecutarse de manera eficiente en entornos concurrentes y distribuidos.

### 5. SQL para tareas complejas de combinación de datos (JOINs)
Si bien Pandas tiene funciones para hacer combinaciones (joins) de datos, SQL está especialmente optimizado para este tipo de tareas en bases de datos relacionales. Las consultas SQL permiten realizar combinaciones complejas entre múltiples tablas de manera más eficiente, mientras que en Pandas estas operaciones pueden volverse más costosas en términos de rendimiento a medida que el tamaño de los datos crece.

### 6. Menor carga en la memoria
Al realizar consultas SQL, puedes reducir la cantidad de datos que traes a tu máquina local. En lugar de cargar todo un dataset en Pandas y luego filtrar o transformar, puedes usar SQL para traer solo lo necesario, minimizando el uso de memoria y aumentando la eficiencia del proceso.

### 7. Integración con sistemas empresariales
Muchas organizaciones usan bases de datos SQL para almacenar y gestionar sus datos operativos. Saber SQL te permite trabajar directamente con estas bases de datos y extraer los datos sin necesidad de mover grandes volúmenes a otros formatos como CSV o Excel, que luego necesitarías cargar en Pandas.

### 8. Interoperabilidad
SQL es un lenguaje estándar que es compatible con casi todas las bases de datos relacionales, por lo que aprender SQL te permite trabajar con cualquier sistema de base de datos, sin importar la herramienta específica. Python y Pandas no tienen ese nivel de universalidad en cuanto a integración directa con bases de datos.

### 9. Complementariedad con Python y Pandas
SQL y Pandas no son mutuamente excluyentes, sino complementarios. SQL puede usarse para hacer la primera etapa de extracción y filtrado de datos, mientras que Pandas y Python pueden encargarse del análisis más detallado, visualizaciones, o modelos de machine learning. De hecho, muchos flujos de trabajo combinan ambos: primero se extraen y preparan los datos con SQL, y luego se profundiza el análisis con Python.

### 10. SQL en producción
En entornos de producción, muchas veces es más eficiente y seguro dejar consultas predefinidas en SQL que confiar en que un proceso en Python siempre funcione correctamente. Además, muchas herramientas de análisis empresarial, como dashboards o ETL (por ejemplo, DBT), dependen fuertemente de SQL para hacer transformaciones y cálculos en bases de datos.

<a id="sql"></a> 

## 3). ¿Qué es SQL?

SQL (Structured Query Language) es un lenguaje de programación estandarizado que se utiliza para gestionar bases de datos relacionales. Permite realizar diversas operaciones como:

* **Crear y modificar bases de datos**: Definir la estructura de la base de datos, crear tablas, modificar campos, etc.

* **Insertar, actualizar y eliminar datos**: Manipular la información almacenada en las tablas.

* **Consultar datos**: Extraer información específica de la base de datos.
En este curso nos enfocaremos en las consultas.

<a id="objetivo"></a> 

## 4). Objetivo de la clase: 
**Que aprendan las funciones de SQL más importantes para que puedan interactuar con los datos de sus proyectos y entenderlos mejor. Tener más conocimiento de su base les va a dar posibilidad de tomar mejores decisiones en cuanto a sus proyectos.**

Como en la clase anterior, les voy a mostrar las funciones con los datos de mi proyecto. Luego les voy a hacer algunas preguntas para que puedan responderlas con sus bases y los comandos que vamos a ver.

### GTFS Static

Los ejemplos que vamos a ver están relacionados a una base "GTFS Static" de colectivos de la ciudad de buenos aires.

GTFS Static es un formato estándar para representar información de transporte público. Define un conjunto de archivos de texto con datos como:

* **agency.txt**: Información sobre las agencias de transporte.

* **routes.txt**: Información sobre las rutas de los colectivos.

* **trips.txt**: Información sobre los viajes que realizan los colectivos.

* **stops.txt**: Información sobre las paradas de los colectivos.

* **stop_times.txt**: Información sobre los horarios de llegada y salida de los colectivos en cada parada.

<a id="jupy"></a> 

## 5). JupySQL
es una extensión de Jupyter que permite interactuar con bases de datos SQL directamente desde un notebook de Jupyter utilizando comandos de SQL. Sirve como una herramienta para combinar la potencia de SQL con la flexibilidad de Python en el entorno interactivo de Jupyter.

Para conectarse a una base con JupySQL hay que ejecutar:

```python
# Importa la extensión de JupySQL
%load_ext sql

# Conéctate a PostgreSQL usando psycopg2
%sql postgresql://usuario:contraseña@host:puerto/nombre_base_datos
```
(hay que Reemplazar usuario, contraseña, host, puerto, y nombre_base_datos con los detalles correctos de tu conexión a la base de datos PostgreSQL)

Una vez que hayas establecido la conexión, puedes empezar a escribir y ejecutar consultas SQL dentro de las celdas de tu notebook con el comando:

```python 
%%sql
SELECT ...
```


En mi caso me conecto a la base con las siguientes credenciales (Tienen que fijarse en su Docker Compose que crendenciales tienen para conectarse):

```yaml
    environment:
      POSTGRES_USER: postgres
      POSTGRES_PASSWORD: 1234
      POSTGRES_DB: gtfs
```


In [5]:
# Importa la extensión de JupySQL
%load_ext sql

# Conéctate a PostgreSQL usando psycopg2
%sql postgresql://postgres:1234@localhost:5434/gtfs

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


<a id="comandods"></a> 

# 1. Comandos Básicos

Cuando empezamos a usar SQL, lo primero que necesitamos aprender son los comandos básicos. Estos son los que nos permiten pedirle a la base de datos exactamente lo que queremos: seleccionar las columnas que nos interesan, filtrar los datos, ordenarlos, o incluso limitarlos a un número específico de resultados. Son como las herramientas esenciales que vamos a usar en casi todas nuestras consultas, desde las más simples hasta las más complejas.

Estos comandos son la base de todo en SQL y nos van a ayudar a sacar la información que necesitamos de manera clara y precisa. A medida que los vayamos combinando, vamos a poder hacer cosas más interesantes, como agrupar datos y aplicar filtros específicos.

En esta parte del curso, vamos a ver los comandos más fundamentales: `SELECT`, `FROM`, `WHERE`, `GROUP BY`, `ORDER BY` y `LIMIT`. Con estos, vas a poder consultar y manipular tus datos de forma efectiva y hacer que SQL haga lo que vos necesitás.

<a id="select"></a> 
### 1). `SELECT` y `FROM`

`SELECT`:  Se utiliza para seleccionar las columnas que se desean mostrar en el resultado de la consulta.

`SELECT column1, column2, ...`: Selecciona las columnas especificadas.

`FROM`:  Indica la tabla de la que se van a extraer los datos

Por ejemplo, acá seleccionamos solamente las columnas "route_id", "route_short_name" y "route_long_name" de la tabla routes


In [7]:
%%sql
SELECT route_id, route_short_name, route_long_name
FROM gtfs.routes
;

route_id,route_short_name,route_long_name
4167,505R3,JMALBR505
4168,505R4,JMALBR505
4169,505R5,JMALBR505
4170,505R6,JMALBR505
4171,506R1,JMALBR506
4172,506R2,JMALBR506
4173,506R3,JMALBR506
4174,506R4,JMALBR506
4175,506R5,JMALBR506
4176,506R6,JMALBR506


`SELECT *`: Selecciona todas las columnas de la tabla.


In [8]:
%%sql
SELECT *
FROM gtfs.agency; 

agency_id,agency_name,agency_url,agency_timezone,agency_lang,agency_phone
82,MICROOMNIBUS SAAVEDRA S.A.T.A.C.I.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
14,TRANSP. AUTOMOTORES 12 DE OCTUBRE S.A.C.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
20,EMPRESA TANDILENSE S.A.C.I.F.I.Y DE S.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
63,EL NUEVO HALCON S.A.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
72,MICRO OMNIBUS QUILMES S.A.C.I. Y F.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
3,D.O.T.A. S.A. DE TRANSPORTE AUTOMOTOR,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
4,NUDO S.A.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
5,TRANSPORTES RIO GRANDE S.A.C.I.F.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
6,TRANSPORTES AUTOMOTORES CALLAO S.A.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,
7,TRANSPORTES AUTOMOTORES RIACHUELO S.A.,https://www.argentina.gob.ar/cnrt,America/Argentina/Buenos_Aires,ES,


<a id="limit"></a> 
### 2). `LIMIT`

`LIMIT`: Limita la cantidad de filas que se devuelven en la consulta

Es importante usar `LIMIT` en SQL para optimizar las consultas, especialmente cuando trabajas con grandes volúmenes de datos y queres ver solamente como se ven los primeros registros de una tabla sin necesidad de tener que ver todos. En estos ejemplos que estamos viendo casi siempre voy a utilizarlo para evitar que Postgres mande una cantidad enorme de datos al Jupyter notebook.

Este ejemplo muestra solo las primeras 2 filas de la tabla `stops`.

In [9]:
%%sql
SELECT *
FROM gtfs.stops
LIMIT 2;

stop_id,stop_code,stop_name,stop_lat,stop_lon
6574104006,6574104006,CALLE 119 Y CALLE 18,-35.005688,-59.269982
6441111945,6441111945,AVENIDA 66_173,-34.988475,-58.003375


<a id="where"></a> 

### 3. `WHERE`

`WHERE`:  Se utiliza para filtrar los datos según una condición.

`WHERE column = value`: Filtra los datos donde el valor de la columna especificada es igual al valor dado.

Se pueden usar otros operadores de comparación como:

* `>` (mayor que)

* `<` (menor que)

* `>=` (mayor o igual que)

* `<=` (menor o igual que)

* `!=` o `<>` (distinto de)

Este ejemplo muestra los horarios de llegada posteriores a las 8:00 AM de la tabla `stop_times`.

In [10]:
%%sql
SELECT *
FROM gtfs.stop_times
WHERE arrival_time > '08:00:00'
LIMIT 5

trip_id,arrival_time,departure_time,stop_id,stop_sequence,timepoint,shape_dist_traveled
29-1,08:00:26,08:00:26,205289,38,0,13123.0
29-1,08:01:18,08:01:18,2031509,39,0,13332.0
29-1,08:02:10,08:02:10,206292,40,0,13548.0
29-1,08:02:48,08:02:48,205019,41,1,13702.0
29-1,08:03:32,08:03:32,205012,42,0,13890.0


Mostrar las paradas con latitud mayor a -34.65

In [11]:
%%sql
SELECT *
FROM gtfs.stops
WHERE stop_lat > -34.65
LIMIT 10

stop_id,stop_code,stop_name,stop_lat,stop_lon
203488,203488,4806 DIRECTORIO AV.,-34.649558,-58.489502
205550,205550,627 SAN ANTONIO,-34.649555,-58.378032
203484,203484,4773 DIRECTORIO AV.,-34.649233,-58.48912
2032712,2032712,902 MONTIEL,-34.648787,-58.525795
2033209,2033209,1918 HORNOS GRAL.,-34.648597,-58.373695
203833,203833,2983 LA PLATA AV.,-34.648275,-58.416575
203354,203354,671 SAENZ AV.,-34.64775,-58.416205
6539129370,6539129370,AVENIDA HIPÓLITO YRIGOYEN 1949-1999,-34.647723,-58.719532
6840118165,6840118165,INGENIERO PEREYRA 3858-3878,-34.647505,-58.53757
6568102423,6568102423,PRESIDENTE DOMINGO FAUSTINO SARMIENTO 2178,-34.646115,-58.63829


Mostrar las rutas que no sean la ruta "505R3":

In [12]:
%%sql
SELECT *
FROM gtfs.routes
WHERE route_short_name <> '505R3'; 

route_id,agency_id,route_short_name,route_long_name,route_desc,route_type
4168,110,505R4,JMALBR505,Ramal 4 - San Francisco Solano - Est. Adrogue,3
4169,110,505R5,JMALBR505,Ramal 5 - San Francisco Solano - Est. Burzacox Leroux,3
4170,110,505R6,JMALBR505,Ramal 6 - San Francisco Solano - Est. Claypole,3
4171,110,506R1,JMALBR506,Ramal 1 - Est. Glew - Tapin y Larreta,3
4172,110,506R2,JMALBR506,Ramal 2 - Est. Glew - Bº Gendarmería,3
4173,110,506R3,JMALBR506,Ramal 3 - Est. Glew - Donato Alvarez y Garay - Bº San José x Bynnon,3
4174,110,506R4,JMALBR506,Ramal 4 - Est. Glew - Donato Alvarez y Garay - Bº San José x Htal. Oñativa,3
4175,110,506R5,JMALBR506,Ramal 5 - Est. Adrogue - Est. Claypole,3
4176,110,506R6,JMALBR506,Ramal 6 - Est. Adrogue - Donato Alvarez y Garay - Barro San José,3
4690,410,514A,JMALBR514,Bº Lindo - Est. Claypole,3


<a id="count"></a> 

### 4. `COUNT()`

COUNT():  Función agregada que cuenta el número de filas que cumplen una condición

Este ejemplo cuenta todas las paradas en la tabla `stops` y le asigna el alias "cantidad_paradas" al resultado.

In [13]:
%%sql
SELECT COUNT(*) AS cantidad_paradas
FROM gtfs.stops;

cantidad_paradas
43201


<a id="order"></a> 

### 5). `ORDER BY`

`ORDER BY`:  Ordena los resultados de la consulta según una columna.

`ORDER BY column ASC`: Ordena los resultados en orden ascendente (por defecto).

`ORDER BY column DESC`: Ordena los resultados en orden descendente.

Este ejemplo muestra las paradas ordenadas alfabéticamente por su nombre.

In [14]:
%%sql
SELECT *
FROM gtfs.stops
ORDER BY stop_name ASC
LIMIT 10;

stop_id,stop_code,stop_name,stop_lat,stop_lon
20886,20886,10004 PAZ GRAL. AV.,-34.633288,-58.529447
205488,205488,1000 PASEO COLON AV.,-34.619325,-58.368552
205779,205779,10013 RIVADAVIA AV.,-34.638192,-58.50478
201686,201686,10020 RIVADAVIA AV.,-34.638202,-58.50484
207021,207021,10022 PAZ GRAL. AV.,-34.633357,-58.529442
2031188,2031188,1002 CABOTO,-34.632172,-58.355862
202559,202559,1002 CONSTITUCION,-34.62516,-58.380675
202558,202558,1002 CONSTITUCION,-34.625315,-58.38061
20237,20237,1002 ENTRE RIOS AV.,-34.620322,-58.39162
201168,201168,10032 RIVADAVIA AV.,-34.638222,-58.504982


<a id="group"></a> 

### 6). `GROUP BY`

`GROUP BY`:  Agrupa las filas que tienen el mismo valor en una columna especificada.

Este ejemplo agrupa los viajes por su ID de ruta y cuenta cuántos viajes hay para cada ruta.


In [15]:
%%sql
SELECT route_id, COUNT(*) AS cantidad_viajes
FROM gtfs.trips
GROUP BY route_id;

route_id,cantidad_viajes
100,909
101,1138
1010,228
1014,456
1017,228
102,812
1022,456
103,1027
1036,432
1037,432


<a id="where2"></a> 

# 2. Operaciones avanzadas de filtrado con `WHERE`

A medida que empezamos a escribir consultas más complejas en SQL, no siempre alcanza con un simple WHERE. Muchas veces queremos aplicar varios filtros al mismo tiempo o ser más específicos con el tipo de datos que estamos buscando. Ahí es donde entran en juego las operaciones avanzadas de filtrado.

Estas herramientas nos permiten hacer consultas mucho más poderosas: podemos combinar varias condiciones usando `AND` y `OR`, buscar rangos de valores con `BETWEEN`, o incluso hacer búsquedas más flexibles con `LIKE` y `NOT LIKE`, que nos ayudan a encontrar coincidencias parciales en texto, entre otras cosas.

En esta sección, vamos a ver cómo podés aplicar estos filtros avanzados a tus consultas usando `WHERE` con `AND` y `OR`, `BETWEEN`, `LIKE` y `NOT LIKE`, para que tengas un control mucho más fino sobre los datos que querés seleccionar.

<a id="mcriterios"></a> 

### 1). Múltiples criterios (`AND` y `OR`)

Se pueden combinar múltiples condiciones usando los operadores `AND` y `OR`.

`AND`: Se deben cumplir todas las condiciones.

`OR`: Se debe cumplir al menos una condición.

**Ejemplo de operador `AND`**: Mostrar los viajes que sean de la linea `740G` y que sean solo de IDA (`direction_id=0`)

In [16]:
%%sql
SELECT *
FROM gtfs.trips
WHERE trip_short_name = '740G' AND  direction_id = 0

route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id,exceptional
3016,3,1-1,Ramal 13 - IDA,740G,0,740G,1351,0


**Ejemplo de operador `OR`**: Mostrar los viajes que sean de la linea `740G` O de la linea `740K`

In [17]:
%%sql
SELECT *
FROM gtfs.trips
WHERE trip_short_name = '740G' OR  trip_short_name = '740K'

route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id,exceptional
3016,3,1-1,Ramal 13 - IDA,740G,0,740G,1351,0
3016,3,2-1,Ramal 13 - VUELTA,740G,1,740G,1352,0
3020,3,9-1,Ramal 49 - IDA,740K,0,740K,1361,0
3020,3,10-1,Ramal 49 - VUELTA,740K,1,740K,1362,0


<a id="between"></a> 

### 2).`BETWEEN`

El operador `BETWEEN` se utiliza para filtrar valores dentro de un rango.

Ejemplo: Mostrar los horarios de llegada entre las 7:00 AM y las 7:15 AM:

In [18]:
%%sql
SELECT *
FROM gtfs.stop_times
WHERE arrival_time BETWEEN '07:00:00' AND '07:15:00';


trip_id,arrival_time,departure_time,stop_id,stop_sequence,timepoint,shape_dist_traveled
25-1,07:00:56,07:00:56,2031506,51,1,17011.0
26-1,07:00:40,07:00:40,203528,30,0,10947.0
26-1,07:01:12,07:01:12,2031511,31,1,11078.0
26-1,07:03:34,07:03:34,205333,32,0,11670.0
26-1,07:04:30,07:04:30,206365,33,0,11898.0
26-1,07:05:34,07:05:34,205337,34,0,12167.0
26-1,07:06:30,07:06:30,206293,35,0,12394.0
26-1,07:07:34,07:07:34,205338,36,0,12659.0
26-1,07:08:30,07:08:30,205288,37,0,12886.0
26-1,07:09:26,07:09:26,205289,38,0,13123.0


<a id="texto"></a> 

### 3). Filtrando texto (`LIKE` y `NOT LIKE`)

Además de los operadores de comparación, se pueden usar los siguientes operadores para filtrar texto:

El operador `LIKE` en SQL se utiliza para buscar patrones específicos dentro de cadenas de texto. Es especialmente útil cuando no conoces el valor exacto que buscas, pero sí una parte o un formato general.

Para definir estos patrones, `LIKE` utiliza dos caracteres comodín:

* `%` (porcentaje): Este comodín representa cero, uno o múltiples caracteres. Es decir, puede reemplazar cualquier secuencia de caracteres, incluso una cadena vacía.

    * `LIKE 'A%'`: Encontrará cualquier valor que comience con "A", como "Auto", "Avión", "Argentina", etc.
    
    * `LIKE '%a'`: Encontrará cualquier valor que termine con "a", como "Mesa", "Ventana", "Manzana", etc.

    * `LIKE '%r%'`: Encontrará cualquier valor que contenga la letra "r" en cualquier posición, como "Ferrocarril", "Carretera", "Torre", etc.

    * `LIKE 'A%a'`: Encontrará cualquier valor que comience con "A" y termine con "a", como "Ama", "Araña", "Alarma", etc.

* `_` (guion bajo): Este comodín representa un solo caracter. Se utiliza para buscar valores con una longitud o formato específico.

    * `LIKE '_ato'`: Encontrará valores de 4 letras que terminen en "ato", como "Gato", "Pato", "Rato", etc.
  
    * `LIKE 'C_sa'`: Encontrará valores de 4 letras que comiencen con "C", tengan cualquier caracter en la tercera posición y terminen con "sa", como "Casa", "Cosa", etc.
  
    * `LIKE '____'`: Encontrará cualquier valor que tenga exactamente 4 caracteres, sin importar cuáles sean.



El operador `NOT LIKE` en SQL funciona de manera similar al operador `LIKE`, pero con una diferencia clave: en lugar de buscar coincidencias con un patrón, busca valores que no coincidan con el patrón especificado.

En esencia, `NOT LIKE` invierte la lógica de `LIKE`.

Ejemplo: Buscar paradas cuyo nombre tenga la palabra "Central" en cualquier parte. 

In [19]:
%%sql
SELECT *
FROM gtfs.stops
WHERE stop_name LIKE '%Central%';

stop_id,stop_code,stop_name,stop_lat,stop_lon


Ejemplo: Buscar rutas que tengan un nombre corto de 3 caracteres:

In [20]:
%%sql
SELECT *
FROM gtfs.routes
WHERE route_short_name LIKE '___';


route_id,agency_id,route_short_name,route_long_name,route_desc,route_type
104,17,10A,JNAMBA010,Est. Tres de Febrero - Villa Dominico,3
63,6,12A,JNAMBA012,Pte. Pueyrredón - Pza. Falucho,3
452,6,12B,JNAMBA012,Pza. Constitución - Pza. Falucho,3
316,55,15H,JNAMBA015,Expreso - Valentín Alsina - Est. Benavídez,3
312,55,15D,JNAMBA015,Valentín Alsina - Colectora Panamericana y RP 23,3
319,55,15K,JNAMBA015,Valentín Alsina - Colectora Panamericana y RP 23,3
314,55,15F,JNAMBA015,Valentín Alsina - Av. Del Libertador y Pico,3
315,55,15G,JNAMBA015,Valentín Alsina - Bcas. de Belgrano,3
313,55,15E,JNAMBA015,Valentín Alsina - Bº 1° de Mayo,3
309,55,15A,JNAMBA015,Valentín Alsina - Est. Benavídez,3


Ejemplo: Mostrar las paradas que no contengan la palabra "Estación" en su nombre:

In [21]:
%%sql
SELECT *
FROM gtfs.stops
WHERE stop_name NOT LIKE '%Estación%';

stop_id,stop_code,stop_name,stop_lat,stop_lon
6574104006,6574104006,CALLE 119 Y CALLE 18,-35.005688,-59.269982
6441111945,6441111945,AVENIDA 66_173,-34.988475,-58.003375
6441122443,6441122443,CALLE 137_CALLE 600,-34.98,-57.93152
6441129547,6441129547,CALLE 137_CALLE 82,-34.96719,-57.948975
6441112619,6441112619,CALLE 131_CALLE 82,-34.961277,-57.94208
6441112729,6441112729,CALLE 131_CALLE 73,-34.954808,-57.950797
6441107273,6441107273,AVENIDA 60_CALLE 141,-34.95299,-57.976877
6441119883,6441119883,AVENIDA 7_CALLE 600,-34.950935,-57.902207
6441117239,6441117239,CALLE 143_CALLE 52,-34.94985,-57.986068
6441119936,6441119936,AVENIDA 7_CALLE 98,-34.949667,-57.903932


**Orden de ejecución**

Antes de terminar con el comando `WHERE`, Es importante tener en cuenta el orden en que se ejecuta una consulta SQL. La cláusula `WHERE` se ejecuta antes que `LIMIT`, por lo que primero se filtran los datos y luego se limita la cantidad de resultados.

<a id="agregacion"></a> 

# 4. Funciones de agregación

Cuando trabajamos con grandes conjuntos de datos, necesitamos realizar cálculos que resuman o consoliden la información de manera efectiva. Para ello, SQL nos proporciona funciones de agregación, que nos permiten realizar operaciones como encontrar valores mínimos o máximos, calcular promedios, sumar datos y más, todo esto aplicándose sobre múltiples filas de una tabla y devolviendo un único resultado.

Además, estas funciones de agregación suelen combinarse con la cláusula GROUP BY, que nos permite agrupar los datos según ciertos criterios, y con HAVING, que es útil para filtrar los resultados de estas agrupaciones.

<a id="basicas"></a> 

## 1). Funciones de agregación básicas

Las funciones de agregación en SQL te permiten realizar cálculos sobre un conjunto de valores y devolver un único valor como resultado. Son muy útiles para obtener información resumida de tus datos.

Funciones de agregación comunes:

* `AVG()`: Calcula el promedio de un conjunto de valores.

* `SUM()`: Calcula la suma de un conjunto de valores.

* `MIN()`: Devuelve el valor mínimo de un conjunto de valores.

* `MAX()`: Devuelve el valor máximo de un conjunto de valores.

* `COUNT()`: Cuenta el número de filas o valores no nulos en un conjunto.

Ejemplo: Cuales son las latitudes máximas y mínimas de cada una de las paradas?

In [23]:
%%sql
SELECT MIN(stop_lat) AS latitud_minima, MAX(stop_lat) AS latitud_maxima
FROM gtfs.stops;

latitud_minima,latitud_maxima
-35.182685,-34.042402


Uso con cláusula `WHERE`:

Puedes combinar funciones agregadas con la cláusula `WHERE` para filtrar los datos antes de realizar el cálculo.

Por ejemplo:

Cantidad de rutas que tiene la agencia de colectivos con agency id = 110:

In [22]:
%%sql
SELECT COUNT(*) AS cantidad_rutas_bus
FROM gtfs.routes
WHERE agency_id = '110';

cantidad_rutas_bus
11


<a id="round"></a> 

## 2). `ROUND()`:

La función `ROUND()` se utiliza para redondear un número a un número específico de decimales.

Ejemplos:

Redondear el promedio de shape_dist_traveled a 2 decimales:

In [30]:
%%sql
SELECT ROUND(AVG(shape_dist_traveled)) AS promedio_distancia_forma
FROM gtfs.shapes limit 10;

promedio_distancia_forma
16729.0


<a id="avan"></a> 

### 3). Operaciones avanzadas con `GROUP BY` y `ORDER BY` (`HAVING`)

La cláusula `GROUP BY` te permite agrupar filas que tienen el mismo valor en una o varias columnas. Esto es útil para realizar cálculos agregados en cada grupo. Puedes agrupar por una sola columna o por varias, lo que te permite crear diferentes niveles de agrupación.

Por ejemplo:

Se puede contar el número de viajes por cada route_id:

In [31]:
%%sql
SELECT route_id, COUNT(*) AS cantidad_viajes
FROM gtfs.trips
GROUP BY route_id;

route_id,cantidad_viajes
100,909
101,1138
1010,228
1014,456
1017,228
102,812
1022,456
103,1027
1036,432
1037,432


O se puede contar la cantidad de viejas por cada combinación de  `service_id` y `direction_id` (0 es ida, 1 es vuelta)

In [32]:
%%sql
SELECT service_id, direction_id, COUNT(*) AS cantidad_viajes
FROM gtfs.trips
GROUP BY service_id, direction_id;

service_id,direction_id,cantidad_viajes
1-538050,0,1
2-530326,0,1
4-347788,0,1
2-529142,1,1
1-540897,0,1
1-106660,0,1
1-74312,0,1
4-349468,1,1
3-306428,0,1
1-26675,0,1


Filtrando grupos con `HAVING`

La cláusula `HAVING` te permite filtrar grupos después de haber sido agrupados por `GROUP BY`. Se utiliza para aplicar condiciones a los resultados agregados.

Ejemplos:

Mostrar las rutas que tienen menos de 10 viajes:

In [33]:
%%sql
SELECT route_id, COUNT(*) AS cantidad_viajes
FROM gtfs.trips
GROUP BY route_id
HAVING COUNT(*) < 10;

route_id,cantidad_viajes
1577,7
1773,2
1774,2
1775,2
1776,2
1777,2
1779,2
1780,2
1781,2
1782,2


Mostrar los shape_id que tienen un promedio de shape_dist_traveled mayor a 10 km:

In [34]:
%%sql
SELECT shape_id, AVG(shape_dist_traveled) AS promedio_distancia
FROM gtfs.shapes
GROUP BY shape_id
HAVING AVG(shape_dist_traveled) > 10000;

shape_id,promedio_distancia
1593,13119.085475920683
877,21416.117194957984
121,10072.594797342192
1521,16619.97294032751
947,10077.99467222222
643,23179.62011177304
1822,18456.320158483748
641,10385.100136936937
1893,12346.275077678574
1819,16047.60938971722


La principal diferencia entre `HAVING` y `WHERE` radica en qué filtran:

`WHERE` filtra filas individuales antes de la agrupación. Se aplica a cada fila de la tabla original.
`HAVING` filtra grupos de filas después de la agrupación. Se aplica a los resultados de `GROUP BY`.

Ejemplo: Si se quieren buscar las rutas que tengan más de 100 viajes de ida solamente, se hace lo siguiente:


In [84]:
%%sql
SELECT route_id, COUNT(*) AS cantidad_viajes
FROM trips
WHERE direction_id = 0
GROUP BY route_id
HAVING COUNT(*) > 100;

route_id,cantidad_viajes
877,192
1521,300
1697,308
1819,280
596,288
1539,145
1193,352
718,228
1602,192
1478,273


**Explicación**

* `WHERE direction_id = 0`: Primero, se filtran todos los viajes de la tabla trips que tienen direction_id igual a 0. Es decir, los viajes de "ida"

* `GROUP BY route_id`: Luego, se agrupan todos estos viajes de ida por route_id. Es decir, por la ruta.

* `HAVING COUNT(*) > 100`: Finalmente, se filtran los grupos de rutas que tienen más de 100 viajes de ida. 


**Orden de ejecución**

Es importante tener en cuenta el orden en que se ejecuta una consulta SQL:

* `FROM`: Se selecciona la tabla de la que se obtendrán los datos.

* `WHERE`: Se filtran las filas individuales.

* `GROUP BY`: Se agrupan las filas.

* `HAVING`: Se filtran los grupos.

* `SELECT`: Se seleccionan las columnas y se aplican las funciones agregadas.

* `ORDER BY`: Se ordenan los resultados.

* `LIMIT`: Se limita el número de filas devueltas.

<a id="joins"></a> 

# 4. Joins

Cuando trabajamos con bases de datos relacionales, es común que los datos estén distribuidos en varias tablas relacionadas entre sí. Para poder combinar información de estas tablas y obtener una vista unificada, necesitamos usar JOINs, que son herramientas en SQL diseñadas para relacionar y unir tablas a través de columnas comunes.

Los JOINs nos permiten hacer consultas que crucen datos de diferentes tablas, dándonos la flexibilidad para analizar información compleja de manera más eficiente. Dependiendo de cómo queramos combinar estos datos, SQL nos ofrece varios tipos de JOINs, cada uno con un enfoque específico para unir y mostrar los resultados.

En esta sección, vamos a explorar los diferentes tipos de JOINs: `INNER JOIN`, `LEFT JOIN`, `RIGHT JOIN`, `FULL JOIN`, `CROSS JOIN`, `SELF JOIN`. Estos nos permitirán manejar combinaciones de tablas según las necesidades de nuestras consultas, para obtener el resultado más adecuado según el tipo de relación que exista entre ellas.

<a id="inner"></a> 

## 1). `INNER JOIN`

¿Qué es un `INNER JOIN`?
Un `INNER JOIN` en SQL se utiliza para combinar filas de dos o más tablas basándose en una columna relacionada entre ellas.  En esencia, busca coincidencias entre las tablas y crea una nueva tabla con las filas que cumplen la condición de unión.


`INNER JOIN`

![image.png](attachment:image.png)

El `INNER JOIN` devuelve solo las filas que tienen coincidencias en la columna id de ambas tablas. Si una fila de una tabla no tiene coincidencia en la otra tabla, no será incluida en el resultado.

* Para el `id = 1`: Existe en ambas tablas, por lo que devuelve L1 y R1.

* Para el `id = 4`: Existe en ambas tablas, por lo que devuelve L4 y R2.

* Para los `id = 2`, `id = 3`, `id = 5`, y `id = 6`: No tienen coincidencias entre las dos tablas, por lo que no se incluyen en el resultado.

**Ejemplo de `INNER JOIN` en GTFS**:

Si queremos obtener información sobre las rutas y los viajes asociados a cada una, podemos usar un INNER JOIN entre las tablas routes y trips, que comparten la columna route_id.

In [86]:
%%sql
SELECT T.trip_id, R.route_long_name
FROM trips AS T
INNER JOIN routes AS R ON T.route_id = R.route_id;

trip_id,route_long_name
1-1,JMSMIG740
2-1,JMSMIG740
3-1,JMSMIG740
4-1,JMSMIG740
5-1,JMSMIG740
6-1,JMSMIG740
7-1,JMSMIG740
8-1,JMSMIG740
9-1,JMSMIG740
10-1,JMSMIG740


En este ejemplo, se combinan las tablas trips y routes utilizando la columna route_id que comparten ambas tablas.  El resultado será una tabla con dos columnas: trip_id de la tabla trips y route_long_name de la tabla routes, mostrando solo las filas donde el route_id coincide en ambas tablas.

**Nota**: Se pueden usar alias para simplificar la escritura de las consultas, especialmente cuando los nombres de las tablas son largos o se repiten varias veces. En el ejemplo anterior, se utilizan los alias "T" y "R" para referirse a las tablas trips y routes respectivamente.

<a id="inner2"></a>

## 1'). `INNER JOIN` con dos columnas

El `INNER JOIN` en dos columnas asegura que solo se devuelven las filas donde ambas condiciones coinciden en ambas tablas. Solo las filas que cumplen con ambas condiciones se incluyen en el resultado.


Por ejemplo:
```SQL
SELECT *  
FROM tabla_izquierda 
INNER JOIN tabla_derecha 
ON tabla_izquierda.id = tabla_derecha.id 
AND tabla_izquierda.date = tabla_derecha.date;
```

![image.png](attachment:image.png)

* Para el `id = 1` y `date = 09/03/19`: Existe coincidencia en ambas tablas, por lo que devuelve L1 de la tabla izquierda y R1 de la tabla derecha.

* Para el `id = 4` y `date = 06/12/22`: Existe coincidencia en ambas tablas, por lo que devuelve L4 de la tabla izquierda y R2 de la tabla derecha.
Todas las demás combinaciones de id y date no tienen coincidencias en ambas tablas, por lo que no se incluyen en el resultado.

Combinar varios INNER JOIN
Se pueden encadenar varios INNER JOIN en una misma consulta para combinar información de tres o más tablas.

**Ejemplo de varios INNER JOIN en GTFS**:

Si queremos obtener información sobre las rutas, los viajes y los horarios de las paradas para cada viaje, podemos encadenar dos INNER JOIN:

In [87]:
%%sql
SELECT R.route_long_name, T.trip_id, ST.arrival_time
FROM routes AS R
INNER JOIN trips AS T ON R.route_id = T.route_id
INNER JOIN stop_times AS ST ON T.trip_id = ST.trip_id;

route_long_name,trip_id,arrival_time
JNAMBA037,305737-1,04:45:00
JNAMBA037,305737-1,04:45:54
JNAMBA037,305737-1,04:46:58
JNAMBA037,305737-1,04:48:24
JNAMBA037,305737-1,04:49:12
JNAMBA037,305737-1,04:50:06
JNAMBA037,305737-1,04:50:58
JNAMBA037,305737-1,04:51:44
JNAMBA037,305737-1,04:52:26
JNAMBA037,305737-1,04:53:16


En este caso, primero se unen las tablas routes y trips por la columna route_id, y luego se une el resultado con la tabla stop_times por la columna trip_id.

<a id="outer"></a>

## 2). `OUTER JOIN`

A diferencia del `INNER JOIN`, que solo incluye filas con coincidencias en ambas tablas, el OUTER JOIN permite incluir filas que no tienen coincidencia en una de las tablas.  Existen tres tipos de `OUTER JOIN`:

* `LEFT JOIN (o LEFT OUTER JOIN)`:  Incluye todas las filas de la tabla izquierda y solo las filas coincidentes de la tabla derecha. Si no hay coincidencia en la tabla derecha, los campos de esa tabla tendrán valores `NULL`.

* `RIGHT JOIN (o RIGHT OUTER JOIN)`:  Incluye todas las filas de la tabla derecha y solo las filas coincidentes de la tabla izquierda. Si no hay coincidencia en la tabla izquierda, los campos de esa tabla tendrán valores `NULL`.

* `FULL JOIN (o FULL OUTER JOIN)`:  Combina LEFT JOIN y RIGHT JOIN, incluyendo todas las filas de ambas tablas. Si no hay coincidencia en una de las tablas, los campos correspondientes tendrán valores `NULL`.

Ejemplo con `LEFT JOIN`:

Si queremos obtener información sobre todas las rutas y los viajes asociados a cada una, incluso si una ruta no tiene viajes, podemos usar un `LEFT JOIN`:

<a id="left"></a>
 
### a. `LEFT JOIN`

El `LEFT JOIN` devuelve todas las filas de la tabla izquierda y, si hay coincidencias en la columna id de la tabla derecha, devuelve los valores correspondientes de la tabla derecha. Si no hay coincidencia en la tabla derecha, se devuelve NULL para los valores de la columna derecha.


```SQL
SELECT *  
FROM tabla_izquierda 
LEFT JOIN tabla_derecha 
ON tabla_izquierda.id = tabla_derecha.id ;
```


![image.png](attachment:image.png)

**Resultado**

* Para el `id = 1`: Existe en ambas tablas, por lo que devuelve L1 y R1.

* Para el `id = 2`: Solo está en la tabla izquierda, por lo que devuelve L2 y NULL para la derecha.

* Para el `id = 3`: Solo está en la tabla izquierda, por lo que devuelve L3 y NULL para la derecha.

* Para el `id = 4`: Existe en ambas tablas, por lo que devuelve L4 y R2.

<a id="right"></a> 

### b.`RIGHT JOIN`

El RIGHT JOIN devuelve todas las filas de la tabla derecha y, si hay coincidencias en la columna id de la tabla izquierda, devuelve los valores correspondientes de la tabla izquierda. Si no hay coincidencia en la tabla izquierda, se devuelve NULL para los valores de la columna izquierda.


```SQL
SELECT *  
FROM tabla_izquierda 
RIGHT JOIN tabla_derecha 
ON tabla_izquierda.id = tabla_derecha.id ;
```

![image.png](attachment:image.png)

**Resultado**

* Para el id = 1: Existe en ambas tablas, por lo que devuelve L1 y R1.

* Para el id = 4: Existe en ambas tablas, por lo que devuelve L4 y R2.

* Para el id = 5: Solo está en la tabla derecha, por lo que devuelve NULL para la izquierda y R3 para la derecha.

* Para el id = 6: Solo está en la tabla derecha, por lo que devuelve NULL para la izquierda y R4 para la derecha.

**Nota**

Un `RIGHT JOIN` se puede escribir como un `LEFT JOIN` simplemente intercambiando el orden de las tablas. Esto es posible porque la diferencia principal entre ambos es qué tabla se prioriza para devolver todas sus filas (izquierda o derecha), pero el resultado es el mismo si ajustas el orden de las tablas.

¿Por qué se hace?

Usar `LEFT JOIN` en lugar de `RIGHT JOIN` es una práctica común porque los LEFT JOIN suelen ser más fáciles de leer y entender. La mayoría de las consultas SQL se escriben pensando en la primera tabla como la "principal", y mantenerla a la izquierda sigue ese flujo natural, lo que facilita el mantenimiento y la legibilidad del código.

<a id="full"></a> 

### c. `FULL JOIN`

 El FULL JOIN devuelve todas las filas de ambas tablas. Si hay coincidencias en las columnas id, se combinan los valores de ambas tablas. Si no hay coincidencias en una de las tablas, los valores de la otra tabla se completan con NULL.

```SQL
SELECT *  
FROM tabla_izquierda 
FULL JOIN tabla_derecha 
ON tabla_izquierda.id = tabla_derecha.id ;
```


![image.png](attachment:image.png)

**Resultado**

* Para el `id = 1`: Hay coincidencia en ambas tablas, por lo que devuelve L1 de la izquierda y R1 de la derecha.

* Para el `id = 2`: Existe solo en la tabla izquierda, pero no tiene coincidencia en la tabla derecha. Se devuelve el valor L2 y NULL para la columna de la derecha.

* Para el `id = 3`: Solo está presente en la tabla izquierda, por lo tanto, se devuelve L3 y NULL para la derecha.

* Para el `id = 4`: Hay coincidencia en ambas tablas, por lo que devuelve L4 de la izquierda y R2 de la derecha.

* Para el `id = 5`: Solo está en la tabla derecha, por lo que devuelve NULL para la columna de la izquierda y R3 de la derecha.

* Para el `id = 6`: Solo está en la tabla derecha, por lo que devuelve NULL para la columna de la izquierda y R4 de la derecha.

<a id="cross"></a> 

## 3). `CROSS JOIN`

El `CROSS JOIN` combina todas las filas de la tabla 1 con todas las filas de la tabla 2, generando un conjunto de resultados donde cada fila de table1 se empareja con cada fila de table2. Esto da lugar a un producto cartesiano, que devuelve todas las combinaciones posibles de las dos tablas.

```SQL
SELECT id1, id2 
FROM tabla1 
CROSS 
JOIN tabla2;
```

![image-2.png](attachment:image-2.png)

**Resultado**

* Para el `id1 = 1`, se empareja con A, B y C, generando tres filas: (1, A), (1, B), (1, C).

* Para el `id1 = 2`, se empareja con A, B y C, generando tres filas: (2, A), (2, B), (2, C).

* Para el `id1 = 3`, se empareja con A, B y C, generando tres filas: (3, A), (3, B), (3, C).

<a id="self"></a> 

## 4). `SELF JOIN`

Un `SELF JOIN` es una operación en SQL en la que una tabla se une consigo misma. Aunque parece extraño, es útil cuando quieres comparar o relacionar filas de una tabla basándote en ciertas condiciones, como comparar valores dentro de la misma tabla. Para realizar un SELF JOIN, la tabla se "copia" virtualmente y se le asignan alias diferentes, de modo que SQL las trata como si fueran tablas separadas.

**Ejemplo de `SELF JOIN` en GTFS**:

Si queremos encontrar pares de paradas que estén ubicadas en la misma latitud, podemos usar un SELF JOIN: Esta consulta busca pares de paradas (parada1 y parada2) que están en la misma latitud (stop_lat), pero son diferentes en términos de su stop_id. El SELF JOIN permite comparar cada fila de la tabla stops con todas las demás filas, identificando aquellas que comparten la misma latitud, pero que son paradas distintas.

In [91]:
%%sql
SELECT S1.stop_name AS parada1, S2.stop_name AS parada2
FROM stops AS S1
INNER JOIN stops AS S2 ON S1.stop_lat = S2.stop_lat
WHERE S1.stop_id <> S2.stop_id;

parada1,parada2
CANGALLO 5518,GABRIEL MIRÓ 2002-2100
AVENIDA OTAMENDI 1100-1148,HERNANDO DE MAGALLANES 3001-3099
AVENIDA OTAMENDI 1100-1148,AVENIDA INTENDENTE ESTEBAN CROVARA 5195
MIGUEL CANE 900-998,CAMINO PARQUE CENTENARIO_CALLE 508
MIGUEL CANE 900-998,CALLE 116_CALLE 524
AVENIDA 7_AVENIDA 38,AVENIDA 13_AVENIDA 32
MIGUEL CANE 1299-1399,CALLE 511_CALLE 12
AVENIDA 60_CALLE 139,DIAGONAL 74_CALLE 30
CALLE 69_CALLE 6,AVENIDA 520_CALLE 145
DIAGONAL 80_CALLE 47,AVENIDA 1 Y CALLE 53


##

<a id="set"></a> 

# 5. Operaciones de conjuntos con SQL

En SQL, al trabajar con grandes volúmenes de datos y múltiples tablas, muchas veces necesitamos combinar o comparar resultados de diferentes consultas. Para facilitar este tipo de operaciones, existen herramientas que nos permiten trabajar con los resultados de varias consultas como si fueran conjuntos de datos, aplicando las clásicas operaciones que conocemos en matemáticas para los conjuntos: unión, intersección y diferencia.

Estas operaciones de conjuntos nos permiten combinar resultados, encontrar coincidencias o diferencias entre ellos de manera eficiente. Al aplicarlas correctamente, podemos comparar datos de distintas tablas o consultas sin necesidad de hacer JOINs complicados, obteniendo vistas más claras de nuestros datos.

En esta sección, vamos a explorar las principales operaciones de conjuntos disponibles en SQL: `UNION`, `UNION ALL`, `INTERSECT` y `EXCEPT`, para que aprendan a manipular y comparar resultados de múltiples consultas de forma práctica y eficaz.

<a id="unionall"></a> 

## 1). `UNION ALL`

La operación `UNION ALL` combina los resultados de ambas tablas, sin eliminar duplicados. Esto significa que si una fila aparece en ambas tablas, será incluida tantas veces como aparezca en cualquiera de las tablas. A diferencia de `UNION` (que elimina duplicados), `UNION ALL` simplemente concatena todas las filas, incluso si son duplicadas.

```SQL
SELECT * 
FROM tabla_izquierda
UNION ALL 
SELECT * 
FROM tabla_derecha; 
```

![image.png](attachment:image.png)

**Resultados**

* La primera tabla tiene la fila (1, A) dos veces y la segunda tabla también tiene (1, A) una vez, por lo que aparecerá tres veces en el resultado.

* También aparecen otras filas como (4, A), que están presentes en ambas tablas, pero no se eliminan las duplicadas.

<a id="union"></a> 

## 2). `UNION`

La operación `UNION` combina los resultados de ambas tablas, pero elimina las filas duplicadas. A diferencia de `UNION ALL` (que mantiene todos los duplicados), `UNION` se asegura de que cada fila en el conjunto de resultados sea única.

```SQL
SELECT * 
FROM tabla_izquierda
UNION 
SELECT * 
FROM tabla_derecha; 
```

![image.png](attachment:image.png)

**Resultados**

* La fila (1, A) aparece en ambas tablas, pero UNION solo la devuelve una vez, eliminando los duplicados.

* Las demás filas que no se repiten entre las tablas, como (1, B), (2, A), (3, A), (4, A), (5, A), y (6, A), se incluyen tal cual en el conjunto de resultados.

<a id="intersect"></a> 

## 3). `INTERSECT`

![image-2.png](attachment:image-2.png)

El comando `INTERSECT` devuelve las filas que son comunes a ambas consultas o tablas. Esto significa que la fila completa (todas las columnas) debe ser idéntica entre las tablas para que sea devuelta en el resultado.
```SQL
SELECT id, val 
FROM  tabla_izquierda
INTERSECT 
SELECT id, val 
FROM tabla_derecha; 
```


![image.png](attachment:image.png)


 **Resultado**

Ambas tablas tienen una fila con el id = 1 y val = N1. Como esta fila es exactamente la misma en ambas tablas (incluyendo el valor de ambas columnas), el resultado de INTERSECT es esa fila: (1, N1).

Diferencia entre `INTERSECT` e `INNER JOIN`:

* `INTERSECT`: Coincide cuando toda la fila es exactamente igual (todas las columnas coinciden).

* `INNER JOIN`: Coincide basado en una o más columnas específicas (en este caso, solo en la columna id), sin importar si el resto de las columnas coinciden o no.

In [93]:
%%sql
SELECT route_id FROM routes
INTERSECT
SELECT route_id FROM trips;

route_id
1593
877
247
121
1521
947
643
1822
2156
1320


<a id="except"></a> 

## 4). `EXCEPT`

![image.png](attachment:image.png)

La operación `EXCEPT` compara las filas de ambas tablas y devuelve las filas de la tabla izquierda que no están presentes en la tabla derecha. Para que una fila se considere una coincidencia entre ambas tablas, todas las columnas de la fila deben ser iguales.

```SQL
SELECT id, val 
FROM  tabla_izquierda
EXCEPT 
SELECT id, val 
FROM tabla_derecha; 
```


![image-2.png](attachment:image-2.png)

**Resultados**

* En este caso, la fila (1, N1) aparece tanto en la tabla izquierda como en la derecha, por lo que es eliminada del resultado.

* Las filas (3, L3) y (4, L4) solo están en la tabla izquierda y no tienen coincidencias en la tabla derecha, por lo que se incluyen en el resultado final.

**Ejemplo de EXCEPT en GTFS**:

Buscar todas las rutas que estén "Routes" pero que no esten en "Trips"

In [94]:
%%sql
SELECT route_id FROM routes
EXCEPT
SELECT route_id FROM trips;


route_id


El resultado es vacío porque las tablas GTFS aseguran que la información de las rutas estén tanto en la tabla "Routes" como en "Trips". Es decir, es una base de datos normalizada y cuyos desarrolladores hicieron testeos antes de subirlas, pero este comando puede ser muy útil para analizar otras bases menos normalizadas

# 6. Ejercicio

El objetivo de esta actividad es que exploren la base de datos de sus proyectos utilizando SQL. A través de las consultas, podrán analizar sus datos, obtener información relevante y familiarizarse con las estructuras de sus tablas. A continuación, les dejamos algunas preguntas que podrían responder con SQL, pero son libres de investigar otros aspectos de sus bases de datos que consideren interesantes o útiles para su proyecto.


**Preguntas sugeridas para explorar**:

* ¿Cuántas filas tiene tu tabla principal?
(Usar COUNT)

* ¿Cuántas filas cumplen con una condición específica?
(Usar COUNT con WHERE)

* ¿Cuál es el valor máximo y mínimo de una columna numérica en tu tabla principal?
(Usar MAX y MIN)

* Si tenés más de una tabla, ¿qué columna(s) podrías usar para unirlas?
(Identificar columnas clave foránea o relacionadas)

* ¿Qué tipo de JOIN conviene hacer para combinar las tablas que tenés?
(Explorar los diferentes tipos de JOIN como INNER JOIN, LEFT JOIN)

* ¿Cuántos registros se repiten en una columna específica de tu tabla?
(Usar GROUP BY con HAVING)

* ¿Cuál es el promedio, suma o desviación estándar de una columna numérica?
(Usar AVG, SUM, STDDEV)

* ¿Qué porcentaje del total de registros cumple con una condición específica?
(Usar COUNT junto con una operación de porcentaje)

* ¿Cuál es la distribución de valores en una columna de tu tabla?
(Usar GROUP BY y COUNT)