# SQL

### Introducción a SQL  

SQL (Structured Query Language) es un lenguaje estándar utilizado para interactuar con **bases de datos relacionales**. A diferencia de los lenguajes de programación imperativos, SQL es **declarativo**, lo que significa que el usuario describe **qué resultado** desea obtener, pero no **cómo** lograrlo.  

Algunas características clave de SQL:  
- **Independencia de plataforma**: Funciona en la mayoría de los sistemas de bases de datos como MySQL, PostgreSQL, Oracle y SQL Server.  
- **Optimización interna**: Los sistemas de bases de datos optimizan automáticamente la ejecución de consultas.  
- **Escalabilidad**: SQL puede manejar pequeñas bases de datos o grandes volúmenes de datos.  
- **Lenguaje estándar**: Adoptado como estándar ANSI e ISO desde la década de 1980.  

---

Breve Historia de SQL  

La creación de SQL se remonta a la década de 1970 con el trabajo de **Edgar F. Codd**, quien propuso el **modelo relacional** de bases de datos en un artículo publicado en IBM. Basados en este modelo, **Donald D. Chamberlin** y **Raymond F. Boyce** desarrollaron el lenguaje **SEQUEL** (posteriormente renombrado a SQL).

Línea de tiempo:  
- **1970**: Edgar F. Codd propone el modelo relacional.  
- **1974**: IBM desarrolla el lenguaje SEQUEL.  
- **1986**: SQL se convierte en estándar ANSI.  
- **1989**: SQL se adopta como estándar ISO.  
- **1990s - Presente**: SQL se integra en sistemas comerciales como Oracle, MySQL, SQL Server y PostgreSQL.  

Actualmente, SQL es el lenguaje principal para bases de datos relacionales, con soporte en casi todos los sistemas modernos.  

---

Arquitectura de Bases de Datos Relacionales  

Una base de datos relacional organiza los datos en **tablas** compuestas por filas y columnas. Estas tablas permiten modelar datos de manera eficiente y flexible, facilitando su manipulación y consulta.

- **Tablas**: Representan una **entidad** y son la estructura principal.  
  - Ejemplo: Una tabla `empleados` representa los datos de cada empleado.  
- **Filas (Registros)**: Cada fila corresponde a una **instancia** de la entidad.  
  - Ejemplo: Una fila en `empleados` representa a un empleado específico.  
- **Columnas (Atributos)**: Representan las propiedades o características de una entidad.  
  - Ejemplo: `nombre`, `salario` y `departamento`.  
- **Relaciones**: Se establecen usando claves:  
  - **Clave primaria**: Identifica de forma única cada fila en una tabla.  
  - **Clave foránea**: Crea relaciones entre tablas.  

---

Componentes de SQL  

SQL está compuesto por varios sublenguajes, cada uno con un propósito específico:  

1. **DDL (Data Definition Language)**  
   Permite definir y modificar la estructura de las bases de datos.  
   - Ejemplo de comandos: `CREATE`, `ALTER`, `DROP`.  
   - Uso: Creación y modificación de tablas y otros objetos.  

2. **DML (Data Manipulation Language)**  
   Permite manipular los datos almacenados.  
   - Ejemplo de comandos: `SELECT`, `INSERT`, `UPDATE`, `DELETE`.  
   - Uso: Consultar, insertar o modificar registros en una tabla.  

3. **DCL (Data Control Language)**  
   Controla el acceso a los datos en la base de datos.  
   - Ejemplo de comandos: `GRANT`, `REVOKE`.  
   - Uso: Asignar o restringir permisos a usuarios.  

4. **TCL (Transaction Control Language)**  
   Gestiona transacciones en la base de datos.  
   - Ejemplo de comandos: `COMMIT`, `ROLLBACK`.  
   - Uso: Asegurar la integridad de los datos mediante operaciones atómicas.  

---

SQLAlchemy  

SQLAlchemy es una biblioteca de Python que facilita la interacción con bases de datos SQL. Proporciona una abstracción robusta a través de dos enfoques:  

1. **ORM (Object Relational Mapper)**  
   Permite mapear clases de Python a tablas de la base de datos. Cada objeto Python corresponde a una fila en la tabla. Esto facilita la manipulación de bases de datos sin necesidad de escribir SQL explícito.  

2. **SQL Expression Language**  
   Proporciona una API programática para construir consultas SQL. Los desarrolladores pueden combinar flexibilidad y control mediante sentencias SQL personalizadas.

Características clave de SQLAlchemy:  
- **Compatibilidad**: Funciona con motores SQL como SQLite, PostgreSQL, MySQL, Oracle y SQL Server.  
- **Gestión automática de conexiones**: Facilita la apertura, cierre y manejo de sesiones.  
- **Flexibilidad**: Admite consultas de alto nivel (ORM) y SQL explícito cuando es necesario.  

---

Instalación y Configuración  

SQLAlchemy se puede instalar fácilmente usando `pip`.  

```python
# Instalación
!conda install anaconda::sqlalchemy -y
!pip install SQLAlchemy  


# Configuración básica
from sqlalchemy import create_engine  

# Crear una conexión a SQLite
engine = create_engine('sqlite:///mydatabase.db')  
connection = engine.connect()


### SQLite  

SQLite es un **sistema de gestión de bases de datos relacional (RDBMS)** que implementa una base de datos en un solo archivo **autónomo, ligero y de cero configuración**. A diferencia de otros sistemas como MySQL o PostgreSQL, SQLite no requiere un servidor separado para funcionar, ya que toda la base de datos reside en un archivo local.

---

Características de SQLite  

1. **Base de datos integrada**  
   SQLite es una biblioteca que se integra directamente en una aplicación. La base de datos es un archivo que se almacena en el sistema de archivos local.  

2. **Cero configuración**  
   No necesita instalación ni configuración de un servidor o servicio externo.  

3. **Formato de archivo único**  
   Todos los datos de la base de datos se almacenan en un único archivo de disco, lo que facilita la portabilidad.  

4. **Ligera y rápida**  
   Está diseñada para ser compacta y eficiente, ideal para aplicaciones móviles, sitios web pequeños y herramientas locales.  

5. **Transacciones ACID**  
   SQLite es compatible con propiedades **ACID** (Atomicidad, Consistencia, Aislamiento y Durabilidad), garantizando la integridad de los datos incluso ante fallos.  

6. **Lenguaje SQL estándar**  
   SQLite admite la mayoría de los comandos SQL estándar como `SELECT`, `INSERT`, `UPDATE`, `DELETE`, y **funciones avanzadas** como índices, triggers y vistas.  

---

Casos de uso de SQLite  

1. **Aplicaciones móviles**  
   Es el motor de base de datos predeterminado en plataformas como Android y iOS debido a su tamaño reducido y eficiencia.  

2. **Aplicaciones de escritorio**  
   Herramientas locales que requieren almacenamiento de datos, como aplicaciones personales o pequeñas.  

3. **Sitios web pequeños**  
   Para páginas con tráfico bajo, SQLite ofrece una solución rápida y sin necesidad de un servidor de bases de datos.  

4. **Prototipos y pruebas**  
   Ideal para pruebas y desarrollo rápido debido a su facilidad de configuración.  

---

Ventajas de SQLite  

- **Portabilidad**: Es multiplataforma y el archivo de base de datos puede copiarse y ejecutarse en cualquier sistema.  
- **Fácil de usar**: No requiere configuración compleja ni administración.  
- **Consumo bajo de recursos**: Funciona con muy poca memoria y CPU.  
- **Rápida implementación**: Ideal para desarrolladores que necesitan una base de datos lista en minutos.  

---

Desventajas de SQLite  

- **No es apto para grandes volúmenes de datos**: Al ser una base de datos ligera, puede tener limitaciones de rendimiento para aplicaciones con millones de registros.  
- **Uso limitado en entornos multiusuario**: SQLite no está diseñado para manejar múltiples conexiones simultáneas como otros sistemas RDBMS.  
- **Sin funcionalidades avanzadas**: Carece de características complejas como replicación, particionamiento o alta disponibilidad.  

### Ejemplos prácticos

#### Creación de la base de datos

In [29]:
from sqlalchemy import create_engine, text
import pandas as pd

# Ruta correcta a la base de datos
database_path = "../data/Chinook_Sqlite.sqlite"

# Crear la conexión usando SQLAlchemy
engine = create_engine(f"sqlite:///{database_path}")

# Verificar las tablas disponibles
with engine.connect() as connection:
    tables = connection.execute(text("SELECT name FROM sqlite_master WHERE type='table';")).fetchall()

print("Tablas disponibles en la base de datos Chinook:")
for table in tables:
    print(table[0])


Tablas disponibles en la base de datos Chinook:
Album
Artist
Customer
Employee
Genre
Invoice
InvoiceLine
MediaType
Playlist
PlaylistTrack
Track


#### SELECT y FROM

Seleccionar todos los registros de la tabla customers

In [None]:
query = "SELECT * FROM Customer"
df_customers = pd.read_sql(query, con=engine)

print("Datos de la tabla de clientes ':")
display(df_customers.head())


Datos de la tabla de clientes ':


Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,+55 (12) 3923-5566,luisg@embraer.com.br,3
1,2,Leonie,Köhler,,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,+49 0711 2842222,,leonekohler@surfeu.de,5
2,3,François,Tremblay,,1498 rue Bélanger,Montréal,QC,Canada,H2G 1A7,+1 (514) 721-4711,,ftremblay@gmail.com,3
3,4,Bjørn,Hansen,,Ullevålsveien 14,Oslo,,Norway,0171,+47 22 44 22 22,,bjorn.hansen@yahoo.no,4
4,5,František,Wichterlová,JetBrains s.r.o.,Klanova 9/506,Prague,,Czech Republic,14700,+420 2 4172 5555,+420 2 4172 5555,frantisekw@jetbrains.com,4


In [30]:
query = "SELECT CustomerId ,FirstName, FirstName FROM Customer"
df_customers = pd.read_sql(query, con=engine)

print("Datos de la tabla de clientes ':")
display(df_customers.head())

Datos de la tabla de clientes ':


Unnamed: 0,CustomerId,FirstName,FirstName.1
0,1,Luís,Luís
1,2,Leonie,Leonie
2,3,François,François
3,4,Bjørn,Bjørn
4,5,František,František


#### WHERE

Filtrar clientes del país "USA":

In [21]:
query = "SELECT * FROM Customer WHERE Country = 'USA'"
df_customers_usa = pd.read_sql(query, con=engine)

print("Clientes de USA:")
display(df_customers_usa)


Clientes de USA:


Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,16,Frank,Harris,Google Inc.,1600 Amphitheatre Parkway,Mountain View,CA,USA,94043-1351,+1 (650) 253-0000,+1 (650) 253-0000,fharris@google.com,4
1,17,Jack,Smith,Microsoft Corporation,1 Microsoft Way,Redmond,WA,USA,98052-8300,+1 (425) 882-8080,+1 (425) 882-8081,jacksmith@microsoft.com,5
2,18,Michelle,Brooks,,627 Broadway,New York,NY,USA,10012-2612,+1 (212) 221-3546,+1 (212) 221-4679,michelleb@aol.com,3
3,19,Tim,Goyer,Apple Inc.,1 Infinite Loop,Cupertino,CA,USA,95014,+1 (408) 996-1010,+1 (408) 996-1011,tgoyer@apple.com,3
4,20,Dan,Miller,,541 Del Medio Avenue,Mountain View,CA,USA,94040-111,+1 (650) 644-3358,,dmiller@comcast.com,4
5,21,Kathy,Chase,,801 W 4th Street,Reno,NV,USA,89503,+1 (775) 223-7665,,kachase@hotmail.com,5
6,22,Heather,Leacock,,120 S Orange Ave,Orlando,FL,USA,32801,+1 (407) 999-7788,,hleacock@gmail.com,4
7,23,John,Gordon,,69 Salem Street,Boston,MA,USA,2113,+1 (617) 522-1333,,johngordon22@yahoo.com,4
8,24,Frank,Ralston,,162 E Superior Street,Chicago,IL,USA,60611,+1 (312) 332-3232,,fralston@gmail.com,3
9,25,Victor,Stevens,,319 N. Frances Street,Madison,WI,USA,53703,+1 (608) 257-0597,,vstevens@yahoo.com,5


In [31]:
query = "SELECT * FROM Customer WHERE Country = 'USA' AND State = 'CA' "
df_customers_usa = pd.read_sql(query, con=engine)

print("Clientes de USA:")
display(df_customers_usa)

Clientes de USA:


Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,16,Frank,Harris,Google Inc.,1600 Amphitheatre Parkway,Mountain View,CA,USA,94043-1351,+1 (650) 253-0000,+1 (650) 253-0000,fharris@google.com,4
1,19,Tim,Goyer,Apple Inc.,1 Infinite Loop,Cupertino,CA,USA,95014,+1 (408) 996-1010,+1 (408) 996-1011,tgoyer@apple.com,3
2,20,Dan,Miller,,541 Del Medio Avenue,Mountain View,CA,USA,94040-111,+1 (650) 644-3358,,dmiller@comcast.com,4


In [33]:
query = "SELECT * FROM Customer WHERE Country = 'USA' OR Country = 'Brazil' LIMIT 5 "
df_customers_usa = pd.read_sql(query, con=engine)

print("Clientes de USA:")
display(df_customers_usa)

Clientes de USA:


Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,+55 (12) 3923-5566,luisg@embraer.com.br,3
1,10,Eduardo,Martins,Woodstock Discos,"Rua Dr. Falcão Filho, 155",São Paulo,SP,Brazil,01007-010,+55 (11) 3033-5446,+55 (11) 3033-4564,eduardo@woodstock.com.br,4
2,11,Alexandre,Rocha,Banco do Brasil S.A.,"Av. Paulista, 2022",São Paulo,SP,Brazil,01310-200,+55 (11) 3055-3278,+55 (11) 3055-8131,alero@uol.com.br,5
3,12,Roberto,Almeida,Riotur,"Praça Pio X, 119",Rio de Janeiro,RJ,Brazil,20040-020,+55 (21) 2271-7000,+55 (21) 2271-7070,roberto.almeida@riotur.gov.br,3
4,13,Fernanda,Ramos,,Qe 7 Bloco G,Brasília,DF,Brazil,71020-677,+55 (61) 3363-5547,+55 (61) 3363-7855,fernadaramos4@uol.com.br,4


In [35]:
query = "SELECT * FROM Customer ORDER BY CustomerId DESC  LIMIT 5"
df_top_customers = pd.read_sql(query, con=engine)

print("Top 5 clientes con mayor ID:")
display(df_top_customers)


Top 5 clientes con mayor ID:


Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,59,Puja,Srivastava,,"3,Raj Bhavan Road",Bangalore,,India,560001.0,+91 080 22289999,,puja_srivastava@yahoo.in,3
1,58,Manoj,Pareek,,"12,Community Centre",Delhi,,India,110017.0,+91 0124 39883988,,manoj.pareek@rediff.com,3
2,57,Luis,Rojas,,"Calle Lira, 198",Santiago,,Chile,,+56 (0)2 635 4444,,luisrojas@yahoo.cl,5
3,56,Diego,Gutiérrez,,307 Macacha Güemes,Buenos Aires,,Argentina,1106.0,+54 (0)11 4311 4333,,diego.gutierrez@yahoo.ar,4
4,55,Mark,Taylor,,421 Bourke Street,Sidney,NSW,Australia,2010.0,+61 (02) 9332 3633,,mark.taylor@yahoo.au,4


In [37]:
query = "SELECT * FROM Invoice limit 3;"
df_top_customers = pd.read_sql(query, con=engine)

print("Mostramos la tabla Invoice:")
display(df_top_customers)

Mostramos la tabla Invoice:


Unnamed: 0,InvoiceId,CustomerId,InvoiceDate,BillingAddress,BillingCity,BillingState,BillingCountry,BillingPostalCode,Total
0,1,2,2009-01-01 00:00:00,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,1.98
1,2,4,2009-01-02 00:00:00,Ullevålsveien 14,Oslo,,Norway,171,3.96
2,3,8,2009-01-03 00:00:00,Grétrystraat 63,Brussels,,Belgium,1000,5.94


In [41]:
query = """
SELECT COUNT(InvoiceId) AS TotalFacturas, 
Count(DISTINCT BillingCountry) as TotalCountry,
Count(DISTINCT BillingCity) as TotalCities, 
AVG(Total) AS PromedioTotal
FROM Invoice;
"""
df_aggregates = pd.read_sql(query, con=engine)

print("Número total de facturas y promedio del total:")
display(df_aggregates)

Número total de facturas y promedio del total:


Unnamed: 0,TotalFacturas,TotalCountry,TotalCities,PromedioTotal
0,412,24,53,5.651942


#### Ventas por país con validación de resultados

In [24]:
query = """
SELECT BillingCountry, SUM(Total) AS VentasTotales
FROM Invoice
GROUP BY BillingCountry
ORDER BY VentasTotales DESC
"""
df_sales_by_country = pd.read_sql(query, con=engine)

print("Ventas totales por país:")
display(df_sales_by_country)

Ventas totales por país:


Unnamed: 0,BillingCountry,VentasTotales
0,USA,523.06
1,Canada,303.96
2,France,195.1
3,Brazil,190.1
4,Germany,156.48
5,United Kingdom,112.86
6,Czech Republic,90.24
7,Portugal,77.24
8,India,75.26
9,Chile,46.62


In [42]:
query = """
SELECT SUM(Total) AS VentasTotales
FROM Invoice
WHERE BillingCountry = 'Argentina'
"""
df_sales_by_country = pd.read_sql(query, con=engine)

print("Ventas totales para Argentina chequeo:")
display(df_sales_by_country)

Ventas totales para Argentina chequeo:


Unnamed: 0,VentasTotales
0,37.62


In [44]:
query = """
SELECT *
FROM Invoice
WHERE BillingCountry = 'Argentina'
"""
df_sales_by_country = pd.read_sql(query, con=engine)

print("Argentina chequeo raw data:")
display(df_sales_by_country)

Argentina chequeo raw data:


Unnamed: 0,InvoiceId,CustomerId,InvoiceDate,BillingAddress,BillingCity,BillingState,BillingCountry,BillingPostalCode,Total
0,119,56,2010-06-12 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,1.98
1,142,56,2010-09-14 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,3.96
2,164,56,2010-12-17 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,5.94
3,216,56,2011-08-07 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,0.99
4,337,56,2013-01-28 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,1.98
5,348,56,2013-03-10 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,13.86
6,403,56,2013-11-08 00:00:00,307 Macacha Güemes,Buenos Aires,,Argentina,1106,8.91


#### Análisis monto-cantidad-ticket promedio por cliente

In [52]:
query = """
SELECT BillingCountry, 
SUM(Total) AS VentasTotales,
AVG(Total) as PromedioTotales,
COUNT(InvoiceId) AS CantidadTransacciones,
COUNT(DISTINCT BillingCity) as CantidadCiudades,
COUNT(DISTINCT CustomerId) as CantidadClientes,
SUM(Total) / COUNT(DISTINCT CustomerId) as PromedioClientes
FROM Invoice
GROUP BY BillingCountry
ORDER BY VentasTotales DESC, PromedioClientes desc
"""
df_sales_by_country = pd.read_sql(query, con=engine)

print("Ventas totales por país:")
display(df_sales_by_country)

Ventas totales por país:


Unnamed: 0,BillingCountry,VentasTotales,PromedioTotales,CantidadTransacciones,CantidadCiudades,CantidadClientes,PromedioClientes
0,USA,523.06,5.747912,91,12,13,40.235385
1,Canada,303.96,5.427857,56,8,8,37.995
2,France,195.1,5.574286,35,4,5,39.02
3,Brazil,190.1,5.431429,35,4,5,38.02
4,Germany,156.48,5.588571,28,3,4,39.12
5,United Kingdom,112.86,5.374286,21,2,3,37.62
6,Czech Republic,90.24,6.445714,14,1,2,45.12
7,Portugal,77.24,5.517143,14,2,2,38.62
8,India,75.26,5.789231,13,2,2,37.63
9,Chile,46.62,6.66,7,1,1,46.62


#### Having 
Países con ventas superiores a $100

In [53]:
query = """
SELECT BillingCountry, 
SUM(Total) AS VentasTotales
FROM Invoice
GROUP BY BillingCountry
HAVING SUM(Total) > 100
ORDER BY VentasTotales DESC
"""
df_sales_filtered = pd.read_sql(query, con=engine)

print("Países con ventas superiores a $100:")
display(df_sales_filtered)

Países con ventas superiores a $100:


Unnamed: 0,BillingCountry,VentasTotales
0,USA,523.06
1,Canada,303.96
2,France,195.1
3,Brazil,190.1
4,Germany,156.48
5,United Kingdom,112.86


### Diferencia entre WHERE y HAVING

* WHERE: Filtra antes de agrupar.
* HAVING: Filtra después de agrupar.

Ejemplo:

Filtrar facturas con total mayor a 5 usando WHERE:

In [63]:
query = """
WITH aux AS(
    SELECT BillingCountry, SUM(Total) AS VentasTotales
    FROM Invoice
    GROUP BY BillingCountry
    ORDER BY VentasTotales DESC
)
SELECT *
FROM aux
WHERE VentasTotales > 100
order by VentasTotales DESC;
"""
df_where = pd.read_sql(query, con=engine)

print("Ventas totales > 100 por país (usando WHERE):")
display(df_where)

Ventas totales > 100 por país (usando WHERE):


Unnamed: 0,BillingCountry,VentasTotales
0,USA,523.06
1,Canada,303.96
2,France,195.1
3,Brazil,190.1
4,Germany,156.48
5,United Kingdom,112.86


In [62]:
query = """
SELECT BillingCountry, SUM(Total) AS VentasTotales
FROM Invoice
GROUP BY BillingCountry
HAVING SUM(Total) > 100
order by VentasTotales DESC;
"""
df_having = pd.read_sql(query, con=engine)

print("Ventas totales > 100 por país (usando HAVING):")
display(df_having)

Ventas totales > 100 por país (usando HAVING):


Unnamed: 0,BillingCountry,VentasTotales
0,USA,523.06
1,Canada,303.96
2,France,195.1
3,Brazil,190.1
4,Germany,156.48
5,United Kingdom,112.86
