
# Sprint 3 ‚Äî Webinar 7 Te√≥rico  
## Explorar KPIs Financieros con SQL (con esquema *Books*)

**Duraci√≥n total:** 1h 20 min  
- Parte 1 (20 min): Fundamentos de BD relacionales (tablas, PK/FK, ERD)  
- Parte 2 (20 min): Consultas b√°sicas ‚Äî `SELECT`, `WHERE`, `ORDER BY`  
- Parte 3 (25 min): Agregaciones ‚Äî `GROUP BY`, funciones, cortes por fecha  
- Parte 4 (15 min): Buenas pr√°cticas + precisi√≥n con tipos de datos

---

### üéØ Objetivos de aprendizaje
- Entender la estructura de una BD relacional y su esquema (libros, autores, editoriales, ratings, reviews).  
- Identificar llaves primarias y for√°neas.  
- Ejecutar consultas b√°sicas para explorar, filtrar, ordenar y agrupar.  
- Aplicar funciones de fecha y num√©ricas para KPIs.  
- Detectar problemas de calidad de datos durante la exploraci√≥n.


### Conexi√≥n a la base de datos

In [None]:

from sqlalchemy import create_engine
import pandas as pd

pd.options.display.max_columns = None

db_config = {
 'user': 'practicum_student', # username
 'pwd': 'QnmDH8Sc2TQLvy2G3Vvh7', # password
 'host': 'yp-trainers-practicum.cluster-czs0gxyx2d8w.us-east-1.rds.amazonaws.com',
 'port': 5432, 
 'db': 'data-analyst-final-project-db'
}

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db']
)

engine = create_engine(connection_string, connect_args={'sslmode':'require'})



## üß† Introducci√≥n a SQL (Structured Query Language)

**SQL** es el lenguaje est√°ndar para **consultar, modificar y analizar** datos en bases de datos relacionales como PostgreSQL, MySQL o SQL Server.

### ¬øQu√© es SQL?
Es un **lenguaje declarativo**: describes *qu√©* informaci√≥n necesitas y el motor decide *c√≥mo* obtenerla.

**Ejemplo simple:**
```sql
SELECT title, num_pages
FROM books
WHERE num_pages > 300;
```

### ¬øC√≥mo funciona una consulta?
1. El cliente (Jupyter/IDE) env√≠a la consulta.  
2. El motor SQL la analiza y valida.  
3. El optimizador elige el plan de ejecuci√≥n (√≠ndices, joins, etc.).  
4. Se ejecuta y retorna un **conjunto de filas y columnas**.

### ¬øEn qu√© √°mbitos se usa?
- **Data Analyst:** extraer, limpiar y resumir datos para KPIs y dashboards.  
- **Data Scientist:** preparar datasets para modelos.  
- **Data Engineer:** construir pipelines sobre RDBMS.  
- **BI / Producto / Finanzas:** consultas directas para m√©tricas de negocio.

En finanzas y negocio se usa para **ingresos, costos, m√°rgenes, ticket promedio, tendencias temporales** y **cohortes**.

### Comandos fundamentales
- `SELECT` (lectura), `WHERE` (filtros), `ORDER BY` (orden), `GROUP BY/HAVING` (agregaciones), `JOIN` (unir tablas), subconsultas, funciones (`COUNT`, `AVG`, `SUM`, `ROUND`, etc.).

### Importancia para Data Analyst
- Acceso directo a los datos.  
- Respuestas r√°pidas sin ETL complejo.  
- **KPIs reproducibles** desde fuentes confiables.

**Flujo t√≠pico:** SQL ‚Üí (opcional) Pandas ‚Üí Visualizaci√≥n (BI/Notebook).

### üí° Tips iniciales
1. Empieza simple y *valida filtros* antes de unir/agrupar.  
2. Comenta tu SQL y usa alias claros (`AS`).  
3. Evita `SELECT *` en producci√≥n; **especifica columnas**.  
4. Usa `LIMIT` al explorar.  
5. Formatea e indenta para facilitar lectura y mantenimiento.



## 1) Entendiendo el esquema relacional (20 min)

**Tablas y campos principales** (esquema de ejemplo):

- **books**: `book_id` (PK), `author_id` (FK), `title`, `num_pages`, `publication_date`, `publisher_id` (FK)  
- **authors**: `author_id` (PK), `author`  
- **publishers**: `publisher_id` (PK), `publisher`  
- **ratings**: `rating_id` (PK), `book_id` (FK), `username`, `rating`  
- **reviews**: `review_id` (PK), `book_id` (FK), `username`, `text`

> Relaciones clave:  
> `books.author_id` ‚Üí `authors.author_id`  
> `books.publisher_id` ‚Üí `publishers.publisher_id`  
> `ratings.book_id` ‚Üí `books.book_id`  
> `reviews.book_id` ‚Üí `books.book_id`



**Exploraci√≥n inicial:** listamos tablas y vemos una muestra de su contenido.


In [None]:

# Listar tablas del esquema (si el usuario tiene permisos)
query = """
SELECT table_name
FROM information_schema.tables
WHERE table_schema='public'
ORDER BY table_name;
"""
tables = pd.io.sql.read_sql(query, con=engine)
tables


In [None]:

# Vista r√°pida de cada tabla clave (ajusta LIMIT si lo deseas)
for tbl in ["books", "authors", "publishers", "ratings", "reviews"]:
    try:
        print(f"\n===== {tbl} =====")
        df = pd.io.sql.read_sql(f"SELECT * FROM {tbl} LIMIT 5;", con=engine)
        display(df)
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo leer {tbl}: {e}")



### üß© Ejercicio 1
- Identifica qu√© columnas pueden funcionar como **PK** y **FK**.  
- ¬øQu√© preguntas de negocio podr√≠as responder con este esquema? (p. ej., *promedio de calificaciones por editorial*, *cantidad de libros por autor/a*, *evoluci√≥n anual de publicaciones*).



## 2) Llaves primarias, for√°neas y relaciones (10 min)

- **PK (Primary Key):** asegura unicidad por fila (ej. `books.book_id`).  
- **FK (Foreign Key):** referencia a otra tabla (ej. `books.author_id` ‚Üí `authors.author_id`).  

Estas llaves articulan el modelo relacional y permiten combinar informaci√≥n de diferentes tablas.


In [None]:

# Cat√°logo de columnas de 'books'
books_cols = pd.io.sql.read_sql("""
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'books'
ORDER BY ordinal_position;
""", con=engine)
books_cols



### üß© Ejercicio 2
Marca (en papel o mentalmente) las relaciones entre `books`, `authors`, `publishers`, `ratings` y `reviews`.  
Piensa c√≥mo combinar√≠as tablas para responder a: ‚Äú¬øQu√© editorial publica libros con mejores calificaciones promedio?‚Äù



## 3) Inspeccionar tablas con SQL (10 min)

Usaremos consultas sencillas para entender los datos y detectar posibles problemas de calidad (valores nulos, constantes, fechas extra√±as).


In [None]:

# Inspecci√≥n simple
books = pd.io.sql.read_sql("""
SELECT *
FROM books
LIMIT 10;
""", con=engine)
display(books.head())



**Observa:** tipos de datos, rangos, valores faltantes o at√≠picos.  
Anota columnas clave para KPIs: `num_pages` (proxy de magnitud), `publication_date` (tiempo), ratings/reviews (calidad/percepci√≥n).



## 4) Consultas b√°sicas: `SELECT`, `WHERE`, `ORDER BY` (20 min)


In [None]:

# Seleccionar columnas espec√≠ficas
q = """
SELECT book_id, title, num_pages, publication_date
FROM books
LIMIT 10;
"""
res = pd.io.sql.read_sql(q, con=engine)
display(res)


In [None]:

# Filtrar por condici√≥n num√©rica y fecha
q = """
SELECT book_id, title, num_pages, publication_date
FROM books
WHERE num_pages >= 300
  AND publication_date >= DATE '2000-01-01'
ORDER BY publication_date DESC
LIMIT 20;
"""
res = pd.io.sql.read_sql(q, con=engine)
display(res)



### üß© Ejercicio 3
Devuelve todos los libros publicados entre **2010-01-01** y **2020-12-31** con m√°s de **250** p√°ginas, ordenados por `num_pages` descendente.


In [None]:

# Ordenar resultados: top N por p√°ginas
q = """
SELECT book_id, title, num_pages
FROM books
ORDER BY num_pages DESC
LIMIT 10;
"""
top_pages = pd.io.sql.read_sql(q, con=engine)
display(top_pages)



## 5) Agrupar y agregar datos con `GROUP BY` (25 min)

Funciones agregadas: `COUNT`, `AVG`, `SUM`, `MIN`, `MAX`.  
KPIs ejemplo:  
- Promedio de calificaci√≥n por libro/editorial.  
- N√∫mero de libros por autor/a.  
- Publicaciones por a√±o.


In [None]:

# Promedio de calificaci√≥n por libro (si existe tabla ratings)
q = """
SELECT
  r.book_id,
  b.title,
  ROUND(AVG(r.rating), 2) AS avg_rating,
  COUNT(*) AS n_ratings
FROM ratings r
JOIN books b ON b.book_id = r.book_id
GROUP BY r.book_id, b.title
HAVING COUNT(*) >= 5
ORDER BY avg_rating DESC, n_ratings DESC
LIMIT 10;
"""
ratings_by_book = pd.io.sql.read_sql(q, con=engine)
display(ratings_by_book)


In [None]:

# Libros por autor/a
q = """
SELECT
  a.author,
  COUNT(b.book_id) AS books_count
FROM authors a
LEFT JOIN books b ON b.author_id = a.author_id
GROUP BY a.author
ORDER BY books_count DESC, a.author ASC
LIMIT 10;
"""
books_per_author = pd.io.sql.read_sql(q, con=engine)
display(books_per_author)


In [None]:

# Publicaciones por a√±o
q = """
SELECT
  DATE_TRUNC('year', publication_date) AS pub_year,
  COUNT(*) AS books_published
FROM books
GROUP BY 1
ORDER BY 1;
"""
pubs_by_year = pd.io.sql.read_sql(q, con=engine)
display(pubs_by_year.head())



### üß© Ejercicio 4
Calcula el **promedio de calificaci√≥n por editorial** (usando `publishers` + `books` + `ratings`) y muestra solo editoriales con **al menos 20 calificaciones**.



## 6) Precisi√≥n con tipos y funciones (10‚Äì15 min)

- **Fechas:** `DATE_TRUNC('month'/'year', publication_date)` para cortes temporales.  
- **Num√©ricos:** `ROUND(valor, 2)` para KPIs.  
- **Casting:** `CAST(col AS NUMERIC)` si hay inconsistencias.

> Aunque este esquema no es ‚Äúfinanciero puro‚Äù, las mismas t√©cnicas aplican para KPIs financieros: ingresos promedio por cliente, margen por categor√≠a, *cohortes* por fecha, etc.


In [None]:

# Top editoriales por calificaci√≥n media (umbral m√≠nimo)
q = """
SELECT
  p.publisher,
  ROUND(AVG(r.rating), 2) AS avg_rating,
  COUNT(*) AS n_ratings
FROM ratings r
JOIN books b ON b.book_id = r.book_id
JOIN publishers p ON p.publisher_id = b.publisher_id
GROUP BY p.publisher
HAVING COUNT(*) >= 20
ORDER BY avg_rating DESC, n_ratings DESC
LIMIT 10;
"""
top_publishers = pd.io.sql.read_sql(q, con=engine)
display(top_publishers)



## 7) Buenas pr√°cticas para SQL limpio (10 min)

- Palabras clave en **MAY√öSCULAS** (`SELECT`, `WHERE`, `GROUP BY`).  
- Indentaci√≥n consistente (una operaci√≥n por l√≠nea).  
- Alias claros (`AS`) y comentarios para l√≥gica compleja.  
- Usa `LIMIT` en exploraci√≥n para controlar tiempos.  
- Evita `SELECT *` en producci√≥n; especifica columnas.  
- Nombres de columnas y tablas coherentes y expresivos.



### Bonus opcional (si hay tiempo): funciones de ventana
Ejemplo de ranking de autores/as por calificaci√≥n promedio (con umbral de calificaciones).


In [None]:

q = """
WITH author_rating AS (
  SELECT
    a.author_id,
    a.author,
    AVG(r.rating) AS avg_rating,
    COUNT(r.rating_id) AS n_ratings
  FROM authors a
  JOIN books b ON b.author_id = a.author_id
  JOIN ratings r ON r.book_id = b.book_id
  GROUP BY a.author_id, a.author
  HAVING COUNT(r.rating_id) >= 20
)
SELECT
  author,
  ROUND(avg_rating, 2) AS avg_rating,
  n_ratings,
  ROW_NUMBER() OVER (ORDER BY avg_rating DESC, n_ratings DESC) AS rank_by_rating
FROM author_rating
ORDER BY rank_by_rating
LIMIT 10;
"""
author_rank = pd.io.sql.read_sql(q, con=engine)
display(author_rank)



---
## Cierre

- Navegamos un esquema relacional e identificamos PK/FK.  
- Practicamos `SELECT`, `WHERE`, `ORDER BY` y `GROUP BY`.  
- Aplicamos funciones de fecha/num√©ricas para construir KPIs (aqu√≠, calidad/volumen).  
- Las mismas t√©cnicas se trasladan a KPIs financieros (ingresos, margen, ticket promedio, cohortes).

**Pr√≥xima sesi√≥n (Webinar 8):**  
JOINs, CTEs y subconsultas para KPIs financieros: ingresos por periodo, margen por categor√≠a y retenci√≥n.
