# üé¨ An√°lisis de Datos con SQL y Sakila üöÄ  

## ¬°Bienvenidos al mundo del an√°lisis de datos con SQL! üßêüìä  

En este notebook, exploraremos la base de datos **Sakila**, una base de datos de ejemplo utilizada para gestionar un sistema de alquiler de pel√≠culas. Aprenderemos c√≥mo **consultar, analizar y visualizar datos** utilizando **SQL** y algunas herramientas de an√°lisis en Python. ¬°Ver√°s lo poderoso que es SQL para extraer informaci√≥n clave de cualquier negocio! üé•üíª  

## üõ† Tecnolog√≠as que usaremos  

üîπ **SQLite** ‚Üí Base de datos relacional ligera y f√°cil de usar.  
üîπ **Pandas** ‚Üí Manipulaci√≥n y an√°lisis de datos en Python.  
üîπ **Plotly** ‚Üí Visualizaciones interactivas para contar historias con datos.  

## üì° Conect√°ndonos a la Base de Datos  

Usaremos **SQLite** para conectarnos a la base de datos **Sakila**, un conjunto de datos dise√±ado especialmente para aprender sobre bases de datos y consultas SQL.  
 

## üìà Visualizaci√≥n de Datos  

Nada como un buen gr√°fico para entender tendencias üìä. Usaremos **Plotly** para crear visualizaciones que nos ayuden a interpretar los datos de manera r√°pida y efectiva.  

---

üéØ **SQL es una de las habilidades m√°s poderosas en el mundo de los datos.** Acomp√°√±anos en este an√°lisis y descubre c√≥mo utilizar SQL para obtener informaci√≥n valiosa de una base de datos. ¬°Manos a la obra! üöÄüí°  


# Qu√© es SQL!?


SQL (**Structured Query Language**) es el lenguaje que nos permite hablar con las bases de datos üìä.  
Imagina que una base de datos es como una **gran biblioteca** üìö, y cada tabla dentro de ella es como una estanter√≠a con libros üìñ.  

Con **SQL**, podemos hacer preguntas a la base de datos y obtener respuestas. ¬°Veamos c√≥mo! üöÄ  

In [1]:
import sqlite3
import pandas as pd

![biblioteca](./images/biblioteca.jpg)

![biblioteca](./images/bases-excel.jpg)

![biblioteca](./images/datacenter.jpg)

![biblioteca](./images/spotify.jpg)

In [3]:
import sqlite3
import pandas as pd

def conectar_bd():
    """Establece conexi√≥n con la base de datos SQLite Sakila y devuelve el cursor y la conexi√≥n."""
    db_path = "/Users/d3r/Documents/Github/101010-data/webinar/feb-2025b/data/sakila_master.db"
    conn = sqlite3.connect(db_path)
    return conn, conn.cursor()

def ejecutar_consulta(query):
    """
    Recibe una consulta SQL en forma de texto, la ejecuta y muestra el resultado en un DataFrame.
    """
    conn, cursor = conectar_bd()
    cursor.execute(query)
    data = cursor.fetchall()
    
    # Obtener los nombres de las columnas
    columnas = [desc[0] for desc in cursor.description]
    
    # Convertir a DataFrame y mostrar
    df = pd.DataFrame(data, columns=columnas)
    display(df)
    
    # Cerrar conexi√≥n
    conn.close()


### üîç 1. Nuestra primera consulta: `SELECT *`  
Si quieres ver **todos los libros** de una estanter√≠a en la biblioteca, solo tienes que pedirle al bibliotecario:  

*"Mu√©strame todos los libros que tienes"* üìñ  

En SQL, esto se traduce a:  

```sql
SELECT * FROM estanteria;

In [4]:
query = "SELECT * FROM film LIMIT 5;"
ejecutar_consulta(query)

OperationalError: unable to open database file

üéØ 2. Filtrando informaci√≥n con SELECT FROM WHERE

Ahora, si queremos solo las pel√≠culas con duraci√≥n mayor a 120 minutos, usamos WHERE:

In [None]:
query = "SELECT title, length FROM film WHERE length > 120 LIMIT 5;"
ejecutar_consulta(query)


üé¨ 3. Ordenando los resultados con ORDER BY

Si queremos ver las pel√≠culas m√°s largas primero, agregamos ORDER BY:

In [None]:
query = "SELECT title, length FROM film ORDER BY length DESC LIMIT 5;"
ejecutar_consulta(query)


üèÜ 4. Contando registros con COUNT

Si queremos saber cu√°ntas pel√≠culas duran m√°s de 120 minutos, usamos COUNT:

In [None]:
query = "SELECT COUNT(title) as conteo FROM film WHERE length > 120;"
ejecutar_consulta(query)


# C√≥mo se ve nuestra base de datos ? 

![biblioteca](./images/sakila.png)

¬øQu√© es una base de datos y en qu√© se diferencia de Excel?
Imagina que tienes una libreta (Excel) donde anotas listas de cosas, como nombres de clientes o productos. Funciona bien, pero cuando crece mucho, buscar, actualizar o conectar informaci√≥n se vuelve complicado.

Una base de datos es como un sistema m√°s inteligente y estructurado que te permite almacenar, organizar y conectar datos de manera eficiente.

### üî• **¬øC√≥mo es diferente de Excel?**  

‚úÖ **Relaciones** üîó  
üìä En **Excel**, cada hoja es independiente y debes conectar datos **a mano**.  
üõ†Ô∏è En una **base de datos**, todo se **conecta solo**. Por ejemplo, puedes saber **qu√© cliente hizo qu√© pedido** sin repetir info.  

‚úÖ **Tipos de datos** üî¢  
‚úèÔ∏è En **Excel**, puedes escribir lo que sea en cualquier celda (y cometer errores üòµ).  
üìå En una **base de datos**, cada columna tiene un **tipo de dato fijo** (n√∫meros, texto, fechas) para evitar problemas.  

‚úÖ **Restricciones (Constraints)** üö´  
üò¨ En **Excel**, puedes meter valores incorrectos sin darte cuenta.  
üõ°Ô∏è En una **base de datos**, puedes poner reglas, como que un precio **no sea negativo** o que un correo **no se repita**.  

‚úÖ **Clave primaria (Primary Key)** üîë  
üìÇ En **Excel**, puedes tener filas repetidas y perder el control.  
üÜî En una **base de datos**, cada fila tiene un **ID √∫nico**, asegurando que **nada se duplique** y todo est√© bien organizado.  

üöÄ **Base de datos = M√°s orden, m√°s control y menos errores.** üî•

```sql
CREATE TABLE customer (
    customer_id INT PRIMARY KEY,             -- üîë Clave primaria
    first_name VARCHAR(45) NOT NULL,         -- üî§ Texto obligatorio
    last_name VARCHAR(45) NOT NULL,          -- üî§ Texto obligatorio
    email VARCHAR(50) UNIQUE,                -- üìß Debe ser √∫nico
    active BOOLEAN DEFAULT TRUE,             -- ‚úÖ Estado con valor por defecto
    create_date TIMESTAMP DEFAULT CURRENT_TIMESTAMP -- ‚è≥ Fecha autom√°tica
);

CREATE TABLE rental (
    rental_id INT PRIMARY KEY,               -- üîë Clave primaria
    rental_date TIMESTAMP NOT NULL,          -- ‚è≥ Fecha de renta
    customer_id INT,                          -- üîó Relaci√≥n con customer
    CONSTRAINT fk_rental_customer FOREIGN KEY (customer_id) REFERENCES customer(customer_id) 
        ON DELETE CASCADE                     -- üîó Si un cliente se borra, sus rentas tambi√©n
);

CREATE TABLE film (
    film_id INT PRIMARY KEY,                  -- üîë Clave primaria
    title VARCHAR(255) NOT NULL,              -- üé¨ Nombre de la pel√≠cula
    release_year INT CHECK (release_year > 1900),  -- üéûÔ∏è A√±o v√°lido (> 1900)
    rental_rate DECIMAL(5,2) NOT NULL CHECK (rental_rate >= 0), -- üí≤ Precio m√≠nimo 0
    length INT CHECK (length > 0),            -- ‚è≥ Duraci√≥n positiva
    rating VARCHAR(10) CHECK (rating IN ('G', 'PG', 'PG-13', 'R', 'NC-17')) -- üé≠ Solo valores v√°lidos
);

CREATE TABLE inventory (
    inventory_id INT PRIMARY KEY,             -- üîë Clave primaria
    film_id INT,                              -- üîó Relaci√≥n con film
    CONSTRAINT fk_inventory_film FOREIGN KEY (film_id) REFERENCES film(film_id) 
        ON DELETE CASCADE                      -- üîó Si una pel√≠cula se borra, su inventario tambi√©n
);
```


# Gr√°ficos

In [None]:
import plotly.express as px


# üìä Funci√≥n para ejecutar consultas y graficar resultados en Plotly
def graficar_consulta(query, x_col, y_col, titulo="Gr√°fico de Datos", x_label="", y_label=""):
    """
    Ejecuta una consulta SQL, muestra los resultados en un DataFrame y genera un gr√°fico de barras 16:9 con Plotly.
    
    Par√°metros:
    - query (str): Consulta SQL a ejecutar.
    - x_col (str): Nombre de la columna a usar en el eje X.
    - y_col (str): Nombre de la columna a usar en el eje Y.
    - titulo (str): T√≠tulo del gr√°fico (opcional).
    - x_label (str): Etiqueta del eje X (opcional).
    - y_label (str): Etiqueta del eje Y (opcional).
    """
    conn, cursor = conectar_bd()
    cursor.execute(query)
    data = cursor.fetchall()
    columnas = [desc[0] for desc in cursor.description]
    df = pd.DataFrame(data, columns=columnas)
    
    # Mostrar la tabla
    display(df)
    
    # Crear gr√°fico de barras 16:9 con Plotly
    fig = px.bar(df, x=x_col, y=y_col, title=titulo, labels={x_col: x_label, y_col: y_label})
    fig.update_layout(width=1280, height=720)  # Formato 16:9
    fig.show()
    
    # Cerrar conexi√≥n
    conn.close()

In [None]:
query = """
SELECT film.title, COUNT(rental.rental_id) AS rental_count
FROM rental
JOIN inventory ON rental.inventory_id = inventory.inventory_id
JOIN film ON inventory.film_id = film.film_id
GROUP BY film.title
ORDER BY rental_count DESC
LIMIT 5;
"""

graficar_consulta(query, x_col="title", y_col="rental_count", titulo="üéûÔ∏è Top 5 Pel√≠culas M√°s Alquiladas", x_label="Pel√≠cula", y_label="Cantidad de Rentas")


# Qui√©n usa SQL ? 

https://db-engines.com/en/ranking

![Python Logo](./images/top-db1.png)

![Python Logo](./images/top-db.png)