# 🎬 Análisis de Datos con SQL y Sakila 🚀  

## ¡Bienvenidos al mundo del análisis de datos con SQL! 🧐📊  

En este notebook, exploraremos la base de datos **Sakila**, una base de datos de ejemplo utilizada para gestionar un sistema de alquiler de películas. Aprenderemos cómo **consultar, analizar y visualizar datos** utilizando **SQL** y algunas herramientas de análisis en Python. ¡Verás lo poderoso que es SQL para extraer información clave de cualquier negocio! 🎥💻  

## 🛠 Tecnologías que usaremos  

🔹 **SQLite** → Base de datos relacional ligera y fácil de usar.  
🔹 **Pandas** → Manipulación y análisis de datos en Python.  
🔹 **Plotly** → Visualizaciones interactivas para contar historias con datos.  

## 📡 Conectándonos a la Base de Datos  

Usaremos **SQLite** para conectarnos a la base de datos **Sakila**, un conjunto de datos diseñado especialmente para aprender sobre bases de datos y consultas SQL.  
 

## 📈 Visualización de Datos  

Nada como un buen gráfico para entender tendencias 📊. Usaremos **Plotly** para crear visualizaciones que nos ayuden a interpretar los datos de manera rápida y efectiva.  

---

🎯 **SQL es una de las habilidades más poderosas en el mundo de los datos.** Acompáñanos en este análisis y descubre cómo utilizar SQL para obtener información valiosa de una base de datos. ¡Manos a la obra! 🚀💡  


# Qué es SQL!?


SQL (**Structured Query Language**) es el lenguaje que nos permite hablar con las bases de datos 📊.  
Imagina que una base de datos es como una **gran biblioteca** 📚, y cada tabla dentro de ella es como una estantería con libros 📖.  

Con **SQL**, podemos hacer preguntas a la base de datos y obtener respuestas. ¡Veamos cómo! 🚀  

In [1]:
import sqlite3
import pandas as pd

![biblioteca](./images/biblioteca.jpg)

![biblioteca](./images/bases-excel.jpg)

![biblioteca](./images/datacenter.jpg)

![biblioteca](./images/spotify.jpg)

In [3]:
import sqlite3
import pandas as pd

def conectar_bd():
    """Establece conexión con la base de datos SQLite Sakila y devuelve el cursor y la conexión."""
    db_path = "/Users/d3r/Documents/Github/101010-data/webinar/feb-2025b/data/sakila_master.db"
    conn = sqlite3.connect(db_path)
    return conn, conn.cursor()

def ejecutar_consulta(query):
    """
    Recibe una consulta SQL en forma de texto, la ejecuta y muestra el resultado en un DataFrame.
    """
    conn, cursor = conectar_bd()
    cursor.execute(query)
    data = cursor.fetchall()
    
    # Obtener los nombres de las columnas
    columnas = [desc[0] for desc in cursor.description]
    
    # Convertir a DataFrame y mostrar
    df = pd.DataFrame(data, columns=columnas)
    display(df)
    
    # Cerrar conexión
    conn.close()


### 🔍 1. Nuestra primera consulta: `SELECT *`  
Si quieres ver **todos los libros** de una estantería en la biblioteca, solo tienes que pedirle al bibliotecario:  

*"Muéstrame todos los libros que tienes"* 📖  

En SQL, esto se traduce a:  

```sql
SELECT * FROM estanteria;

In [4]:
query = "SELECT * FROM film LIMIT 5;"
ejecutar_consulta(query)

OperationalError: unable to open database file

🎯 2. Filtrando información con SELECT FROM WHERE

Ahora, si queremos solo las películas con duración mayor a 120 minutos, usamos WHERE:

In [None]:
query = "SELECT title, length FROM film WHERE length > 120 LIMIT 5;"
ejecutar_consulta(query)


🎬 3. Ordenando los resultados con ORDER BY

Si queremos ver las películas más largas primero, agregamos ORDER BY:

In [None]:
query = "SELECT title, length FROM film ORDER BY length DESC LIMIT 5;"
ejecutar_consulta(query)


🏆 4. Contando registros con COUNT

Si queremos saber cuántas películas duran más de 120 minutos, usamos COUNT:

In [None]:
query = "SELECT COUNT(title) as conteo FROM film WHERE length > 120;"
ejecutar_consulta(query)


# Cómo se ve nuestra base de datos ? 

![biblioteca](./images/sakila.png)

¿Qué es una base de datos y en qué se diferencia de Excel?
Imagina que tienes una libreta (Excel) donde anotas listas de cosas, como nombres de clientes o productos. Funciona bien, pero cuando crece mucho, buscar, actualizar o conectar información se vuelve complicado.

Una base de datos es como un sistema más inteligente y estructurado que te permite almacenar, organizar y conectar datos de manera eficiente.

### 🔥 **¿Cómo es diferente de Excel?**  

✅ **Relaciones** 🔗  
📊 En **Excel**, cada hoja es independiente y debes conectar datos **a mano**.  
🛠️ En una **base de datos**, todo se **conecta solo**. Por ejemplo, puedes saber **qué cliente hizo qué pedido** sin repetir info.  

✅ **Tipos de datos** 🔢  
✏️ En **Excel**, puedes escribir lo que sea en cualquier celda (y cometer errores 😵).  
📌 En una **base de datos**, cada columna tiene un **tipo de dato fijo** (números, texto, fechas) para evitar problemas.  

✅ **Restricciones (Constraints)** 🚫  
😬 En **Excel**, puedes meter valores incorrectos sin darte cuenta.  
🛡️ En una **base de datos**, puedes poner reglas, como que un precio **no sea negativo** o que un correo **no se repita**.  

✅ **Clave primaria (Primary Key)** 🔑  
📂 En **Excel**, puedes tener filas repetidas y perder el control.  
🆔 En una **base de datos**, cada fila tiene un **ID único**, asegurando que **nada se duplique** y todo esté bien organizado.  

🚀 **Base de datos = Más orden, más control y menos errores.** 🔥

```sql
CREATE TABLE customer (
    customer_id INT PRIMARY KEY,             -- 🔑 Clave primaria
    first_name VARCHAR(45) NOT NULL,         -- 🔤 Texto obligatorio
    last_name VARCHAR(45) NOT NULL,          -- 🔤 Texto obligatorio
    email VARCHAR(50) UNIQUE,                -- 📧 Debe ser único
    active BOOLEAN DEFAULT TRUE,             -- ✅ Estado con valor por defecto
    create_date TIMESTAMP DEFAULT CURRENT_TIMESTAMP -- ⏳ Fecha automática
);

CREATE TABLE rental (
    rental_id INT PRIMARY KEY,               -- 🔑 Clave primaria
    rental_date TIMESTAMP NOT NULL,          -- ⏳ Fecha de renta
    customer_id INT,                          -- 🔗 Relación con customer
    CONSTRAINT fk_rental_customer FOREIGN KEY (customer_id) REFERENCES customer(customer_id) 
        ON DELETE CASCADE                     -- 🔗 Si un cliente se borra, sus rentas también
);

CREATE TABLE film (
    film_id INT PRIMARY KEY,                  -- 🔑 Clave primaria
    title VARCHAR(255) NOT NULL,              -- 🎬 Nombre de la película
    release_year INT CHECK (release_year > 1900),  -- 🎞️ Año válido (> 1900)
    rental_rate DECIMAL(5,2) NOT NULL CHECK (rental_rate >= 0), -- 💲 Precio mínimo 0
    length INT CHECK (length > 0),            -- ⏳ Duración positiva
    rating VARCHAR(10) CHECK (rating IN ('G', 'PG', 'PG-13', 'R', 'NC-17')) -- 🎭 Solo valores válidos
);

CREATE TABLE inventory (
    inventory_id INT PRIMARY KEY,             -- 🔑 Clave primaria
    film_id INT,                              -- 🔗 Relación con film
    CONSTRAINT fk_inventory_film FOREIGN KEY (film_id) REFERENCES film(film_id) 
        ON DELETE CASCADE                      -- 🔗 Si una película se borra, su inventario también
);
```


# Gráficos

In [None]:
import plotly.express as px


# 📊 Función para ejecutar consultas y graficar resultados en Plotly
def graficar_consulta(query, x_col, y_col, titulo="Gráfico de Datos", x_label="", y_label=""):
    """
    Ejecuta una consulta SQL, muestra los resultados en un DataFrame y genera un gráfico de barras 16:9 con Plotly.
    
    Parámetros:
    - query (str): Consulta SQL a ejecutar.
    - x_col (str): Nombre de la columna a usar en el eje X.
    - y_col (str): Nombre de la columna a usar en el eje Y.
    - titulo (str): Título del gráfico (opcional).
    - x_label (str): Etiqueta del eje X (opcional).
    - y_label (str): Etiqueta del eje Y (opcional).
    """
    conn, cursor = conectar_bd()
    cursor.execute(query)
    data = cursor.fetchall()
    columnas = [desc[0] for desc in cursor.description]
    df = pd.DataFrame(data, columns=columnas)
    
    # Mostrar la tabla
    display(df)
    
    # Crear gráfico de barras 16:9 con Plotly
    fig = px.bar(df, x=x_col, y=y_col, title=titulo, labels={x_col: x_label, y_col: y_label})
    fig.update_layout(width=1280, height=720)  # Formato 16:9
    fig.show()
    
    # Cerrar conexión
    conn.close()

In [None]:
query = """
SELECT film.title, COUNT(rental.rental_id) AS rental_count
FROM rental
JOIN inventory ON rental.inventory_id = inventory.inventory_id
JOIN film ON inventory.film_id = film.film_id
GROUP BY film.title
ORDER BY rental_count DESC
LIMIT 5;
"""

graficar_consulta(query, x_col="title", y_col="rental_count", titulo="🎞️ Top 5 Películas Más Alquiladas", x_label="Película", y_label="Cantidad de Rentas")


# Quién usa SQL ? 

https://db-engines.com/en/ranking

![Python Logo](./images/top-db1.png)

![Python Logo](./images/top-db.png)