# 🎬 Análisis de Datos con SQL y Sakila 🚀  

## ¡Bienvenidos al mundo del análisis de datos con SQL! 🧐📊  

¿Alguna vez te has preguntado **qué películas son las más alquiladas** o **quiénes son los mejores clientes** en un sistema de renta de películas? 💡  

En este notebook, exploraremos la base de datos **Sakila**, una base de datos de ejemplo utilizada para gestionar un sistema de alquiler de películas. Aprenderemos cómo **consultar, analizar y visualizar datos** utilizando **SQL** y algunas herramientas de análisis en Python. ¡Verás lo poderoso que es SQL para extraer información clave de cualquier negocio! 🎥💻 

In [3]:
import pandas as pd
import plotly.express as px
import sqlite3

In [2]:
!pip install sqlite


ERROR: Could not find a version that satisfies the requirement sqlite (from versions: none)

[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: python.exe -m pip install --upgrade pip
ERROR: No matching distribution found for sqlite


# Conectarse a la base de datos

In [4]:
conn = sqlite3.connect('sakila_master.db')
cursor = conn.cursor()

print("Connected to SQLite database")

Connected to SQLite database


# Mi primera consulta

In [13]:
query_all_movies = "SELECT * FROM film LIMIT 5;"  # Limitamos a 5 para no sobrecargar la salida
cursor.execute(query_all_movies)
all_movies = cursor.fetchall()

df_all_movies = pd.DataFrame(all_movies, columns=[desc[0] for desc in cursor.description])
display(df_all_movies)


Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2020-12-23 07:12:31
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2020-12-23 07:12:31
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2020-12-23 07:12:31
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2020-12-23 07:12:31
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2020-12-23 07:12:31



## 🏗️ Entendiendo SQL desde Cero  

SQL (**Structured Query Language**) es el lenguaje que nos permite hablar con las bases de datos 📊.  
Imagina que una base de datos es como una **gran biblioteca** 📚, y cada tabla dentro de ella es como una estantería con libros 📖.  

Con **SQL**, podemos hacer preguntas a la base de datos y obtener respuestas. ¡Veamos cómo! 🚀  

### 🔍 1. Nuestra primera consulta: `SELECT *`  
Si quieres ver **todos los libros** de una estantería en la biblioteca, solo tienes que pedirle al bibliotecario:  

*"Muéstrame todos los libros que tienes"* 📖  

🎯 2. Filtrando información con SELECT FROM WHERE


Ahora imaginemos que queremos buscar solo las películas que duran más de 120 minutos.

Es como si le dijéramos al bibliotecario:

"Muéstrame solo los libros que tengan más de 300 páginas" 📘

En SQL, esto se hace con WHERE:



```sql
SELECT title, length FROM film WHERE length > 120;

📌 Esta consulta nos mostrará solo las películas con duración mayor a 120 minutos.
Veámoslo en Python:

In [14]:
query_long_movies = "SELECT title, length FROM film WHERE length > 120 LIMIT 5;"
cursor.execute(query_long_movies)
long_movies = cursor.fetchall()

df_long_movies = pd.DataFrame(long_movies, columns=['Title', 'Length'])
display(df_long_movies)


Unnamed: 0,Title,Length
0,AFRICAN EGG,130
1,AGENT TRUMAN,169
2,ALAMO VIDEOTAPE,126
3,ALASKA PHANTOM,136
4,ALI FOREVER,150


🎬 3. Ordenando los resultados con ORDER BY

¿Qué tal si ahora queremos ver las películas más largas primero?
Es como si le dijéramos al bibliotecario:

"Ordéname los libros de mayor a menor número de páginas" 📑

Usamos ORDER BY:
```sql
SELECT title, length FROM film WHERE length > 120 ORDER BY length DESC;

In [16]:
query_sorted_movies = "SELECT title, length FROM film WHERE length > 120 ORDER BY length DESC;"
cursor.execute(query_sorted_movies)
sorted_movies = cursor.fetchall()

df_sorted_movies = pd.DataFrame(sorted_movies, columns=['Title', 'Length'])
display(df_sorted_movies)


Unnamed: 0,Title,Length
0,CHICAGO NORTH,185
1,CONTROL ANTHEM,185
2,DARN FORRESTER,185
3,GANGS PRIDE,185
4,HOME PITY,185
...,...,...
452,DANGEROUS UPTOWN,121
453,HARRY IDAHO,121
454,JUMANJI BLADE,121
455,PARIS WEEKEND,121


# ¿Qué es una base de datos y por qué es importante?

Una **base de datos** es un conjunto organizado de datos que se almacenan y se acceden electrónicamente desde un sistema informático. Las bases de datos permiten almacenar grandes cantidades de información de manera estructurada, lo que facilita su consulta, actualización y gestión.


### MOSTRAR ARCHIVO DB


##  END HERE

In [9]:
query_total_income = """
SELECT SUM(amount) AS total_income
FROM payment;
"""

cursor.execute(query_total_income)
total_income = cursor.fetchone()[0]

print(f"Total income from all rentals: ${total_income:.2f}")
df_total_income = pd.DataFrame([{'Total Income': total_income}])

display(df_total_income)

Total income from all rentals: $67416.51


Unnamed: 0,Total Income
0,67416.51


In [None]:
query = """
SELECT film.title, COUNT(rental.rental_id) AS rental_count
FROM rental
JOIN inventory ON rental.inventory_id = inventory.inventory_id
JOIN film ON inventory.film_id = film.film_id
GROUP BY film.title
ORDER BY rental_count DESC
LIMIT 4;
"""

cursor.execute(query)
top_movies = cursor.fetchall()

df_top_movies = pd.DataFrame(top_movies, columns=['Title', 'Rental Count'])

display(df_top_movies)

Unnamed: 0,Title,Rental Count
0,BUCKET BROTHERHOOD,34
1,ROCKETEER MOTHER,33
2,SCALAWAG DUCK,32
3,RIDGEMONT SUBMARINE,32


In [10]:
query_top_5_movies = """
SELECT film.title, COUNT(rental.rental_id) AS rental_count
FROM rental
JOIN inventory ON rental.inventory_id = inventory.inventory_id
JOIN film ON inventory.film_id = film.film_id
GROUP BY film.title
ORDER BY rental_count DESC
LIMIT 5;
"""

cursor.execute(query_top_5_movies)
top_5_movies = cursor.fetchall()

df_top_5_movies = pd.DataFrame(top_5_movies, columns=['Title', 'Rental Count'])

display(df_top_5_movies)

Unnamed: 0,Title,Rental Count
0,BUCKET BROTHERHOOD,34
1,ROCKETEER MOTHER,33
2,SCALAWAG DUCK,32
3,RIDGEMONT SUBMARINE,32
4,JUGGLER HARDLY,32


In [11]:
query_rentals_per_customer = """
SELECT customer.first_name || ' ' || customer.last_name AS customer_name, COUNT(rental.rental_id) AS rental_count
FROM rental
JOIN customer ON rental.customer_id = customer.customer_id
GROUP BY customer_name
ORDER BY rental_count DESC
LIMIT 10;
"""

cursor.execute(query_rentals_per_customer)
rentals_per_customer = cursor.fetchall()

df_rentals_per_customer = pd.DataFrame(rentals_per_customer, columns=['Customer Name', 'Rental Count'])

fig1 = px.bar(df_rentals_per_customer, x='Customer Name', y='Rental Count', title='Top 10 Customers by Rental Count')
fig1.show()

🚀 Conclusión

SQL nos permite explorar y entender los datos de una manera clara y ordenada.
📌 Hemos aprendido:

✅ Cómo ver toda una tabla con SELECT *

✅ Cómo filtrar datos con WHERE

✅ Cómo ordenar resultados con ORDER BY


Y esto es solo el comienzo. A medida que avancemos, veremos consultas más poderosas para tomar decisiones basadas en datos 📈.

# Qué empresas usan SQL ?