# 🎬 Reto de Análisis de Películas – *Movies Challenge*

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

In [None]:
# Project root directory
project_root = Path().resolve()
movies_data_path = str(project_root / "retos" / "reto-movies-jasonssdev" / "data" / "movies.csv")


In [None]:
df_movies = pd.read_csv(movies_data_path, sep=',', encoding='utf-8')
df_movies.head()

### 1️⃣ Duración promedio por década  
**Pregunta:**  
> ¿Cuál es la duración media de las películas y cómo ha evolucionado en cada década?

**Pista:**  
Agrupa por la **década** derivada de la columna `title_year` y calcula la media de `duration`.

In [None]:
# código

### 2️⃣ Directores taquilleros  
**Pregunta:**  
> ¿Qué 5 directores acumulan la mayor recaudación total (`gross`) en el dataset?

**Pista:**  
Agrupa por `director_name`, suma la columna `gross`, luego ordena de mayor a menor y muestra los primeros cinco resultados.

In [None]:
# código

### 3️⃣ Presupuesto vs. Éxito crítico  
**Pregunta:**  
> ¿Existe correlación entre el presupuesto (`budget`) y la puntuación IMDb (`imdb_score`)?

**Pista:**  
Convierte `budget` a numérico (puede tener nulos), luego usa el método `.corr()` de Pandas para obtener el coeficiente de Pearson entre ambas columnas.

In [None]:
# código

### 4️⃣ Género y clasificación  
**Pregunta:**  
> ¿Cuál es el género con el mayor porcentaje de películas clasificadas como **PG-13**?

**Pista:**  
1. La columna `genres` contiene varios géneros separados por `"|"`.  
2. Expande esa columna (`str.split('|')`) y usa `explode()` para tener un género por fila.  
3. Filtra las filas con `content_rating == 'PG-13'`, cuenta cuántas películas tiene cada género y calcula el porcentaje sobre el total de PG-13.

In [None]:
# código

### 5️⃣ Críticas vs. Puntuación  
**Pregunta:**  
> ¿Cómo se relaciona el número de **críticas de usuarios** con la puntuación IMDb?

**Pista:**  
Utiliza la columna `num_user_for_reviews` como indicador de cuántas críticas ha recibido una película.  
Calcula el coeficiente de correlación (Pearson) con `imdb_score` y, opcionalmente, crea un scatterplot para visualizar la relación.

In [None]:
# código

### 6️⃣ Mercados más lucrativos  
**Pregunta:**  
> ¿Qué país presenta la **mediana** de recaudación (`gross`) más alta?

**Pista:**  
Agrupa por `country`, calcula la **mediana** de `gross`, ordena de mayor a menor y revisa el primer resultado.  
La mediana es menos sensible a outliers que el promedio, por eso se usa aquí.

In [None]:
# código

### 7️⃣ Color vs. Blanco-y-negro  
**Pregunta:**  
> ¿Cómo difieren las puntuaciones IMDb entre películas a **color** y **blanco-y-negro**?

**Pista:**  
La columna `color` indica `'Color'` o `'Black and White'`.  
Comparar las distribuciones con un **boxplot** (o violinplot) y, si quieres un número, calcula la media o mediana de `imdb_score` para cada categoría.

In [None]:
# código

### 8️⃣ Rostro del éxito  
**Pregunta:**  
> ¿Qué actor o actriz aparece con mayor frecuencia entre las **100 películas con mejor puntuación IMDb**?

**Pista:**  
1. Ordena el DataFrame por `imdb_score` de forma descendente y conserva solo las primeras 100 filas.  
2. Combina las columnas `actor_1_name`, `actor_2_name`, `actor_3_name` en una sola serie (`pd.concat`).  
3. Usa `value_counts()` para contar apariciones y obtén el primer resultado.

In [None]:
# código

### 9️⃣ Recaudación por clasificación  
**Pregunta:**  
> ¿Cómo varía la recaudación (`gross`) según la clasificación por edad (`content_rating`)?  
> (Compara las distribuciones con un **boxplot**).

**Pista:**  
Filtra valores nulos en `gross`, usa `hue="color"` `sns.boxplot()` con `x='content_rating'` y `y='gross'`; rota las etiquetas para legibilidad.

In [None]:
# código

### 🔟 Géneros más rentables  
**Pregunta:**  
> ¿Qué **tres géneros** presentan la recaudación promedio (`gross`) más alta?

**Pista:**  
Expande la columna `genres` con `str.split('|')` + `explode()`, convierte `gross` a numérico, agrupa por género y calcula la media.

In [None]:
# código

## 🎉 ¡Felicitaciones!

Has completado el **Reto de Análisis de Películas** — demostraste tu habilidad para limpiar datos, explorar patrones y extraer insights accionables a partir de información cinematográfica. 👏

Tu notebook ya forma parte de la colección de soluciones de PyData Panamá.  
¡Comparte tus hallazgos en redes y sigue practicando; el próximo blockbuster de datos espera por ti! 🚀