# Movie Revenue Predictor (proyecto_ML)


Sistema de predicción de ingresos en taquilla para películas utilizando datos de TMDB (The Movie Database). Implementa un enfoque de dos fases: clasificación para determinar si una película se estrenará en cines o  en plataformas, y regresión para predecir la recaudación de los estrenos cinematográficos.

---

## Estructura del Repositorio

```
movie_revenue_predictor/
│
├── data/
│   ├── raw/                    # Datos originales de TMDB
│   ├── processed/              # Datos limpios
│   ├── train/                  # Set de entrenamiento
│   └── test/                   # Set de evaluación
│
├── notebooks/
│   ├── 01_Fuentes.ipynb        # Extracción de datos de API TMDB
│   ├── 02_LimpiezaEDA.ipynb    # Limpieza y análisis exploratorio
│   └── 03_Entrenamiento_Evaluacion.ipynb  # Modelado y evaluación
│
├── src/
│   ├── data_processing.py      # Funciones de preprocesamiento
│   ├── training.py             # Entrenamiento de modelos
│   └── evaluation.py           # Métricas y evaluación
│
├── models/
│   ├── clasificador_rf.pkl     # Modelo de clasificación
│   ├── regresor_rf.pkl         # Random Forest Regressor
│   ├── regresor_xgb.pkl        # XGBoost Regressor
│   └── pipeline_streamlit.pkl  # Pipeline completo para demo
│
├── app_streamlit/
│   ├── app.py                  # Aplicación Streamlit
│   └── requirements.txt        # Dependencias
│
├── docs/
│   ├── negocio.pptx
│   └── presentacion_tecnica.pptx
│
└── README.md

```

## Descripción del Proyecto

El objetivo de este proyecto es construir un modelo de Machine Learning capaz de predecir el éxito en taquilla de una película antes de su estreno.

### El Problema

El dataset presenta un desbalanceo significativo: aproximadamente el 39% de las películas tienen `revenue = 0` (estrenos en plataformas de streaming), mientras que el 61% tienen ingresos en taquilla registrados. Para abordar este desafío, se implementó un **modelo mixto de dos fases**.


**Fuente**: API de The Movie Database (TMDB)

### Variables del Dataset
**Identificador (1)**
- `title`: Título de la película (para referencia)

**Numéricas (6):**
- `budget`: Presupuesto de producción en USD
- `runtime`: Duración en minutos
- `vote_average`: Calificación promedio (0-10)
- `vote_count`: Número de votos
- `log_popularity`: Popularidad en TMDB (transformación logarítmica)
- `num_genres`: Cantidad de géneros asignados

**Temporales (2):**
- `release_year`: Año de estreno
- `release_month`: Mes de estreno

**Binarias (10):**
- `genre_action`: Género Acción (0 = No, 1 = Sí)
- `genre_adventure`: Género Aventura (0 = No, 1 = Sí)
- `genre_animation`: Género Animación (0 = No, 1 = Sí)
- `genre_comedy`: Género Comedia (0 = No, 1 = Sí)
- `genre_drama`: Género Drama (0 = No, 1 = Sí)
- `genre_family`: Género Familiar (0 = No, 1 = Sí)
- `genre_fantasy`: Género Fantasía (0 = No, 1 = Sí)
- `genre_horror`: Género Terror (0 = No, 1 = Sí)
- `genre_science_fiction`: Género Ciencia Ficción (0 = No, 1 = Sí)
- `genre_thriller`: Género Thriller (0 = No, 1 = Sí)

**Categórica (1):**
- `language_category`: Idioma original (9 categorías: en, fr, es, ja, ko, it, de, hi, other)


## Enfoque Metodológico

### Fase 1: Clasificación
**Objetivo**: Se aplica modelos clasificatorios con el objectivo de predecir si el estreno ha de ser en plataformas o en salas de cine.

**Modelos evaluados**:
- Logistic Regression
- Random Forest Classifier
- XGBoost Classifier
- SVM

### Fase 2: Regresión

**Objetivo**: Para las películas clasificadas como estrenos cinematográficos, predecir la cantidad de ingresos en taquilla.

**Modelos evaluados**:
- Ridge Regression
- Lasso Regression
- Random Forest Regressor
- XGBoost Regressor

**Transformación del target**: Se aplicó transformación logarítmica (`log(revenue)`) para normalizar la distribución asimétrica de los ingresos.

---

### Modelo Final Seleccionado

**Clasificación**: Random Forest Classifier
**Regresión**: Ensemble (Random Forest 30% + XGBoost 70%)

**Justificación**:
- Random Forest muestra excelente generalización con overfitting prácticamente inexistente
- El ensemble combina la estabilidad de Random Forest con el mayor R² de XGBoost
- El modelo final logra un R² de ~0.75, explicando el 75% de la varianza en los ingresos

---

---

## Instalación y Uso

### Requisitos

```bash
Python >= 3.8
```

### Instalación

```bash
# Clonar el repositorio
git clone https://github.com/[tu-usuario]/movie_revenue_predictor.git
cd movie_revenue_predictor

# Crear entorno virtual
python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate   # Windows

# Instalar dependencias
pip install -r requirements.txt

```

## Demo Streamlit

La aplicación web permite realizar predicciones interactivas:

```bash
cd app_streamlit
streamlit run app.py
```

### Funcionalidades

1. **Entrada de datos**: Presupuesto, duración, rating, géneros, franquicia, estudio
2. **Predicción en dos fases**:
   - Fase 1: Clasificación → ¿Estreno en cines o streaming?
   - Fase 2: Regresión → Predicción de taquilla (si es estreno)
3. **Visualización de resultados**: Revenue estimado, ROI proyectado, probabilidad de clasificación

---

## Conclusiones

### Hallazgos Principales

1. **El presupuesto es el predictor más importante**, seguido de la pertenencia a franquicias y la presencia de estudios grandes
2. **Los modelos de ensemble** (Random Forest, XGBoost) superan significativamente a los modelos lineales
3. **El enfoque de dos fases** es crucial para manejar el desbalanceo del dataset
4. **R² = 0.75** indica que el modelo explica el 75% de la varianza, dejando 25% a factores externos (marketing, competencia, timing)

### Limitaciones

- El modelo no captura factores externos como campañas de marketing o competencia en cartelera
- La popularidad de TMDB se calcula post-estreno, limitando su uso predictivo real
- Dataset limitado a películas con información completa en TMDB

### Trabajo Futuro

- Incorporar datos de redes sociales y sentimiento previo al estreno
- Análisis de competencia en fechas de estreno
- Predicción de ventanas de streaming post-cines

## Autor

**Miguel Jiménez** - Estudiante de Data Science en TheBridge Bootcamp

---

## Licencia

Este proyecto fue desarrollado con fines educativos como parte del módulo de Machine Learning del bootcamp de Data Science.

---

*Proyecto desarrollado en noviembre 2024*