# Fase 1: Comprensión del Negocio

## Objetivo del Proyecto
Desarrollar modelos de Machine Learning para predecir la clasificación por edad (rating) y la puntuación promedio de películas basándose en sus características generales como género, duración, país y año de estreno.

## Problemas de Negocio

### Problema 1: Clasificación por Edad
La industria cinematográfica necesita clasificar automáticamente las películas según su contenido para orientar a los padres y consumidores sobre la edad recomendada para ver cada película.

**Objetivos**:
- Predecir la clasificación por edad (PG, R, ATP, U, etc.) de una película
- Optimizar el proceso de clasificación de contenido
- Mejorar la orientación al consumidor

### Problema 2: Predicción de Puntuación
Las productoras cinematográficas necesitan estimar qué tan bien recibida será una película antes de su lanzamiento para optimizar estrategias de marketing y distribución.

**Objetivos**:
- Predecir la puntuación promedio que obtendrá una película
- Identificar factores que influyen en la recepción crítica
- Optimizar decisiones de producción

## Hipótesis Iniciales

### Para Clasificación por Edad:
1. **Hipótesis Principal**: El género de la película es el factor más importante para predecir la clasificación por edad
2. **Hipótesis Secundaria**: Las películas más largas tienden a tener clasificaciones más restrictivas
3. **Hipótesis Terciaria**: El país de producción influye en los estándares de clasificación

### Para Predicción de Puntuación:
1. **Hipótesis Principal**: Los géneros dramáticos y de crítica social obtienen mejores puntuaciones
2. **Hipótesis Secundaria**: Las películas más recientes tienen diferentes estándares de calidad
3. **Hipótesis Terciaria**: La duración óptima está relacionada con el género

## Objetivos de Machine Learning

### Problema 1: Clasificación Multiclase
- **Target**: `rating` del dataset releases.csv (PG, R, ATP, U, etc.)
- **Features**: duración, año, género, país, tipo de estreno
- **Modelos**: Regresión Logística, Árbol de Decisión, Random Forest, KNN
- **Métricas**: Accuracy, Precision, Recall, F1-score, Matriz de Confusión, ROC/AUC

### Problema 2: Regresión Continua
- **Target**: `rating` del dataset movies.csv (0-5)
- **Features**: duración, año, género, país
- **Modelos**: Regresión Lineal Múltiple, Random Forest Regressor
- **Métricas**: R², MAE, MSE, RMSE

## Evaluación del Estado Actual
- **Datos disponibles**: movies.csv, releases.csv, genres.csv, countries.csv
- **Variables objetivo**: rating (clasificación) y rating (puntuación)
- **Calidad de datos**: Requiere integración y limpieza
- **Complejidad**: Dos problemas distintos con diferentes enfoques

## Plan del Proyecto
1. **Fase 1**: Comprensión del negocio ✅
2. **Fase 2**: Comprensión de datos (análisis de movies.csv, releases.csv)
3. **Fase 3**: Preparación de datos (integración y feature engineering)
4. **Fase 4**: Modelado de Machine Learning (clasificación + regresión)
5. **Fase 5**: Evaluación y selección de mejores modelos
6. **Fase 6**: Conclusiones y recomendaciones

## Datasets Requeridos

### movies.csv
- **id**: Identificador único de película
- **minute**: Duración en minutos (feature numérica)
- **date**: Año de estreno (feature numérica)
- **rating**: Puntuación promedio 0-5 (target para regresión)

### releases.csv
- **id**: Identificador único de película
- **rating**: Clasificación por edad PG, R, ATP, U, etc. (target para clasificación)
- **type**: Tipo de estreno (Theatrical, Digital, etc.)
- **date**: Fecha de estreno

### genres.csv
- **id**: Identificador único de película
- **genre**: Género de la película (feature categórica)

### countries.csv
- **id**: Identificador único de película
- **country**: País de producción (feature categórica)

## Criterios de Éxito

### Para Clasificación por Edad:
- **Accuracy > 0.75**: Clasificar correctamente al menos 75% de las películas
- **F1-score balanceado**: Buen desempeño en todas las clases de rating
- **Interpretabilidad**: Entender qué factores influyen en la clasificación

### Para Predicción de Puntuación:
- **R² > 0.60**: Explicar al menos 60% de la varianza en las puntuaciones
- **RMSE < 0.5**: Error promedio menor a 0.5 puntos en la escala 0-5
- **Estabilidad**: Consistencia en diferentes períodos temporales

## Riesgos y Limitaciones

### Riesgos Identificados:
1. **Calidad de datos**: Posibles valores faltantes o inconsistentes en los datasets
2. **Sesgo temporal**: Los estándares de clasificación pueden haber cambiado con el tiempo
3. **Sesgo geográfico**: Diferentes países pueden tener diferentes estándares
4. **Complejidad de géneros**: Películas con múltiples géneros pueden ser difíciles de clasificar

### Estrategias de Mitigación:
1. **Análisis exhaustivo de calidad**: Identificar y tratar valores faltantes
2. **Segmentación temporal**: Analizar por períodos para detectar cambios
3. **Normalización geográfica**: Estandarizar clasificaciones por región
4. **Feature engineering**: Crear variables que capturen la complejidad de géneros

## Próximos Pasos

### Fase 2: Comprensión de Datos
- Cargar y explorar los datasets movies.csv, releases.csv, genres.csv, countries.csv
- Análisis de calidad de datos (valores faltantes, duplicados, outliers)
- Análisis exploratorio de las variables objetivo (rating de clasificación y puntuación)
- Análisis de distribución de features (duración, año, género, país)
- Identificación de patrones y correlaciones iniciales

### Fase 3: Preparación de Datos
- Integración de datasets por ID de película
- Limpieza y normalización de datos
- Feature engineering (codificación de variables categóricas)
- División de datos para entrenamiento y validación
- Balanceo de clases para clasificación

### Fase 4: Modelado de Machine Learning
- Implementación de modelos de clasificación (Regresión Logística, Árbol de Decisión, Random Forest, KNN)
- Implementación de modelos de regresión (Regresión Lineal Múltiple, Random Forest Regressor)
- Evaluación de métricas específicas para cada problema
- Selección del mejor modelo para cada tarea