# Streaming inteligente: Eligiendo la mejor plataforma para ver películas

## Resumen del Proyecto

Este proyecto analiza de manera total las principales plataformas de streaming con el objetivo de identificar cuál ofrece una mejor experiencia considerando precio, catálogo y calidad general. A partir del procesamiento y exploración del conjunto de datos, se evalúan aspectos como la cantidad total de películas disponibles, la diversidad de géneros, la distribución por año de lanzamiento, la calidad promedio medida por ratings y la presencia de contenido familiar. También se consideran elementos contextuales, como los precios de suscripción, para complementar la comparación entre plataformas. El análisis busca entregar una visión clara, estructurada y basada en evidencia que permita orientar la elección de la plataforma más conveniente según los intereses y preferencias de cada usuario.

Durante esta última etapa actualizamos la pregunta 7, con el fin de ajustarla a la disponibilidad de variables numéricas necesarias para construir un modelo supervisado. Primero evaluamos la relación calidad/precio a nivel de plataforma, y luego trasladamos ese criterio a cada obra, asignándole una calificación inicial basada en el análisis de la plataforma a la que pertenece. Con esto, la nueva pregunta busca evaluar si es posible construir un modelo de aprendizaje supervisado que, usando las características de cada película, prediga si una obra puede considerarse buena, media o mala en relación calidad/precio.

Los resultados muestran que cada plataforma destaca en aspectos distintos, por lo que la mejor opción depende de las preferencias de cada usuario. Aun así, el análisis basado en datos permite comparar de manera objetiva calidad, variedad y valor. Además, el modelo supervisado entrega una primera aproximación para clasificar las plataformas según su relación calidad/precio, ayudando a orientar una elección más informada.

## Análisis de datos  

### 1. Alcance y naturaleza del Modelamiento

* La idea de este análisis no es predictivo sino que descriptivo y comparativo (aún así pusimos una pregunta de predicción). Este se enofica en la construcción de métricas compuestas y criterios estadísticos para transformar datos brutos en indicadores interpetables de calidad percibida y por su valor económico.

* Nuestras variables claves son: 
* a) Variable Métrica de Calidad : Rating (IMDb)
* b) Variable Categórica Principal : Platform
* c) Variable Externas de Costo : Precio Mensual (CLP) que fue incorporada manualmente

### 2. Métodos Computacionales (Pre-procesamiento y Maniplación):



* Esta fase se lleva a cabo a través de la libreria de Pandas en Python, la cual es una herramienta indispensable para la manipulación y el análisis de estos datos.

* Tenemos la **carga de datos** a través de pd.read_csv(), seguido de eso el filtrado de columnas a raíz de lo que queriamos trabajar.

* Seguimos con la **integración de los datos** a través de la funciones pd.merge() pd.concat() estas son claves a la hora de la normalización en la variable Platform, ya que permite que todos los datos residan en un único DataFrame para despúes poder hacer las comparaciones entre las distintas comparaciones

* Luego tenemos la **limpieza de datos** donde utilizamos df.dropna() y df.fillna(), eliminamos los valores nulos y datos duplicados de la base de datos. (Principalmente se encontraron datos duplicados en el archivo imdb_id o title ya que contenian los mismos titulos o se repitian ids al registrar peliculas) los cuales los descartamos ya que al no ser tantos no afectaban en nada quitarlos.

* También hicimos la **normalización de los datos** (convertimos los datos que respondian a int o float, convertir los strings a minisculas así se pueden trabajar más facil los distintos tipos de datos).

* Luego hicimos los **filtros de películas** consideramos que un buen filtro de peliculas es de 30 minutos (sabiendo que un pasado las peliculas eran cortitas) y no más de 300 minutos ya que es mucho para una pelicula como tal.

* **Ingreso de variable externa** se utiliza al poner manualmente los precios, este se hizo al momento de ver las suscripciones mensuales más basicas, ya que al haber tantos metodos de suscripciones decidimos guiarnos por la estandar para todas estas.

* **Agrupación de datos** para esto se utiliza df.groupby() y para realizar el conteo total de las peliculas se ocupo lo mismo pero le agregamos el .count(), lo mismo para el Rating Promedio por plataforma solo que es .mean() 

### 3. Modelos estadístico y justificación de Decisiones

* 1. ¿Qué plataforma presenta mayor cantidad de películas?: Para responder a esta pregunta, nuestro método estadístico utilizado fue conteo y frecuencia absoluta, se utiliza la función   count() de Pandas despúes de agrupar por groupby() a través de la variable categórica Platform. Se utilizó este método ya que es el más directo para conseguir el total de los catálagos.

* 2. ¿Cúal es la plataforma que tiene mayor variedad de géneros?: Analizamos la dispersión de los conteos de películas por todos los géneros que se encuentran. La plataforma con las frecuencias de géneros más altas es la que se define como la más proporcional para el usuario, ya que va a ofrecer una gran variedad para este.

* 3. ¿Cúal es la pataforma que presenta mayor cantidad de péliculas actuales y cúal la que concentra más peliculas antiguas en su catálogo?: Se utilizó un criterio de umbral temporal para determinar que películas se consideran como antiguas y cuales se consideran como actuales. Esta filtración de años se hizo para que el cátalogo a evaluar bien cada plataforma y así poder hacer un análisis de tendencias historicas entre las distintas plataformas.

* 4. ¿Cúal es la plataforma que concentra la mayor cantidad de películas con mejores calificaciones?: Se volvió a establecer un umbral pero ahora de alta calidad (El rating) se eligió para ver la calidad con la cantidad de películas. Así se nos hace más facil ver si el catálogo de la plataforma coincide con la mayor concentración de calidad en sus películas.

* 5. ¿Qué actores se repiten más en el catálogo de cada plataforma?: Se respondió esta pregunta a través de un análisis de frecuencia ponderada de palabras. Aplicamos la filtración por los nombres de los actores/actrices de sus columnas respectivas, luego a través de la función value_counts() sobre el dataframe con los nombres de estos actores/actrices. Se utilizó esta tecnica ya que mide la preferencia de cada plataforma por cierto actor.

* 6. ¿Qué directores se repiten más en el catálogo de cada plataforma?: Se hizo el mismo procedimiento anterior con la misma justificación de la pregunta anterior (pregunta 5)

* 7. ¿Se puede crear un modelo de aprendizaje supervisado que, a partir de las características de cada películas, prediga si pertenece a una plataforma buena, media o mala en relacion a calidad/precio?: Para responder esta pregunta se utilizo un modelamiento predictivo de Clasificación, pasamos de un analisis descriptiva a predictiva. Este modelo es viable si la Variable Objetivo (Y) es la clasificación ("buena", "media", "mala") y las variables predictoras (X) vendrían siendo las caracteristicas de las películas (Ranting, Género entre otras). El exito de este se evaluó con métricas como Precisión, Recall, F1-Score y la Matriz de Confusión

* 8.  Si una persona quiere contratar un plan para su familia(el cual tiene hijos pequeños) que plataforma le recomendarías?: Esta recomendación se hace a través de la priorización de la cantidad de contenido familiar de calidad (el cual este debe ser superior a los de las otras plataformas) en relación con el precio de suscripción (ya que si se habla de una familia siempre se intentara buscar la opción de mejor calidad y más economica) para justificar la mejor opción de precios.
* **Para la pregunta 7 y 8 la métrica central de esta pregunta es el modelamiento de la Relación Calidad/Costo**. Su métrica compuesta: Relacion Calidad/Costo = rating Promedio del Catálogo/Precio Mensual (CLP)


### 4. Evaluación de resultados y métricas

La evaluación se divide para aplicar métricas apropiadas a cada tipo de modelamiento correspondientes.

* Consistencia del Modelo (Descriptivo): El umbral que definimos para realizarlo fue buena ya que se pudo demostrar la calidad(Max) y la cantidad (Prime Video) estas son variables separadas asi que utilizando los filtros se pudo llegar a las respuestas.

* Eficacia del Modelo de Valor (Descriptivo): La relación  refleja correctamente el impacto del precio en las plataformas, ya que se puede apreciar como plataformas con altos costos pero con baja calidad se categorizan como "malas" e inversamente.

* Viabilidad del Modelo (Predictivo): Esta evaluación de este modelo se enfoca en la viabilidad conceptual ya que su éxito lo mide si el modelo logra una presición aceptable asi demostrando que la clasificación es "Buena", "Media" o "Mala". (Se ocuparon las siguientes métricas de clasificación: F1-Score, Presicion, Matriz de Confusión)




La metodología utilizada fue exitosa a la hora de abordar los dos enfoques: la combinación de los métodos computacionales rigurosos a través de un modelamiento estadístico de ratios, percentiles para las preguntas descriptivas, y a su vez, establecer la viabilidad conceptual de un modelo predictivo validando la utilidad y complejidad de estos datos a la hora de tomar desiciones.

## Resumen de los resultados

Con el análisis hecho es posible ver claras diferencias entre plataformas, principalmente por las métricas cuantificables del estudio. En cuanto a cantidad total de peliculas sobresale significativamente Prime Video, superando las 7.000, lo que duplica el catálogo de Netflix quien queda en segundo lugar, y supera por mucho al resto. En la variedad de géneros, todas las plataformas se mantienen en un rango de 20–25 géneros, con Netflix levemente por encima. Al observar la distribución de películas por año, Prime domina la mayoría de las décadas, tanto en contenido antiguo como reciente, aunque en el período más actual (2023–2025) la ventaja recae en Netflix. Por ultimo se indico que HBOMax y Paramount+ tienen una relacion calidad-precio buena, Prime Video y Netflix una media, y Hulu junto con Disney+ tienen una mala. La cantidad de películas, diversidad de géneros, distribución temporal y relacion calidad-precio de la plataforma del catálogo representan las bases objetivas más sólidas del análisis, ya que se pueden medir cuantitativamente y permiten una comparación directa entre plataformas.

Otros aspectos analizados fueron los actores y directores más frecuentes, y la identificación de la mejor plataforma para cine familiar, esto principalmente para complementar la decisión según preferencias del usuario. Esto debido a que con los datos disponibles no es posible medir de forma cuantitativa la "calidad" de un actor, director o género específico. Por lo tanto, estos resultados funcionan más como criterios subjetivos que permiten a cada persona identificar qué plataforma se ajusta mejor a sus gustos personales. Aun así, son utiles para poder buscar patrones en su catalago y ver el "estilo" de cada plataforma

El modelo supervisado obtuvo un rendimiento moderado, con métricas cercanas a 0.63 y un comportamiento estable. La matriz de confusión revela un sesgo notable hacia la categoría "Media", lo que dificulta distinguir correctamente entre "Buena" y "Mala". Además, se observa que la popularidad de las películas (numVotes) pesa más en la predicción que el rating promedio. Aun con estas limitaciones, el modelo ofrece una primera aproximación útil para clasificar plataformas por calidad/precio, siendo Paramount+ la mejor evaluada.

## ¿Qué podría salir mal?