# Streaming inteligente: Eligiendo la mejor plataforma para ver películas

## Resumen del Proyecto

Este proyecto analiza de manera total las principales plataformas de streaming con el objetivo de identificar cuál ofrece una mejor experiencia considerando precio, catálogo y calidad general. A partir del procesamiento y exploración del conjunto de datos, se evalúan aspectos como la cantidad total de películas disponibles, la diversidad de géneros, la distribución por año de lanzamiento, la calidad promedio medida por ratings y la presencia de contenido familiar. También se consideran elementos contextuales, como los precios de suscripción, para complementar la comparación entre plataformas. El análisis busca entregar una visión clara, estructurada y basada en evidencia que permita orientar la elección de la plataforma más conveniente según los intereses y preferencias de cada usuario.

Durante esta última etapa actualizamos la pregunta 7, con el fin de ajustarla a la disponibilidad de variables numéricas necesarias para construir un modelo supervisado. Primero evaluamos la relación calidad/precio a nivel de plataforma, y luego trasladamos ese criterio a cada obra, asignándole una calificación inicial basada en el análisis de la plataforma a la que pertenece. Con esto, la nueva pregunta busca evaluar si es posible construir un modelo de aprendizaje supervisado que, usando las características de cada película, prediga si una obra puede considerarse buena, media o mala en relación calidad/precio.

Los resultados muestran que cada plataforma destaca en aspectos distintos, por lo que la mejor opción depende de las preferencias de cada usuario. Aun así, el análisis basado en datos permite comparar de manera objetiva calidad, variedad y valor. Además, el modelo supervisado entrega una primera aproximación para clasificar las plataformas según su relación calidad/precio, ayudando a orientar una elección más informada.

## Análisis de datos  

### 1. Alcance y naturaleza del Modelamiento

* La idea de este análisis no es predictivo sino que descriptivo y comparativo (aún así pusimos una pregunta de predicción). Este se enofica en la construcción de métricas compuestas y criterios estadísticos para transformar datos brutos en indicadores interpetables de calidad percibida y por su valor económico.

* Nuestras variables claves son: 
    1. <u>Variable Métrica de Calidad</u>: Rating (IMDb)
    2. <u>Variable Categórica Principal</u>: Platform
    3. <u>Variable Externas de Costo</u>: Precio Mensual (CLP) que fue incorporada manualmente

### 2. Métodos Computacionales (Pre-procesamiento y Maniplación):



* Esta fase se lleva a cabo a través de la librería de *Pandas* en *Python*, la cual es una herramienta indispensable para la manipulación y el análisis de estos datos.

* Tenemos la **carga de datos** a través de *pd.read_csv()*, seguido de eso, el filtrado de columnas a raíz de lo que queríamos trabajar.

* Seguimos con la **integración de los datos** a través de la funciones *pd.merge()* y *pd.concat()*. Ambas son clave a la hora de la normalización en la variable 'Platform', esto se debe a que permite que todos los datos residan en un único DataFrame para después poder hacer las comparaciones correspondientes.

* Luego tenemos la **limpieza de datos** donde utilizamos *df.dropna()* y *df.fillna()*, eliminamos los valores nulos y datos duplicados de la base de datos. Principalmente se encontraron datos duplicados en el archivo 'imdb_id' o 'title' dado que contenían los mismos títulos o se repetían id's al registrar películas, los cuales descartamos ya que, al no ser tantos, no afectaban en nada quitarlos.

* También hicimos la **normalización de los datos** convertimos los datos que respondían a *int* o *float*, convertir los *strings* a minúsculas, así se pueden trabajar más fácil los distintos tipos de datos.

* Luego hicimos los **filtros de películas**. Consideramos que un buen filtro es de 30 minutos (considerando que en un pasado eran de menor duración), y no más de 300 minutos.

* El **ingreso de una variable externa** ocurre al poner manualmente los precios, esto se hizo al momento de ver las suscripciones mensuales más básicas, pues al haber tantos métodos de suscripciones, decidimos guiarnos por el estándar para todas estas.

* En la **agrupación de datos** se utiliza *df.groupby()*, y para realizar el conteo total de las películas se ocupó lo mismo, sin embargo le agregamos el *.count()*. Lo mismo para el Rating Promedio por plataforma solo que es *.mean()*.

### 3. Modelos estadístico y justificación de Decisiones

 1. **¿Qué plataforma presenta mayor cantidad de películas?** : Para responder a esta pregunta, nuestro método estadístico utilizado fue conteo y frecuencia absoluta, utilizando así la función *count()* de Pandas después de agrupar por *groupby()* a través de la variable categórica 'Platform'. Se eligió este método ya que es el más directo para conseguir el total de los catálogos.

 2. **¿Cuál es la plataforma que tiene mayor variedad de géneros?** : Analizamos la distribución de películas entre todos los géneros disponibles, así, definimos la plataforma con la distribución de géneros más equilibrada como la más adecuada para el usuario, ya que le ofrece una variedad de opciones mayor.

 3. **¿Cuál es la pataforma que presenta mayor cantidad de películas actuales y cuál la que concentra más películas antiguas en su catálogo?** : Se utilizó un criterio de umbral temporal para determinar qué películas se consideran como antiguas y cuáles se consideran como actuales. Esta filtración, que usa los años como parámetro, se hizo con el fin evaluar bien el catálogo de cada plataforma. De esta forma, se puede hacer un análisis de tendencias históricas entre las distintas plataformas.

 4. **¿Cuál es la plataforma que concentra la mayor cantidad de películas con mejores calificaciones?** : Se volvió a establecer un umbral, pero ahora de calidad (usando, en este caso, el rating). Se eligió para ver la calidad respecto a la cantidad de películas. Así, resulta más fácil verificar la relación entre cada catálogo y su respectiva concentración de calidad.

 5. **¿Qué actores se repiten más en el catálogo de cada plataforma?** : Se respondió esta pregunta a través de un análisis de frecuencia de los actores y actrices. Primero, se filtraron los nombres de las columnas correspondientes y, posteriormente, se aplica la función *value_counts()* sobre el DataFrame resultante. Se utilizó esta técnica gracias a que permite medir la preferencia de cada plataforma por ciertos actores.

 6. **¿Qué directores se repiten más en el catálogo de cada plataforma?** : El procedimiento realizado para responder esta pregunta es el mismo que en la anterior.

 7. **¿Se puede crear un modelo de aprendizaje supervisado que, a partir de las características de cada película, prediga si pertenece a una plataforma buena, media o mala en relación a calidad/precio?** : En pos de responder a esta pregunta, se dio uso a un modelamiento predictivo de clasificación. Pasamos de un análisis descriptivo a predictivo. Este modelo es viable si la <u>variable objetivo (*Y*)</u> es la clasificación ("buena", "media", "mala") y las <u>variables predictoras (*X*)</u> vendrían siendo las características de las películas (rating, género u otras). El éxito se evaluó con métricas como <u>Precisión</u>, <u>Recall</u>, <u>F1-Score</u> y la <u>Matriz de Confusión</u>.

 8.  **¿Si una persona quiere contratar un plan para su familia (la cual tiene infantes), qué plataforma le recomendarías?** : Al realizar esta recomendación, le hemos dado prioridad a la cantidad de contenido familiar de cada catálogo cuya calidad promedio sea mayor al resto. Así, al compararlo con el precio de suscripción, obtenemos una opción óptima para efectos de cantidad de contenido, calidad del mismo y el costo.

<u>Pregunta 7 y 8</u>: La métrica central para efectos de estas preguntas es el modelamiento de la relación calidad/costo. Esta relación se define a través del Rating Promedio del Catálogo entre el Precio Mensual (CLP) de cada plataforma.*


### 4. Evaluación de resultados y métricas

La evaluación se divide para aplicar métricas apropiadas a cada tipo de modelamiento correspondientes.

* **Consistencia del Modelo (Descriptivo)** : El umbral que definimos para realizarlo fue bueno, ya que se pudo demostrar la calidad(Max) y la cantidad (Prime Video). Éstas son variables separadas, por lo que al ocupar los filtros se pudo llegar a las respuestas.

* **Eficacia del Modelo de Valor (Descriptivo)** : La relación refleja correctamente el impacto del precio en las plataformas, ya que se puede apreciar el cómo plataformas con altos costos, pero con baja calidad, se categorizan como "malas" e inversamente.

* **Viabilidad del Modelo (Predictivo)** : La evaluación de este modelo se enfoca en la viabilidad conceptual, su éxito se mide en si el modelo logra una presición aceptable o no, demostrando así que la clasificación es "Buena", "Media" o "Mala". Se ocuparon las siguientes métricas de clasificación: F1-Score, Presición, Matriz de Confusión.




La metodología utilizada fue exitosa a la hora de abordar los dos enfoques: la combinación de los métodos computacionales rigurosos a través de un modelamiento estadístico de ratios, percentiles para las preguntas descriptivas, y a su vez, establecer la viabilidad conceptual de un modelo predictivo, validando la utilidad y complejidad de estos datos en la toma de decisiones.

## Resumen de los resultados

Con el análisis hecho, es posible ver claras diferencias entre plataformas, principalmente por las métricas cuantificables del estudio. En cuanto a cantidad total de películas sobresale significativamente <u>*Prime Video*</u>, superando así las 7.000, lo que duplica el catálogo de *Netflix* quien queda en segundo lugar, y supera por mucho al resto. En la variedad de géneros, todas las plataformas se mantienen en un rango de 20–25 géneros, con *Netflix* levemente por encima. Al observar la distribución de películas por año, Prime domina la mayoría de las décadas, tanto en contenido antiguo como reciente, aunque en el período más actual (2023–2025) la ventaja recae en *Netflix*. Por último, se indicó que *HBO Max* y *Paramount+* tienen una relación calidad-precio buena, *Prime Video* y *Netflix* una media, y finalmente *Hulu* junto con *Disney+* tienen una mala. La cantidad de películas, diversidad de géneros, distribución temporal y relación calidad-precio de la plataforma del catálogo representan las bases objetivas más sólidas del análisis, ya que se pueden medir cuantitativamente y permiten una comparación directa entre plataformas.

Otros aspectos analizados fueron los actores y directores más frecuentes, junto a la identificación de la mejor plataforma para cine familiar. Lo anterior se hace principalmente con el objetivo de complementar la decisión según las preferencias del usuario. Considerando así que con los datos disponibles no es posible medir de forma cuantitativa la "calidad" de un actor, director o género específico. Por lo tanto, estos resultados funcionan más como criterios subjetivos que permiten a cada persona identificar qué plataforma se ajusta mejor a sus gustos personales. Aun así, son útiles para poder buscar patrones en su catálogo y ver el "estilo" de cada plataforma.

El modelo supervisado obtuvo un rendimiento moderado, con métricas cercanas a 0.63 y un comportamiento estable. La matriz de confusión revela un sesgo notable hacia la categoría "Media", lo que dificulta distinguir correctamente entre "Buena" y "Mala". Además, se observa que la popularidad de las películas (numVotes) pesa más en la predicción que el rating promedio. Aún con estas limitaciones, el modelo ofrece una primera aproximación útil para clasificar plataformas por calidad/precio, siendo <u>Paramount+</u> la mejor evaluada.

## ¿Qué podría salir mal?

Se podría argumentar que existen plataformas mejores que otras considerando también su contenido en *series*, que existe un sesgo en nuestro trabajo pues parte del contenido se ve excluido. Por eso mismo, no se ha de perder de vista le objetivo de este proyecto, que es evaluar la calidad de sus *películas*.

Teniendo en cuenta lo anterior, podemos considerar los siguientes puntos como algo importante que se ha de tener presente para efectos del informe:

* **API de Watchmode:** No necesariamente están todas las películas reales de cada catálogo, pues al ser Watchmode un intermediario, éste puede estar desactualizado o no incluir ciertos títulos, ya sea porque son producciones independientes o muy locales, lo cual nos lleva al siguiente punto.

* **Limitación por región:** Por lo general, las plataformas tienen un catálogo distinto dependiendo desde dónde estés viendo; hay películas que están disponibles en EE. UU., mas no en Chile y viceversa. Este aspecto afecta especialmente a aquel usuario que se disponga a contratar un plan familiar, pero que viva en un país cuyo catálogo sea distinto al trabajado en este repositorio.

* **Posibles sesgos en los votos:** Al hacer uso de los <u>IMDb Non-Commercial Datasets</u> tenemos presente que, al fin y al cabo, la población de votantes puede *no* ser representativa, ya sea porque tienden a ser más cinéfilos, o porque sobrerrepresentan ciertas regiones, idiomas y grupos etarios, penalizando así largometrajes dirigidos a público infantil, comedias livianas o producciones no angloparlantes.

* **Sesgos con Prime Video:** Al realizar la pregunta número 1 notamos que la plataforma Prime Video tiene una cantidad mucho mayor en comparación a las otras plataformas con la cantidad de películas que presenta, ya que esta supera a las demás plataformas por más de 4000 mil títulos, lo que da a notar un gran sesgo al momento de hacer diferentes análisis ya que este al tener más titulos siempre va a predonimar y lo podemos notar exclusivamente a la hora de hacer el modelo predictivo