# <u> Streaming en España - Datos y Tendencias de **Netflix** y **Amazon Prime Video** </u>

## INTRODUCCIÓN:

En el contexto actual de la creciente popularidad de las plataformas de streaming, es comprensible que surjan diversas cuestiones sobre ellas, siendo éste el motor principal del presente análisis exploratorio de datos para las más importantes en nuestro país: **Netflix** y **Amazon Prime Video**.

## HIPÓTESIS:

1. ¿Ha **incrementado** el **lanzamiento** de **series** y **películas** en **España** a través de **Netflix** y **Amazon Prime Video**?

2. ¿Qué **géneros predominan** entre dichos proveedores de contenido?
    - ¿Son los **mismos en ambos**? **¿Coinciden** dichos géneros** para series y películas**?
    - ¿Existe alguna **relación** entre la **nota de cada género** y su **porcentaje de presencia** en las plataformas?

## OBTENCIÓN DE LOS DATOS:

A lo largo del estudio emplearemos datasets que han sido extraídos vía **API** a través de **peticiones GET** a algunos de los endpoints de **[TMDB](https://developer.themoviedb.org/reference/intro/getting-started)**. Gracias a ellos, seremos capaces de abordar las hipótesis planteadas y de llegar a unas conclusiones claras y visuales que nos den respuestas a las mismas.

## TRATAMIENTO Y VISUALIZACIÓN DE LOS DATOS - CONCLUSIONES A NUESTRAS HIPÓTESIS:

Entre los procesamientos principales llevados a cabo sobre los datasets, para poder explotarlos correctamente y basar nuestros resultados en los mismos, destacamos los siguientes puntos:

- **<u>Listados de películas y series</u>**: Para ambos proveedores se han extraído los listados de sus obras, sobre las que se han llevado a cabo las siguientes acciones:

    - Se ha analizado la **unicidad** tanto de series como de películas a través de un **ID** que permite **caracterizar cada título de forma exclusiva**: sólo hemos encontrado un caso de duplicados en el listado de las películas de Netflix. Al tratarse de una película que estaba registrada dos veces y, puesto que la única diferencia residía en la "popularidad" asignada y en ambos casos era muy parecida, calculamos la media de ambas y borramos uno de los registros, cuya popularidad actualizamos con dicha media.

    - Se ha analizado la **completitud** y **coherencia** de las fechas de estreno de los títulos: hemos encontrado algunas vacías pero, por ser pocas y corresponderse con obras cuya popularidad entre los usuarios no era alta, hemos borrado los registros para evitar distorsiones en los resultados.

    - Se ha hecho una **agrupación de las películas disponibles en cada plataforma por su correspondiente año de estreno al público** (no tiene por qué ser la fecha de estreno en dichas plataformas, sino que es la fecha de lanzamiento al público en general, bien sea a través de éstas o de cines, de tele...); y, de forma **análoga**, se ha hecho para las **series.**

    - Para mostrar la **evolución de los estrenos de las obras a lo largo de los años** se ha utilizado un **<u>gráfico de líneas</u>**, pero para evitar llegar a conclusiones equívocas generadas por la diferencia en la cantidad de películas y series, se ha representado el **porcentaje de crecimiento de los estrenos** de las películas y de las series: de este modo, en vez de reflejar información sobre números absolutos, hemos mostrado el porcentaje de crecimiento/decrecimiento de estrenos de obras a lo largo del tiempo (para más información sobre esto, mirar [este enlace](https://blog.datawrapper.de/dualaxis/)).

    De este modo, hemos obtenido las siguientes gráficas, las cuales nos permiten responder a la primera de nuestras hipótesis:

    En la imagen de la izquierda se observa que el **comportamiento de crecida y bajada** del **porcentaje de estrenos** tanto de **películas** como de **series** es bastante **similar** (si bien el **porcentaje de las películas** es bastante **superior** al de las **series**) y, si hacemos "zoom" en esta gráfica alrededor en los últimos años (imagen de la derecha), destaca una **drástica caída** en el **estreno de producciones** en ambas plataformas en torno a **2022-2023** y que, **a día de hoy, se sigue reflejando.**
    <br><br>

    | ![1](./images/h1_amazon_netflix_total.png) | ![2](./images/h1_amazon_netflix_zoom.png)|
    |-----------------------------------|-----------------------------------|
 
     <br><br>
- **<u>Listados de géneros por los que se pueden clasificar las películas y las series</u>**: 
    - Puesto que en los listados de las obras previos aparecen, para cada una de ellas, el/los identificador/es del/los género/s que la/s clasifica (**cada obra puede estar etiquetada bajo uno o más géneros**), y puesto que nuestro objetivo era poder analizar de forma individual qué generos predominan en cada una de las plataformas y si difieren entre las películas y las series, necesitábamos "**desglosar**" la **información** de modo que pudiésemos trabajar con ella: Dicho desglose lo hemos llevado a cabo mediante el método ***get_dummies()***.
    - Por otro lado, hemos detectado títulos cuyo/s género/s venía sin informar y, por tratarse de un número pequeño de vacíos, dichas obras las hemos etiquetado bajo el género de "Desconocido".
    - Una vez conseguimos tener el desglose de géneros de forma individual, tuvimos que cruzarlos con sus nombres (puesto que, tal y como adelantamos al principio, sólo teníamos los códigos numéricos de los géneros y no su nombres, que es lo que aporta realmente valor en el análisis).
    - De este modo, hemos podido calcular el **porcentaje** que representa **cada género de forma individual**: para cada uno de ellos, hemos calculado el número de veces que aparece clasificando obras en la plataforma, y luego lo hemos divido por el **total de veces que todos los géneros aparecen en dicha plataforma**. Además, debe tenerse en cuenta que el listado de posibles géneros de películas difiere del de series en la base de datos de TMDB, siendo este el motivo por el que se han analizado las películas y las series por separado.
    - Finalmente, para representar el porcentaje de distribución de los géneros, se han utilizado **diagramas circulares**: tras ver que representando todos los géneros existentes quedaba una gráfica de difícil visualización, decidimos agrupar todos los géneros cuyo porcentaje de presencia fuese menor al 6% dentro de la etiqueta de "Otros".

    De este modo, hemos obtenido las siguientes gráficas, las cuales nos permiten responder al primer apartadp de nuestra segunda hipótesis: Los **géneros predominantes** tanto para **películas** como para **series**, tanto en **Netflix** como en **Amazon Prime Video** son los de **drama** y **comedia**.
    <br><br>
    | ![3](./images/h2_pelis_netflix.png) | ![4](./images/h2_series_netflix.png) |
    |-----------------------------------|-----------------------------------|
    | ![5](./images/h2_pelis_amazon.png) | ![6](./images/h2_series_amazon.png) |

     <br><br>
- Para responder al segundo apartado de nuestra segunda hipótesis, no tenemos los datos de manera directa de la API, sino que hemos tenido que llevar a cabo unas adaptaciones: 
    - Para saber si existe alguna relación entre la nota de cada género y su porcentaje de presencia en las plataformas, necesitamos conocer una estimación de dicha puntuación de cada género. No obstante, hemos podido sacar esta nota infiriéndola de datos que ya tenemos: gracias a todos los pasos previos, disponemos de una tabla en la que aparece el listado de obras (tal y como se puede descargar de la base de datos de TMDB. una película por registro), junto con otra tabla concatenada a nivel columna, que se corresponde con el desglose de los géneros realizado antes. Así pues, para cada título tendremos una única fila y, en esas columnas añadidas (una por género), dicho título vendrá indicado con un '1' si ese género forma parte de su clasificación y un '0' en caso contrario. De este modo, tenemos la relación que necesitábamos. Para entenderlo mejor, expresamos las relaciones de forma esquemática

|  |
|-------------------------------------------------------------------------------------|
| Relación disponible directamente de la tabla de TMDB --> película - puntuación |
|                                      +                                              |
| Relación disponible gracias al desglose que hemos hecho antes --> película - géneros de la película desglosados |
|                                      =                                              |
|**Relación necesaria, inferida de las dos previas --> puntuación - géneros de la película** |

Analizando más en detalle esta tabla recién creada, nos hemos dado cuenta de que hay obras para las que no hay votos por parte de los usuarios y, consecuentemente, su calificación es inexistente, por lo que las descartamos del estudio.

Una vez hecho esto, ya hemso podido calcular una estimación de la puntuación que tendría cada uno de los posibles géneros de las obras: Para ello, hemos calculado la nota media de los mismos a partir de la de las obras, es decir, para cada género hemos visto qué películas están clasificadas bajo él y hemos calculado su media. Análogamente, hemos calculado la mediana, con el objetivo de poder comparar ambas: puesto que apenas hay diferencias entre ellas, hemos considerado que la media representaría una estimación adecuada para nuestro análisis.

De este modo, concluimos mediante el uso de un **px.scatter** lo siguiente:  

| Películas                                         | Conclusiones                                       |
|-----------------------------------------------|----------------------------------------------------|
| ![7](./images/h2b_netflix_pelis.png) | Los géneros de películas más repetidos en Netflix son el de "Drama" y el de "Comedia", si bien no son los que mejor nota media tienen. Los más populares entre los usuarios son el de "Historia" y el de "Documental"                    |
| ![8](./images/h2b_amazon_pelis.png) | Los géneros de películas más repetidos en Amazon Prime Video son, igual que para Netflix, el de "Drama" y el de "Comedia", si bien no son los que mejor nota media tienen. Los más populares entre los usuarios son el de "Música" y el de "Animación"                     |

<br><br>

| Series                                         | Conclusiones                                       |
|-----------------------------------------------|----------------------------------------------------|
| ![9](./images/h2b_netflix_series.png) | Los géneros de series más repetidos en Netflix son, de nuevo, el de "Drama" y el de "Comedia", y aunque no son los que mejor nota media tienen (los más populares entre los usuarios son el de "Acción y Aventura" y el de "Ciencia Ficción y Fantasía"), están bastante próximos                  |
| ![10](./images/h2b_amazon_series.png) | Los géneros de series más repetidos en Amazon Prime Video son, de nuevo, el de "Drama" y el de "Comedia", si bien los más populares entre los usuarios son, igual que para Netflix, el de "Acción y Aventura" y el de "Ciencia Ficción y Fantasía", pero en el caso de Amazon, la diferencia en la nota media es más notable|

Como conclusión final a estos gráficos, vemos que las notas medias de los géneros para las series son más elevadas que para las películas.