**Módulo 7:** The Movie Database API

## Crear una muestra de Cine Internacional para una Empresa que distribuye y exhibe películas
---

### Definición del problema

Eres parte de una empresa distribuidora de contenido multimedia en Latinoamérica y en colaboración con la Secretaría de Cultura de tu país se va a organizar una muestra de Cine Internacional con las mejores películas de todos los tiempos. La muestra tendrá una duración de una semana, en los primeros 5 días se exhibirán una categoría distinta por día (por ejemplo el primer se podrían exhibir sólo películas de Acción o el segundo de Drama) y los últimos 2 se proyectarán las mejores peliculas de todas las cateogrías. Por lo que se necesita saber cuales son las 5 categorías que contienen las mejores películas de todos los tiempos.

Se cuentan con 7 salas de proyección así que se requiere de contar con 7 películas por categoría además es importante mencionar que los criterios para usar pueden ser las mas votadas o las de mejor valoración o las que obtuvieron más ingresos.

Se requiere la lista de las 5 categorías y para cada categoría la lista de 7 títulos de películas indicando los criterios utilizados.

Adicionalmente se requiere de 2 listas con 7 películas cada con las mejores películas de todos los tiempos sin considerar la categoría y también indicando los criterios de evaluación.

### Definiendo fuentes de datos

- Se exclora [IMDb](https://www.imdb.com) ya que es una base de datos que contiene información desde 1990 sobre pleículas, series y actores.
  - Cuenta con un acceso a [las 250 mejores películas](https://www.imdb.com/chart/top/?ref_=nv_mv_250) sólo que no incluye categoría o ingresos y además la API demora cuando menos 3 días en dar acceso, sin embargo se podría usar el módulo BeautifulSoup para obtener la información pero será necesario complementarla y son las mejores 250 según la calificación de los votantes habituales de IMDb.
  - Cuenta con un acceso a [las mejores películas (100)](https://www.imdb.com/chart/moviemeter/?ref_=nv_mv_mpm) según lo indicado por los usuarios de IMDb, parece ser una clasificación realizada periódicamente, sin embargo tampoco hay categorías o ingresos obtenidos por película.
  - También se puede obtener la información por película donde si se cuenta con los géneros a los que pertenece, pero habría que obtener el **id** que utiliza IMDb para cada película. Un link de ejemplo es: https://www.imdb.com/title/tt10160976
  - Afiliada a IMDb existe una página [BoxOfficeMojo](https://www.boxofficemojo.com/chart/ww_top_lifetime_gross/?area=XWW&ref_=bo_cso_ac) que muestra una tabla con las películas más taquilleras de todos los tiempos a nivel internacional, pero sólo es está el nombre de la película en inglés habría que encontrar el nombre de cada película en inglés también.

- Se explora también [The Movie Data Base](https://www.themoviedb.org) que es otra base de datos de películas que también cuenta con API y cuyo acceso logré en el transcurso de un día.
  - Usando la API se puede obtener la lista de pleículas del top de peliculas de todos los tiempos en base a las valoraciones de los usuarios y se puede acceder desde el siguiente [link](https://developer.themoviedb.org/reference/movie-top-rated-list)
  - Usando la API se puede obtener la lista de géneros usando el [link](https://developer.themoviedb.org/reference/genre-movie-list)
  - Usando la API también se puede obtener información de cada película incluyendo los generos y lo recaudado por cada película usando el [link](https://developer.themoviedb.org/reference/movie-details)

Debido a que ya se cuenta con el acceso a la API de The Movie Data Base se tratará de obtener y explotar al máximo éste conjunto de datos, sin embargo no se descarta hacer uso de los datos de BoxOfficeMojo ya que proporciona una buena lista de las películas con más ingresos de todos los tiempos.

### Obteniendo una lista de 250 películas del top y complementando la información

Lo primero hay que obtener la primera página de películas del Top, para ello hacer uso del módulo requests y se crear un DataFrame que incluya un conjunto de 250 películas esperando sean suficientes para obtener 7 por categoría.

Revisar la documentación de la API en el [link API películas top](https://developer.themoviedb.org/reference/movie-top-rated-list)

Al final guarda el resultado en el archivo `peliculas-top-raw.csv`

### Exploración y limpieza de la lista del películas

Primero describe el conjunto de datos

Segundo realiza limpieza de valores nules y selecciona las columna útiles, renombra las columnas en caso de ser necesario.

Al final guarda el resultado en el archivo `peliculas-top-clean.csv`

### Validando los tipos de datos de columnas y revisando valores anómalos

- Revisar si hay columnas con tipos de datos erroneamente asignado y en caso de existir realizar las conversiones necesarias y comentar porque fueron necesarias.
- Revisar si hay valores anómalos en las columnas y en caso afirmativo realizar las transformaciones necesarias hasta contar con datos homogéneos en cada columna.

Al final guarda el resultado en el archivo `peliculas-top-ready.csv`

### Buscando las 5 mejores categorías

- Agrupar las películas por categoría y contabilizar cuantas películas hay por cada género o categoría
- Ordenar en base al número de películas de mayor a menor y obtener las primeras 5 categorías.
- Crear una gráfica de barras horizontal de los géneros contra el número de películas para observar cuales serán las 5 categorías elegidas.

### Complementar la información de las categorías obtenidas

- Descargar el catálogo de categorías usando la API y guardarlo en el archivo `generos.csv`
- Complementar el DataFrame de los `generos_top_5` con el nombre del género y almacenarlo en el archivo `generos-top-5-full.csv` ya que este és una de las listas solicitadas.

### Obtener la lista de 7 películas por cada género.

- Usar los archivos `peliculas-top-ready.csv`, `generos-top-5-full.csv` y `peliculas-por-genero.csv` para obtener cada una de las listas de las 7 mejores películas para cada uno de los 5 géneros.
- Para cada lista crea un archivo con el nombre `peliculas-top-del-[genero].csv` y remplaza `[genero]` con el nombre del género según corresponda cada lista

### Obtener la lista de 7 películas por cada género.

- Usar los archivos `peliculas-top-ready.csv`, `generos-top-5-full.csv` y `peliculas-por-genero.csv` para obtener cada una de las listas de las 7 mejores películas para cada uno de los 5 géneros.
- Para cada lista crea un archivo con el nombre `peliculas-top-del-[genero].csv` y remplaza `[genero]` con el nombre del género según corresponda cada lista

### Obtener la lista de 7 películas para cada uno de los últimos 2 días

- En realidad habría que obtener las 14 mejores películas de todos los tiempos
- Para la lista del día 6 crearla con las que corresponden a las posiciones impares y almacenarlas en el archivo `peliculas-top-dia-6.csv`
- Para la lista del día 7 crearla con las que corresponden a las posiciones pares y almacenarlas en el archivo `peliculas-top-dia-7.csv`

### Convertir los archivos csv a archivos en formato Excel

- Debido a que no se conoce si el usuario final son programadores es conveniente entregar los resultados en formato Excel para simplificar su lectura.
- Generar también archivos en formato png de las gráficas que apoyen la elección tanto de las películas como de los géneros.
- Crear un documento donde se mencione el conjunto de datos utilizado incluyendo referencias, un resumen del procedimiento realizado, incluyendo las gráficas para justificar la elección de las categorías y películas y todos los archivos agruparlos en una carpeta comprimida llamada `las-mejores-peliculas.zip` que será el entregable final.