Skip to content

fsanchez83/premiosCine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 

Repository files navigation

premiosCine

Proyecto para extraer datos de premios de cine y explotarlos.

Consta de dos partes: la primera, imdbScrapping, incluye tanto el scrapping de los premios desde imdb (probado con Goya y Oscar) como el enriquecimiento de estos datos con la API de TMDB

La segunda, de explotación de estos datos con un proyecto de Power BI, incuye tanto el pbix como los datasets organizados de forma que se actualicen automáticamente desde PBI.

imdbScrapping

Incluye 3 scripts, un archivo de configuración y una carpeta con los datasets resultantes en csv:

  • ImdbAwardScrapping.py. Este script obtiene los premios de la web de premios de imdb. Para ejecutarlo hay que configurar, al final del script, la variable imdb_awards_code, que tendrá el valor que imdb dé a unos premios. Por ejemplo, para los premios Goya sería ev0000299, como se puede ver en la URL donde se publica: https://www.imdb.com/event/ev0000299/2024/1/. También es necesario configurar el rango de años de los que se desea obtener datos (variable years). Además, se puede configurar el nombre con el que se crearán los ficheros de resultados (name_awards) y la ruta de los archivos (file_name y file_name_esp). Ambos archivos son iguales: la diferencia es que los csv del sufijo _esp tienen separación por ; en lugar de , para facilitar la apertura directa en Excel a quienes lo tienen configurado en español. El csv separado por comas es el que servirá de entrada a los dos scripts siguientes.
  • DataMovies.py. Este script crea una lista de películas únicas a partir del fichero anterior y enriquece los datos de estas películas llamando a la API de TMDB (The Movie DataBase). Para que funcione, es necesario incluir la API-KEY en el fichero de configuración yaml del proyecto, que deberá renombrarse como secrets.cfg. Al final del script también pueden renombrarse los nombres de los archivos resultantes y sus rutas.
  • DataPeople.py. Este script crea una lista de personas únicas a partir del fichero resultante de ImdbAwardScrapping.py y enriquece los datos de estas personas llamando a la API de TMDB (The Movie DataBase). Para que funcione, es necesario incluir la API-KEY en el fichero de configuración yaml del proyecto, que deberá renombrarse como secrets.cfg. Al final del script también pueden renombrarse los nombres de los archivos resultantes y sus rutas.

También se incluye una carpeta Datasets, donde por el momento se han incluido los escrapeos ya hechos, para los premios Oscar y Goya, desde los inicios hasta 2024. En los premios Oscar, en imdb aparecen dos ceremonias para 1930, mientras que la primera edición consta como de 1928. Para facilitar la explotación y que cada año identifique unívocamente una ceremonia, se ha renombrado la de 1929 como de 1928 y la primera de 1930 como de 1929. En estos casos anómalos la modificación del scrapeo debe realizarse directamente en el script, de lo contrario, el script por defecto se queda con la primera ceremonia que conste en un año.

Los datos recogidos en los ficheros resultantes de cada uno de los 3 scripts son los siguientes:

  • Fichero de premios: año, categoría (es decir, qué premio en cada caso), status (nominado o ganador), título de la película ganadora o asociada al ganador, código imdb de la película ganadora o asociada al ganador, lista de personas asociadas al premio ganado (o nominado) por una película (por ejemplo, los directores de fotografía de una película), lista de códigos asociados a estas personas, persona (para los premios que no van directamente a una película sino a una persona, como los de interpretación), código imdb de la persona ganadora. El escrapeo incluye todos los premios sistemáticos y los honoríficos y especiales que siguen los patrones habituales. Sin embargo, en honoríficos y especiales, el formado en imdb no es sistemático y puede variar entre ediciones, por lo que puede faltar algún premio de este tipo.
  • Fichero de películas. Incluye los siguientes campos: Id_peli Tipo imdb_id Titulo Titulo_original Popularidad Rating Fecha Duracion Paises Idioma productoras_id productoras_nombre productoras_pais Presupuesto Ganancia Generos Director Genero_dir Casting Genero_cast Guion Genero_guion Montaje Genero_montaje DOP Genero_dop Resumen. Los que tienen ocurrencias múltiples se guardan en listas entre []. Todos los campos son textuales excepto los de países e idioma (siguien códigos ISO internacionales) y el de género (0: género desconocido; 1: mujer; 2: hombre; 3: otro). Se recogen los datos incluidos en la API de TMDB, por lo que no todos son completos. Se advierten ausencias en algunas películas en los campos de productoras, presupuesto, ganancias, guionistas, montadores, DoP. De forma extraordinaria, alguna película no incluye sus géneros cinematográficos.
  • Fichero de personas. Incluye los siguientes campos: tmdb_id tmdb_type imdb_id Name Gender Birthday Deathday AKA Department Place_birth Popularity Biography. Los que tienen ocurrencias múltiples (en este caso, solo AKA) se guardan en listas entre []. Todos los campos son textuales excepto el de género (0: género desconocido; 1: mujer; 2: hombre; 3: otro). El campo Department recoge solo el principal de una persona, porque tiene un valor único. Se recogen los datos incluidos en la API de TMDB, por lo que, aunque sí están todos los intérpretes, algunos presentan vacíos en algunos de estos datos.

En todos los casos se han incluido los códigos de imdb, de tal forma que a partir de estos tres ficheros se pueda construir un modelo de datos sólido y consistente.

About

Proyecto para extraer datos de premios de cine y explotarlos

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages