# JustWatch Scraper España

Se ha creado la función **jw_movies** la cual realiza un raspado en el portal web JustWatch.com obteniendo la información de todas las películas de un año determinado presentes mediante suscripción en los catálogos de las principales plataformas de streaming de España. El código de todas las funciones utilizadas se encuentra en el archivo utils.py

In [1]:
from utils import jw_movies

La función **jw_movies** cuenta con dos parámetros:
- *year* (Obligatorio): Indica el año de lanzamiento de las películas a raspar.
- *Extractor* (Default=True): Si se indica como "False", la función simplemente devuelve una lista con la parte única de las urls de las películas raspadas.

En varios puntos de la ejecución, la función muestra por pantalla el progreso, ya que la ejecución completa lleva tiempo, a fin de no sobrecargar el servidor web.

In [6]:
movie_list_1915 = jw_movies(1915, Extractor=False)
print(movie_list_1915)

Starting movie list (1915) scraping...
Movies found: 3
['/es/pelicula/carmen-1915', '/es/pelicula/the-cheat', '/es/pelicula/el-nacimiento-de-una-nacion']


Cuando el parámetro *Extractor*=True, la función llama a la función **jw_extractor**, la cual extrae la siguiente información (si existe) de cada película, almacenándola en un diccionario:
- Título de la pélicula
- Año de lanzamiento
- Plataformas en las que se encuentra bajo suscripción
- Valoraciones de usuarios en JustWatch (puntuación y nº de valoraciones), IMDb (puntuación y nº de valoraciones) y Rotten Tomatoes (puntuación)
- Géneros en los que JustWatch cataloga la película
- Duración de la película
- Clasificación por edad
- Países de producción
- Imagen del póster de la película (Pixeles RGB almacenados como JSON)

Cabe destacar que el output de dicha función devuelve un Data Frame sin limpiar, siendo necesario realizar esa tarea de forma posterior.

In [8]:
from utils import jw_extractor
import pandas as pd

In [11]:
movie_info_2015 = jw_extractor(movie_list_1915)
movie_info_2015 = pd.DataFrame(movie_info_2015)
movie_info_2015.head()

Extracting movie info:: 100%|██████████| 3/3 [00:02<00:00,  1.13it/s]


Unnamed: 0,title,year,platforms,jw_score,jw_ratings,imdb_score,imdb_ratings,rt_score,genres,duration,ageRating,countries,poster_image
0,Carmen,(1915),[Filmin],,,6.3,(1k),,Drama,59min,,Estados Unidos,"[[[245, 222, 188], [245, 222, 188], [244, 221,..."
1,La marca del fuego,(1915),[Filmin],,,6.5,(2k),90%,"Drama, Romance",59min,,Estados Unidos,"[[[137, 40, 147], [140, 34, 144], [143, 35, 11..."
2,El nacimiento de una nación,(1915),[Filmin],33%,(255),6.1,(27k),91%,"Guerra, Drama, Historia",3h 15min,,Estados Unidos,"[[[65, 93, 107], [66, 94, 108], [69, 97, 111],..."


Si se ejecuta la función **jw_movies** con los atributos por defecto (*Extractor*=True), esta devuelve la información de **jw_extractor** almacenada como un Data Frame Pandas, a la vez que genera un archivo .csv con la misma información.

In [12]:
movie_info_1920 = jw_movies(1920) # Almacenando en variable
movie_info_1920.head()

Starting movie list (1920) scraping...
Movies found: 7


Extracting movie info:: 100%|██████████| 7/7 [00:06<00:00,  1.03it/s]

Información extraída en "1920.csv"





Unnamed: 0,title,year,platforms,jw_score,jw_ratings,imdb_score,imdb_ratings,rt_score,genres,duration,ageRating,countries,poster_image
0,El Golem,(1920),[Filmin],57%,(81),7.2,(9k),,"Fantasía, Terror, Europeas",1h 27min,,Alemania,"[[[30, 30, 42], [30, 30, 42], [30, 30, 42], [3..."
1,El gabinete del doctor Caligari,(1920),[Filmin],88%,(1.4k),8.0,(73k),96%,"Drama, Terror, Misterio & Suspense, Crimen, Eu...",1h 7min,7.0,Alemania,"[[[187, 157, 33], [185, 156, 30], [188, 157, 3..."
2,El hombre y la bestia,(1920),"[Filmin, Cultpix]",48%,(105),6.9,(6k),92%,"Ciencia ficción, Drama, Terror, Comedia",1h 19min,,Estados Unidos,"[[[238, 227, 41], [238, 227, 41], [238, 227, 4..."
3,Erotikon,(1920),"[Netflix basic with Ads, Netflix]",5%,(71),6.4,(1k),,"Romance, Drama, Comedia",1h 37min,13.0,Suecia,"[[[184, 183, 199], [193, 195, 208], [187, 191,..."
4,La mujer del párroco,(1920),"[Netflix basic with Ads, Netflix]",8%,(88),7.1,(1k),,"Comedia, Drama, Terror",1h 34min,,Suecia,"[[[21, 43, 30], [9, 31, 18], [22, 44, 31], [18..."


In [13]:
jw_movies(1921) # Sin almacenar en variable

Starting movie list (1921) scraping...
Movies found: 6


Extracting movie info:: 100%|██████████| 6/6 [00:07<00:00,  1.25s/it]

Información extraída en "1921.csv"





Unnamed: 0,title,year,platforms,jw_score,jw_ratings,imdb_score,imdb_ratings,rt_score,genres,duration,ageRating,countries,poster_image
0,La muerte cansada,(1921),[Filmin],55%,(59),7.6,(7k),,"Fantasía, Drama, Misterio & Suspense, Terror, ...",1h 38min,,Alemania,"[[[35, 35, 35], [34, 34, 34], [34, 34, 34], [3..."
1,La carreta fantasma,(1921),"[Filmin, Acontra Plus]",58%,(187),8.0,(14k),100%,"Drama, Terror, Europeas, Fantasía",1h 46min,,Suecia,"[[[4, 8, 17], [13, 10, 0], [107, 98, 67], [163..."
2,Los cuatro jinetes del Apocalipsis,(1921),[Filmin],48%,(36),7.1,(3k),80%,"Guerra, Romance, Drama",2h 36min,,Estados Unidos,"[[[22, 41, 55], [20, 36, 51], [25, 35, 47], [5..."
3,El Chico,(1921),"[Amazon Prime Video, Filmin, Acontra Plus]",90%,(1.5k),8.2,(140k),100%,"Comedia, Drama, Familia",1h 8min,,Estados Unidos,"[[[249, 255, 253], [239, 228, 210], [241, 208,..."
4,La dama de las camelias,(1921),[Filmin],,,6.5,(1k),,"Romance, Drama",1h 10min,,Estados Unidos,"[[[128, 128, 128], [128, 128, 128], [128, 128,..."
5,El castillo Vogeloed,(1921),[Filmin],,,6.1,(2k),,"Misterio & Suspense, Crimen, Terror, Drama",1h 21min,,Alemania,"[[[17, 14, 21], [17, 14, 21], [17, 14, 21], [1..."


Si se desea obtener toda la información de todas las películas contenidas en los catalógos disponibles en España de las principales plataformas de Streaming se podría ejecutar el siguiente código, pero se desaconseja por dos motivos. En primer lugar tendrá un tiempo de ejecución de varias horas y, en segundo lugar, puede llegar a sobrecargar el servidor (pese que se contempla una pausa más o menos larga entre año y año).

In [15]:
# import time
#
# for year in range(1913, 2026):
#     jw_movies(year)
#     time.sleep(300)

Por último, para obtener un único archivo con todos los años juntos se puede ejecutar el siguiente código. Para obtener todos los años, se ha ido ejecutando, espaciadamente en el tiempo, el código anterior, limitando el rango de años.

In [None]:
years = range(1913, 2026)
jw_movies_spain = pd.concat([pd.read_csv(f"{year}.csv", sep=";") for year in years], ignore_index=True)
jw_movies_spain.to_csv("jw_movies_spain.csv", sep=";")

jw_movies_spain.shape