In [9]:
# Se importan las librerías que se van a usar
import requests
import time
import re
import pandas as pd
import os
import urllib.parse
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver import Edge
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import ElementClickInterceptedException
from selenium.webdriver.common.by import By
from tqdm import tqdm
from urllib.parse import urlparse



# Esta es la web donde aparecen las películas ganadoras y nominadas a mejor película en
# los óscar durante la década de 2010's. La usaremos como punto de partida para
# extraer toda la información
url = "https://www.filmaffinity.com/es/awards3.php?award_id=academy_awards&decade=2010"

# Modificamos el User-Agent para evitar posibles problemas de bloqueo. Se comprueba
# el archivo robots.txt y a priori no deberían bloquearnos
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,\
    */*;q=0.8",
    "Accept-Encoding": "gzip, deflate, sdch, br",
    "Accept-Language": "en-US,en;q=0.8",
    "Cache-Control": "no-cache",
    "dnt": "1",
    "Pragma": "no-cache",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36\
     (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"
}

# URL en la que se hace el login en la web
url_login = "https://www.filmaffinity.com/es/account.ajax.php?action=login"

# Se indican los parámetros que son necesarios para hacer el login
login_data =  {
    'postback':'1',
    'rp':url,
    'username':'Gallardola',
    'password':'P4ssw0rd!'
}

# URL de descarga de imagenes
url_image = 'https://pics.filmaffinity.com/'

In [13]:
def get_page(url):
    # Esta función se implementa para extraer el contenido de una URL. Utiliza
    # las cookies de sesión y guarda un tiempo prudencial entre peticiones que
    # es proporcional al tiempo de respuesta del servidor
    try:
        soup = None
        t0 = time.time()
        page = session.get(url, headers=headers)
        delay = time.time() - t0
        if page.status_code == 200:
            soup = BeautifulSoup(page.content)
        else:
            print("Ha habido algún problema al descargar el contenido.\n")
        time.sleep(20*delay)
    except requests.exceptions.Timeout:
        pass
    except requests.exceptions.RequestException:
        pass
    return soup


def find_movie_info(movie_info):
    # Extrae la información que nos interesa de la película y la almacena en
    # una lista
    wanted_data = ["Título original", "Año", "Duración", "País", "Dirección",
                   "Reparto", "Género", "Sinopsis"]
    dt_list = movie_info.find_all("dt")
    dd_list = movie_info.find_all("dd")

    info = [dd_list[i] for i in range(len(dt_list)) if dt_list[i].
            get_text(strip=True) in wanted_data]
    return info


def get_rating_info():
    # Si la página tiene votaciones y una nota la extrae, si no devuelve vacío
    rating_info = []
    result = []
    try:
        rating_info = soup.find(id="rat-avg-container").find_all('div')
        result.append(rating_info[0].get_text(strip=True))
        result.append(rating_info[1].span.get_text(strip=True))
    except AttributeError:
        result = ["", ""]
    return result


def load_requests(source_url):
    # descarga el cartel o poster de la película, guarda un tiempo prudencial
    # entre descargas proporcional a la respuesta del servidor y retorna la
    # ruta relativa 
    t0 = time.time()
    abs_url = urllib.parse.urljoin(url_image,source_url)
    r = session.get(abs_url, headers=headers, stream=True)
    delay = time.time() - t0
    os.makedirs('./images_FA/', exist_ok=True)
    if r.status_code == 200:
        ruta = "./images_FA"+source_url
        output = open(ruta, "wb")
        for chunk in r:
            output.write(chunk)
        output.close()
    time.sleep(10*delay)
    return source_url


In [18]:
driver = webdriver.Edge()
driver.get(url_login)

#Se guardan las cookies generadas por el navedador
request_cookies_browser = driver.get_cookies()

session = requests.Session()

#passing the cookies generated from the browser to the session
c = [session.cookies.set(c['name'], c['value']) for c in request_cookies_browser]

resp = session.post(url_login, data=login_data, headers=headers)
# Se comprueba si el servidor da algún error
for i in resp.history:
    if r.status_code == 401:
        print("Error!")

# Exportamos las cookies de respuesta al navegador
dict_resp_cookies = resp.cookies.get_dict()
response_cookies_browser = [{'name':name, 'value':value} for name, value in dict_resp_cookies.items()]
c = [driver.add_cookie(c) for c in response_cookies_browser]

#El navegador ahora contiene las cookies de la autenticación    
driver.get(url_login)

In [4]:
# a través de la URL de inicio, se consiguen las URLs para todas las decadas
# en las que se han celebrado los premios Oscars: 1920s a 2020s
decade_soap = get_page(url)
URL_decades = []
decades = decade_soap.find("table", class_='decades').find_all("a")
for i in decades:
    URL_decades.append(i.get("href"))
# Se elimina la última URL que nos conduce a todos los premios
URL_decades.pop()

'https://www.filmaffinity.com/es/all_awards.php'

In [5]:
# Se crea una lista donde se almacenarán las URL de todas las películas
URL_films = []

# Se busca en cada década las URLs de las películas premiadas y nominadas
for dec in URL_decades:
    main_soup = get_page(dec)
    # Dentro del div con el atributo class especificado se encuentran las
    # ganadoras del premio
    awarded_films = main_soup.body.find_all(
        "div", class_="aw-mc2 big-poster winner-border")

    # Dentro del div con este atributo class se encuentran las películas
    # que han sido nominadas pero no ganaron el premio
    nominated_films = main_soup.body.find_all(
        "div", class_="aw-mc2 big-poster")

    # Observando su estructura, la URL a la web con toda la información
    # de la película se encuentra dentro de la etiqueta a, en el atributo
    # href, por lo que iteramos para almacenarlas en URL_films
    for i in range(len(awarded_films)):
        URL_films.append(awarded_films[i].a.get("href"))
    for i in range(len(nominated_films)):
        URL_films.append(nominated_films[i].a.get("href"))

In [19]:
# Se crea un índice que se usara como key del diccionario donde se almacenará
# la información
index = 0
# Se crea el diccionario
data_dict = {}
for i in tqdm(URL_films):
    # Se recorren todas las URLs con las películas buscando la información
    # que se quiere almacenar en el dataset
    soup = get_page(i)
    # Desplegamos los premios ocultos (en caso de que los haya) utilizando
    # Selenium
    driver.get(i)
    try:
        show_hidden_awards = driver.find_element_by_id('show-all-awards')
        time.sleep(5)
        show_hidden_awards.click()
    except NoSuchElementException:
        pass
    except ElementClickInterceptedException:
        # Ejecutamos Javascript (más eficiente) si el delay no es suficiente
        driver.execute_script("arguments[0].click();", show_hidden_awards)

    # Separamos la web en las 2 zonas donde existe información de interés
    movie_info = find_movie_info(soup.find(class_="movie-info"))
    rating_info = get_rating_info()

    # Aquellos atributos que son una lista de valores los generamos previamente
    actor_list = [actor.get_text(strip=True) for actor in movie_info[5].
                  div.find_all("span")[1::2]]
    genre_list = [genre.get_text(strip=True) for genre in movie_info[6].
                  find_all("a")]

    # Almacenamos el voto personal de la película, si el valor es "-1" quiere
    # decir que no se ha visto, por lo que se deja vacío
    my_vote = soup.find("div", class_='rate-movie-box').attrs[
        'data-user-rating']

    # Construimos el diccionario con todos los datos para una película
    data_dict[index] = {
        "ID_FA": re.findall('\\d+', soup.find(
            "meta", property="og:url").get("content"))[0],
        "title": soup.find("h1", id="main-title").span.get_text(strip=True),
        "original_title": movie_info[0].get_text(strip=True),
        "year": movie_info[1].get_text(strip=True),
        "duration": movie_info[2].get_text(strip=True),
        "country": movie_info[3].get_text(strip=True),
        "director": movie_info[4].div.a.get_text(strip=True),
        "actors": actor_list,
        "genre": genre_list,
        "description": movie_info[7].get_text(strip=True),
        "awards": driver.find_element_by_css_selector(
            '.margin-top.movie-info dd').text.split('\n'),
        "average_rating": rating_info[0],
        "rating_votes": rating_info[1],
        "poster": load_requests(urlparse(soup.find(id="movie-main-image-container").a.get("href")).path), 
        "my_vote": my_vote if my_vote != "-1" else ""
    }
    index += 1
driver.quit()

  1%|          | 6/563 [00:18<29:06,  3.13s/it]


AttributeError: 'NoneType' object has no attribute 'split'

In [16]:
# Se crea un dataframe a partir del diccionario
df = pd.DataFrame().from_dict(data_dict, orient='index')
df.head().append(df.tail())

Unnamed: 0,ID_FA,title,original_title,year,duration,country,director,actors,genre,description,awards,average_rating,rating_votes,poster,my_vote
0,602893,La melodía de Broadway,The Broadway Melody,1929,110 min.,Estados Unidos,Harry Beaumont,"[Charles King, Anita Page, Bessie Love, Jed Pr...","[Musical, Romance, Comedia]",Queenie y Hank son dos hermanas que buscan tri...,[1928: Oscar: Mejor película. 3 nominaciones],59.0,482.0,/the_broadway_melody-974223234-large.jpg,
1,415986,Alas,Wings,1927,138 min.,Estados Unidos,William A. Wellman,"[Clara Bow, Charles 'Buddy' Rogers, Richard Ar...","[Bélico, Acción, Drama, Años 1910-1919, I Guer...",Drama bélico que ha pasado a la historia por s...,[1927: 2 Oscars: Mejor película y Efectos espe...,73.0,1.363,/wings-603432841-large.jpg,
2,116361,La coartada (Alibi),Alibi,1929,91 min.,Estados Unidos,Roland West,"[Chester Morris, Harry Stubbs, Mae Busch, Elea...","[Drama, Crimen, Mafia, Policíaco, Melodrama]",Chick Williams desea vengarse de quien lo envi...,[1928: 3 nominaciones al Oscar: Mejor película...,,,/alibi-628810572-large.jpg,
3,660458,En el viejo Arizona,In Old Arizona,1928,95 min.,Estados Unidos,Irving Cummings,"[Warner Baxter, Edmund Lowe, Dorothy Burgess, ...",[Western],Cisco Kid (Warner Baxter) es un bandido del Vi...,"[1928: 1 Oscar: Mejor actor (Baxter), 5 nom., ...",56.0,52.0,/in_old_arizona-995252878-large.jpg,
4,309182,The Hollywood Revue of 1929,The Hollywood Revue of 1929,1929,118 min.,Estados Unidos,Charles Reisner,"[Conrad Nagel, Buster Keaton, Jack Benny, John...",[Musical],Musical por donde irán desfilando los grandes ...,[1929: Oscar: Nominada a la Mejor Película],50.0,27.0,/the_hollywood_revue_of_1929-338377848-large.jpg,
4,309182,The Hollywood Revue of 1929,The Hollywood Revue of 1929,1929,118 min.,Estados Unidos,Charles Reisner,"[Conrad Nagel, Buster Keaton, Jack Benny, John...",[Musical],Musical por donde irán desfilando los grandes ...,[1929: Oscar: Nominada a la Mejor Película],50.0,27.0,/the_hollywood_revue_of_1929-338377848-large.jpg,
5,472913,El patriota,The Patriot,1928,113 min.,Estados Unidos,Ernst Lubitsch,"[Emil Jannings, Florence Vidor, Lewis Stone, V...",[Drama],El zar Pablo I de Rusia sólo confía en el cond...,[1928: Oscar: Mejor guión adaptado. 4 Nominaci...,,,/the_patriot-791348199-large.jpg,
6,205142,El séptimo cielo,Seventh Heaven (7th Heaven),1927,110 min.,Estados Unidos,Frank Borzage,"[Janet Gaynor, Charles Farrell, Gladys Brockwe...","[Drama, Melodrama, Cine mudo]",Chico (Charles Farrell) es un joven que trabaj...,"[1927: 3 Oscars: Mejor actriz (Janet Gaynor), ...",78.0,1.341,/seventh_heaven_7th_heaven-660930940-large.jpg,
7,821041,La horda,The Racket,1928,84 min.,Estados Unidos,Lewis Milestone,"[Thomas Meighan, Louis Wolheim, Marie Prevost,...","[Cine negro, Intriga, Crimen, Cine mudo]",Cine negro. Estuvo nominada al Óscar a la mejo...,[1927: Nominada al Oscar: Mejor película],63.0,81.0,/the_racket-106449642-large.jpg,
8,483290,Vive como quieras,You Can't Take it With You,1938,126 min.,Estados Unidos,Frank Capra,"[James Stewart, Jean Arthur, Lionel Barrymore,...","[Comedia, Comedia sofisticada]","Alice Sycamore, la única persona con un poco d...","[1938: 2 Oscars: Mejor película, director (Fra...",81.0,7.57,/you_can_t_take_it_with_you-642701189-large.jpg,


In [None]:
# Se utiliza el dataframe para exportar la información a CSV
df.to_csv('movie_data.csv', encoding='utf-8-sig')