1.4 Extracción de Tablas de los Premios Oscar con Beautiful Soup
    
    En esta fase, trabajarán con la biblioteca Beautiful Soup para extraer información relevante de las tablas de los premios Oscar desde 2000.
La tabla la encontrarás en este link: https://en.wikipedia.org/wiki/Academy_Awards

La información que deberás extraer es:
        Fecha de la ceremonia.
        Mejor película.
        Mejor director.
        Mejor actor.
    Mejor actriz.

NOTA: La información deberá ser almacenada en una lista de tuplas. Cada tupla corresponderá a una película. Siguiendo el siguiente ejemplo: [(1990, 'Driving Miss Daisy', 'O. Stone', "D. Day-Lewis",' J. Tandy' ), ...]

In [1]:

from bs4 import BeautifulSoup
import requests
import pandas as pd
import re


listado_ceremonias = []

anio_ini = 2000
url = "https://es.wikipedia.org/wiki/Premios_%C3%93scar" # URL Premios Oscar

# hacemos la request a la página de la que queremos sacar la info
resultado = requests.get(url)

if resultado.status_code != 200:
    print(f"La llamada ha producido el siguiente error: {resultado.reason}")
else:

    # creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
    sopa_peliculas = BeautifulSoup(resultado.content, 'html.parser')

    anio = ""
    mejor_pelicula = ""
    mejor_director = ""
    mejor_actor = ""
    mejor_actriz = ""

    tablas_peliculas= sopa_peliculas.find_all("table", {"class": "wikitable"})

    # accedo a la primera tabla de la lista por que casualmente es la que nos interesa 
    # y busco todos los tr que son las filas y la primera fila son las cabeceras y los almaceno en lista_tr
    lista_tr = tablas_peliculas[0].find_all("tr")
    for tr in lista_tr:

        # para cada tr, busco todos los td y los almaceno en lista_td
        lista_td = tr.find_all("td")

        # necesito la comprobacion porque el primer tr no tiene td, tiene th que son las cabeceras
        if len(lista_td)>0:
    
            # para obtener el año, que esta en la columna 2 (posicion 1) que contiene el texto:"16 de mayo de 1929\n" hago lo siguiente
            cadena_texto = lista_td[1].text.strip() # almaceno el texto en la variable cadena_texto. Hago strip() para eliminar el \n.
            anio_texto = cadena_texto[-4:] # obtengo los 4 ultimos caracteres de la cadena, que justo es el año.
            
            # compruebo si el año del tr donde nos encontramos es mayor o igual al anio inicial (2000), entonces me encuentro en los datos que necesito, por lo que obtengo los datos, y los añado a la lista resultado en formato tupla
            if int(anio_texto) >= anio_ini:
                anio = anio_texto
                mejor_pelicula = lista_td[2].text.strip() # hago el strip para eliminar los saltos de linea \n
                mejor_director = lista_td[3].text.strip().split("(")[0] 
                mejor_actor = lista_td[4].text.strip().split("(")[0] 
                mejor_actriz = lista_td[5].text.strip().split("(")[0]  

                # lo añado a la lista de resultado como una tupla
                listado_ceremonias.append((anio, mejor_pelicula,  mejor_director, mejor_actor, mejor_actriz))


cabeceras = ["Fecha de ceremonia","Mejor Pelicula","Mejor Director","Mejor Actor","Mejor Actriz"]
df = pd.DataFrame(listado_ceremonias,columns=cabeceras)
#print(df)

# Guardar el DataFrame en un archivo CSV
df.to_csv('tabla_oscar_archivo.csv', index=False) #index=False: Esto es para que no guarde el índice (las filas numeradas) en el archivo CSV.



for ceremonia in listado_ceremonias:
    print(ceremonia)     
    



('2000', 'American Beauty', 'S. Mendes', 'K. Spacey', 'H. Swank')
('2001', 'Gladiator', 'S. Soderbergh', 'R. Crowe', 'J. Roberts')
('2002', 'A Beautiful Mind', 'R. Howard', 'D. Washington', 'H. Berry')
('2003', 'Chicago', 'R. Polanski', 'A. Brody', 'N. Kidman')
('2004', 'The Lord of the Rings: The Return of the King', 'P. Jackson', 'S. Penn', 'C. Theron')
('2005', 'Million Dollar Baby', 'C. Eastwood', 'J. Foxx', 'H. Swank')
('2006', 'Crash', 'A. Lee', 'P. S. Hoffman', 'R. Witherspoon')
('2007', 'The Departed', 'M. Scorsese', 'F. Whitaker', 'H. Mirren')
('2008', 'No Country for Old Men', 'J. Coen E. Coen', 'D. Day-Lewis', 'M. Cotillard')
('2009', 'Slumdog Millionaire', 'D. Boyle', 'S. Penn', 'K. Winslet')
('2010', 'The Hurt Locker', 'K. Bigelow', 'J. Bridges', 'S. Bullock')
('2011', "The King's Speech", 'T. Hooper', 'C. Firth', 'N. Portman')
('2012', 'The Artist', 'M. Hazanavicius', 'J. Dujardin', 'M. Streep')
('2013', 'Argo', 'A. Lee', 'D. Day-Lewis', 'J. Lawrence')
('2014', '12 Years 