# Ejercicio 4

## Fase 4: Extracción de Tablas de los Premios Oscar con Beautiful Soup
En esta fase, trabajarán con la biblioteca Beautiful Soup para extraer información relevante de las tablas de los premios Oscar desde 1990. La tabla la encontrarás en el este link. La información que deberás sacar es:
Fecha de la ceremonia.
Mejor película.
Mejor director.
Mejor actor.
Mejor actriz.
NOTA: La información de la API deberá ser almacenada en una lista de tuplas. Cada tupla corresponderá a una película. Siguiendo el siguiente ejemplo:
  [(1990, 'Driving Miss Daisy', 'O. Stone', "D. Day-Lewis",' J. Tandy' ),  ...] 

# Con diccionario y pasarlo a lista de tuplas


In [1]:
# antes de empezar importamos las librerías que vamos a usar. 
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

In [3]:
def sacar_premios_oscar(url):
    res_premios_oscar = requests.get(url)

    sopa_premios_oscar = BeautifulSoup(res_premios_oscar.content, 'html.parser')

    diccionario_oscars = {}  #Utilizando un diccionario como en el ejemplo

    #Con el ejemplo de las medallas no me encuentra la tabla, así que... selector, ¿o no se puede?
    tabla_wiki = sopa_premios_oscar.find('table', {'class': 'wikitable'})
    filas_tabla = tabla_wiki.find_all('tr')[1:]

    for fila in filas_tabla:
        celdas = fila.find_all('td')
        ceremonia = celdas[1].text.strip()

        #Recurrimos a putito regex para dejar solo el año como en el ejemplo
        anio_ceremonia = re.search(r'\d{4}', ceremonia)

        #year = int(year_match) #¿Por qué no funciona? no entiendo group, solo hay una coincidencia

        anio = int(anio_ceremonia.group()) #Conviertimos el año a un número entero
        if anio >= 1990:   #Filtro las pelis desde 1990 en adelante
            mejor_pelicula = celdas[2].text.strip()
            mejor_director = re.sub(r'\([^)]*\)', '', celdas[3].text.strip())   #Quitamos la peli entre paréntesis
            mejor_actor = re.sub(r'\([^)]*\)', '', celdas[4].text.strip())
            mejor_actriz = re.sub(r'\([^)]*\)', '', celdas[5].text.strip())
            diccionario_oscars[anio] = {'mejor_pelicula': mejor_pelicula,
                                        'mejor_director': mejor_director,
                                        'mejor_actor': mejor_actor,
                                        'mejor_actriz': mejor_actriz}
            
        #Funciona, pero algo me dice que hay que cerrar el if con alguna cosa
    #Funciona, lo mismo del comentario anterior

    #Convertimos el diccionario en una lista de tuplas
    lista_oscars = [(anio, brocoli['mejor_pelicula'], brocoli['mejor_director'], brocoli['mejor_actor'], brocoli['mejor_actriz'])
                    for anio, brocoli in diccionario_oscars.items()]

    return lista_oscars   #Sin devolverme nada, porque ¿pa qué obedecer?


In [4]:
#Llama a la función y guarda la lista de tuplas en una variable
lista_oscars = sacar_premios_oscar("https://es.wikipedia.org/wiki/Premios_%C3%93scar")

#Probamos si funciona pidiendo los primeros 5 elementos
print(lista_oscars[:15])  #Me gustaría sacar una tupla en cada línea para verlas mejor

#Devuelve una lista con una tupla por peli?? O por año??

[(1990, 'Driving Miss Daisy', 'O. Stone', 'D. Day-Lewis', 'J. Tandy'), (1991, 'Dances with Wolves', 'K. Costner', 'J. Irons', 'K. Bates'), (1992, 'The Silence of the Lambs', 'J. Demme', 'A. Hopkins', 'J. Foster'), (1993, 'Unforgiven', 'C. Eastwood', 'A. Pacino', 'E. Thompson'), (1994, "Schindler's List", 'S. Spielberg', 'T. Hanks', 'H. Hunter'), (1995, 'Forrest Gump', 'R. Zemeckis', 'T. Hanks', 'J. Lange'), (1996, 'Braveheart', 'M. Gibson', 'N. Cage', 'S. Sarandon'), (1997, 'The English Patient', 'A. Minghella', 'G. Rush', 'F. McDormand'), (1998, 'Titanic', 'J. Cameron', 'J. Nicholson', 'H. Hunt'), (1999, 'Shakespeare in Love', 'S. Spielberg', 'R. Benigni', 'G. Paltrow'), (2000, 'American Beauty', 'S. Mendes', 'K. Spacey', 'H. Swank'), (2001, 'Gladiator', 'S. Soderbergh', 'R. Crowe', 'J. Roberts'), (2002, 'A Beautiful Mind', 'R. Howard', 'D. Washington', 'H. Berry'), (2003, 'Chicago', 'R. Polanski', 'A. Brody', 'N. Kidman'), (2004, 'The Lord of the Rings: The Return of the King', 'P. J

In [5]:
#DataFrame
df = pd.DataFrame(lista_oscars, columns=["Ceremonia", "Mejor pelicula", "Mejor director", "Mejor actor", "Mejor actriz"])
df.head()

#¿Por qué me da 5 solo? En las tuplas salen las que le diga

Unnamed: 0,Ceremonia,Mejor pelicula,Mejor director,Mejor actor,Mejor actriz
0,1990,Driving Miss Daisy,O. Stone,D. Day-Lewis,J. Tandy
1,1991,Dances with Wolves,K. Costner,J. Irons,K. Bates
2,1992,The Silence of the Lambs,J. Demme,A. Hopkins,J. Foster
3,1993,Unforgiven,C. Eastwood,A. Pacino,E. Thompson
4,1994,Schindler's List,S. Spielberg,T. Hanks,H. Hunter


# Intentando lista de tuplas directamente


In [6]:
# antes de empezar importamos las librerías que vamos a usar. 
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

#Esto es innecesario hacerlo otra vez, pero por si borramos todo lo de arriba

In [7]:
def sacar_premios_oscar_LdT(url):
    res_premios_oscar = requests.get(url)
    
    sopa_premios_oscar = BeautifulSoup(res_premios_oscar.content, 'html.parser')

    lista_oscars = []
    
    tabla_wiki = sopa_premios_oscar.find('table', {'class': 'wikitable'})  
  
    filas_tabla = tabla_wiki.find_all('tr')[1:]
        
    for fila in filas_tabla:
        celdas = fila.find_all('td')
        ceremonia = celdas[1].text.strip()
                
        anio_ceremonia = re.search(r'\d{4}', ceremonia)     
        anio = int(anio_ceremonia.group())  

        if anio >= 1990:  
            mejor_pelicula = celdas[2].text.strip()
            mejor_director = re.sub(r'\([^)]*\)', '', celdas[3].text.strip())
            mejor_actor = re.sub(r'\([^)]*\)', '', celdas[4].text.strip())
            mejor_actriz = re.sub(r'\([^)]*\)', '', celdas[5].text.strip())
            tuplita_por_año = (anio, mejor_pelicula, mejor_director, mejor_actor, mejor_actriz)
            lista_oscars.append(tuplita_por_año)
    
    return lista_oscars   #Sin devolverme nada, porque ¿pa qué obedecer?


In [8]:
# Llama a la función y guarda la lista de tuplas en una variable
lista_oscars = sacar_premios_oscar_LdT("https://es.wikipedia.org/wiki/Premios_%C3%93scar")

# Probamos si funciona pidiendo los primeros 5 elementos
print(lista_oscars[:15])  #me gustaría sacar una tupla en cada línea para verlo mejor

#Devuelve una lista con una tupla por peli?? O por año??

[(1990, 'Driving Miss Daisy', 'O. Stone', 'D. Day-Lewis', 'J. Tandy'), (1991, 'Dances with Wolves', 'K. Costner', 'J. Irons', 'K. Bates'), (1992, 'The Silence of the Lambs', 'J. Demme', 'A. Hopkins', 'J. Foster'), (1993, 'Unforgiven', 'C. Eastwood', 'A. Pacino', 'E. Thompson'), (1994, "Schindler's List", 'S. Spielberg', 'T. Hanks', 'H. Hunter'), (1995, 'Forrest Gump', 'R. Zemeckis', 'T. Hanks', 'J. Lange'), (1996, 'Braveheart', 'M. Gibson', 'N. Cage', 'S. Sarandon'), (1997, 'The English Patient', 'A. Minghella', 'G. Rush', 'F. McDormand'), (1998, 'Titanic', 'J. Cameron', 'J. Nicholson', 'H. Hunt'), (1999, 'Shakespeare in Love', 'S. Spielberg', 'R. Benigni', 'G. Paltrow'), (2000, 'American Beauty', 'S. Mendes', 'K. Spacey', 'H. Swank'), (2001, 'Gladiator', 'S. Soderbergh', 'R. Crowe', 'J. Roberts'), (2002, 'A Beautiful Mind', 'R. Howard', 'D. Washington', 'H. Berry'), (2003, 'Chicago', 'R. Polanski', 'A. Brody', 'N. Kidman'), (2004, 'The Lord of the Rings: The Return of the King', 'P. J

In [9]:
# Para visualizar DataFrame
df = pd.DataFrame(lista_oscars, columns=["Ceremonia", "Mejor película", "Mejor director", "Mejor actor", "Mejor actriz"])
df.head()

Unnamed: 0,Ceremonia,Mejor película,Mejor director,Mejor actor,Mejor actriz
0,1990,Driving Miss Daisy,O. Stone,D. Day-Lewis,J. Tandy
1,1991,Dances with Wolves,K. Costner,J. Irons,K. Bates
2,1992,The Silence of the Lambs,J. Demme,A. Hopkins,J. Foster
3,1993,Unforgiven,C. Eastwood,A. Pacino,E. Thompson
4,1994,Schindler's List,S. Spielberg,T. Hanks,H. Hunter


In [None]:
# Tengo la duda de si la segunda versión es independiente y funciona o si en realidad me está imprimiendo la primera, porque en la ultima cajita no especifico LdT