### Fase 4: Extracción de Tablas de los Premios Oscar con Beautiful Soup
En esta fase, trabajarán con la biblioteca Beautiful Soup para extraer información relevante de las tablas de los premios Oscar desde 2000. La tabla la encontrarás en el este link. La información que deberás sacar es:
- Fecha de la ceremonia.
- Mejor película.
- Mejor director.
- Mejor actor.
- Mejor actriz.

In [5]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

In [6]:
# al igual que en el ejemplo anterior lo primero que haremos será definir la url de la página de la vamos a sacar datos
url_oscar = "https://es.wikipedia.org/wiki/Premios_Óscar"

# hacemos la request a la página de la que queremos sacar la info
res_oscar = requests.get(url_oscar)

print("La respuesta de la petición es:", res_oscar.status_code)

La respuesta de la petición es: 200


In [12]:
# creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
sopa_oscar = BeautifulSoup(res_oscar.content, 'html.parser')

# recordemos que el método .prettify nos permite mostrar de una forma más amigable los resultados obtenidos de la sopa
# print(sopa_oscar.prettify())

In [8]:
# vamos a seguir usando el metodo ".find_all()", pero en este caso lo que buscaremos son todas las tablas que tenemos en la página web.
tablas = sopa_oscar.find_all("table")

print("El número de tablas que tenemos en la página web es:", len(tablas))

El número de tablas que tenemos en la página web es: 4


In [13]:
tablas[2] # hemos visto que esta es la tabla que contiene la informacion 
tabla_oscar = tablas[2]

In [17]:
# sacamos todas las filas de la variable que nos hemos creado previamente (nuestra tabla), usando el método .find_all()
filas_oscar = tabla_oscar.find_all("tr")

print("La cantidad de filas que hemos extraido de la tabla es:", len(filas_oscar))

print("\n----------------------\n")
print("El contenido que tenemos en la primera fila es:\n", filas_oscar[0] )

print("\n----------------------\n")
print("El contenido que tenemos en la segunda fila es:\n", filas_oscar[1] )

La cantidad de filas que hemos extraido de la tabla es: 97

----------------------

El contenido que tenemos en la primera fila es:
 <tr>
<th style="width:1px;">N.º
</th>
<th style="width:140px;">Ceremonia
</th>
<th style="width:250px;">Mejor película
</th>
<th style="width:225px;">Mejor director
</th>
<th style="width:225px;">Mejor actor
</th>
<th style="width:225px;">Mejor actriz
</th>
<th style="width:220px;">Mejor actor reparto
</th>
<th style="width:220px;">Mejor actriz reparto
</th>
<th style="width:170px;">Presentador
</th>
<th>Audiencia
</th></tr>

----------------------

El contenido que tenemos en la segunda fila es:
 <tr>
<td align="center"><a class="mw-redirect" href="/wiki/1.%C2%AA_ceremonia_de_los_Premios_%C3%93scar" title="1.ª ceremonia de los Premios Óscar">1°</a>
</td>
<td>16 de mayo<br/>de 1929
</td>
<td><span class="flagicon"><span class="mw-image-border" typeof="mw:File"><a class="mw-file-description" href="/wiki/Archivo:Flag_of_the_United_States.svg" title="Bandera

In [71]:
# Creamos una lista llamada 'resultados_filas' para almacenar los resultados obtenidos.
lista_tuplas = []
lista_pelis = []


# Iniciamos un bucle 'for' para iterar a través de la lista 'filas_oscar'
for fila in filas_oscar[72:]:
    # Para cada 'fila', extraemos el texto, lo dividimos en una lista usando '\n' como separador
    elementos = fila.find_all('td')
    for celda in elementos[1:6]:
        lista_pelis.append(celda.text.replace("\n", "").strip())
    
    fecha_ceremonia = lista_pelis[0][-4:]
    nombre_peli = lista_pelis[1]
    mejor_director = lista_pelis[2]
    mejor_actor = lista_pelis[3]
    mejor_actriz = lista_pelis[4]
    tupla = fecha_ceremonia, nombre_peli, mejor_director, mejor_actor, mejor_actriz
    lista_tuplas.append(tupla)
    lista_pelis.clear()

In [72]:
lista_tuplas

[('2000',
  'American Beauty',
  'S. Mendes(American Beauty)',
  'K. Spacey(American Beauty)',
  "H. Swank(Boys don't cry)"),
 ('2001',
  'Gladiator',
  'S. Soderbergh(Traffic)',
  'R. Crowe(Gladiator)',
  'J. Roberts(Erin Brockovich)'),
 ('2002',
  'A Beautiful Mind',
  'R. Howard(A Beautiful Mind)',
  'D. Washington(Training Day)',
  "H. Berry(Monster's Ball)"),
 ('2003',
  'Chicago',
  'R. Polanski(The Pianist)',
  'A. Brody(The Pianist)',
  'N. Kidman(The Hours)'),
 ('2004',
  'The Lord of the Rings: The Return of the King',
  'P. Jackson(The Lord of the Rings: The Return of the King)',
  'S. Penn(Mystic River)',
  'C. Theron(Monster)'),
 ('2005',
  'Million Dollar Baby',
  'C. Eastwood(Million Dollar Baby)',
  'J. Foxx(Ray)',
  'H. Swank(Million Dollar Baby)'),
 ('2006',
  'Crash',
  'A. Lee(Brokeback Mountain)',
  'P. S. Hoffman(Capote)',
  'R. Witherspoon(Walk the Line)'),
 ('2007',
  'The Departed',
  'M. Scorsese(The Departed)',
  'F. Whitaker(The Last King of Scotland)',
  'H

In [73]:
df_lista_tuplas = pd.DataFrame(lista_tuplas)
df_lista_tuplas.to_csv('lista_tuplas_fase4.csv')
df_lista_tuplas.to_json('lista_tuplas_fase4.json')