# Web Scraping - 2 - Tabela

In [1]:
# Importação das Bibliotecas
import pandas as pd
import urllib.request
from bs4 import BeautifulSoup
import requests
from requests_html import HTMLSession
import time

# Configurações de visualização do dataset
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 90)

In [2]:
# Solicitação dos conteúdos HTML da página
session = HTMLSession()
response = session.get('https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films')

In [3]:
# Status da solicitação
response.status_code

200

In [4]:
# Analisar o documento HTML da página
soup = BeautifulSoup(response.content, 'html.parser')

In [5]:
# Encontrar a tag table
tabela = soup.find('table')

In [6]:
# Visualização da página em formato HTML
print(tabela)

<table class="wikitable sortable">
<tbody><tr>
<th>Film
</th>
<th>Year
</th>
<th data-sort-type="number">Awards
</th>
<th data-sort-type="number">Nominations
</th></tr>
<tr style="background:#EEDD82">
<td><i><b><a href="/wiki/CODA_(2021_film)" title="CODA (2021 film)">CODA</a></b></i></td>
<td><a href="/wiki/2021_in_film" title="2021 in film">2021</a></td>
<td>3</td>
<td>3
</td></tr>
<tr>
<td><i><a href="/wiki/Dune_(2021_film)" title="Dune (2021 film)">Dune</a></i></td>
<td><a href="/wiki/2021_in_film" title="2021 in film">2021</a></td>
<td>6</td>
<td>10
</td></tr>
<tr>
<td><i><a href="/wiki/The_Eyes_of_Tammy_Faye_(2021_film)" title="The Eyes of Tammy Faye (2021 film)"> The Eyes of Tammy Faye</a></i></td>
<td><a href="/wiki/2021_in_film" title="2021 in film">2021</a></td>
<td>2</td>
<td>2
</td></tr>
<tr>
<td><i><a href="/wiki/No_Time_to_Die" title="No Time to Die">No Time to Die</a></i></td>
<td><a href="/wiki/2021_in_film" title="2021 in film">2021</a></td>
<td>1</td>
<td>3
</td></tr>

In [7]:
# Conversão da tabela HTML em dataframe Pandas
df = pd.read_html(str(tabela))

In [8]:
df

[                                                                                           Film  \
 0                                                                                          CODA   
 1                                                                                          Dune   
 2                                                                        The Eyes of Tammy Faye   
 3                                                                                No Time to Die   
 4                                                                          The Windshield Wiper   
 5                                                                              The Long Goodbye   
 6                                                                       The Queen of Basketball   
 7                                                                                Summer of Soul   
 8                                                                                  Drive My Car   


A tabela acima não está em um formato muito apropriado para se visualizar. Diante disso, pretende-se obter um resultado visualmente mais adequado através do Web Scraping de linha por linha da tabela.

In [9]:
# Web Scraping Tabela
celulas_list = []

linhas = tabela.find_all('tr')

for linha in linhas[1:]:
    celulas = linha.find_all(['td', 'th'])

    celulas_text = [celula.get_text(strip=True) for celula in celulas]
    celulas_list.append(celulas_text)

In [10]:
# DataFrame
df = pd.DataFrame(celulas_list, columns = ['Filme', 'Ano', 'Awards', 'Nominations'])

In [11]:
df

Unnamed: 0,Filme,Ano,Awards,Nominations
0,CODA,2021,3,3
1,Dune,2021,6,10
2,The Eyes of Tammy Faye,2021,2,2
3,No Time to Die,2021,1,3
4,The Windshield Wiper,2021,1,1
5,The Long Goodbye,2021,1,1
6,The Queen of Basketball,2021,1,1
7,Summer of Soul,2021,1,1
8,Drive My Car,2021,1,4
9,Encanto,2021,1,3


In [12]:
# Salvar o DataFrame em formato CSV
df.to_csv('webscraping_2_formato_tabela')