In [1]:
#Importando bibliotecas
import pandas as pd

#### Categoria: Melhor Atriz

Para conseguirmos as vencedoras e indicadas ao prêmio de *Melhor Atriz* o processo é simples, já que a estrutura da página [Wikipédia](https://pt.wikipedia.org/wiki/Oscar_de_melhor_atriz) sobre o assunto está bem organizada. 

In [2]:
# inserindo URL e lendo o HTML
atrizes = pd.read_html("https://pt.wikipedia.org/wiki/Oscar_de_melhor_atriz")

É preciso entender que a numeração em Python começa a partir do zero. Tendo isso em mente, precisamos procurar a tabela certa com as informações que queremos. No nosso caso a tabela que queremos é a segunda que aparece na página, logo é a de *número 1*.  
Lembre-se a contagem **sempre** começa a partir do número zero.

In [3]:
# selecionando qual tabela queremos
tabela_atriz = atrizes[1]
tabela_atriz

Unnamed: 0,Ano,Atriz,Papel,Filme,Ref.
0,1929 (1.ª),Janet Gaynor,DianeAngelaA Esposa,7th HeavenStreet AngelSunrise: A Song of Two H...,[7]
1,1929 (1.ª),Louise Dresser,Mrs. Pleznik,A Ship Comes In,[7]
2,1929 (1.ª),Gloria Swanson,Sadie Thompson,Sadie Thompson,[7]
3,1930 (2.ª)[nota 1],Mary Pickford,Norma Besant,Coquette,[8]
4,1930 (2.ª)[nota 1],Ruth Chatterton,Jacqueline Floriot,Madame X,[8]
5,1930 (2.ª)[nota 1],Betty Compson,Carrie,The Barker,[8]
6,1930 (2.ª)[nota 1],Jeanne Eagels,Leslie Crosbie,The Letter,[8]
7,1930 (2.ª)[nota 1],Corinne Griffith,Emma Hamilton,The Divine Lady,[8]
8,1930 (2.ª)[nota 1],Bessie Love,Hank Mahoney,The Broadway Melody,[8]
9,1931 (3.ª),Norma Shearer[nota 2],Jerry Bernard Martin,The Divorcee,[10]


Note que na raspagem temos as seguintes colunas: *'Ano','Atriz','Papel','Filme' e 'Ref'*. Não vamos usar a coluna 'Ref' então vamos excluir de nosso dataframe.

In [4]:
# excluindo coluna 'Ref'
melhor_atriz = pd.DataFrame(tabela_atriz, columns=['Ano','Atriz','Papel','Filme'])

Se olharmos a primeira coluna, a de *Ano*, veremos que ela tem uma sujeira. Precisamos tirar ela para padronizar nossos dados. 
Como estamos lidando com strings de tamanhos diferentes, vamos usar uma separação de strings.   

O *str.split(n=1)* vai dividir apenas uma vez.  

Com o *str[0]* nos selecionamos qual das strings queremos. Lembre-se que a contagem começa no zero.

In [5]:
# tirando a sujeira da coluna 'Ano'
melhor_atriz['Ano'] = melhor_atriz.Ano.str.split(n=1).str[0]
melhor_atriz

Unnamed: 0,Ano,Atriz,Papel,Filme
0,1929,Janet Gaynor,DianeAngelaA Esposa,7th HeavenStreet AngelSunrise: A Song of Two H...
1,1929,Louise Dresser,Mrs. Pleznik,A Ship Comes In
2,1929,Gloria Swanson,Sadie Thompson,Sadie Thompson
3,1930,Mary Pickford,Norma Besant,Coquette
4,1930,Ruth Chatterton,Jacqueline Floriot,Madame X
5,1930,Betty Compson,Carrie,The Barker
6,1930,Jeanne Eagels,Leslie Crosbie,The Letter
7,1930,Corinne Griffith,Emma Hamilton,The Divine Lady
8,1930,Bessie Love,Hank Mahoney,The Broadway Melody
9,1931,Norma Shearer[nota 2],Jerry Bernard Martin,The Divorcee


Por fim, vamos salvar nossos dados em um csv. 

In [6]:
# salvando em csv
melhor_atriz.to_csv('melhor_atriz.csv')
melhor_atriz

Unnamed: 0,Ano,Atriz,Papel,Filme
0,1929,Janet Gaynor,DianeAngelaA Esposa,7th HeavenStreet AngelSunrise: A Song of Two H...
1,1929,Louise Dresser,Mrs. Pleznik,A Ship Comes In
2,1929,Gloria Swanson,Sadie Thompson,Sadie Thompson
3,1930,Mary Pickford,Norma Besant,Coquette
4,1930,Ruth Chatterton,Jacqueline Floriot,Madame X
5,1930,Betty Compson,Carrie,The Barker
6,1930,Jeanne Eagels,Leslie Crosbie,The Letter
7,1930,Corinne Griffith,Emma Hamilton,The Divine Lady
8,1930,Bessie Love,Hank Mahoney,The Broadway Melody
9,1931,Norma Shearer[nota 2],Jerry Bernard Martin,The Divorcee


#### Categoria: Melhor Ator

Para o prêmio de melhor ator o esquema é diferente. Na página do [Wikipédia](https://pt.wikipedia.org/wiki/Oscar_de_melhor_ator) há uma separação por décadas. Para efeitos de informação isso é ótimo, mas para raspagem isso torna o processo com uma etapa a mais.  

Se para as atrizes precisamos apenas selecionar uma tabela, agora precisamos pesquisar em qual numeração começa a primeira tabela que queremos (a da década de 1920) até a última disponível (década de 2020).  

Após uma pesquisa, podemos ver que a primeira tabela começa com *1* e a última com *11*. Pedimos então para que o Pandas traga e concatene, isso é, junte essas tabelas. Juntando as tabelas, uma embaixo da outra, o Pandas respeita os cabeçalhos - que são os mesmos. 

In [7]:
# inserindo URL e lendo o HTML
atores = pd.read_html("https://pt.wikipedia.org/wiki/Oscar_de_melhor_ator")
tabelas_ator = pd.DataFrame()
# existe mais de uma coluna, vamos juntar todas elas
tabelas_ator = pd.concat(atores[1:11])
tabelas_ator

Unnamed: 0,Ano,Vencedores e Indicados,Filme,Personagem,Ref.ª
0,1929,Emil Jannings[nota 1],The Last Command,Grão-Duque Sergius Alexander,[10]
1,1929,Emil Jannings[nota 1],The Way of All Flesh,August Schilling,[10]
2,1929,Richard Barthelmess,The Noose,Nickie Elkins,[10]
3,1929,Richard Barthelmess,The Patent Leather Kid,Garoto do Couro,[10]
4,1929,[10],,,
0,1930,Warner Baxter,In Old Arizona,Cisco Kid,[11]
1,1930,George Bancroft,Thunderbolt,Raio Jim Lang,[11]
2,1930,Chester Morris,Alibi,Chick Williams (N.º 1065),[11]
3,1930,Paul Muni,The Valiant,James Dyke,[11]
4,1930,Lewis Stone,The Patriot,Conde Peter Ludwig von der Pahlen,[11]


Por conta de junção de diferentes tabelas, o Pandas inclui alguns valores nulos. Eles são identificados como *NAN* e não tem nenhum valor de informação importante para nós. Vamos então excluir de nossa tabela. Perceba como diminui as linhas no contador (abaixo da tabela).

In [8]:
# identificando valores nulos (NAN): para valores NAN ele retorna True
pd.isnull(tabelas_ator)

Unnamed: 0,Ano,Vencedores e Indicados,Filme,Personagem,Ref.ª
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,True,True,True
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False


In [9]:
# apagado os valores nulos
tabelas_ator.dropna(inplace=True)
tabelas_ator

Unnamed: 0,Ano,Vencedores e Indicados,Filme,Personagem,Ref.ª
0,1929,Emil Jannings[nota 1],The Last Command,Grão-Duque Sergius Alexander,[10]
1,1929,Emil Jannings[nota 1],The Way of All Flesh,August Schilling,[10]
2,1929,Richard Barthelmess,The Noose,Nickie Elkins,[10]
3,1929,Richard Barthelmess,The Patent Leather Kid,Garoto do Couro,[10]
0,1930,Warner Baxter,In Old Arizona,Cisco Kid,[11]
1,1930,George Bancroft,Thunderbolt,Raio Jim Lang,[11]
2,1930,Chester Morris,Alibi,Chick Williams (N.º 1065),[11]
3,1930,Paul Muni,The Valiant,James Dyke,[11]
4,1930,Lewis Stone,The Patriot,Conde Peter Ludwig von der Pahlen,[11]
5,1930,George Arliss[nota 2],Disraeli,Primeiro-Ministro Benjamin Disraeli,[13]


In [10]:
#excluindo coluna ref
tabelas_ator = tabelas_ator.drop('Ref.ª', axis=1)
tabelas_ator

Unnamed: 0,Ano,Vencedores e Indicados,Filme,Personagem
0,1929,Emil Jannings[nota 1],The Last Command,Grão-Duque Sergius Alexander
1,1929,Emil Jannings[nota 1],The Way of All Flesh,August Schilling
2,1929,Richard Barthelmess,The Noose,Nickie Elkins
3,1929,Richard Barthelmess,The Patent Leather Kid,Garoto do Couro
0,1930,Warner Baxter,In Old Arizona,Cisco Kid
1,1930,George Bancroft,Thunderbolt,Raio Jim Lang
2,1930,Chester Morris,Alibi,Chick Williams (N.º 1065)
3,1930,Paul Muni,The Valiant,James Dyke
4,1930,Lewis Stone,The Patriot,Conde Peter Ludwig von der Pahlen
5,1930,George Arliss[nota 2],Disraeli,Primeiro-Ministro Benjamin Disraeli


Para deixar nossa tabela de atores com o mesmo cabeçalho da nossa tabela de atrizes, vamos escrever como queremos que seja o nosso cabeçalho. 

In [12]:
# padronizando nomes de colunas
tabelas_ator.columns = ['Ano','Ator','Filme','Papel']
tabelas_ator

Unnamed: 0,Ano,Ator,Filme,Papel
0,1929,Emil Jannings[nota 1],The Last Command,Grão-Duque Sergius Alexander
1,1929,Emil Jannings[nota 1],The Way of All Flesh,August Schilling
2,1929,Richard Barthelmess,The Noose,Nickie Elkins
3,1929,Richard Barthelmess,The Patent Leather Kid,Garoto do Couro
0,1930,Warner Baxter,In Old Arizona,Cisco Kid
1,1930,George Bancroft,Thunderbolt,Raio Jim Lang
2,1930,Chester Morris,Alibi,Chick Williams (N.º 1065)
3,1930,Paul Muni,The Valiant,James Dyke
4,1930,Lewis Stone,The Patriot,Conde Peter Ludwig von der Pahlen
5,1930,George Arliss[nota 2],Disraeli,Primeiro-Ministro Benjamin Disraeli


In [13]:
#mudando ordem dos cabeçalhos e salvando em csv
melhor_ator = tabelas_ator[['Ano','Ator','Papel','Filme']]
melhor_ator.to_csv('melhor_ator.csv')
melhor_ator

Unnamed: 0,Ano,Ator,Papel,Filme
0,1929,Emil Jannings[nota 1],Grão-Duque Sergius Alexander,The Last Command
1,1929,Emil Jannings[nota 1],August Schilling,The Way of All Flesh
2,1929,Richard Barthelmess,Nickie Elkins,The Noose
3,1929,Richard Barthelmess,Garoto do Couro,The Patent Leather Kid
0,1930,Warner Baxter,Cisco Kid,In Old Arizona
1,1930,George Bancroft,Raio Jim Lang,Thunderbolt
2,1930,Chester Morris,Chick Williams (N.º 1065),Alibi
3,1930,Paul Muni,James Dyke,The Valiant
4,1930,Lewis Stone,Conde Peter Ludwig von der Pahlen,The Patriot
5,1930,George Arliss[nota 2],Primeiro-Ministro Benjamin Disraeli,Disraeli


#### Categoria: Melhor Filme

Assim como a categoria de *Melhor Atriz*, os [filmes ganhadores do Oscar](https://pt.wikipedia.org/wiki/Oscar_de_melhor_filme) estão listados em apenas uma tabela e, dessa forma, precisamos apenas pedir para que o Pandas traga um elemento apenas. 

In [22]:
# inserindo URL e lendo o HTML
filmes = pd.read_html("https://pt.wikipedia.org/wiki/Oscar_de_melhor_filme")
# selecionando qual tabela queremos
tabela_filme = filmes[2]
tabela_filme

Unnamed: 0,Data,Título original,Título em Portugal,Título no Brasil
0,"1.ª edição, 16 de maio de 1929",Wings,Asas,Asas
1,"1.ª edição, 16 de maio de 1929",Seventh Heaven,A Hora Suprema,Sétimo Céu
2,"1.ª edição, 16 de maio de 1929",The Racket,A Lei dos Fortes,A Lei dos Fortes
3,"2.ª edição, 3 de abril de 1930",The Broadway Melody,A Melodia da Broadway,Melodia na Broadway
4,"2.ª edição, 3 de abril de 1930",Alibi,O Álibi,O Peso da Lei
5,"2.ª edição, 3 de abril de 1930",The Hollywood Revue of 1929,The Hollywood Revue of 1929,The Hollywood Revue of 1929
6,"2.ª edição, 3 de abril de 1930",In Old Arizona,No Velho Arizona,Velho Arizona
7,"2.ª edição, 3 de abril de 1930",The Patriot,O Patriota,Alta Traição
8,"3.ª edição, 5 de novembro de 1930",All Quiet on the Western Front,A Oeste Nada de Novo,Nada de Novo no Front / Sem Novidades no Front
9,"3.ª edição, 5 de novembro de 1930",The Big House,O Presídio,O Presídio


In [23]:
# identificando valores nulos (NAN): para valores NAN ele retorna True
pd.isnull(tabela_filme)

Unnamed: 0,Data,Título original,Título em Portugal,Título no Brasil
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,False,False


In [24]:
# apagado os valores nulos
tabela_filme.dropna(inplace=True)

In [25]:
# tirando a sujeira da coluna 'Ano'
tabela_filme['Ano'] = tabela_filme.Data.str.split(n=6).str[6]
tabela_filme

Unnamed: 0,Data,Título original,Título em Portugal,Título no Brasil,Ano
0,"1.ª edição, 16 de maio de 1929",Wings,Asas,Asas,1929
1,"1.ª edição, 16 de maio de 1929",Seventh Heaven,A Hora Suprema,Sétimo Céu,1929
2,"1.ª edição, 16 de maio de 1929",The Racket,A Lei dos Fortes,A Lei dos Fortes,1929
3,"2.ª edição, 3 de abril de 1930",The Broadway Melody,A Melodia da Broadway,Melodia na Broadway,1930
4,"2.ª edição, 3 de abril de 1930",Alibi,O Álibi,O Peso da Lei,1930
5,"2.ª edição, 3 de abril de 1930",The Hollywood Revue of 1929,The Hollywood Revue of 1929,The Hollywood Revue of 1929,1930
6,"2.ª edição, 3 de abril de 1930",In Old Arizona,No Velho Arizona,Velho Arizona,1930
7,"2.ª edição, 3 de abril de 1930",The Patriot,O Patriota,Alta Traição,1930
8,"3.ª edição, 5 de novembro de 1930",All Quiet on the Western Front,A Oeste Nada de Novo,Nada de Novo no Front / Sem Novidades no Front,1930
9,"3.ª edição, 5 de novembro de 1930",The Big House,O Presídio,O Presídio,1930


In [26]:
#excluindo coluna 'Data' e 'Título em Portugal'
tabela_filme = tabela_filme.drop(['Data','Título em Portugal'], axis=1)
tabela_filme

Unnamed: 0,Título original,Título no Brasil,Ano
0,Wings,Asas,1929
1,Seventh Heaven,Sétimo Céu,1929
2,The Racket,A Lei dos Fortes,1929
3,The Broadway Melody,Melodia na Broadway,1930
4,Alibi,O Peso da Lei,1930
5,The Hollywood Revue of 1929,The Hollywood Revue of 1929,1930
6,In Old Arizona,Velho Arizona,1930
7,The Patriot,Alta Traição,1930
8,All Quiet on the Western Front,Nada de Novo no Front / Sem Novidades no Front,1930
9,The Big House,O Presídio,1930


In [27]:
# padronizando nomes de colunas
melhor_filme = pd.DataFrame(tabela_filme, columns=['Ano','Título original','Título no Brasil'])
# salvando em csv
melhor_filme.to_csv('melhor_filme.csv')
melhor_filme

Unnamed: 0,Ano,Título original,Título no Brasil
0,1929,Wings,Asas
1,1929,Seventh Heaven,Sétimo Céu
2,1929,The Racket,A Lei dos Fortes
3,1930,The Broadway Melody,Melodia na Broadway
4,1930,Alibi,O Peso da Lei
5,1930,The Hollywood Revue of 1929,The Hollywood Revue of 1929
6,1930,In Old Arizona,Velho Arizona
7,1930,The Patriot,Alta Traição
8,1930,All Quiet on the Western Front,Nada de Novo no Front / Sem Novidades no Front
9,1930,The Big House,O Presídio
