<a href="https://colab.research.google.com/github/diegoflxgarcia/Pandas/blob/main/read_html_e_read_xml.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lendo tabelas HTML e arquivos XML como DataFrame Pandas: funções [pd.read_html](https://pandas.pydata.org/docs/reference/api/pandas.read_html.html) e [pd.read_xml](https://pandas.pydata.org/docs/reference/api/pandas.read_xml.html)


## read_html

Para tratar como DataFrame uma tabela HTML (encontrada na internet, por exemplo) temos a função read_html no Pandas, que retorna uma lista de DataFrames obtida de todas tags "tables" encontradas no endereço do arquivo HTML passado como parâmetro.

Vamos obter o HTML de uma [página da Wikipédia](https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o) sobre a população mundial com uma lista de países com as respectivas populações usando o método read() do módulo request da urllib, e assim vamos ler esse conteúdo como uma lista de DataFrame(s) Pandas de cada tag table nesse HTML com o read_html.

In [136]:
import pandas as pd
import urllib.request

In [137]:
# Obtendo o HTML...
url = 'https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o' # Essa página pode sofrer alterações mas ainda vai ter uma tabela provavelmente
pagina_wikipedia = urllib.request.urlopen(url)
html_da_pagina_wikipedia = pagina_wikipedia.read()

In [138]:
# Lendo o HTML e obtendo uma lista de dataframes...
lista_df = pd.read_html(html_da_pagina_wikipedia)
display(lista_df)
print(type(lista_df))

[     Unnamed: 0 Posição    País (ou território dependente) Estimativa da ONU  \
 0           NaN       1                              Índia     1 429 921 746   
 1           NaN       2                              China     1 426 391 281   
 2           NaN       3                     Estados Unidos       339 987 103   
 3           NaN       4                          Indonésia       277 184 719   
 4           NaN       5                          Paquistão       240 215 932   
 ..          ...     ...                                ...               ...   
 245         NaN       –     Ilha de Ascensão (Reino Unido)               806   
 246         NaN     195                           Vaticano               801   
 247         NaN       –  Ilhas Cocos (Keeling) (Austrália)               573   
 248         NaN       –     Tristão da Cunha (Reino Unido)               241   
 249         NaN       –       Ilhas Pitcairn (Reino Unido)                40   
 
      Data      Estimativa

<class 'list'>


In [139]:
# O dataframe desejado está na posição 0 da nossa lista, portanto vamos salvar esse conteudo e visualiza-lo
dados_populacao = lista_df[0].drop('Unnamed: 0', axis=1) # Removi a coluna de NaNs gerada
display(dados_populacao)
print(type(dados_populacao))

Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Data,Estimativa Oficial
0,1,Índia,1 429 921 746,2023,Estimativa oficial
1,2,China,1 426 391 281,2023,Censo oficial
2,3,Estados Unidos,339 987 103,2023,Censo oficial
3,4,Indonésia,277 184 719,2023,Estimativa oficial
4,5,Paquistão,240 215 932,2023,Estimativa oficial
...,...,...,...,...,...
245,–,Ilha de Ascensão (Reino Unido),806,2021,Estimativa oficial[10]
246,195,Vaticano,801,2020,Estimativa oficial
247,–,Ilhas Cocos (Keeling) (Austrália),573,2020,Estimativa oficial
248,–,Tristão da Cunha (Reino Unido),241,2022,Estimativa oficial[11]


<class 'pandas.core.frame.DataFrame'>


## to_html

É possível escrever e salvar uma tabela HTML com base no DataFrame que obtemos da lista de DataFrames proveniente das tabelas HTML no código original. Para isso usamos a função [to_html](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_html.html). Também poderiamos escrever e salvar em outro formato, csv etc.

In [140]:
dados_populacao.to_html('tabela_html_pop._mundial.html', index=False)
display(pd.read_html('tabela_html_pop._mundial.html', encoding='utf-8')[0])
# Faça download e de uma olhada no arquivo html salvo, é literalmente uma tabela :)

Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Data,Estimativa Oficial
0,1,Índia,1 429 921 746,2023,Estimativa oficial
1,2,China,1 426 391 281,2023,Censo oficial
2,3,Estados Unidos,339 987 103,2023,Censo oficial
3,4,Indonésia,277 184 719,2023,Estimativa oficial
4,5,Paquistão,240 215 932,2023,Estimativa oficial
...,...,...,...,...,...
245,–,Ilha de Ascensão (Reino Unido),806,2021,Estimativa oficial[10]
246,195,Vaticano,801,2020,Estimativa oficial
247,–,Ilhas Cocos (Keeling) (Austrália),573,2020,Estimativa oficial
248,–,Tristão da Cunha (Reino Unido),241,2022,Estimativa oficial[11]


## read_xml

Vamos ler um arquivo XML em DataFrame Pandas, uma estrutura de marcação semelhante ao do HTML usada para armazernar dados.

O arquivo se trata de reviews de 1000 filmes rankeados tirados do IMDB (uma base de dados de filmes, séries etc).

In [141]:
# Lendo como dataframe o arquivo XML através de sua url (que está em um repositório github)
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/imdb_top_1000.xml'
df_top_1000 = pd.read_xml(url)
display(df_top_1000)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
3,3,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
4,4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,https://m.media-amazon.com/images/M/MV5BNGEwMT...,Breakfast at Tiffany's,1961,A,115 min,"Comedy, Drama, Romance",7.6,A young New York socialite becomes interested ...,76.0,Blake Edwards,Audrey Hepburn,George Peppard,Patricia Neal,Buddy Ebsen,166544,
996,996,https://m.media-amazon.com/images/M/MV5BODk3Yj...,Giant,1956,G,201 min,"Drama, Western",7.6,Sprawling epic covering the life of a Texas ca...,84.0,George Stevens,Elizabeth Taylor,Rock Hudson,James Dean,Carroll Baker,34075,
997,997,https://m.media-amazon.com/images/M/MV5BM2U3Yz...,From Here to Eternity,1953,Passed,118 min,"Drama, Romance, War",7.6,"In Hawaii in 1941, a private is cruelly punish...",85.0,Fred Zinnemann,Burt Lancaster,Montgomery Clift,Deborah Kerr,Donna Reed,43374,30500000
998,998,https://m.media-amazon.com/images/M/MV5BZTBmMj...,Lifeboat,1944,,97 min,"Drama, War",7.6,Several survivors of a torpedoed merchant ship...,78.0,Alfred Hitchcock,Tallulah Bankhead,John Hodiak,Walter Slezak,William Bendix,26471,


## to_xml

De forma análoga ao to_html, podemos escrever e salvar um DataFrame no formato XML (ou outro de sua prefêrencia)

In [142]:
df_top_1000.to_xml('top_1000.xml', index=False)
display(pd.read_xml('top_1000.xml'))

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
3,3,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
4,4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,https://m.media-amazon.com/images/M/MV5BNGEwMT...,Breakfast at Tiffany's,1961,A,115 min,"Comedy, Drama, Romance",7.6,A young New York socialite becomes interested ...,76.0,Blake Edwards,Audrey Hepburn,George Peppard,Patricia Neal,Buddy Ebsen,166544,
996,996,https://m.media-amazon.com/images/M/MV5BODk3Yj...,Giant,1956,G,201 min,"Drama, Western",7.6,Sprawling epic covering the life of a Texas ca...,84.0,George Stevens,Elizabeth Taylor,Rock Hudson,James Dean,Carroll Baker,34075,
997,997,https://m.media-amazon.com/images/M/MV5BM2U3Yz...,From Here to Eternity,1953,Passed,118 min,"Drama, Romance, War",7.6,"In Hawaii in 1941, a private is cruelly punish...",85.0,Fred Zinnemann,Burt Lancaster,Montgomery Clift,Deborah Kerr,Donna Reed,43374,30500000
998,998,https://m.media-amazon.com/images/M/MV5BZTBmMj...,Lifeboat,1944,,97 min,"Drama, War",7.6,Several survivors of a torpedoed merchant ship...,78.0,Alfred Hitchcock,Tallulah Bankhead,John Hodiak,Walter Slezak,William Bendix,26471,
