<h1>Pandas I/O: trabalhando com diferentes formatos de arquivos</h1>

[Parte 2](https://cursos.alura.com.br/course/pandas-io-trabalhando-diferentes-formatos-arquivos/task/126212)


Como visto no curso [Alura](https://cursos.alura.com.br/course/pandas-io-trabalhando-diferentes-formatos-arquivos) com os objetivos de:
* Entenda o que são arquivos do tipo CSV, XLSX, JSON, HTML e XML
* Compreenda como trabalhar com diferentes tipos de dados, tanto na entrada como na saída (input/output)
* Leia dados provenientes do Google Planilhas
* Obtenha tabelas a partir de páginas web
* Crie um banco de dados local
* Escreva em um banco de dados local
* Realize consultas SQL

Será utilizado os arquivos do [github](https://github.com/alura-cursos/Pandas)

# 03) JSON

JSON é uma sigla em inglês para JavaScript Object Notation.

A seguir, temos um exemplo de informações de um arquivo JSON com dados de uma paciente do hospital:

<i>{"ID":"01", "Faixa_etaria":"55-59", "Sexo_biologico":"Feminino"}</i>

Neste arquivo, temos três informações a respeito da pessoa:

* Um ID atribuído a ela ("ID");
* Sua faixa etária ("Faixa_etaria");
* Seu sexo biológico ("Sexo_biologico").

Estas informações são o que chamamos de <b>chaves</b>. 
<br>Uma chave é o que indexa, ou seja, posiciona um elemento dentro do arquivo JSON. Cada chave é acompanhada de seus respectivos <b>valores</b>.

<b>Assim, um arquivo JSON é formado por chaves e seus respectivos valores. Sempre haverá o símbolo de abrir e fechar chaves no começo e no fim das informações. Nesse sentido, o arquivo se assemelha muito a um dicionário em Python.</b>



In [5]:
import pandas as pd

## Pegando pela url
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/pacientes.json'
dados_pacientes = pd.read_json(url)
#dados_pacientes = pd.read_json('/content/pacientes.json')

dados_pacientes.head(7)

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao
5,5,Sim,28.87,Sim,Nao,Nao,6,0,Sim,Feminino,75-79,Preta,Nao,No,Razoavel,12,Nao,Nao,Nao
6,6,Nao,21.63,Nao,Nao,Nao,15,0,Nao,Feminino,70-74,Branca,Nao,Sim,Razoavel,4,Sim,Nao,Sim


In [6]:
# Nem sempre é tão simples fazer a leitura de um arquivo JSON. 
# Algumas vezes, as informações podem estar aninhadas dentro do arquivo JSON.

url2 = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/pacientes_2.json'
dados_pacientes_2 = pd.read_json(url2)
dados_pacientes_2

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


In [8]:
### NORMALIZANDO ARQUIVOS JSON

## Para melhor visualizar um arquivo JSON, instrutor recomenda o jsoncrack.com ( https://jsoncrack.com/editor )
## Após compreendido o arquivo, iremos criar uma variavel para normalizar os dados.

df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])

## Para normalizar esses dados, voltaremos ao Google Colab e criaremos uma variável chamada df_normalizado. 
## Ela será igual pd., seguida de uma função que normaliza os dados em formato JSON (json_normalize()). 
## Dentro dos parênteses da função, passaremos o data frame que desejamos normalizar (dados_pacientes_2).

df_normalizado

##  a função json_normalize transforma tudo o que estiver aninhado em uma única célula em diferentes linhas e colunas.

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


<h3>Normalizando um JSON simples</h3>
Abaixo temos uma variável chamada dados e dentro dela há um objeto JSON com três chaves e seus respectivos valores:


In [9]:
dados = {'Pesquisa': 'Principais Indicadores de Doenca Cardiaca', 'Ano': 2020, 'Numero_Pacientes':3}
df = pd.json_normalize(dados)
df

Unnamed: 0,Pesquisa,Ano,Numero_Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,3


<h3>Normalizando um JSON com vários níveis</h3>
Existem situações em que o arquivo JSON pode conter mais de um objeto, como é o caso do exemplo abaixo, no qual temos uma lista, armazenada na variável json_lista, contendo dois objetos JSON:

In [10]:
json_lista = [
    { 'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'feminino'},
    { 'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_biologico': 'feminino'}
]

pd.json_normalize(json_lista)

# A função json_normalize() é capaz de converter cada registro da lista em uma linha de forma tabular.

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico
0,1,55-59,feminino
1,2,80 ou +,feminino


<h3>Normalizando um JSON com uma lista aninhada
</h3>

* <b>Dados como um dicionário</b>
** Vamos começar analisando a normalização quando os dados são um dicionário. Temos um dicionário armazenado na variável json_obj. Note que na chave “Saude” temos outro dicionário:

In [11]:
json_obj = {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      }

pd.json_normalize(json_obj)

## O DataFrame gerado possui uma coluna para cada informação contida no dicionário que estava em “Saude”. 
## As colunas criadas possuem o prefixo “Saude.”, pois as informações vieram dessa mesma chave.



Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Saude.Dificuldade_caminhar,Saude.Atividade_fisica,Saude.IMC,Saude.Doenca_cardiaca
0,1,55-59,Feminino,Nao,Sim,16.6,Nao


<b>Dados como uma lista de dicionários</b>


In [12]:
json_list = [
    {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      },
      {
          'ID': '02',
          'Faixa_etaria': '80 ou +',
          'Sexo_biologico': 'Feminino',
          'Saude': {'Dificuldade_caminhar': 'Nao',
                    'Atividade_fisica': 'Sim',
                    'IMC': 20.34,
                    'Doenca_cardiaca': 'Sim'}
       }
       ]

pd.json_normalize(json_list)
## Podemos analisar que todos os valores aninhados em cada registro da lista foram convertidos em colunas separadas. 


Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Saude.Dificuldade_caminhar,Saude.Atividade_fisica,Saude.IMC,Saude.Doenca_cardiaca
0,1,55-59,Feminino,Nao,Sim,16.6,Nao
1,2,80 ou +,Feminino,Nao,Sim,20.34,Sim


In [14]:
dados_dict = {
  "Pesquisa": "Principais Indicadores de Doenca Cardiaca",
  "Ano": 2020,
  "Pacientes": [
    {
      "ID": "01",
      "Faixa_etaria": "55-59",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 16.6,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 3,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 5,
      "Problemas_saude": [
        "Diabetes",
        "Asma",
        "Cancer_pele"
      ]
    },
    {
      "ID": "02",
      "Faixa_etaria": "80 ou +",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 20.34,
      "Fumante": "Nao",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 0,
      "Saude_mental": 0,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 7,
      "Problemas_saude": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Faixa_etaria": "65-69",
      "Sexo_biologico": "Masculino",
      "Raça": "Branca",
      "IMC": 26.58,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 20,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 8,
      "Problemas_saude": [
        "diabetes",
        "Asma"
      ]
    }
  ]
}



pd.json_normalize(dados_dict)

# Podemos observar que nossa lista aninhada é colocada em uma única coluna Pacientes. 
# Então, nós usamos o seguinte código para normalizar os dados, especificando qual coluna está aninhada:

pd.json_normalize(dados_dict['Pacientes'])


Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [15]:
## Também podemos fazer isso utilizando o parâmetro record_path como ['Pacientes']. 
## Esse parâmetro é usado na função pd.json_normalize() para especificar o caminho para os registros que devem ser normalizados em um DataFrame separado:

pd.json_normalize(dados_dict, record_path=['Pacientes'])


Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [16]:
## O resultado parece ótimo, mas não inclui as colunas “Pesquisa” e “Ano”. 
## Para incluí-las, podemos usar o parâmetro meta para especificar outras colunas que queremos no DataFrame.

pd.json_normalize(
    dados_dict, 
    record_path =['Pacientes'], 
    meta=['Pesquisa', 'Ano']
)

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


<h3>Importante:<h3>
    Se tentarmos usar parâmetros da função json_normalize em um arquivo JSON podem surgir erros. 
    Para contornar isso, precisamos importar o módulo json e ler os arquivos conforme o código abaixo:

In [20]:
#Importando a biblioteca Pandas
import pandas as pd

#Importando o módulo JSON
import json

#Lendo o arquivo json usando o módulo Python JSON
with open(r'C:\Users\User\Desktop\RPA\pacientes_2.json','r') as f:
    dados = json.loads(f.read())

#Normalizando os dados com os parâmetros record_path e meta
pd.json_normalize(dados, record_path='Pacientes', meta=['Pesquisa', 'Ano'])

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,RaÃ§a,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


<h2> ESCREVENDO ARQUIVOS JSON </h2>

In [23]:
## TO_JSON

df_normalizado.to_json(r'C:\Users\User\Desktop\RPA\historico_pacientes_normalizado.json')


<h3>Obtendo arquivos JSON de APIs</h3>

[API](https://cursos.alura.com.br/extra/alura-mais/o-que-e-uma-api--c697) : Para Saber mais sobre API

In [26]:
## Uma maneira comum de acessar APIs é por meio da biblioteca requests. 
## Para isso, também é necessário importar o módulo json:

import requests
import json

# Os dados da API Fruitvice serão obtidos com a função request.get('url'). 
# Dentro dela nós passamos o endereço da API seguido de api/fruit/all para obter os dados de todas as frutas.

dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')

# Conseguimos recuperar os resultados usando a função json.loads(). Para isso, é necessário passar a variável dados_frutas, 
# criada anteriormente com o atributo text que retorna o conteúdo da resposta.

resultado = json.loads(dados_frutas.text)

#E visualizando
pd.DataFrame(resultado).head(10)

Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."
5,Durian,60,Malvaceae,Malvales,Durio,"{'calories': 147, 'fat': 5.3, 'sugar': 6.75, '..."
6,Blackberry,64,Rosaceae,Rosales,Rubus,"{'calories': 40, 'fat': 0.4, 'sugar': 4.5, 'ca..."
7,Lingonberry,65,Ericaceae,Ericales,Vaccinium,"{'calories': 50, 'fat': 0.34, 'sugar': 5.74, '..."
8,Kiwi,66,Actinidiaceae,Struthioniformes,Apteryx,"{'calories': 61, 'fat': 0.5, 'sugar': 9.0, 'ca..."
9,Lychee,67,Sapindaceae,Sapindales,Litchi,"{'calories': 66, 'fat': 0.44, 'sugar': 15.0, '..."


<h2>DESAFIO: Normalizando o JSON obtido na API</h2>
Usando a API da [FruitService](https://fruityvice.com/) , faça:

Este DataFrame possui 6 colunas: genus (gênero), name (nome), id, family (família), order (ordem) e nutritions (nutrições). Note que a coluna nutritions está com todas as informações nutricionais aninhadas. Portanto, os dados precisam ser normalizados.

<b>O desafio agora é normalizar esse DataFrame.</b>

In [28]:
pd.DataFrame(resultado).head(7)

Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."
5,Durian,60,Malvaceae,Malvales,Durio,"{'calories': 147, 'fat': 5.3, 'sugar': 6.75, '..."
6,Blackberry,64,Rosaceae,Rosales,Rubus,"{'calories': 40, 'fat': 0.4, 'sugar': 4.5, 'ca..."


In [32]:
## RESOLUÇÃO: 

import requests
import json

dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')
resultado = json.loads(dados_frutas.text)

## Agora precisa normalizar
# resultado

import pandas as pd
dados_frutas_normalizado = pd.json_normalize(resultado)

## Mostrando o Resultado
dados_frutas_normalizado.head(6)

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4
5,Durian,60,Malvaceae,Malvales,Durio,147,5.3,6.75,27.1,1.5


# 04)  HTML e XML

<b>Projeto</b>

<i>Uma pessoa está criando um sistema de recomendação de filmes. Mas, para isso, ela precisa de dados de filmes, de avaliações que as pessoas deram para eles.</i>

Ela encontrou um artigo web sobre os 100 melhores filmes listados pelo Instituto Americano de Cinema. (https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies)

Queremos obter a segunda tabela. Mas, antes disso, precisamos confirmar se isso é realmente uma tabela. 

<i>Geralmente, quando temos tabelas em uma página, elas possuem uma tag em HTML chamada "table", que significa "tabela" em inglês. Uma tag é sempre composta por um sinal de menor e maior com a palavra no meio, então digitamos TABLE na caixa de busca.</i>

In [34]:
import pandas as pd

dados_html = pd.read_html(r'C:\Users\User\Desktop\RPA\filmes_wikipedia.html')
dados_html

# Ao executar essa célula, não recebemos um dataframe. Vamos entender esse resultado:

# A função read_html() busca pelas tags <table> e transforma esses dataframes em uma lista. 
# Ou seja, nossa lista contém os dataframes um abaixo do outro. Podemos confirmar isso ao verificar o tipo da variável criada, dados_html, 
# executando o seguinte comando:

[                                                    0  \
 0                                                1998   
 1                                                1999   
 2                                                2000   
 3                                                2001   
 4                                                2002   
 5                                                2003   
 6                                                2004   
 7                                                2005   
 8                                                2005   
 9                                                2006   
 10                                               2006   
 11                                               2007   
 12                                               2008   
 13  .mw-parser-output .hlist dl,.mw-parser-output ...   
 
                                                     1  
 0                                          100 Movies  
 1            

In [38]:
type(dados_html)

# O retorno disso será "list". Podemos até perguntar quantos elementos temos nessa lista, usando a função len(), passando dados_html:

len(dados_html) 

# O retorno desse comando será "3". Temos três tabelas nessa página. Então, são três dataframes na lista.


3

<b>Acessando um dataframe específico<b>

Se quisermos acessar um dataframe específico entre esses três, podemos simplesmente usar sua posição na lista. Então, para visualizar o segundo dataframe, que contém os dados de nosso interesse, vamos criar uma nova variável.



In [41]:
top_filmes = dados_html[1]
top_filmes.head(6)

Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
5,The Wizard of Oz,1939,Victor Fleming,Metro-Goldwyn-Mayer,6


<h2>Escrevendo em HTML</h2>

In [42]:
#Vamos salvar o dataframe top_filmes em HTML. Para isso, numa nova célula, digitamos o nome do dataframe junto da função .to_html(). Entre os parênteses abrimos aspas simples e damos um nome para esse arquivo, como "top_filmes.html":

top_filmes.to_html(r'C:\Users\User\Desktop\RPA\top_filmes.html')


In [44]:
## Salvando em formato CSV

# Também precisamos passar o index=False quando salvamos um arquivo no formato CSV ou Excel, 
# para evitar que uma nova coluna de index seja adicionada ao dataframe. 

top_filmes.to_csv(r'C:\Users\User\Desktop\RPA\top_filmes_1998.csv', index=False)

#Visualizando o Arquivo CSV
pd.read_csv(r'C:\Users\User\Desktop\RPA\top_filmes_1998.csv').head(6)


Unnamed: 0,Film,Release year,Director,Production companies,Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5
5,The Wizard of Oz,1939,Victor Fleming,Metro-Goldwyn-Mayer,6


<h2>LENDO e ESCREVENDO em XML</h2>

In [47]:
### O que é XML?
## Esse nome é uma sigla da expressão em inglês Extensible Markup Language, ou "Linguagem de marcação estendida". 
## Sua estrutura de tags é muito parecida com o HTML.

# https://raw.githubusercontent.com/alura-cursos/Pandas/main/imdb_top_1000.xml   ARQUIVO XML

## No nosso arquivo, temos uma tag logo no início chamada <data>. 
## Essa é a tag raiz que indica o início do documento. Em seguida temos uma tag chamada <row>, 
## "linha" em português. Para cada linha, temos várias tags que contêm as informações que estarão em cada uma das colunas.

import pandas as pd
dados_imdb = pd.read_xml('https://raw.githubusercontent.com/alura-cursos/Pandas/main/imdb_top_1000.xml')
dados_imdb.head(6)

## Temos as seguintes informações no dataframe: 
# um link para o pôster de cada um dos filmes, os títulos, ano de publicação, certificado, 
# duração do filme, gênero, nota no IMDB, sinopse, meta score, diretor, atores principais, número de votos e orçamento.



Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
3,3,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
4,4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
5,5,https://m.media-amazon.com/images/M/MV5BNzA5ZD...,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905


<h2>Escrevendo um arquivo XML</h2>


In [48]:
## TO_XML

dados_imdb.to_xml(r'C:\Users\User\Desktop\RPA\filmes_imdb.xml')

XML é uma linguagem de marcação que permite criar e descrever dados de forma estruturada e padronizada. Ela é composta por linhas de comandos que usam tags para definir os elementos e os atributos dos dados.

A estrutura básica de um documento XML é formada por:

* Uma declaração inicial que indica a versão, o encoding e o tipo do documento.
* Um elemento raiz que contém todos os outros elementos do documento.
* Elementos filhos que podem ter outros elementos ou conteúdo de texto dentro deles.
* Atributos que fornecem informações adicionais sobre os elementos.


<h2>DESAFIO:</h2>
Vanessa é uma cientista de dados que está realizando algumas análises com dados ambientais. 

Ela está desenvolvendo um projeto para avaliar o impacto ambiental das atividades humanas em diferentes países do mundo, mas para isso precisa das estimativas populacionais desses países. 

Ao pesquisar na internet, encontrou uma tabela de estimativas populacionais em um artigo da página Wikipédia 
<a>https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o</a>

Assim como Vanessa, seu desafio é obter um DataFrame da tabela que contém as informações do número de habitantes de cada país.

In [49]:
pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o')[0]

Unnamed: 0.1,Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Data,Estimativa Oficial
0,,1,Índia,1 429 921 746,2023,Estimativa oficial
1,,2,China,1 426 391 281,2023,Censo oficial
2,,3,Estados Unidos,339 987 103,2023,Censo oficial
3,,4,Indonésia,277 184 719,2023,Estimativa oficial
4,,5,Paquistão,240 215 932,2023,Estimativa oficial
...,...,...,...,...,...,...
245,,–,Ilha de Ascensão (Reino Unido),806,2021,Estimativa oficial[10]
246,,195,Vaticano,801,2020,Estimativa oficial
247,,–,Ilhas Cocos (Keeling) (Austrália),573,2020,Estimativa oficial
248,,–,Tristão da Cunha (Reino Unido),241,2022,Estimativa oficial[11]
