# Pandas I/O: trabalhando com diferentes formatos de arquivos

## Fazendo leitura de arquivos CSV

In [1]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/superstore_data.csv'

In [None]:
dados_mercado = pd.read_csv(url)

In [None]:
dados_mercado.head()

In [None]:
url2 = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/superstore_data_ponto_virgula.csv'

In [None]:
dados_mercado2 = pd.read_csv(url2)

In [None]:
dados_mercado2.head()

In [None]:
dados_mercado2 = pd.read_csv(url2, sep=';', nrows=5)
dados_mercado2

In [None]:
dados_mercado_3 = pd.read_csv(url2, sep=';', nrows=5, usecols=['Id', 'Year_Birth', 'Income'])
dados_mercado_3

In [None]:
dados_mercado_4 = pd.read_csv(url2, sep=';', nrows=5, usecols=[0, 1, 4])
dados_mercado_4

In [None]:
dados_mercado_4.to_csv('clientes_mercado_4.csv')

In [None]:
clientes_mercado_4 = pd.read_csv('clientes_mercado_4.csv')
clientes_mercado_4

In [None]:
dados_mercado_4.to_csv('clientes_mercado_4.csv', index=False)

In [None]:
clientes_mercado_4 = pd.read_csv('clientes_mercado_4.csv')
clientes_mercado_4

### Desafio: lendo dados com vários parâmetros

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Temos um arquivo no formato CSV, que foi obtido na página Informações de Saúde (TABNET) - DATASUS. Este arquivo contém os gastos hospitalares públicos de cada uma das Unidades da Federação brasileira no período de janeiro de 2008 a março de 2021.

Seu desafio aqui será fazer a leitura desse arquivo utilizando a função read_csv da biblioteca Pandas. Alguns parâmetros devem ser adicionados para que a leitura seja feita corretamente. Então, seguem algumas dicas:

1. Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula.
2. A codificação do arquivo é ISO-8859-1.
3. As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.
4. As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.
5. Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'.

Vamos lá?

In [None]:
dados_sus = pd.read_csv('dados_sus.csv', encoding='ISO-8859-1', skiprows=3, sep=';', skipfooter=9, engine='python')

In [None]:
dados_sus

## Utilizando planilhas

In [None]:
url_excel = 'https://github.com/lukaswyllis/formacao_python_para_data_science/raw/refs/heads/master/pandas2/emissoes_CO2.xlsx?raw=True'
emissoes = pd.read_excel(url_excel)

In [None]:
emissoes

In [None]:
pd.ExcelFile(url_excel).sheet_names

In [None]:
emissoes_percapita = pd.read_excel(url_excel, sheet_name='emissoes_percapita')
emissoes_percapita

In [None]:
fontes = pd.read_excel(url_excel, sheet_name='fontes')
fontes

In [None]:
intervalo = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A:D')
intervalo

In [None]:
intervalo2 = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A:D', nrows=10)
intervalo2

In [None]:
emissoes_percapita.to_excel('emissoes_percapita.xlsx', index=False)

In [None]:
teste = pd.read_excel('emissoes_percapita.xlsx')
teste

In [None]:
sheet_id = '1V6HIPO9VYlGUxi8CZXQqR0O2VVpp1ZqRxUKZHlpH3Ss'
sheet_name = 'emissoes_percapita'
url_google_planilhas = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'


In [None]:
google_planilhas = pd.read_csv(url_google_planilhas)

In [None]:
google_planilhas

In [None]:
percapita = pd.read_csv(url_google_planilhas)
percapita

### Desafio: lendo dados de outro link

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Nós temos um [link do Google Planilhas](https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit?usp=sharing) que contém dados importantes sobre as emissões de gás carbônico pelo mundo. O conjunto de dados foi obtido no [Kaggle](https://www.kaggle.com/datasets/koustavghosh149/co2-emission-around-the-world) e consiste em emissões de CO2 *per capita* de todos os países do mundo de 1990 a 2019.

Neste desafio, a sua função é efetuar a leitura desse link do Google Planilhas e depois salvar o DataFrame obtido no formato CSV. Pronto(a) para começar?

In [None]:
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'
sheet_name = 'CO2_emission'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
df = pd.read_csv(url)
df.to_csv('dados_emissoes.csv', index=False)

In [None]:
dados = {'Pesquisa': 'Principais Indicadores de Doenca Cardiaca', 'Ano': 2020, 'Numero_Pacientes':3}

In [None]:
df = pd.json_normalize(dados)
df

In [None]:
json_lista = [
    { 'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'feminino'},
    { 'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_biologico': 'feminino'}
]

In [None]:
pd.json_normalize(json_lista)

In [None]:
json_obj = {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      }

In [None]:
pd.json_normalize(json_obj)

In [None]:
json_list = [
    {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      },
      {
          'ID': '02',
          'Faixa_etaria': '80 ou +',
          'Sexo_biologico': 'Feminino',
          'Saude': {'Dificuldade_caminhar': 'Nao',
                    'Atividade_fisica': 'Sim',
                    'IMC': 20.34,
                    'Doenca_cardiaca': 'Sim'}
       }
       ]

In [None]:
pd.json_normalize(json_list)

### Desafio: normalizando o JSON obtido na API
Chegou a hora de testar os conhecimentos desenvolvidos durante a aula.

O DataFrame mostrado abaixo foi gerado após a obtenção de dados da API JSONPlaceholder:

Este DataFrame possui 8 colunas: id, name (nome), username (nome de usuário), email , address (endereço), phone(telefone), website e company (empresa). Note que as colunas address e company contém informações aninhadas, ou seja, os dados dessas colunas estão organizados em subcampos. Por exemplo, na coluna address, você encontrará subcampos como street (rua), suite (complemento), city (cidade) e zipcode (CEP). Já na coluna company, os subcampos incluem name (nome da empresa), catchPhrase (slogan) e bs (área de atuação). Isso significa que, para acessar essas informações, é necessário realizar o processo de normalização.

O desafio agora é normalizar esse DataFrame, expandindo as colunas address e company em suas respectivas subcolunas para facilitar a visualização e a análise dos dados.

Se você tiver dúvidas sobre como resolver, consulte a opinião da pessoa instrutora!

In [None]:
import requests
import json

In [None]:
url = 'https://jsonplaceholder.typicode.com/users'
dados_usuarios = requests.get(url)
resultado = json.loads(dados_usuarios.text)
pd.DataFrame(resultado)

In [None]:
df_usuarios_normalizado = pd.json_normalize(resultado, sep='_')

In [None]:
df_usuarios_normalizado

## Lendo dados em HTML e XML

In [3]:
url = 'https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies'
dados_html = pd.read_html(url)

In [6]:
dados_html

[       0                      1
 0   1998             100 Movies
 1   1999              100 Stars
 2   2000             100 Laughs
 3   2001            100 Thrills
 4   2002           100 Passions
 5   2003  100 Heroes & Villains
 6   2004              100 Songs
 7   2005       100 Movie Quotes
 8   2005              25 Scores
 9   2006             100 Cheers
 10  2006            25 Musicals
 11  2007   100 Movies (Updated)
 12  2008        AFI's 10 Top 10
 13   vte                    vte,
                       Film  Release year              Director  \
 0             Citizen Kane          1941          Orson Welles   
 1               Casablanca          1942        Michael Curtiz   
 2            The Godfather          1972  Francis Ford Coppola   
 3       Gone with the Wind          1939        Victor Fleming   
 4       Lawrence of Arabia          1962            David Lean   
 ..                     ...           ...                   ...   
 118        Sophie's Choice        

In [7]:
top_filmes = dados_html[1]

In [8]:
top_filmes

Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7
...,...,...,...,...,...,...
118,Sophie's Choice,1982,Alan J. Pakula,ITC Entertainment,-,91
119,The Last Picture Show,1971,Peter Bogdanovich,BBS Productions,-,95
120,Do the Right Thing,1989,Spike Lee,40 Acres and a Mule Filmworks,-,96
121,Blade Runner,1982,Ridley Scott,"The Ladd Company, Shaw Brothers",-,97


In [9]:
top_filmes.to_html('melhores_filmes.html')

In [10]:
top_filmes.to_csv('melhores_filmes.csv', sep=';', index=False)

In [11]:
pd.read_csv('/content/melhores_filmes.csv', sep=';')

Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7
...,...,...,...,...,...,...
118,Sophie's Choice,1982,Alan J. Pakula,ITC Entertainment,-,91
119,The Last Picture Show,1971,Peter Bogdanovich,BBS Productions,-,95
120,Do the Right Thing,1989,Spike Lee,40 Acres and a Mule Filmworks,-,96
121,Blade Runner,1982,Ridley Scott,"The Ladd Company, Shaw Brothers",-,97


In [12]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/imdb_top_1000.xml'
dados_imdb = pd.read_xml(url)

In [14]:
dados_imdb.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


In [15]:
dados_imdb.to_xml('filmes_imdb.xml')

In [19]:
teste = pd.read_xml('saida.xml')

In [20]:
teste

Unnamed: 0,codigodocumento,dataBase,codigoConglomerado,cnpj,tipoRemessa,opcaoPorProvisaoAcumulada
0,5050,2024-12,C0080879,2038232000164,I,N


### **Desafio: lendo uma tabela de uma página web**

Chegou a hora de testar os conhecimentos desenvolvidos durante a aula.

Vanessa é uma cientista de dados que está realizando algumas análises com dados ambientais. Ela está desenvolvendo um projeto para avaliar o impacto ambiental das atividades humanas em diferentes países do mundo, mas para isso precisa das estimativas populacionais desses países. Ao pesquisar na internet, encontrou uma tabela de estimativas populacionais em um artigo da página [Wikipédia](https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o).

Assim como Vanessa, seu desafio é obter um DataFrame da tabela que contém as informações do número de habitantes de cada país.

In [24]:
url = 'https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o'
populacoes = pd.read_html(url)[0]

In [25]:
populacoes

Unnamed: 0.1,Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Crescimento desde a última estimativa,Estimativa Oficial
0,,1,Índia,1 429 921 746,+269.108.746,Estimativa oficial
1,,2,China,1 426 391 281,+87.778.313,Censo oficial
2,,3,Estados Unidos,339 987 103,+31.241.565,Censo oficial
3,,4,Indonésia,277 184 719,+33.168.546,Estimativa oficial
4,,5,Paquistão,240 215 932,+65.636.932,Estimativa oficial
...,...,...,...,...,...,...
245,,–,Ilha de Ascensão (Reino Unido),1 100,,Estimativa oficial[10]
246,,195,Vaticano,879,,Estimativa oficial
247,,–,Ilhas Cocos (Keeling) (Austrália),605,,Estimativa oficial
248,,–,Tristão da Cunha (Reino Unido),264,,Estimativa oficial[11]
