# Pandas I/O: trabalhando com diferentes formatos de arquivos

## Fazendo leitura de arquivos CSV

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/superstore_data.csv'

In [None]:
dados_mercado = pd.read_csv(url)

In [None]:
dados_mercado.head()

In [None]:
url2 = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/superstore_data_ponto_virgula.csv'

In [None]:
dados_mercado2 = pd.read_csv(url2)

In [None]:
dados_mercado2.head()

In [None]:
dados_mercado2 = pd.read_csv(url2, sep=';', nrows=5)
dados_mercado2

In [None]:
dados_mercado_3 = pd.read_csv(url2, sep=';', nrows=5, usecols=['Id', 'Year_Birth', 'Income'])
dados_mercado_3

In [None]:
dados_mercado_4 = pd.read_csv(url2, sep=';', nrows=5, usecols=[0, 1, 4])
dados_mercado_4

In [None]:
dados_mercado_4.to_csv('clientes_mercado_4.csv')

In [None]:
clientes_mercado_4 = pd.read_csv('clientes_mercado_4.csv')
clientes_mercado_4

In [None]:
dados_mercado_4.to_csv('clientes_mercado_4.csv', index=False)

In [None]:
clientes_mercado_4 = pd.read_csv('clientes_mercado_4.csv')
clientes_mercado_4

### Desafio: lendo dados com vários parâmetros

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Temos um arquivo no formato CSV, que foi obtido na página Informações de Saúde (TABNET) - DATASUS. Este arquivo contém os gastos hospitalares públicos de cada uma das Unidades da Federação brasileira no período de janeiro de 2008 a março de 2021.

Seu desafio aqui será fazer a leitura desse arquivo utilizando a função read_csv da biblioteca Pandas. Alguns parâmetros devem ser adicionados para que a leitura seja feita corretamente. Então, seguem algumas dicas:

1. Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula.
2. A codificação do arquivo é ISO-8859-1.
3. As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.
4. As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.
5. Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'.

Vamos lá?

In [None]:
dados_sus = pd.read_csv('dados_sus.csv', encoding='ISO-8859-1', skiprows=3, sep=';', skipfooter=9, engine='python')

In [None]:
dados_sus

## Utilizando planilhas

In [None]:
url_excel = 'https://github.com/lukaswyllis/formacao_python_para_data_science/raw/refs/heads/master/pandas2/emissoes_CO2.xlsx?raw=True'
emissoes = pd.read_excel(url_excel)

In [None]:
emissoes

In [None]:
pd.ExcelFile(url_excel).sheet_names

In [None]:
emissoes_percapita = pd.read_excel(url_excel, sheet_name='emissoes_percapita')
emissoes_percapita

In [None]:
fontes = pd.read_excel(url_excel, sheet_name='fontes')
fontes

In [None]:
intervalo = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A:D')
intervalo

In [None]:
intervalo2 = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A:D', nrows=10)
intervalo2

In [None]:
emissoes_percapita.to_excel('emissoes_percapita.xlsx', index=False)

In [None]:
teste = pd.read_excel('emissoes_percapita.xlsx')
teste

In [None]:
sheet_id = '1V6HIPO9VYlGUxi8CZXQqR0O2VVpp1ZqRxUKZHlpH3Ss'
sheet_name = 'emissoes_percapita'
url_google_planilhas = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'


In [None]:
google_planilhas = pd.read_csv(url_google_planilhas)

In [None]:
google_planilhas

In [None]:
percapita = pd.read_csv(url_google_planilhas)
percapita

### Desafio: lendo dados de outro link

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Nós temos um [link do Google Planilhas](https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit?usp=sharing) que contém dados importantes sobre as emissões de gás carbônico pelo mundo. O conjunto de dados foi obtido no [Kaggle](https://www.kaggle.com/datasets/koustavghosh149/co2-emission-around-the-world) e consiste em emissões de CO2 *per capita* de todos os países do mundo de 1990 a 2019.

Neste desafio, a sua função é efetuar a leitura desse link do Google Planilhas e depois salvar o DataFrame obtido no formato CSV. Pronto(a) para começar?

In [None]:
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'
sheet_name = 'CO2_emission'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
df = pd.read_csv(url)
df.to_csv('dados_emissoes.csv', index=False)

In [None]:
dados = {'Pesquisa': 'Principais Indicadores de Doenca Cardiaca', 'Ano': 2020, 'Numero_Pacientes':3}

In [None]:
df = pd.json_normalize(dados)
df

In [None]:
json_lista = [
    { 'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'feminino'},
    { 'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_biologico': 'feminino'}
]

In [None]:
pd.json_normalize(json_lista)

In [None]:
json_obj = {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      }

In [None]:
pd.json_normalize(json_obj)

In [None]:
json_list = [
    {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      },
      {
          'ID': '02',
          'Faixa_etaria': '80 ou +',
          'Sexo_biologico': 'Feminino',
          'Saude': {'Dificuldade_caminhar': 'Nao',
                    'Atividade_fisica': 'Sim',
                    'IMC': 20.34,
                    'Doenca_cardiaca': 'Sim'}
       }
       ]

In [None]:
pd.json_normalize(json_list)

### Desafio: normalizando o JSON obtido na API
Chegou a hora de testar os conhecimentos desenvolvidos durante a aula.

O DataFrame mostrado abaixo foi gerado após a obtenção de dados da API JSONPlaceholder:

Este DataFrame possui 8 colunas: id, name (nome), username (nome de usuário), email , address (endereço), phone(telefone), website e company (empresa). Note que as colunas address e company contém informações aninhadas, ou seja, os dados dessas colunas estão organizados em subcampos. Por exemplo, na coluna address, você encontrará subcampos como street (rua), suite (complemento), city (cidade) e zipcode (CEP). Já na coluna company, os subcampos incluem name (nome da empresa), catchPhrase (slogan) e bs (área de atuação). Isso significa que, para acessar essas informações, é necessário realizar o processo de normalização.

O desafio agora é normalizar esse DataFrame, expandindo as colunas address e company em suas respectivas subcolunas para facilitar a visualização e a análise dos dados.

Se você tiver dúvidas sobre como resolver, consulte a opinião da pessoa instrutora!

In [None]:
import requests
import json

In [None]:
url = 'https://jsonplaceholder.typicode.com/users'
dados_usuarios = requests.get(url)
resultado = json.loads(dados_usuarios.text)
pd.DataFrame(resultado)

In [None]:
df_usuarios_normalizado = pd.json_normalize(resultado, sep='_')

In [None]:
df_usuarios_normalizado

## Lendo dados em HTML e XML