# Pandas I/O: trabalhando com diferentes formatos de arquivos

## Fazendo leitura de arquivos CSV

In [2]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/superstore_data.csv'

In [None]:
dados_mercado = pd.read_csv(url)

In [None]:
dados_mercado.head()

In [None]:
url2 = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas2/superstore_data_ponto_virgula.csv'

In [None]:
dados_mercado2 = pd.read_csv(url2)

In [None]:
dados_mercado2.head()

In [None]:
dados_mercado2 = pd.read_csv(url2, sep=';', nrows=5)
dados_mercado2

In [None]:
dados_mercado_3 = pd.read_csv(url2, sep=';', nrows=5, usecols=['Id', 'Year_Birth', 'Income'])
dados_mercado_3

In [None]:
dados_mercado_4 = pd.read_csv(url2, sep=';', nrows=5, usecols=[0, 1, 4])
dados_mercado_4

In [None]:
dados_mercado_4.to_csv('clientes_mercado_4.csv')

In [None]:
clientes_mercado_4 = pd.read_csv('clientes_mercado_4.csv')
clientes_mercado_4

In [None]:
dados_mercado_4.to_csv('clientes_mercado_4.csv', index=False)

In [None]:
clientes_mercado_4 = pd.read_csv('clientes_mercado_4.csv')
clientes_mercado_4

### Desafio: lendo dados com vários parâmetros

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Temos um arquivo no formato CSV, que foi obtido na página Informações de Saúde (TABNET) - DATASUS. Este arquivo contém os gastos hospitalares públicos de cada uma das Unidades da Federação brasileira no período de janeiro de 2008 a março de 2021.

Seu desafio aqui será fazer a leitura desse arquivo utilizando a função read_csv da biblioteca Pandas. Alguns parâmetros devem ser adicionados para que a leitura seja feita corretamente. Então, seguem algumas dicas:

1. Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula.
2. A codificação do arquivo é ISO-8859-1.
3. As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.
4. As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.
5. Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'.

Vamos lá?

In [None]:
dados_sus = pd.read_csv('dados_sus.csv', encoding='ISO-8859-1', skiprows=3, sep=';', skipfooter=9, engine='python')

In [None]:
dados_sus

## Utilizando planilhas

In [9]:
url_excel = 'https://github.com/lukaswyllis/formacao_python_para_data_science/raw/refs/heads/master/pandas2/emissoes_CO2.xlsx?raw=True'
emissoes = pd.read_excel(url_excel)

In [8]:
emissoes

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.000000e+00,,,,,,,
1,Afeganistão,AFG,1751,0.000000e+00,,,,,,,
2,Afeganistão,AFG,1752,0.000000e+00,,,,,,,
3,Afeganistão,AFG,1753,0.000000e+00,,,,,,,
4,Afeganistão,AFG,1754,0.000000e+00,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10,1.450697e+10,1.224263e+10,7.144928e+09,1.507923e+09,391992176.0,302294047.0,4749682.0
63100,Global,WLD,2018,3.682651e+10,1.474683e+10,1.226602e+10,7.529847e+09,1.569218e+09,412115746.0,302478706.0,4792753.0
63101,Global,WLD,2019,3.708256e+10,1.472598e+10,1.234565e+10,7.647528e+09,1.617507e+09,439253991.0,306638573.0,4775633.0
63102,Global,WLD,2020,3.526409e+10,1.417456e+10,1.119181e+10,7.556290e+09,1.637538e+09,407583673.0,296301685.0,4497423.0


In [10]:
pd.ExcelFile(url_excel).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

In [11]:
emissoes_percapita = pd.read_excel(url_excel, sheet_name='emissoes_percapita')
emissoes_percapita

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


In [12]:
fontes = pd.read_excel(url_excel, sheet_name='fontes')
fontes

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


In [13]:
intervalo = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A:D')
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.000000e+00
1,Afeganistão,AFG,1751,0.000000e+00
2,Afeganistão,AFG,1752,0.000000e+00
3,Afeganistão,AFG,1753,0.000000e+00
4,Afeganistão,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [15]:
intervalo2 = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A:D', nrows=10)
intervalo2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


In [16]:
emissoes_percapita.to_excel('emissoes_percapita.xlsx', index=False)

In [17]:
teste = pd.read_excel('emissoes_percapita.xlsx')
teste

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


In [20]:
sheet_id = '1V6HIPO9VYlGUxi8CZXQqR0O2VVpp1ZqRxUKZHlpH3Ss'
sheet_name = 'emissoes_percapita'
url_google_planilhas = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'


In [21]:
google_planilhas = pd.read_csv(url_google_planilhas)

In [22]:
google_planilhas

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,2001,1.069.098,69.616,762.112,208.848,6.538,21.984,,54.300
1,Afeganistão,AFG,2002,1.340.995,55.109,727.438,547.416,11.033,0,,63.856
2,Afeganistão,AFG,2003,1.559.602,91.813,991.575,466.408,9.807,0,,68.871
3,Afeganistão,AFG,2004,1.237.247,91.600,908.672,227.168,9.807,0,,52.529
4,Afeganistão,AFG,2005,1.889.507,106.256,1.447.280,329.760,6.211,0,,77.403
...,...,...,...,...,...,...,...,...,...,...,...
4846,Global,WLD,2017,36.096.739.276,14.506.973.805,12.242.627.935,7.144.928.128,1.507.923.185,391.992.176,302.294.047,4.749.682
4847,Global,WLD,2018,36.826.506.600,14.746.830.688,12.266.016.285,7.529.846.784,1.569.218.392,412.115.746,302.478.706,4.792.753
4848,Global,WLD,2019,37.082.558.969,14.725.978.025,12.345.653.374,7.647.528.220,1.617.506.786,439.253.991,306.638.573,4.775.633
4849,Global,WLD,2020,35.264.085.734,14.174.564.010,11.191.808.551,7.556.290.283,1.637.537.532,407.583.673,296.301.685,4.497.423


In [23]:
percapita = pd.read_csv(url_google_planilhas)
percapita

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,2001,1.069.098,69.616,762.112,208.848,6.538,21.984,,54.300
1,Afeganistão,AFG,2002,1.340.995,55.109,727.438,547.416,11.033,0,,63.856
2,Afeganistão,AFG,2003,1.559.602,91.813,991.575,466.408,9.807,0,,68.871
3,Afeganistão,AFG,2004,1.237.247,91.600,908.672,227.168,9.807,0,,52.529
4,Afeganistão,AFG,2005,1.889.507,106.256,1.447.280,329.760,6.211,0,,77.403
...,...,...,...,...,...,...,...,...,...,...,...
4846,Global,WLD,2017,36.096.739.276,14.506.973.805,12.242.627.935,7.144.928.128,1.507.923.185,391.992.176,302.294.047,4.749.682
4847,Global,WLD,2018,36.826.506.600,14.746.830.688,12.266.016.285,7.529.846.784,1.569.218.392,412.115.746,302.478.706,4.792.753
4848,Global,WLD,2019,37.082.558.969,14.725.978.025,12.345.653.374,7.647.528.220,1.617.506.786,439.253.991,306.638.573,4.775.633
4849,Global,WLD,2020,35.264.085.734,14.174.564.010,11.191.808.551,7.556.290.283,1.637.537.532,407.583.673,296.301.685,4.497.423


### Desafio: lendo dados de outro link

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Nós temos um [link do Google Planilhas](https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit?usp=sharing) que contém dados importantes sobre as emissões de gás carbônico pelo mundo. O conjunto de dados foi obtido no [Kaggle](https://www.kaggle.com/datasets/koustavghosh149/co2-emission-around-the-world) e consiste em emissões de CO2 *per capita* de todos os países do mundo de 1990 a 2019.

Neste desafio, a sua função é efetuar a leitura desse link do Google Planilhas e depois salvar o DataFrame obtido no formato CSV. Pronto(a) para começar?

In [25]:
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'
sheet_name = 'CO2_emission'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
df = pd.read_csv(url)
df.to_csv('dados_emissoes.csv', index=False)