<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-io/blob/main/Projeto_Python_Data_Science.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python para Data Science

Neste Notebook, serão trabalhadas diferentes maneiras de importar e exportar arquivos utilizando a [biblioteca Pandas](https://pandas.pydata.org/docs/), do Python.

Todo o estudo é baseado no conteúdo apresentado no curso [Pandas I/O: trabalhando com diferentes formatos de arquivos](https://www.alura.com.br/curso-online-pandas-io-trabalhando-diferentes-formatos-arquivos), da Alura.

# 1. Fazendo leitura de arquivos CSV

## 1.1 Lendo arquivos CSV

O método `read_csv` é usado para ler dados de um arquivo CSV e criar um *DataFrame*.

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/superstore_data.csv'

In [3]:
dados_mercado = pd.read_csv(url)

In [4]:
dados_mercado.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [5]:
url2 = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/superstore_data_ponto_virgula.csv'

In [6]:
dados_mercado_ponto_virgula = pd.read_csv(url2)

In [7]:
dados_mercado_ponto_virgula.head()

Unnamed: 0,Id;Year_Birth;Education;Marital_Status;Income;Kidhome;Teenhome;Dt_Customer;Recency;MntWines;MntFruits;MntMeatProducts;MntFishProducts;MntSweetProducts;MntGoldProds;NumDealsPurchases;NumWebPurchases;NumCatalogPurchases;NumStorePurchases;NumWebVisitsMonth;Response;Complain
0,1826;1970;Graduation;Divorced;84835;0;0;6/16/2...
1,1;1961;Graduation;Single;57091;0;0;6/15/2014;0...
2,10476;1958;Graduation;Married;67267;0;1;5/13/2...
3,1386;1967;Graduation;Together;32474;1;1;11/5/2...
4,5371;1989;Graduation;Single;21474;1;0;8/4/2014...


## 1.2 Parâmetros da função `read_csv`

### `sep`

O parâmetro `sep` no método `read_csv` é utilizado para especificar o **delimitador que separa os campos no arquivo CSV**. O delimitador é o caractere usado para indicar onde uma coluna termina e a próxima começa.

Por padrão, o `read_csv` assume que o delimitador é a vírgula (`,`), mas podemos usar outros delimitadores, como ponto e vírgula (`;`) e tabulação (`\t`).

In [8]:
dados_sem_virgula = pd.read_csv(url2, sep=';')

In [9]:
dados_sem_virgula.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### `nrows`

O parâmetro `nrows` no método `read_csv` serve para especificar o **número de linhas a serem lidas do arquivo CSV**.

Caso não seja especificado, todas as linhas do arquivo são lidas.

In [10]:
dados_primeiras_linhas = pd.read_csv(url, nrows=5)

In [11]:
dados_primeiras_linhas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### `usecols`

O parâmetro `usecols`, do método `read_csv`, é usado para **selecionar um conjunto específico de colunas** do arquivo CSV durante a leitura.

In [12]:
dados_selecao = pd.read_csv(url, usecols=['Id', 'Year_Birth', 'Income'])

In [13]:
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [14]:
dados_selecao = pd.read_csv(url, usecols=[0, 1, 4])

In [15]:
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


## 1.3 Escrevendo arquivos CSV

O método `to_csv` salva um *DataFrame* em um arquivo CSV.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [16]:
dados_selecao.to_csv('clientes_mercado.csv')

In [17]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')

In [18]:
clientes_mercado.head()

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0


### `index`

O parâmetro `index`, do método `to_csv`, é usado para determinar se o índice do *DataFrame* deve ser incluído no arquivo CSV.

* `index=True` (padrão): indica que o índice do *DataFrame* será incluído;
* `index=False`: omite a apresentação do índice.

In [19]:
dados_selecao.to_csv('clientes_mercado.csv', index=False)

In [20]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')

In [21]:
clientes_mercado.head()

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


# 2. Utilizando planilhas

## 2.1 Lendo arquivos Excel

O método `read_excel` é usado para ler dados de uma planilha do Excel e criar um *DataFrame*.

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [22]:
url = 'https://github.com/strawndri/python-ds-pandas-io/blob/main/dados/emissoes_CO2.xlsx?raw=True'

In [23]:
dados_co2 = pd.read_excel(url)

In [24]:
dados_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


In [25]:
pd.ExcelFile(url).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

## 2.2 Parâmetros da função `read_excel`

### `sheet_name`

O patâmetro `sheet_name`, no método `read_excel`, especifica qual folha (sheet) da planilha em questão deve ser lida.

**Maneiras de especificar:**
* `0` (padrão): primeira folha;
* `'Sheet2'`: identificação pelo nome;
* `[0, 1, 'Sheet3']`: leitura de mais de uma folha.  

In [26]:
percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [27]:
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [28]:
fontes = pd.read_excel(url, sheet_name='fontes')

In [29]:
fontes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


### `usecols`

O parâmetro `usecols`, no método `read_excel`, seleciona apenas um subconjunto específico da planilha Excel durante a leitura, de acordo com a determinação.

In [30]:
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D')

In [31]:
intervalo.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.0
1,Afeganistão,AFG,1751,0.0
2,Afeganistão,AFG,1752,0.0
3,Afeganistão,AFG,1753,0.0
4,Afeganistão,AFG,1754,0.0


### `nrows`

O parâmetro `nrows`, do método `read_excel`, especifica o número de linhas a serem lidas da planilha Excel.

In [32]:
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D', nrows=10)

In [33]:
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


## 2.3 Escrevendo arquivos Excel

O método `to_excel` é usado para salvar um *DataFrame* em um arquivo Excel (`.xlsx`).

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html

In [34]:
percapita.to_excel('co2_percapita.xlsx', index=False)

In [35]:
pd.read_excel('/content/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


## 2.4 Lendo dados do Google Planilhas

In [37]:
sheet_id = '1j4BZB9QDe42mV6MqPV1j0Lmd_aR6kd1JXiE1W9rNjyU'

In [38]:
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [39]:
dados_co2_sheets = pd.read_csv(url)

In [40]:
dados_co2_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


In [41]:
sheet_id = '1j4BZB9QDe42mV6MqPV1j0Lmd_aR6kd1JXiE1W9rNjyU'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [42]:
percapita_sheets = pd.read_csv(url_percapita)
percapita_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [43]:
sheet_id = '1j4BZB9QDe42mV6MqPV1j0Lmd_aR6kd1JXiE1W9rNjyU'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [44]:
fontes_sheets = pd.read_csv(url_fontes)
fontes_sheets.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
