# Introdução ao Pandas

## Módulo 5: Trabalhando com Arquivos
- Mais sobre o uso de `pd.read_csv`
- Requisições HTTP
- Trabalhando com arquivos que usam delimitadores/separadores diferentes de vírgulas
- Definindo a coluna de índice
- Escrevendo dados com `to_csv`
- Lendo JSON
- Lendo de arquivos do Excel
- Escrevendo em arquivos do Excel

In [None]:
import pandas as pd

In [None]:
# read_csv pode ler arquivos CSV hospedados.
# Pandas envia a solicitação http!
url = "https://gist.githubusercontent.com/ryanorsinger/cc276eea59e8295204d1f581c8da509f/raw/2388559aef7a0700eb31e7604351364b16e99653/mall_customers.csv"
pd.read_csv(url).head()

In [None]:
# Para definir a coluna de índice, use o argumento index_col
# Se você notar uma coluna que faça sentido usar como índice, você precisará especificar
pd.read_csv(url, index_col="customer_id").head()

In [None]:
# O operador ! dentro do Jupyter Notebooks ou iPython emite um comando para o terminal
# Se você usa o Windows sem o subsistema Linux habilitado, use !dir *.csv
!ls *.csv

In [None]:
!ls *sales*.csv

In [None]:
arquivos_de_vendas = !ls *sales*.csv
arquivos_de_vendas

In [None]:
# Lendo vários arquivos programaticamente
dados_de_vendas = []
for file in arquivos_de_vendas:
    df = pd.read_csv(file)
    dados_de_vendas.append(df)
    
vendas_df = pd.concat(dados_de_vendas, ignore_index=True)
vendas_df

In [None]:
# É comum em campo combinar muitas fontes de dados diferentes em um único dataframe para limpeza/análise.
# Escrever em to_csv gravará os valores de índice em sua própria coluna nos dados.
vendas_df.to_csv("all_sales.csv")

In [None]:
!ls *.csv

In [None]:
# Observe como a coluna restante é transformada em uma coluna sem nome
pd.read_csv("all_sales.csv").head()

In [None]:
# Vejamos um exemplo onde evitamos essa complicação prestando mais atenção ao índice
# O argumento index em to_csv recebe um booleano e o padrão é True
vendas_df.to_csv("all_sales_clean.csv", index=False)

In [None]:
# Observe que o índice é regenerado e é apropriado
pd.read_csv("all_sales_clean.csv")

Se você usar uma coluna de índice nomeada em vez de apenas o índice gerado automaticamente, você evitará isso.

### Observação sobre caracteres separadores, chamados delimitadores
- Arquivos CSV usam vírgulas para separar valores
- Você pode encontrar arquivos que usam outro caractere delimitador além da vírgula
- Arquivos separados por tabulação são comuns em arquivos de log e exportações de planilhas
- Às vezes, você pode encontrar uma extensão de arquivo .tsv para valores separados por tabulação
- Você pode encontrar delimitadores diferentes de vírgulas ou tabulações em arquivos de texto simples.
- Use `pd.read_csv` para eles (a menos que o arquivo seja .JSON) e identifique o caractere apropriado

In [None]:
# O caractere "\t" é como especificamos um caractere de tabulação
pd.read_csv("penguins_with_tabs.tsv", sep="\t").head()

In [None]:
# O método read_json pode ler arquivos JSON do sistema de arquivos ou de URLs.
# Isso é particularmente útil ao consumir dados de uma API RESTful que retorna JSON
curie_quotes = pd.read_json("https://aphorisms.glitch.me/api/example")
curie_quotes

## Exemplo de uso de `read_clipboard`

|    modelo |             displ | ano  |  cyl | trans |        drv |  cty |  hwy |   fl | drv   | classe  |
| --------: | ----------------: | ---: | ---: | ----: | ---------: | ---: | ---: | ---: | ----: | ------- |
|      audi |                a4 |  2.0 | 2008 |     4 |   auto(av) |    f |   21 |   30 |     p | compact |
|     dodge | dakota pickup 4wd |  3.9 | 1999 |     6 | manual(m5) |    4 |   14 |   17 |     r | pickup  |
|    toyota |       4runner 4wd |  4.7 | 2008 |     8 |   auto(l5) |    4 |   14 |   17 |     r | suv     |
|     dodge |       caravan 2wd |  3.8 | 2008 |     6 |   auto(l6) |    f |   16 |   23 |     r | minivan |
| chevrolet |            malibu |  3.6 | 2008 |     6 |   auto(s6) |    f |   17 |   26 |     r | midsize |


In [None]:
# Destaque e copie a tabela acima
# Em seguida, execute esta célula
df = pd.read_clipboard()
df

In [None]:
# Escrevendo um dataframe na memória para um arquivo Excel
df.to_excel("mpg.xlsx", index=None)

In [None]:
# Lendo um arquivo Excel (versão simples)
mpg = pd.read_excel("mpg.xlsx")

In [None]:
mpg

In [None]:
# Lendo uma planilha específica de um arquivo Excel
pd.read_excel("example_spreadsheet.xlsx", sheet_name="grocery_list")

In [None]:
# Observe como há alguns extras
pd.read_excel("example_spreadsheet.xlsx", sheet_name="pet_info")

In [None]:
# Às vezes, pode ser necessário abrir a planilha para identificar as colunas a serem ignoradas
pd.read_excel("example_spreadsheet.xlsx", sheet_name="pet_info", skiprows=4)

## Recursos Adicionais
- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.read_clipboard.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_clipboard.html
- https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html
- Outros formatos https://pandas.pydata.org/docs/user_guide/io.html
- SQL
- XML
- STATA
- SAS
- SPSS

## Exercícios
- Use `pd.read_json` para ler as citações de Dolly Parton em um dataframe chamado `dolly`. Citações de Dolly Parton:
https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/4c0eef2e4cbce5e47b674e8d1d5bad34f0c7b757/dolly.json

- Leia as citações de Bob Ross em um dataframe chamado `bob`. Citações de Bob Ross em JSON: https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/b0c1c816d87e4d3db34e52d35e376394f689911e/bob_ross.json

- Crie um dicionário usando as chaves "quote" e "author" e forneça uma citação de sua escolha. Certifique-se de colocar o dicionário entre colchetes. Use `pd.DataFrame` para transformar esta lista contendo o dicionário único em um dataframe de uma linha. Nomeie seu novo dataframe como `my_quote`.

- Em seguida, use `pd.concat` para combinar os três dataframes em uma nova variável chamada `quotes`.

- Use `to_csv` para gravar o dataframe `quotes` no disco, fornecendo o nome de arquivo `quotes.csv`.

- Leia este JSON de bebidas em um dataframe chamado `drinks`
https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/b0c1c816d87e4d3db34e52d35e376394f689911e/drinks.json

- Agora, leia o CSV de custo de bebidas em um dataframe chamado `drink_costs`
https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/b0c1c816d87e4d3db34e52d35e376394f689911e/drink_cost.csv

- Combine estes dataframes e sobrescreva o dataframe chamado `drinks` usando `pd.concat`.

- Por fim, grave seu dataframe `drinks` no disco usando `.to_excel`. Nomeie o arquivo `drinks.xlsx`.

In [None]:
# Use `pd.read_json` para ler as citações de Dolly Parton em um dataframe chamado `dolly`.
# Citações de Dolly Parton:
# https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/4c0eef2e4cbce5e47b674e8d1d5bad34f0c7b757/dolly.json


In [None]:
# Leia as citações de Bob Ross em um dataframe chamado `bob`.
# Bob Ross cita JSON:
# https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/b0c1c816d87e4d3db34e52d35e376394f689911e/bob_ross.json


In [None]:
# Crie um dicionário usando as chaves "quote" e "author" e forneça uma citação de sua escolha.
# Em seguida, use `pd.DataFrame` para transformar este dicionário em um dataframe de uma linha.
# Observação: certifique-se de colocar o dicionário entre colchetes.
# Nomeie seu novo dataframe como `my_quote`


In [None]:
# Use `pd.concat` para combinar todos os três dataframes em uma nova variável chamada `quotes`.


In [None]:
# Use `to_csv` para gravar o dataframe `quotes` no disco, fornecendo o nome de arquivo `quotes.csv`.


In [None]:
# Leia este JSON de bebidas em um dataframe chamado drinks
# https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/b0c1c816d87e4d3db34e52d35e376394f689911e/drinks.json


In [None]:
# Leia o CSV do custo da bebida em um dataframe chamado drink_costs
# https://gist.githubusercontent.com/ryanorsinger/ad042d8ee4340ae7026e215bc6b69665/raw/b0c1c816d87e4d3db34e52d35e376394f689911e/drink_cost.csv


In [None]:
# Combine esses dataframes em um dataframe chamado `drinks` usando `pd.concat`, sobrescrevendo o original.
# Lembre-se de que o pd.concat usa a concatenação por linha como padrão, a menos que especificado de outra forma.


In [None]:
# Por fim, grave seu dataframe `drinks` no disco usando `.to_excel`
# Nomeie o arquivo drinks.xlsx.
