In [1]:
import pandas as pd

# Entrada e Saída e outras operações no Pandas
- Bom, até o momento trabalhamos com o principal método de entrada de dados do Pandas, o `read_csv()`
- Vamos explorar um pouco mais ele, mas também vamos ler dados do Excel

## Lendo dados de uma URL com o `read_csv()`
- Podemos ler um csv utilizando uma URL
- Essa feature é particularmente interessante para dados que ficam variando ao longo do tempo

In [2]:
url = "https://data.cityofnewyork.us/api/views/25th-nujf/rows.csv"
names = pd.read_csv(url)
names.head()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
0,2011,FEMALE,HISPANIC,GERALDINE,13,75
1,2011,FEMALE,HISPANIC,GIA,21,67
2,2011,FEMALE,HISPANIC,GIANNA,49,42
3,2011,FEMALE,HISPANIC,GISELLE,38,51
4,2011,FEMALE,HISPANIC,GRACE,36,53


- Podemos transformar qualquer coluna em um DataFrame:

In [3]:
names["Child's First Name"].to_frame()

Unnamed: 0,Child's First Name
0,GERALDINE
1,GIA
2,GIANNA
3,GISELLE
4,GRACE
...,...
57577,Yousef
57578,Youssef
57579,Yusuf
57580,Zachary


- ... ou em uma lista:

In [4]:
names["Child's First Name"].to_list()[0:5] # Imprimindo os 5 primeiros apenas para nao encher a saida

['GERALDINE', 'GIA', 'GIANNA', 'GISELLE', 'GRACE']

- ...ou em um dicionário, na qual a chave será o índice do DF:

In [5]:
names["Child's First Name"].to_dict()[0]

'GERALDINE'

- Podemos gerar uma saída como uma string:

In [12]:
", ".join(names["Child's First Name"].to_list()[0:10])

'GERALDINE, GIA, GIANNA, GISELLE, GRACE, GUADALUPE, HAILEY, HALEY, HANNAH, HAYLEE'

- Podemos aninhar funções para processar essa saída:

In [6]:
", ".join(names["Child's First Name"].str.title().drop_duplicates().sort_values()[0:10])

'Aahil, Aaliyah, Aarav, Aaron, Aarya, Aaryan, Aayan, Aayat, Abby, Abdiel'

## Salvando um DataFrame como um arquivo `.csv`
- Até o momento ó lemos arquivos csv
- Mas como já é de se imaginar podemos salvar um df como um arquivo do tipo
- Para isso, usamos o método `to_csv()`

In [7]:
names.to_csv("../data/names.csv")

- Podemos remover os indices e indicar quais colunas são salvas alterando parametros
    - Tip: Se houver caracter especial: `encoding=utf-8`

In [8]:
names.to_csv("../data/names.csv", index=False, columns=['Gender', 'Ethnicity'], encoding="utf-8")

## Manipulando arquivos do Excel
- De maneira similar, podemos abrir arquivos do excel
- Os métodos são similares aos anteriores: `from_excel()` e `to_excel()`
- Porém, é necessário instalar duas libs:
    - `pip install xldr openpyxl`
- Primeiro vamos ler um arquivo com uma única aba de valores:

In [10]:
pd.read_excel("../data/Data - Single Worksheet.xlsx", engine='openpyxl')

Unnamed: 0,First Name,Last Name,City,Gender
0,Brandon,James,Miami,M
1,Sean,Hawkins,Denver,M
2,Judy,Day,Los Angeles,F
3,Ashley,Ruiz,San Francisco,F
4,Stephanie,Gomez,Portland,F


- Perceba que foi nessario passar a engine de carregamento como parametro. Ela usa a lib que instalamos anteriormente
- Os parametros do método são muito similares ao `read_csv` e, portanto, não vamos passar muito tempo neles
- Agora, se a planilha possui muliplas abas, por padrão, ele sempre pega a primeira se nada é informado:

In [11]:
pd.read_excel("../data/Data - Multiple Worksheets.xlsx", engine='openpyxl')

Unnamed: 0,First Name,Last Name,City,Gender
0,Brandon,James,Miami,M
1,Sean,Hawkins,Denver,M
2,Judy,Day,Los Angeles,F
3,Ashley,Ruiz,San Francisco,F
4,Stephanie,Gomez,Portland,F


- Porém, podemos informar aba usando o parametro `sheet_name`, que recebe ou o nome da aba ou a posição numerica:

In [12]:
pd.read_excel("../data/Data - Multiple Worksheets.xlsx", engine='openpyxl', sheet_name=1)

Unnamed: 0,First Name,Last Name,City,Gender
0,Parker,Power,Raleigh,F
1,Preston,Prescott,Philadelphia,F
2,Ronaldo,Donaldo,Bangor,M
3,Megan,Stiller,San Francisco,M
4,Bustin,Jieber,Austin,F


- Também podemos passar uma lista de abas
- Neste caso, o pandas vai salvar em um dicionario com os dataframes retornados

In [13]:
data = pd.read_excel("../data/Data - Multiple Worksheets.xlsx", engine='openpyxl', sheet_name=[0, 1])
data

{0:   First Name Last Name           City Gender
 0    Brandon     James          Miami      M
 1       Sean   Hawkins         Denver      M
 2       Judy       Day    Los Angeles      F
 3     Ashley      Ruiz  San Francisco      F
 4  Stephanie     Gomez       Portland      F,
 1:   First Name Last Name           City Gender
 0     Parker     Power        Raleigh      F
 1    Preston  Prescott   Philadelphia      F
 2    Ronaldo   Donaldo         Bangor      M
 3      Megan   Stiller  San Francisco      M
 4     Bustin    Jieber         Austin      F}

In [14]:
data[0]

Unnamed: 0,First Name,Last Name,City,Gender
0,Brandon,James,Miami,M
1,Sean,Hawkins,Denver,M
2,Judy,Day,Los Angeles,F
3,Ashley,Ruiz,San Francisco,F
4,Stephanie,Gomez,Portland,F


- Por fim, se setarmos `sheet_name = None`, ele carrega todas as abas

In [15]:
data = pd.read_excel("../data/Data - Multiple Worksheets.xlsx", engine='openpyxl', sheet_name=None)
data

{'Data 1':   First Name Last Name           City Gender
 0    Brandon     James          Miami      M
 1       Sean   Hawkins         Denver      M
 2       Judy       Day    Los Angeles      F
 3     Ashley      Ruiz  San Francisco      F
 4  Stephanie     Gomez       Portland      F,
 'Data 2':   First Name Last Name           City Gender
 0     Parker     Power        Raleigh      F
 1    Preston  Prescott   Philadelphia      F
 2    Ronaldo   Donaldo         Bangor      M
 3      Megan   Stiller  San Francisco      M
 4     Bustin    Jieber         Austin      F}

## Salvando dados no formato do excel
- A ideia é similar ao csv, porém, aqui podemos escrever abas
- Para isso, vamos fazer um exemplo para explicar:

In [16]:
boys = names[names["Gender"] == "MALE"]
girls = names[names["Gender"] == "FEMALE"]

- Para criar abas, temos que primeiro criar um objeto de escrita do excel:

In [17]:
excel_file = pd.ExcelWriter("../data/names_per_gender.xlsx")

- Agora podemos aderaçar para as abas usando os parametros adequados

In [18]:
boys.to_excel(excel_file, sheet_name="boys", index=False)

In [19]:
boys.to_excel(excel_file, sheet_name="girls", index=False)

- Agora, vamos salvar o arquivo:

In [20]:
excel_file.save() 

AttributeError: 'OpenpyxlWriter' object has no attribute 'save'