# Introdução ao Pandas (Parte 2)

## Imports

In [1]:
import pandas as pd

## Acessando os Dados

Através de operações de `dict` e `list`

In [2]:
nome_cidade = pd.Series(['Campina Grande', 'Patos', 'Sousa'])
populacao = pd.Series([399999, 1499999, 99777])

df_city = pd.DataFrame({ 'Nome da Cidade': nome_cidade, 'População': populacao })
df_city

Unnamed: 0,Nome da Cidade,População
0,Campina Grande,399999
1,Patos,1499999
2,Sousa,99777


In [3]:
type(df_city['Nome da Cidade'])

In [4]:
df_city['Nome da Cidade']

Unnamed: 0,Nome da Cidade
0,Campina Grande
1,Patos
2,Sousa


In [5]:
type(df_city['Nome da Cidade'][1])

str

In [6]:
df_city['Nome da Cidade'][1]

'Patos'

In [7]:
df_city[1]['Nome da Cidade'] # erro ?!

KeyError: 1

In [8]:
type(df_city[0:2])

In [9]:
df_city[0:2] # filtra as linhas, mantendo todas as colunas

Unnamed: 0,Nome da Cidade,População
0,Campina Grande,399999
1,Patos,1499999


In [10]:
df_city[0:1][0:2] # o que acontece aqui? Filtra as linhas e as colunas

Unnamed: 0,Nome da Cidade,População
0,Campina Grande,399999


In [11]:
df_city['Nome da Cidade'] # filtra as colunas, mantendo todas as linhas

Unnamed: 0,Nome da Cidade
0,Campina Grande
1,Patos
2,Sousa


In [12]:
df_city[['Nome da Cidade', 'População']][0:2] # filtra as colunas, filtra as linhas

Unnamed: 0,Nome da Cidade,População
0,Campina Grande,399999
1,Patos,1499999


In [13]:
df_city[0:2][['Nome da Cidade', 'População']] # filtra as colunas, filtra as linhas (mesmo efeito do anterior)

Unnamed: 0,Nome da Cidade,População
0,Campina Grande,399999
1,Patos,1499999


#### **ATIVIDADE 6:** a função `value_counts()` só tem o parâmetro `bins` em `Series`, não tem em `DataFrame`. Escreva abaixo um código que processa o `DataFrame` `df_toy`, extraindo uma `Series` que corresponde a uma coluna com valores contínuos (apenas os 100 primeiros elementos da Serie) e aplique `value_counts()` com o parâmetro `bins` igual a 5 para ver o efeito.

Mais informações sobre a função `value_counts()` em `Series` podem ser encontradas [aqui](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html#pandas.Series.value_counts).

In [15]:
# Caso precise realizar novamente o download e recarregar o dataframe toy_df, basta executar o código abaixo

# Opção 1: caso queira ter o arquivo CSV disponível no sistema de arquivos
# do Colab (que permanecerá disponível para esta sessão)
#
# !wget -O toy_dataset.csv "https://docs.google.com/uc?export=download&id=1ArGT0_cisUUh3QXW9tYM39azFQZDUnow"
# df_toy = pd.read_csv('toy_dataset.csv')
# df_toy

# Opção 2
df_toy = pd.read_csv('https://docs.google.com/uc?export=download&id=1ArGT0_cisUUh3QXW9tYM39azFQZDUnow')
df_toy

Unnamed: 0,Number,City,Gender,Age,Income,Illness
0,1,Dallas,Male,41,40367.0,No
1,2,Dallas,Male,54,45084.0,No
2,3,Dallas,Male,42,52483.0,No
3,4,Dallas,Male,40,40941.0,No
4,5,Dallas,Male,46,50289.0,No
...,...,...,...,...,...,...
149995,149996,Austin,Male,48,93669.0,No
149996,149997,Austin,Male,25,96748.0,No
149997,149998,Austin,Male,26,111885.0,No
149998,149999,Austin,Male,25,111878.0,No


In [27]:
# seu código aqui (solução da atividade)

serie = df_toy["Income"][0:100].value_counts(bins=5)
serie

Unnamed: 0,count
"(47667.4, 58167.2]",36
"(37167.6, 47667.4]",27
"(26667.8, 37167.6]",21
"(58167.2, 68667.0]",10
"(16115.5, 26667.8]",6


#### **ATIVIDADE 7:** Caso seus bins da questão anterior estejam desordenados. Escreva um código modificado que os exibe ordenados, para facilitar a análise.

Saída esperada:

```
(16115.5, 26667.8]     6
(26667.8, 37167.6]    21
(37167.6, 47667.4]    27
(47667.4, 58167.2]    36
(58167.2, 68667.0]    10
Name: Income, dtype: int64
```

Dica: busque na [documentação de Pandas Series](https://pandas.pydata.org/docs/reference/series.html) uma função que realiza a ordenação:


In [29]:
# seu código aqui

pd.Series.sort_index(serie)

Unnamed: 0,count
"(16115.5, 26667.8]",6
"(26667.8, 37167.6]",21
"(37167.6, 47667.4]",27
"(47667.4, 58167.2]",36
"(58167.2, 68667.0]",10


## Acessando com loc e iloc

Vamos criar um novo `data_frame`

In [30]:
data_clima = [
              [25, 76.2, 1.0, 'Chuvoso'],
              [27, 76.2, 0.1, 'Chuvoso'],
              [28, 44.2, 1.1, 'Ensolarado'],
              [27, 56.2, 0.25, 'Nublado'],
              [23, 77.2, 1.1, 'Chuvoso']
            ]

df_clima = pd.DataFrame(data_clima,
                       columns=['Temperatura','Umidade','Precipitacao', 'Tempo'],
                       index=['Segunda-feira','Terça-feira','Quarta-feira', 'Quinta-feira', 'Sexta-feira']
                       )
df_clima

Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Terça-feira,27,76.2,0.1,Chuvoso
Quarta-feira,28,44.2,1.1,Ensolarado
Quinta-feira,27,56.2,0.25,Nublado
Sexta-feira,23,77.2,1.1,Chuvoso


In [31]:
df_clima.loc['Segunda-feira']

Unnamed: 0,Segunda-feira
Temperatura,25
Umidade,76.2
Precipitacao,1.0
Tempo,Chuvoso


In [32]:
type(df_clima.loc['Segunda-feira'])

In [33]:
df_clima.loc[0] #erro

KeyError: 0

In [34]:
df_clima.iloc[0] #OK

Unnamed: 0,Segunda-feira
Temperatura,25
Umidade,76.2
Precipitacao,1.0
Tempo,Chuvoso


In [35]:
type(df_clima.iloc[0])

In [36]:
df_toy.loc[0] #erro ou OK?

Unnamed: 0,0
Number,1
City,Dallas
Gender,Male
Age,41
Income,40367.0
Illness,No


In [37]:
df_clima.loc[['Quinta-feira'], ['Umidade']]

Unnamed: 0,Umidade
Quinta-feira,56.2


In [38]:
df_clima.iloc[3, 1]

np.float64(56.2)

In [39]:
df_clima.loc[['Segunda-feira','Terça-feira','Quinta-feira']] # seleciona determinadas linhas

Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Terça-feira,27,76.2,0.1,Chuvoso
Quinta-feira,27,56.2,0.25,Nublado


In [40]:
df_clima.iloc[[0,1,3]] # seleciona determinadas linhas

Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Terça-feira,27,76.2,0.1,Chuvoso
Quinta-feira,27,56.2,0.25,Nublado


In [41]:
df_clima.loc[['Segunda-feira','Terça-feira','Quinta-feira'],['Temperatura', 'Tempo']] # algumas linhas e algumas colunas

Unnamed: 0,Temperatura,Tempo
Segunda-feira,25,Chuvoso
Terça-feira,27,Chuvoso
Quinta-feira,27,Nublado


In [42]:
df_clima.iloc[[0,1,3],[0,3]] # algumas linhas e algumas colunas

Unnamed: 0,Temperatura,Tempo
Segunda-feira,25,Chuvoso
Terça-feira,27,Chuvoso
Quinta-feira,27,Nublado


In [43]:
df_clima.iloc[:, 0] #todas as linhas de uma coluna

Unnamed: 0,Temperatura
Segunda-feira,25
Terça-feira,27
Quarta-feira,28
Quinta-feira,27
Sexta-feira,23


In [44]:
df_clima.loc[:, ['Temperatura', 'Tempo']] #todas as linhas de determinadas colunas

Unnamed: 0,Temperatura,Tempo
Segunda-feira,25,Chuvoso
Terça-feira,27,Chuvoso
Quarta-feira,28,Ensolarado
Quinta-feira,27,Nublado
Sexta-feira,23,Chuvoso


In [45]:
df_clima.iloc[:, [0,2]] #todas as linhas de determinadas colunas

Unnamed: 0,Temperatura,Precipitacao
Segunda-feira,25,1.0
Terça-feira,27,0.1
Quarta-feira,28,1.1
Quinta-feira,27,0.25
Sexta-feira,23,1.1


#### **ATIVIDADE 8:**

(a) escreva um código para recuperar um df contendo as linhas segunda-feira e quarta-feira, com todas as colunas, utilizando `iloc`.

(b) escreva um código equivalente usando `loc`.

In [47]:
# (a) seu código aqui
df_clima.iloc[[0, 2], :]


Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Quarta-feira,28,44.2,1.1,Ensolarado


In [49]:
# (b) seu código aqui

df_clima.loc[["Segunda-feira", "Quarta-feira"], :]

Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Quarta-feira,28,44.2,1.1,Ensolarado


## Acessando com slice

Formato start:stop:step

In [50]:
# sem step
linhas=[0,4]
df_clima.iloc[linhas, 1:3]

Unnamed: 0,Umidade,Precipitacao
Segunda-feira,76.2,1.0
Sexta-feira,77.2,1.1


In [51]:
# com step nas linhas
df_clima.iloc[0:5:2, 0:3]

Unnamed: 0,Temperatura,Umidade,Precipitacao
Segunda-feira,25,76.2,1.0
Quarta-feira,28,44.2,1.1
Sexta-feira,23,77.2,1.1


In [52]:
# Usando labels (com .loc[])
df_clima.loc['Segunda-feira':'Sexta-feira':2, 'Temperatura':'Umidade']

Unnamed: 0,Temperatura,Umidade
Segunda-feira,25,76.2
Quarta-feira,28,44.2
Sexta-feira,23,77.2


## Seleção com expressões booleanas

In [53]:
st = df_clima['Temperatura']
st

Unnamed: 0,Temperatura
Segunda-feira,25
Terça-feira,27
Quarta-feira,28
Quinta-feira,27
Sexta-feira,23


In [54]:
st[st>26]

Unnamed: 0,Temperatura
Terça-feira,27
Quarta-feira,28
Quinta-feira,27


In [55]:
df_clima2 = df_clima[['Temperatura', 'Umidade', 'Precipitacao']]
df_clima2

Unnamed: 0,Temperatura,Umidade,Precipitacao
Segunda-feira,25,76.2,1.0
Terça-feira,27,76.2,0.1
Quarta-feira,28,44.2,1.1
Quinta-feira,27,56.2,0.25
Sexta-feira,23,77.2,1.1


In [56]:
df_clima2[df_clima2 > 1]

Unnamed: 0,Temperatura,Umidade,Precipitacao
Segunda-feira,25,76.2,
Terça-feira,27,76.2,
Quarta-feira,28,44.2,1.1
Quinta-feira,27,56.2,
Sexta-feira,23,77.2,1.1


In [57]:
df_clima2[df_clima2['Temperatura'] > 26]

Unnamed: 0,Temperatura,Umidade,Precipitacao
Terça-feira,27,76.2,0.1
Quarta-feira,28,44.2,1.1
Quinta-feira,27,56.2,0.25


In [58]:
df_clima2[(df_clima2['Temperatura'] > 26) & (df_clima2['Precipitacao'] < 1)] # erro se não usar parênteses

Unnamed: 0,Temperatura,Umidade,Precipitacao
Terça-feira,27,76.2,0.1
Quinta-feira,27,56.2,0.25


In [59]:
df_clima2.query('Temperatura > 26 & Precipitacao < 1')

Unnamed: 0,Temperatura,Umidade,Precipitacao
Terça-feira,27,76.2,0.1
Quinta-feira,27,56.2,0.25


In [60]:
df_clima[df_clima['Tempo'] == 'Nublado']['Temperatura']

Unnamed: 0,Temperatura
Quinta-feira,27


In [61]:
df_clima['Temperatura'][df_clima['Tempo'] == 'Nublado']

Unnamed: 0,Temperatura
Quinta-feira,27


In [62]:
df_clima[df_clima['Tempo'].str.startswith('C')]

Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Terça-feira,27,76.2,0.1,Chuvoso
Sexta-feira,23,77.2,1.1,Chuvoso


In [63]:
df_clima[df_clima['Tempo'].isin(['Chuvoso', 'Ensolarado'])]

Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Segunda-feira,25,76.2,1.0,Chuvoso
Terça-feira,27,76.2,0.1,Chuvoso
Quarta-feira,28,44.2,1.1,Ensolarado
Sexta-feira,23,77.2,1.1,Chuvoso


#### **ATIVIDADE 9:**

Faça filtragem no `df_clima` de forma a retornar a Umidade de todos os registros cuja Temperatura seja 23, 27 ou 28; e o Tempo comece com 'C'.

In [69]:
# seu código aqui
df_clima[(df_clima["Temperatura"].isin([23,27,28])) & df_clima["Tempo"].str.startswith("C")]


Unnamed: 0,Temperatura,Umidade,Precipitacao,Tempo
Terça-feira,27,76.2,0.1,Chuvoso
Sexta-feira,23,77.2,1.1,Chuvoso


## Manipulação de Linhas e Colunas (Adição, Remoção, etc)

In [70]:
# criando o data frame

d = {'primeira coluna' : pd.Series([11, 22, 32], index=['a', 'b', 'c']),
   'segunda coluna' : pd.Series([11, 22, 33, 44], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)

In [71]:
# adicionando nova coluna
df['terceira coluna']=pd.Series([100,200,300],index=['a','b','c'])
df

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna
a,11.0,11,100.0
b,22.0,22,200.0
c,32.0,33,300.0
d,,44,


In [72]:
# criando coluna a partir de outras existentes

df['quarta coluna'] = df['primeira coluna'] + df['terceira coluna']
df

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna,quarta coluna
a,11.0,11,100.0,111.0
b,22.0,22,200.0,222.0
c,32.0,33,300.0,332.0
d,,44,,


In [73]:
# removendo uma coluna

df.pop('quarta coluna')
df

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna
a,11.0,11,100.0
b,22.0,22,200.0
c,32.0,33,300.0
d,,44,


In [74]:
df.drop('a')

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna
b,22.0,22,200.0
c,32.0,33,300.0
d,,44,


In [75]:
df # o que aconteceu ? Não removeu, ele somente retornou o dataframe sem a coluna

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna
a,11.0,11,100.0
b,22.0,22,200.0
c,32.0,33,300.0
d,,44,


In [76]:
# drop também pode ser usado para colunas
df = df.drop('segunda coluna', axis=1)
df

Unnamed: 0,primeira coluna,terceira coluna
a,11.0,100.0
b,22.0,200.0
c,32.0,300.0
d,,


In [85]:
df2 = pd.DataFrame([[50, 60], [70, 80]], columns = ['primeira coluna','terceira coluna'])
df = pd.concat([df, df2], ignore_index=True)
df

Unnamed: 0,primeira coluna,terceira coluna,segunda coluna
0,11.0,100.0,
1,22.0,200.0,
2,32.0,300.0,
3,,,
4,50.0,60.0,
5,70.0,80.0,
6,90.0,,99.0
7,66.0,,88.0
8,50.0,60.0,
9,70.0,80.0,


In [86]:
df2 = pd.DataFrame([[90, 99], [66, 88]], columns = ['primeira coluna','segunda coluna'])
df = pd.concat([df, df2], ignore_index=True)
df

Unnamed: 0,primeira coluna,terceira coluna,segunda coluna
0,11.0,100.0,
1,22.0,200.0,
2,32.0,300.0,
3,,,
4,50.0,60.0,
5,70.0,80.0,
6,90.0,,99.0
7,66.0,,88.0
8,50.0,60.0,
9,70.0,80.0,


####**ATIVIDADE 10:**

O dataframe da célula anterior ficou com as colunas bagunçadas (primeira/terceira/segunda).

a) Reorganize as colunas.

b) O índice das linhas também ficaram bagunçados! Reorganize-os também para ficar com numeração 0,1,2,...,n. Dica: use o método reset_index(). Depois de usar o método, veja se o dataframe ficou da forma que você esperava. Se não tiver ficado, ajuste-o.

In [91]:
# a) seu código aqui

df = df[["primeira coluna", "segunda coluna", "terceira coluna"]]
df

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna
0,11.0,,100.0
1,22.0,,200.0
2,32.0,,300.0
3,,,
4,50.0,,60.0
5,70.0,,80.0
6,90.0,99.0,
7,66.0,88.0,
8,50.0,,60.0
9,70.0,,80.0


In [92]:
# b) seu código aqui

df.reindex()

Unnamed: 0,primeira coluna,segunda coluna,terceira coluna
0,11.0,,100.0
1,22.0,,200.0
2,32.0,,300.0
3,,,
4,50.0,,60.0
5,70.0,,80.0
6,90.0,99.0,
7,66.0,88.0,
8,50.0,,60.0
9,70.0,,80.0


Isso é só um pouquinho do que o Pandas oferece no que se trata de indexação e seleção. A API do pandas é muito vasta em relação a isso.
Para mais informações, [veja aqui](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).