In [1]:
import pandas as pd

## Indexação no Pandas

In [3]:
# leitura dos dados csv

df = pd.read_csv("./temperature.csv")
df

Unnamed: 0,date,temperatura,classification
0,2020-01-01,29.1,quente
1,2020-02-01,31.2,muito quente
2,2020-03-01,28.5,quente
3,2020-04-01,28.0,quente
4,2020-05-01,24.0,confortavel
5,2020-06-01,20.0,frio


### Indexação direta

In [13]:
# Seleção de uma coluna

df['date']

0    2020-01-01
1    2020-02-01
2    2020-03-01
3    2020-04-01
4    2020-05-01
5    2020-06-01
Name: date, dtype: object

In [16]:
type(df)

pandas.core.frame.DataFrame

In [15]:
# tipo

type(df['date'])

pandas.core.series.Series

In [14]:
# Seleção de mais de uma coluna

df[['date', 'classification']]

Unnamed: 0,date,classification
0,2020-01-01,quente
1,2020-02-01,muito quente
2,2020-03-01,quente
3,2020-04-01,quente
4,2020-05-01,confortavel
5,2020-06-01,frio


In [18]:
# tipo

type(df[['date', 'classification']])

pandas.core.frame.DataFrame

### Método Iloc() (indexacao por indice)

In [21]:
df.iloc?

In [26]:
# selecionado todas as linhas e a coluna 1
# coluna 1: temperatura

df.iloc[:, 1]

0    29.1
1    31.2
2    28.5
3    28.0
4    24.0
5    20.0
Name: temperatura, dtype: float64

In [41]:
# valores da primeira linha

df.iloc[0]

date              2020-01-01
temperatura             29.1
classification        quente
Name: 0, dtype: object

In [60]:
# indexacao por indice de multiplas colunas
# Todos as linhas (valores) (:) das colunas de 1 à 3 - 1 (1:3)

df.iloc[:, 1:3]

Unnamed: 0,temperatura,classification
0,29.1,quente
1,31.2,muito quente
2,28.5,quente
3,28.0,quente
4,24.0,confortavel
5,20.0,frio


In [62]:
# indexacao por indice de multiplas colunas, e uma linha

df.iloc[4, 1:3]

temperatura              24.0
classification    confortavel
Name: 4, dtype: object

In [61]:
# indexacao por indice de multiplas colunas, e múltiplas linhas

df.iloc[1:3, 1:3]

Unnamed: 0,temperatura,classification
1,31.2,muito quente
2,28.5,quente


### Método loc() (indexaçãoo por nome)

In [76]:
# selecionando todas as linhas da coluna temperatura

df.loc[:, 'temperatura']

0    29.1
1    31.2
2    28.5
3    28.0
4    24.0
5    20.0
Name: temperatura, dtype: float64

In [75]:
# selecionando somente uma linha da coluna temperatura

df.loc[4, 'temperatura']

24.0

In [74]:
# selecionando somente uma linha das colunas date, temperatura

df.loc[4, ['date', 'temperatura']]

date           2020-05-01
temperatura          24.0
Name: 4, dtype: object

In [73]:
# selecionando varias linhas das colunas date, temperatura

df.loc[1:4, ['date', 'temperatura']]

Unnamed: 0,date,temperatura
1,2020-02-01,31.2
2,2020-03-01,28.5
3,2020-04-01,28.0
4,2020-05-01,24.0


In [72]:
# indexacao por nome de multiplas colunas

df.loc[:, 'temperatura':]

Unnamed: 0,temperatura,classification
0,29.1,quente
1,31.2,muito quente
2,28.5,quente
3,28.0,quente
4,24.0,confortavel
5,20.0,frio


### Indexação Booleana (operações de filtragem de dados)

In [77]:
df

Unnamed: 0,date,temperatura,classification
0,2020-01-01,29.1,quente
1,2020-02-01,31.2,muito quente
2,2020-03-01,28.5,quente
3,2020-04-01,28.0,quente
4,2020-05-01,24.0,confortavel
5,2020-06-01,20.0,frio


In [78]:
df.dtypes

date               object
temperatura       float64
classification     object
dtype: object

In [80]:
# transformando o tipo da coluna date para datetime

df['date'] = pd.to_datetime(df['date'])

In [81]:
df.dtypes

date              datetime64[ns]
temperatura              float64
classification            object
dtype: object

In [83]:
# setando coluna como índice

# setando o indice
df = df.set_index('date')

In [84]:
df

Unnamed: 0_level_0,temperatura,classification
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,29.1,quente
2020-02-01,31.2,muito quente
2020-03-01,28.5,quente
2020-04-01,28.0,quente
2020-05-01,24.0,confortavel
2020-06-01,20.0,frio


In [85]:
df.dtypes

temperatura       float64
classification     object
dtype: object

In [92]:
# indexacao booleana
# selecéo de exemplos acima de 25 graus

cond = df['temperatura'] >= 25
filtro = df[cond]

print('condição:', cond)
print('\nfiltro:', filtro)

condição: date
2020-01-01     True
2020-02-01     True
2020-03-01     True
2020-04-01     True
2020-05-01    False
2020-06-01    False
Name: temperatura, dtype: bool

filtro:             temperatura classification
date                                  
2020-01-01         29.1         quente
2020-02-01         31.2   muito quente
2020-03-01         28.5         quente
2020-04-01         28.0         quente


In [95]:
# indexacao booleana considerando datetime (somente válida para datetimes)
# selecdo de entradas até Marco de 2620

df[df.index <= '2020-03-01']

Unnamed: 0_level_0,temperatura,classification
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,29.1,quente
2020-02-01,31.2,muito quente
2020-03-01,28.5,quente


In [103]:
# indexacao booleana considerando datetime
# seleção de entradas até Marco de 2620 e
# slice na coluna classification (loc(), por nome)

cond = df.index <= '2020-03-01'
df.loc[cond, ['classification']]

Unnamed: 0_level_0,classification
date,Unnamed: 1_level_1
2020-01-01,quente
2020-02-01,muito quente
2020-03-01,quente


In [104]:
# indexacao booleana considerando datetime
# seleção de entradas até Marco de 2620 e
# slice na coluna classification (iloc(), por índice)

cond = df.index <= '2020-03-01'
df.iloc[cond, [-1]]

Unnamed: 0_level_0,classification
date,Unnamed: 1_level_1
2020-01-01,quente
2020-02-01,muito quente
2020-03-01,quente
