# Indexação no pandas

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("https://pycourse.s3.amazonaws.com/temperature.csv")
df

Unnamed: 0,date,temperatura,classification
0,2020-01-01,29.1,quente
1,2020-02-01,31.2,muito quente
2,2020-03-01,28.5,quente
3,2020-04-01,28.0,quente
4,2020-05-01,24.0,confortavel
5,2020-06-01,20.0,frio


In [3]:
df.head()

Unnamed: 0,date,temperatura,classification
0,2020-01-01,29.1,quente
1,2020-02-01,31.2,muito quente
2,2020-03-01,28.5,quente
3,2020-04-01,28.0,quente
4,2020-05-01,24.0,confortavel


### Seleção de uma coluna

In [4]:
df['date']

0    2020-01-01
1    2020-02-01
2    2020-03-01
3    2020-04-01
4    2020-05-01
5    2020-06-01
Name: date, dtype: object

### Tipo

In [5]:
type(df['date'])

pandas.core.series.Series

### Seleção de múltiplas colunas

In [6]:
df[['date', 'classification']]

Unnamed: 0,date,classification
0,2020-01-01,quente
1,2020-02-01,muito quente
2,2020-03-01,quente
3,2020-04-01,quente
4,2020-05-01,confortavel
5,2020-06-01,frio


In [7]:
# Como tem mais de um atributo, o tipo vem como dataframe 
type(df[['date', 'classification']])

pandas.core.frame.DataFrame

## Indexação por índice

### df.iloc  
</br>
</br>

Acessando todas as linhas e a coluna 1 (temperatura)

In [8]:
df.iloc[:, 1]

0    29.1
1    31.2
2    28.5
3    28.0
4    24.0
5    20.0
Name: temperatura, dtype: float64

## Indexação por nome

### df.loc  
</br>
</br>

Acessando todas as linhas e a coluna 1 (temperatura)

In [9]:
df.loc[:, 'temperatura']

0    29.1
1    31.2
2    28.5
3    28.0
4    24.0
5    20.0
Name: temperatura, dtype: float64

## Indexação por índice de múltiplas colunas

In [10]:
# Vai pegar das colunas 1 até 2
# df.iloc[linha, coluna]
df.iloc[:, 1:3]

Unnamed: 0,temperatura,classification
0,29.1,quente
1,31.2,muito quente
2,28.5,quente
3,28.0,quente
4,24.0,confortavel
5,20.0,frio


## Indexação por nome de múltiplas colunas

In [11]:
# passa uma lista com as colunas que quero pegar
df.loc[:, ['temperatura', 'classification']]

Unnamed: 0,temperatura,classification
0,29.1,quente
1,31.2,muito quente
2,28.5,quente
3,28.0,quente
4,24.0,confortavel
5,20.0,frio


In [13]:
# Acessa do nome temperatura para frente, em diante
df.loc[:, 'temperatura':]

Unnamed: 0,temperatura,classification
0,29.1,quente
1,31.2,muito quente
2,28.5,quente
3,28.0,quente
4,24.0,confortavel
5,20.0,frio


In [15]:
df.dtypes

date               object
temperatura       float64
classification     object
dtype: object

## Transformando o tipo da coluna date para datetime

In [17]:
df['date'] = pd.to_datetime(df['date'])
df.dtypes

date              datetime64[ns]
temperatura              float64
classification            object
dtype: object

## Setando o índice

In [18]:
df = df.set_index('date')

## Visualizando o índice

In [19]:
df

Unnamed: 0_level_0,temperatura,classification
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,29.1,quente
2020-02-01,31.2,muito quente
2020-03-01,28.5,quente
2020-04-01,28.0,quente
2020-05-01,24.0,confortavel
2020-06-01,20.0,frio


## 5 primeiras linhas
#### Quando não passamos nada dentro do head, o valor assumido como default é o 5

In [22]:
df.head()

Unnamed: 0_level_0,temperatura,classification
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,29.1,quente
2020-02-01,31.2,muito quente
2020-03-01,28.5,quente
2020-04-01,28.0,quente
2020-05-01,24.0,confortavel


## Indexação booleana
### Seleção de exemplos acima de 25 graus

In [23]:
df[df['temperatura'] >= 25]

Unnamed: 0_level_0,temperatura,classification
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,29.1,quente
2020-02-01,31.2,muito quente
2020-03-01,28.5,quente
2020-04-01,28.0,quente


### Seleção de entradas até Março de 2020

In [24]:
df[df.index <= '2020-03-01']

Unnamed: 0_level_0,temperatura,classification
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,29.1,quente
2020-02-01,31.2,muito quente
2020-03-01,28.5,quente


### Seleção de entradas até Março de 2020 e slice da coluna classification

In [25]:
df.loc[df.index <= '2020-03-01', ['classification']]

Unnamed: 0_level_0,classification
date,Unnamed: 1_level_1
2020-01-01,quente
2020-02-01,muito quente
2020-03-01,quente


In [27]:
df.iloc[df.index <= '2020-03-01', [-1]]

Unnamed: 0_level_0,classification
date,Unnamed: 1_level_1
2020-01-01,quente
2020-02-01,muito quente
2020-03-01,quente
