In [1]:
import pandas as pd

# Indexação, seleção e filtragem

|Operação                                    | Sintaxe             | Resultado    | 
|:---------:                                 |:-------------------:|:------------:|
|Seleciona uma coluna                        | ``df[col]``         | ``Series``   |
|Seleciona duas colunas                      | ``df[[col1, col2]]``| ``DataFrame``|
|Seleciona uma linha usando rótulo           | ``df.loc[rotulo]``  | ``Series``   |
|Seleciona uma linha usando inteiro          | ``df.iloc[i]``      | ``Series``   |
|Recorta o dataframe da linha 2 a 5          | ``df[2:5]``        |``DataFrame`` |
|Seleciona linhas usando um vetor booleano   | ``df[vetor_bool]``    | ``DataFrame``|

In [2]:
popBrasilDic = {
    'Amazonas': 3938336,
    'São Paulo': 44396484,
    'Bahia': 15203934,
    'Minas Gerais': 20869101,
    'Roraima': 505665,
    'Distrito Federal': 2914830
}

areaBrasilDic = {
    'Amazonas': 1559167,
    'São Paulo': 248219,
    'Bahia': 564760,
    'Minas Gerais': 586521,
    'Roraima': 223644,
    'Distrito Federal': 5760
}

estadosBrasil = pd.DataFrame({'População': popBrasilDic,
                       'Área': areaBrasilDic})

estadosBrasil['Densidade'] = estadosBrasil['População'] / estadosBrasil['Área']

estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,2.525923
São Paulo,44396484,248219,178.860136
Bahia,15203934,564760,26.921053
Minas Gerais,20869101,586521,35.581166
Roraima,505665,223644,2.261026
Distrito Federal,2914830,5760,506.046875


## Selecionando uma coluna

In [3]:
estadosBrasil['Área']

Amazonas            1559167
São Paulo            248219
Bahia                564760
Minas Gerais         586521
Roraima              223644
Distrito Federal       5760
Name: Área, dtype: int64

In [4]:
estadosBrasil.Área

Amazonas            1559167
São Paulo            248219
Bahia                564760
Minas Gerais         586521
Roraima              223644
Distrito Federal       5760
Name: Área, dtype: int64

## Selecionando duas colunas

In [5]:
estadosBrasil[['População','Área']]

Unnamed: 0,População,Área
Amazonas,3938336,1559167
São Paulo,44396484,248219
Bahia,15203934,564760
Minas Gerais,20869101,586521
Roraima,505665,223644
Distrito Federal,2914830,5760


## Selecionando duas colunas invertendo a ordem

In [6]:
estadosBrasil[['Área','População']]

Unnamed: 0,Área,População
Amazonas,1559167,3938336
São Paulo,248219,44396484
Bahia,564760,15203934
Minas Gerais,586521,20869101
Roraima,223644,505665
Distrito Federal,5760,2914830


## Selecionando uma linha usando o "nome"

In [7]:
estadosBrasil.loc['Minas Gerais']

População    2.086910e+07
Área         5.865210e+05
Densidade    3.558117e+01
Name: Minas Gerais, dtype: float64

## Selecionando uma linha usando o índice

In [8]:
estadosBrasil.iloc[3]

População    2.086910e+07
Área         5.865210e+05
Densidade    3.558117e+01
Name: Minas Gerais, dtype: float64

## "Recortando" o dataframe a partir de alguns nomes

In [9]:
estadosBrasil['Bahia':'Roraima']

Unnamed: 0,População,Área,Densidade
Bahia,15203934,564760,26.921053
Minas Gerais,20869101,586521,35.581166
Roraima,505665,223644,2.261026


## Filtrando o dataframe com vetor booleano

In [10]:
vetor_bool = estadosBrasil['Área'] > 500000
vetor_bool

Amazonas             True
São Paulo           False
Bahia                True
Minas Gerais         True
Roraima             False
Distrito Federal    False
Name: Área, dtype: bool

In [11]:
estadosBrasil[estadosBrasil['Área'] > 500000]

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,2.525923
Bahia,15203934,564760,26.921053
Minas Gerais,20869101,586521,35.581166


## Transpondo o dataframe

In [12]:
estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,2.525923
São Paulo,44396484,248219,178.860136
Bahia,15203934,564760,26.921053
Minas Gerais,20869101,586521,35.581166
Roraima,505665,223644,2.261026
Distrito Federal,2914830,5760,506.046875


In [13]:
estadosBrasil.T

Unnamed: 0,Amazonas,São Paulo,Bahia,Minas Gerais,Roraima,Distrito Federal
População,3938336.0,44396480.0,15203930.0,20869100.0,505665.0,2914830.0
Área,1559167.0,248219.0,564760.0,586521.0,223644.0,5760.0
Densidade,2.525923,178.8601,26.92105,35.58117,2.261026,506.0469


In [16]:
pd.options.display.float_format = '{:.2f}'.format

In [17]:
estadosBrasil.T

Unnamed: 0,Amazonas,São Paulo,Bahia,Minas Gerais,Roraima,Distrito Federal
População,3938336.0,44396484.0,15203934.0,20869101.0,505665.0,2914830.0
Área,1559167.0,248219.0,564760.0,586521.0,223644.0,5760.0
Densidade,2.53,178.86,26.92,35.58,2.26,506.05


## Acessando os valores do dataframe usando ``values``

In [18]:
estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,2.53
São Paulo,44396484,248219,178.86
Bahia,15203934,564760,26.92
Minas Gerais,20869101,586521,35.58
Roraima,505665,223644,2.26
Distrito Federal,2914830,5760,506.05


In [19]:
estadosBrasil.values

array([[3.93833600e+06, 1.55916700e+06, 2.52592314e+00],
       [4.43964840e+07, 2.48219000e+05, 1.78860136e+02],
       [1.52039340e+07, 5.64760000e+05, 2.69210532e+01],
       [2.08691010e+07, 5.86521000e+05, 3.55811659e+01],
       [5.05665000e+05, 2.23644000e+05, 2.26102645e+00],
       [2.91483000e+06, 5.76000000e+03, 5.06046875e+02]])

In [20]:
estadosBrasil.values[0]

array([3.93833600e+06, 1.55916700e+06, 2.52592314e+00])

In [21]:
estadosBrasil.values[1]

array([4.43964840e+07, 2.48219000e+05, 1.78860136e+02])

## Acessando os valores do dataframe usando ``loc``

In [22]:
estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,2.53
São Paulo,44396484,248219,178.86
Bahia,15203934,564760,26.92
Minas Gerais,20869101,586521,35.58
Roraima,505665,223644,2.26
Distrito Federal,2914830,5760,506.05


In [23]:
estadosBrasil.loc[estadosBrasil['Densidade'] < 10, 'Densidade']

Amazonas   2.53
Roraima    2.26
Name: Densidade, dtype: float64

In [24]:
estadosBrasil.loc[estadosBrasil['Densidade'] < 10, 'Densidade'] = 9000

In [25]:
estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,9000.0
São Paulo,44396484,248219,178.86
Bahia,15203934,564760,26.92
Minas Gerais,20869101,586521,35.58
Roraima,505665,223644,9000.0
Distrito Federal,2914830,5760,506.05


## Acessando os valores do dataframe usando ``iloc``

In [37]:
estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,9000.0
São Paulo,44396484,248219,178.86
Bahia,15203934,564760,26.92
Minas Gerais,20869101,586521,35.58
Roraima,505665,223644,9000.0
Distrito Federal,2914830,5760,506.05


In [26]:
estadosBrasil.iloc[2]

População   15203934.00
Área          564760.00
Densidade         26.92
Name: Bahia, dtype: float64

In [27]:
estadosBrasil.iloc[2,2]

26.921053190735886

In [28]:
estadosBrasil.iloc[2,2] = 10000

In [29]:
estadosBrasil

Unnamed: 0,População,Área,Densidade
Amazonas,3938336,1559167,9000.0
São Paulo,44396484,248219,178.86
Bahia,15203934,564760,10000.0
Minas Gerais,20869101,586521,35.58
Roraima,505665,223644,9000.0
Distrito Federal,2914830,5760,506.05
