In [1]:
import pandas as pd
import random as rd

# 🎯 Indexação básica para Series e DataFrame

##  👾 <font size=5>Series<font>

Quando estavamos estudando como criar uma Series vimos que uma Series possui 3 tipos de indices: **Indice negativo**, **Indice padão** e **Index
label**. Quando não definimos o index label podemos selecionar elementos de uma Series apenas usando o indice padrão. Já para selecionar intervalos podemos utilizar o indice padrão ou o indice negativo.

In [4]:
se = pd.Series('Audax Spike Mike Xuxa Ana'.split())

# selecionando um único elemento
print(se[2], '\n\n')

# selecionando elementos especificos
print(se[[2, 4]], '\n\n')

# selecionando um intervalo de elementos
print(se[-3:-1])

Mike 


2    Mike
4     Ana
dtype: object 


2    Mike
3    Xuxa
dtype: object


 <br>

Quando definimos os index labels de uma Series como valores inteiros ou float, só poderemos acessar os itens dessa Series utilizando o index label. Para selecionar intervalos podemos utilizar o index label ou indice negativo.

In [4]:
se = pd.Series('Audax Spike Mike Xuxa Ana'.split(), index=[10, 20, 30, 40, 50])

# selecionando um único elemento
print(se[10], '\n\n')

# selecionando elementos especificos
print(se[[10, 30]], '\n\n')

# selecionando um intervalo de elementos
print(se[-3:-1])

Audax 


10    Audax
30     Mike
dtype: object 


30    Mike
40    Xuxa
dtype: object


 <br>

Por fim, quando definimos os index labels de uma Series como strings ou outro tipo de dado que não seja float ou int, poderemos acessar os elementos da Series utilizando os 3 tipos de indice. Para selecionar intervalos podemos também utilizar os 3 tipos de indice.

In [5]:
se = pd.Series('Audax Spike Mike Xuxa Ana'.split(), index='a b c d e'.split())

# selecionando um único elemento
print(se['a'])
print(se[0])
print(se[-5])

Audax
Audax
Audax


In [6]:
# selecionando elementos especificos
print(se[['a', 'b']], '\n')
print(se[[0, 1]], '\n')
print(se[[-5, -4]])

a    Audax
b    Spike
dtype: object 

a    Audax
b    Spike
dtype: object 

a    Audax
b    Spike
dtype: object


In [53]:
# selecionando um intervalo de elementos
# perceba que o elemento que se encontra na posição 'd' é selecionado
print(se['c':'d'], '\n')
print(se[2:4], '\n')
print(se[-3:-1])

c    Mike
d    Xuxa
dtype: object 

c    Mike
d    Xuxa
dtype: object 

c    Mike
d    Xuxa
dtype: object


 <br>

O **range index** (index default da Series) deixa a Series ocupando menos espaço na memória do que o **int64 index** (tipo de indice de uma lista e outras iterables), pois em vez de armazenar o indice de cada elemento na memória ele guarada apenas o start, stop e o step, ou seja, o **primeiro indice**, o **ultimo indice** e a **razão entre os indices**.

In [45]:
import sys

# criando uma series com o indice range index
s1 = pd.Series([x for x in range(1000000)])
print(f'Tamanho de s1 em bytes: {sys.getsizeof(s1)}')

# criando uma series com o indice int64 index
s2 = pd.Series([x for x in range(1000000)], index=[x for x in range(1000000)])
print(f'Tamanho de s2 em bytes: {sys.getsizeof(s2)}')

Tamanho de s1 em bytes: 8000144
Tamanho de s2 em bytes: 16000016


 <br>

É possivel que uma Series tenha elementos com o mesmo indice, devido o index label aceitar duplicatas.

In [47]:
# criando uma Series com alguns indices repetidos
se = pd.Series('Audax Spike Mike Xuxa Ana'.split(), index='a a a d e'.split())

# selecionando todos os elementos que correnspodem ao indice 'a'
se['a']

a    Audax
a    Spike
a     Mike
dtype: object

 <br>

Sobrescrevendo um elemento de uma Series.

In [46]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70])

# sobrescrevendo o 1° elemento
se[0] = 999
print(se)

0    999
1     20
2     30
3     40
4     50
5     60
6     70
dtype: int64


 <br>

Sobrescrevendo elementos especificos de uma Series.

In [48]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70])

# sobrescrevendo os elementos
se[[0, 1, 2]] = 999
print(se)

0    999
1    999
2    999
3     40
4     50
5     60
6     70
dtype: int64


 <br>

Sobrescrevendo intervalos de uma Series.

In [49]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70])

# sobrescrevendo o intervalo
se[4:] = 999
print(se)

0     10
1     20
2     30
3     40
4    999
5    999
6    999
dtype: int64


 <br>

Sobrescrevendo uma Series completa.


In [51]:
# criando a Series
se = pd.Series([10, 20, 30, 40, 50, 60, 70], index='A B C D E F G'.split())

# sobrescrevendo os elementos
novos_valores = [x for x in range(7)]
se[:] = novos_valores
print(se)

# note que somente os valores foram sobrescritos, os indices continuam os mesmos 

A    0
B    1
C    2
D    3
E    4
F    5
G    6
dtype: int64


 <br>

Trocando elementos de uma Series através de outra Series.

In [53]:
x = pd.Series([10, 20, 30, 40])
y = pd.Series(['A', 'B', 'C', 'D'])

# os elementos que estão na posição 0 e 2 de x vão ser substituidos pelos elementos que estão na posição 0 e 2 de y
x.loc[[0, 2]] = y

print(x)

0     A
1    20
2     C
3    40
dtype: object


<br>

##  👾 <font size=5>DataFrame<font>

Como sabemos, um DataFrame é composto por uma ou mais Series. Então, nosso objetivo é aprender como selecionar essas Series.

In [5]:
# criando um df

dic = {'nome':['huan', 'luigi', 'lucas'],
       'idade':[18, 19, 18],
       'altura':[1.80, 1.78, 1.82]}

df = pd.DataFrame(data=dic)
df

Unnamed: 0,nome,idade,altura
0,huan,18,1.8
1,luigi,19,1.78
2,lucas,18,1.82


Vamos selecionar a coluna do DataFrame referente aos nomes. Uma Series será retornado.

In [25]:
print(df['nome'])
type(df['nome'])

0     huan
1    luigi
2    lucas
Name: nome, dtype: object


pandas.core.series.Series

É possivel selecionar mais de uma coluna, no entanto, o retorno será um DataFrame. Para fazer essa operação precisamos passar um lista com os nomes das colunas que queremos selecionar.

In [9]:
df[['nome', 'altura']]

Unnamed: 0,nome,altura
0,huan,1.8
1,luigi,1.78
2,lucas,1.82


<br>

# 🎯 Indexação com métodos para Series e DataFrame

<br>
No pandas temos duas maneiras muito interessantes de selecionar os dados que queremos, seja de um DataFrame ou uma Series.

- loc
- iloc

Basicamente os dois métodos servem para resgatar dados, mas possuem características distintas na hora que vamos utilizá-los. Vamos entender agora quais são as particularidades deles e os casos de uso para cada um.<br><br>

##  👾 <font size=5>loc<font>

###  🐥 <font size=4>Selecionando valores de uma Series<font>

Quando a Series tiver como indice o **range index**, o método loc só poderá selecionar elementos da Series através do range index.  
Quando a Series tiver como indice o **index label**, o método loc só poderá selecionar elementos da Series através do index label. 
 

Vamos criar uma Series para usar nos exemplos seguintes.

In [6]:
x = pd.Series(data='A B C D E F G H I J'.split())
x

0    A
1    B
2    C
3    D
4    E
5    F
6    G
7    H
8    I
9    J
dtype: object

Selecioando um elemento.

In [83]:
x.loc[0]

'A'

Selecionando elementos específicos.

In [61]:
x.loc[[0, 2, 4]]

0    A
2    C
4    E
dtype: object

Selecionando um intervalo de elementos. 

In [66]:
x.loc[3:5]  # o elemento que se encontra no indice 5 será selecionado também

3    D
4    E
5    F
dtype: object

Selecionando e trocando os elementos da Series.

In [36]:
x.loc[0:3] = 'A'
x

0    A
1    A
2    A
3    A
4    E
5    F
6    G
7    H
8    I
9    J
dtype: object

###  🐥 <font size=4>Selecionando valores de um DataFrame<font>

O método loc nos possibilita selecionar linhas e colunas de um DataFrame com mais eficiência. A sintaxe do método loc para poder fazer operações com um DataFrame é:<br><br>

# <center>loc [ <font color=blue>linha<font> : <font color=blue>coluna<font> <font color=black>]<font><center>

Vamos criar um DataFrame para usar nos exemplos.

In [10]:
nomes = ['Enzo Gabriel', 'João Miguel',
         'Luiz Felipe', 'Arthur Miguel',
         'João Guilherme', 'Davi Luiz', 
         'Davi Lucas','João Oliveira',
         'Davi Silva', 'Anthony Lima', 
         'Pedro Lucas', 'Luiz Miguel', 
         'João Vitor', 'Pedro Miguel']

idades = [13, 19, 16, 15, 
          15, 13, 17, 18, 
          19, 11, 14, 13, 
          13, 18]

sexo = ['M', 'M', 'M', 'M', 
        'M', 'M', 'M', 'M', 
        'M', 'M', 'M', 'M', 
        'M', 'M']

df = pd.DataFrame({'nome':nomes, 'idade':idades, 'sex':sexo})

Sempre quando formos selecionar algo do df devemos informar quais linhas ou colunas devem ser selecionada. Se tentarmos passar só a informação da linha ou da coluna um erro será retornado.

In [13]:
# Selecionando uma coluna e todas as linhas
df.loc[:,'idade']

0     13
1     19
2     16
3     15
4     15
5     13
6     17
7     18
8     19
9     11
10    14
11    13
12    13
13    18
Name: idade, dtype: int64

In [15]:
# Selecionando mais de uma coluna e somente as 5 primeiras linhas
df.loc[:4, ['nome', 'idade']]

Unnamed: 0,nome,idade
0,Enzo Gabriel,13
1,João Miguel,19
2,Luiz Felipe,16
3,Arthur Miguel,15
4,João Guilherme,15


Quando selecionamos apenas uma linha do DataFrame uma Series é retornado. Os nomes das colunas do df viram os indices da Series e os valores de cada coluna viram os elementos da Series.

In [14]:
df.loc[0,:]

nome     Enzo Gabriel
idade              13
sex                 M
Name: 0, dtype: object

Também podemos selecionar linhas e colunas especificas.

In [36]:
df.loc[[0, 5, 10], ['nome', 'sex']]

Unnamed: 0,nome,sex
0,Enzo Gabriel,M
5,Davi Luiz,M
10,Pedro Lucas,M


Podemos selecionar um intervalo de linhas e colunas.

In [17]:
df.loc[5:, 'idade':]

Unnamed: 0,idade,sex
5,13,M
6,17,M
7,18,M
8,19,M
9,11,M
10,14,M
11,13,M
12,13,M
13,18,M


<br>

##  👾 <font size=5>iloc<font>

###  🐥 <font size=4>Selecionando valores de uma Series<font>

O método iloc seleciona linhas e colunas por números, esta é uma boa definição para o recurso. Ou seja, por mais que uma Series tenha um index label definido o método iloc só seleciona os elementos da Series através do **range index** e também através do indice negativo. Apenas e nada mais.

Vamos criar uma Series para usar nos exemplos seguintes.

In [13]:
s = pd.Series(data=[x for x in range(100, 1001, 100)],
              index=[x for x in range(10, 101, 10)])
s

10      100
20      200
30      300
40      400
50      500
60      600
70      700
80      800
90      900
100    1000
dtype: int64

Selecionando apenas um elemento da Series.

In [16]:
s.iloc[0]  # no lugar o 0 poderia ser o -10

100

Selecioando elementos específicos da Series.

In [85]:
s.iloc[[1, 2, 3]]

20    200
30    300
40    400
dtype: int64

Selecioando um intervalo da Series.

In [86]:
s.iloc[0:5]  # o valor que corresponde ao indice 5 não está incluso na seleção

10    100
20    200
30    300
40    400
50    500
dtype: int64

Selecionando e trocando os elementos da Series.

In [90]:
s.iloc[[0, 5, 8]] = 11111
s

10     11111
20       200
30       300
40       400
50       500
60     11111
70       700
80       800
90     11111
100     1000
dtype: int64

<br>

###  🐥 <font size=4>Selecionando valores de um DataFrame<font>

Como já sabemos o método **iloc** utiliza o indice numérico dos objetos pandas para poder selecionar um elemento ou  um conjunto de elementos. Sendo assim para selecionarmos linhas ou colunas de um DataFrame devemos utilizar os indices numéricos. Veja abaixo uma imagem sobre a esturtura do método **iloc**.


# <center>iloc [ <font color=blue>indice da linha<font> : <font color=blue>indice da coluna<font> <font color=black>]<font><center>

Criando um DataFrame para usar nos exemplos.

In [2]:
nomes = ['Enzo Gabriel', 'João Miguel',
         'Luiz Felipe', 'Arthur Miguel',
         'João Guilherme', 'Davi Luiz', 
         'Davi Lucas','João Oliveira',
         'Davi Silva', 'Anthony Lima', 
         'Pedro Lucas', 'Luiz Miguel', 
         'João Vitor', 'Pedro Miguel']

idades = [13, 19, 16, 15, 
          15, 13, 17, 18, 
          19, 11, 14, 13, 
          13, 18]

sexo = ['M', 'M', 'M', 'M', 
        'M', 'M', 'M', 'M', 
        'M', 'M', 'M', 'M', 
        'M', 'M']

df = pd.DataFrame({'idade':idades, 'sex':sexo}, index=nomes)

Vamos utilizar o método **iloc** para selecionar a primeira linha do DataFrame que possui o **index label**.

In [16]:
df.iloc[0]

idade    13
sex       M
Name: Enzo Gabriel, dtype: object

Selecionando linhas especificas.

In [32]:
df.iloc[[0, 5, 6]]

Unnamed: 0,idade,sex
Enzo Gabriel,13,M
Davi Luiz,13,M
Davi Lucas,17,M


Selecioando um intervalo de linhas.

In [18]:
df.iloc[0:5]

Unnamed: 0,idade,sex
Enzo Gabriel,13,M
João Miguel,19,M
Luiz Felipe,16,M
Arthur Miguel,15,M
João Guilherme,15,M


Selecionando linhas e colunas especificas.

In [33]:
df.iloc[[0, 1, 2], [1]]

Unnamed: 0,sex
Enzo Gabriel,M
João Miguel,M
Luiz Felipe,M


Selecionanddo um intervalo de linhas e apenas a primeira coluna.

In [34]:
df.iloc[6:, [0]]

Unnamed: 0,idade
Davi Lucas,17
João Oliveira,18
Davi Silva,19
Anthony Lima,11
Pedro Lucas,14
Luiz Miguel,13
João Vitor,13
Pedro Miguel,18


Selecionando um intervalo de linhas e apenas a primeira e a degunda coluna.

In [31]:
df.iloc[0:3, [0, 1]]

Unnamed: 0,idade,sex
Enzo Gabriel,13,M
João Miguel,19,M
Luiz Felipe,16,M


##  👾 <font size=5>query<font>

# 🎯 Indexação booleana para Series e DataFrame

##  👾 <font size=5>Introdução<font>

A indexação booleana é uma forma de selecionar elementos de uma Series ou um DataFrame através de condições. Para compreender melhor esse assunto eu vou dividir o estudo nos seguintes tópicos:

- O que é uma mask?
- Criando uma mask através de condições
- Selecionando elementos através du uma condição
- Selecionando elementos utilizando 2 ou mais condições

In [19]:
# Criando uma Series e um DataFrame para usar nos exemplos

nome = ['Miguel', 'Arthur', 
         'Heitor', 'Théo',
         'Gael', 'Gabriel', 
         'Davi', 'Bernardo', 
         'Mirela', 'Sophia']

idade = [12, 14, 
         15, 12, 
         13, 17, 
         16, 14, 
         15, 12]

altura = [1.5, 1.7,
          1.7, 1.6,
          1.8, 1.9,
          1.3, 1.8,
          1.5, 1.6]

se = pd.Series(data=idade)
df = pd.DataFrame(data={'nome': nome, 'idade': idade, 'altura': altura})

### 🐥 O que é uma mask?

Uma mask (mascara no português) nada mais é do que um objeto composto por valores booleanos. Esse objeto pode ser uma lista, uma Series ou um DataFrame. O pandas nos possibilita usar uma mask para poder selecionar elementos de uma Series ou um DataFrame, no entanto, para isso é necessário que a mask possua o mesma quantidade de linhas que o objeto de onde os dados serão selecionados.

Ou seja cada linha da mask deve corresponder a uma linha da Series ou DataFrame. Quando uma linha da mask possuir um elemento que for igual a **True** significa que a linha da Series ou do DataFrame que se encontra no mesmo indice será selecionada. E quando for igual a **False** significa que essa linha será ignorada. Vamos ver um exemplo.

Vamos selecionar apenas os primeiros 3 elementos da Series utilizando uma mask.

In [20]:
# Criando a mask
mask = [True, True, True, False, False, False, False, False, False, False]

# Selecionando
se[mask]

# Perceba que a mask possui a mesma quantidade de linhas que a Series
# Perceba também que cada linha selecionada corresponde a cada linha da mask que contem o elemento True
# Já quando a linha da mask possui o elemento False a linha da Series que está na mesma posição é ignorada

0    12
1    14
2    15
dtype: int64

O mesmo raciocínio serve para selecionar as linhas de um DataFrame.

In [53]:
df[mask]

Unnamed: 0,nome,idade,altura
0,Miguel,12,1.5
1,Arthur,14,1.7
2,Heitor,15,1.7


Quando possuimos uma mask que é um objeto pandas, uma Series ou DataFrame, nós podemos usar o acento __~__ para poder inverter a lógica, ou seja, todos os elementos da mask que são **True** viraram **False** e o contrário também. Resumindo, tudo aquilo que seria selecionado deixa de ser selecionado enquanto tudo aquilo que não deveria ser selecionado acaba sendo selecionado. Veja um exemplo.

In [6]:
# Convertendo a mask de lista para uma Series
mask = pd.Series(mask)

# Invertendo a mask e selecionando os elementos
se[~mask]

# Veja que os 3 primeiros itens não foram selecionados, mas sim o restante

0    12
1    14
2    15
3    12
4    13
7    14
8    15
9    12
dtype: int64

Quando possuimos uma mask que é um objeto pandas (Series ou DataFrame), cada posição da mask corresponde a uma mesma posição na Series ou DataFrame no qual desejamos selecionar os dados. Ou seja, se a posição de indice 0 da mask possui o elemento **True**, o elemento da Series ou DataFrame que possui o mesmo indice será selecionado. Vamos criar uma cópia da Series para utilizar nos exemplos.

In [8]:
se_new = se.copy(deep=True)
se_new

0    12
1    14
2    15
3    12
4    13
5    17
6    16
7    14
8    15
9    12
dtype: int64

De inicio vamos selecionar os primeiros dois elementos da Series. Pra ver que elementos são esses.

In [10]:
mask = pd.Series([True, True, False, False, False, False, False, False, False, False])

se_new[mask]

# Podemos ver que a mask possui o elemento True na posição 0 e 1
# Podemos ver também que os elementos 12 e 14 da Series estão repectivamente nas posições 0 e 1

0    12
1    14
dtype: int64

Agora vamos mudar os indices da Series e selecionar os elementos utilizando a mesma mask.

In [13]:
se_new.index = [8, 9, 2, 3, 4, 5, 6, 7, 0, 1]

se_new[mask]

# Agora os elementos selecionados foram os 2 ultimos elementos
# Isso acontceu porque agora os elementos 15 e 12 da Series é que estão respectvamente nas posições 0 e 1 

0    15
1    12
dtype: int64

### 🐥 Criando uma mask através de condições

Para criar uma mask através de uma condição é bem simples, você cria uma condição para um objeto, pode ser uma Series ou uma coluna de um DataFrame, e essa condição vai ser testada para todos os elementos desse objeto. Após o final dessa operçação uma mask é retornada. Quando uma linha da mask possui o elemento **True** significa que o elemento do objeto que se econtra na mesma posição satifez a condição. Já quando a linha da mask possui o elemento **False** significa que esse elemento não satifez a condição. Veja o exemplo:

Queremos saber quais elemento da Series são maiores do que 15.

In [14]:
mask = se > 15
mask

# Perceba que somente os elementos da Series que se encotram na posição 5 e 6 são maiores do que 15

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
8    False
9    False
dtype: bool

Podemos usar o mesmo raciocinio para saber quais pessoas do nosso DataFrame possuem a altura igual á 1 metro e 70.

In [4]:
mask = df['altura'] == 1.7
mask

# Podemos ver que somente as pessoas que se encontram na posição 1 e 2 possuem a altura igual a 1 metro e 70 

0    False
1     True
2     True
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: altura, dtype: bool

### 🐥 Selecionando elementos através de uma condição

Agora que já sabemos como funciona uma mask e como cria-la através de uma condição. Podemos utilizar esse conhecimento para selecionar elementos de um Series e de um DataFrame.

Vamos selecionar os elementos da Series que são iguais a 15.

In [15]:
se[ se == 15 ]

2    15
8    15
dtype: int64

Vamos selecionar do DataFrame as pessoas que possuirem a altura menor que 1 metro e 70.

In [16]:
df[ df['altura']<1.7 ]

Unnamed: 0,nome,idade,altura
0,Miguel,12,1.5
3,Théo,12,1.6
6,Davi,16,1.3
8,Mirela,15,1.5
9,Sophia,12,1.6


 <br>

###  🐥 Selecionando elementos utilizando mais de uma condição

<br>
Existem 2 formas de selecionar dados utilizando mais de uma condição.


### 1° forma
A primeira forma conciste em fazer várias filtragens, ou seja, os dados são filtrados pela primeira condição, depois pela segunda e assim até acabar todas as condições. Para essa operação utilizamos o simbolo **&** e cada condição deve estar entre parenteses.

Vamos selecionar da Series os valores que se encontram no intervalo de 13 a 15, incluindo o 13 e o 15.

In [65]:
se[(se >= 13) & (se <= 15)] 

# A lógica é, os dados são filtrados pela 1° condição
# E aqueles que conseguiram passar pela 1° condição sofrerão uma nova filtragem pela 2° condição

1    14
2    15
4    13
7    14
8    15
dtype: int64

Podemos usar o mesmo raciocinio num DataFrame. Vamo selecionar do DataFrame as pessoas que possuem a altura num intervalo de 130cm a 170cm. Sem contar os extremos.

In [69]:
df[ (df['altura']>1.3) & (df['altura']<1.70) ]

Unnamed: 0,nome,idade,altura
0,Miguel,12,1.5
3,Théo,12,1.6
8,Mirela,15,1.5
9,Sophia,12,1.6



### 2° forma

O outra forma de selecionar dados utilizando mais de uma condição funciona da seguinte forma, todas as condições são aplicadas aos dados e depois os retornos das condições serão concatenados. Ou seja, a primeira condição é aplicada, depois a segunda, depois a enesima e no final o retorno de cada condição serão concatenados.  Para esse tipo de operação utilizamos o simbolo **|**.

Vamos selecionar da Series os valores menores que 13 ou maiores que 15.

In [30]:
se[(se < 13) | (se > 15)]

# A lógica é, a primeira condição é aplicada e depois a segunda condição é aplicada. 
# Cada condição é aplicada diretamente no objeto no qual serão extraido os dados.
# No final o retorno de cada condição serão agrupados e concatenados.

0    12
3    12
5    17
6    16
9    12
dtype: int64

Podemos usar o mesmo raciocinio num DataFrame. Vamo selecionar do DataFrame as pessoas que possuem a altura menor que 150cm ou maior que 170cm.

In [31]:
df[ (df['altura']<1.5) | (df['altura']>1.7)]

Unnamed: 0,nome,idade,altura
4,Gael,13,1.8
5,Gabriel,17,1.9
6,Davi,16,1.3
7,Bernardo,14,1.8


<br>

##  👾 <font size=5>Indexação booleana com loc<font>

Utilizar o loc para selecionar linhas de uma Series ou DataFrame com base em condições é praticamente igual ao que ja vimos no tópico anterior, o que muda mesmo é simplismente a sintaxe.

In [73]:
# Criando uma Series e um DataFrame para usar nos exemplos

codigo_uf = [11, 12, 13, 14, 15, 16, 17,
             21, 22, 23, 24, 25, 26, 27, 
             28, 29, 31, 32, 33, 35, 41,
             42, 43, 50, 51, 52, 53]

uf = ['RO', 'AC', 'AM', 'RR', 'PA', 'AP', 'TO', 
      'MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 
      'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR',
      'SC', 'RS', 'MS', 'MT', 'GO', 'DF']

unidade_da_federacao = ['Rondônia', 'Acre', 'Amazonas', 'Roraima', 'Pará', 'Amapá', 'Tocantins', 'Maranhão', 
                        'Piauí', 'Ceará', 'Rio Grande do Norte', 'Paraíba', 'Pernambuco', 'Alagoas', 'Sergipe', 
                        'Bahia', 'Minas Gerais', 'Espírito Santo', 'Rio de Janeiro', 'São Paulo', 'Paraná', 
                        'Santa Catarina', 'Rio Grande do Sul (*)', 'Mato Grosso do Sul', 'Mato Grosso', 'Goiás',
                        'Distrito Federal']

se = pd.Series(codigo_uf)
df = pd.DataFrame({'codigo_uf': codigo_uf, 'unidade_da_federacao': unidade_da_federacao, 'uf': uf})

###  🐥 <font size=4>Indexação com uma condição<font>

In [50]:
df.loc[df['idade'] < 15]

Unnamed: 0,nome,idade,altura
0,Miguel,12,1.5
1,Arthur,14,1.7
3,Théo,12,1.6
4,Gael,13,1.8
7,Bernardo,14,1.8
9,Sophia,12,1.6


###  🐥 <font size=4>Indexação com mais de uma condição<font>

In [52]:
df.loc[(df['idade'] == 15) | (df['altura'] == 1.5)]

Unnamed: 0,nome,idade,altura
0,Miguel,12,1.5
2,Heitor,15,1.7
8,Mirela,15,1.5
