# Diferença entre .loc e .iloc no Pandas

In [1]:
dados = [
    {'RA': 110201, 'Nome': 'Antonio Carlos', 'Frequencia': 20, 'Prova_1': 6.5, 'Prova_2': 8.5, 'Prova_3': 7.0, 'Prova_4': 6},
    {'RA': 110212, 'Nome': 'Ana Beatriz', 'Frequencia': 20, 'Prova_1': 7.0, 'Prova_2': 7.0, 'Prova_3': 7.0, 'Prova_4': 8},
    {'RA': 110218, 'Nome': 'Carlos Vernes', 'Frequencia': 17, 'Prova_1': 7.0, 'Prova_2': 7.0, 'Prova_3': 7.0, 'Prova_4': 7},
    {'RA': 110307, 'Nome': 'Francisco Cunha', 'Frequencia': 20, 'Prova_1': 9.0, 'Prova_2': 8.5, 'Prova_3': 8.5, 'Prova_4': 10},
    {'RA': 110275, 'Nome': 'Sandra Rosa', 'Frequencia': 15, 'Prova_1': 6.5, 'Prova_2': 7.5, 'Prova_3': 7.0, 'Prova_4': 7},
    {'RA': 110281, 'Nome': 'Juliana Arruda', 'Frequencia': 18, 'Prova_1': 7.5, 'Prova_2': 7.0, 'Prova_3': 7.5, 'Prova_4': 8},
]

import pandas as pd

tabela = pd.DataFrame(dados)

tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8


In [2]:
# selecionar linhas 3 à 5 das colunas ['Nome','Prova_1']
tabela.loc[3:5, ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5


In [4]:
# selecionar linhas 3,5,9 das colunas ['Nome','Prova_1']
tabela.loc[[3,5,1], ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
5,Juliana Arruda,7.5
1,Ana Beatriz,7.0


Vamos testar algo diferente:

In [5]:
tabela = tabela.set_index('Nome')
tabela

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Antonio Carlos,110201,20,6.5,8.5,7.0,6
Ana Beatriz,110212,20,7.0,7.0,7.0,8
Carlos Vernes,110218,17,7.0,7.0,7.0,7
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7
Juliana Arruda,110281,18,7.5,7.0,7.5,8


Vamos tentar selecionar as linhas 3 à 5:

In [6]:
tabela.loc[3:5, :]

TypeError: cannot do slice indexing on Index with these indexers [3] of type int

O que aconteceu? <br>
O `.loc` faz o slice considerando exatamente o valor do index da matriz e agora o index é o nome dos alunos. E é por conta disso que não conseguimos acessar as colunas pela posição delas, temos que passar seu nome.

In [7]:
tabela.loc['Francisco Cunha':'Juliana Arruda', :]

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7
Juliana Arruda,110281,18,7.5,7.0,7.5,8


E se por algum motivo eu quisesse acessar esse índice pela posição numérica? <br>
Ai precisaremos do **.iloc()**

In [9]:
tabela

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Antonio Carlos,110201,20,6.5,8.5,7.0,6
Ana Beatriz,110212,20,7.0,7.0,7.0,8
Carlos Vernes,110218,17,7.0,7.0,7.0,7
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7
Juliana Arruda,110281,18,7.5,7.0,7.5,8


In [8]:
tabela.iloc[3:5]

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7


In [10]:
tabela.iloc[3:5, 3]

Nome
Francisco Cunha    8.5
Sandra Rosa        7.5
Name: Prova_2, dtype: float64

## 4. Seleção através das posições das linhas e colunas
Outra forma de acessarmos dados é através do `.iloc[número_linhas, número_colunas]` utilizando as posições das linhas e colunas

In [12]:
# seleciona uma linha de uma coluna
tabela.iloc[4, 1]

15

In [14]:
# seleciona todas as colunas de uma linha
tabela.iloc[4, :]

RA            110275.0
Frequencia        15.0
Prova_1            6.5
Prova_2            7.5
Prova_3            7.0
Prova_4            7.0
Name: Sandra Rosa, dtype: float64

In [15]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas sequenciais
tabela.iloc[3:5, 2:5]

Unnamed: 0_level_0,Prova_1,Prova_2,Prova_3
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Francisco Cunha,9.0,8.5,8.5
Sandra Rosa,6.5,7.5,7.0


In [16]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas não sequenciais
tabela.iloc[3:5, [1,5]]

Unnamed: 0_level_0,Frequencia,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Francisco Cunha,20,10
Sandra Rosa,15,7


In [17]:
tabela.iloc[0]


RA            110201.0
Frequencia        20.0
Prova_1            6.5
Prova_2            8.5
Prova_3            7.0
Prova_4            6.0
Name: Antonio Carlos, dtype: float64

In [None]:
type(tabela.iloc[0])

In [None]:
tabela.iloc[:,  0]

In [None]:
type(tabela.iloc[:, 0])

In [18]:
tabela

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Antonio Carlos,110201,20,6.5,8.5,7.0,6
Ana Beatriz,110212,20,7.0,7.0,7.0,8
Carlos Vernes,110218,17,7.0,7.0,7.0,7
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7
Juliana Arruda,110281,18,7.5,7.0,7.5,8


In [21]:
tabela.iloc[:, 4]

Nome
Antonio Carlos     7.0
Ana Beatriz        7.0
Carlos Vernes      7.0
Francisco Cunha    8.5
Sandra Rosa        7.0
Juliana Arruda     7.5
Name: Prova_3, dtype: float64

## Concat

In [31]:
import pandas as pd

# Dados de vendas do 1º Trimestre
vendas_q1 = pd.DataFrame({
    'Mês': ['Janeiro', 'Fevereiro', 'Março'],
    'Produto': ['A', 'B', 'C'],
    'Vendas': [2500, 3000, 4000]
})

# Dados de vendas do 2º Trimestre
vendas_q2 = pd.DataFrame({
    'Mês': ['Abril', 'Maio', 'Junho'],
    'Produto': ['A', 'C', 'B'],
    'Vendas': [2800, 3500, 4200]
})

# Dados de vendas do 3º Trimestre
vendas_q3 = pd.DataFrame({
    'Mês': ['Julho', 'Agosto', 'Setembro'],
    'Producto': ['A', 'B', 'D'],
    'Vendas': [3000, 4000, 4500]
})


In [32]:
vendas_q1

Unnamed: 0,Mês,Produto,Vendas
0,Janeiro,A,2500
1,Fevereiro,B,3000
2,Março,C,4000


In [33]:
vendas_q2

Unnamed: 0,Mês,Produto,Vendas
0,Abril,A,2800
1,Maio,C,3500
2,Junho,B,4200


In [27]:
# Combinando os DataFrames
vendas_anuais = pd.concat([vendas_q1, vendas_q2, vendas_q3], ignore_index=True)

vendas_anuais

Unnamed: 0,Mês,Produto,Vendas,Producto
0,Janeiro,A,2500,
1,Fevereiro,B,3000,
2,Março,C,4000,
3,Abril,A,2800,
4,Maio,B,3500,
5,Junho,C,4200,
6,Julho,,3000,A
7,Agosto,,4000,B
8,Setembro,,4500,D


In [29]:
pd.merge(vendas_q1, vendas_q2, on="Produto", how="inner", suffixes=["_1trim", "_2trim"])

Unnamed: 0,Mês_1trim,Produto,Vendas_1trim,Mês_2trim,Vendas_2trim
0,Janeiro,A,2500,Abril,2800
1,Fevereiro,B,3000,Maio,3500
2,Março,C,4000,Junho,4200
