In [2]:
import pandas as pd

### Base utilizada

In [3]:
df_data = pd.read_csv('./Base de dados/ConsumidorGov.csv',sep = ';')

# Índices

Toda estrutura do tipo DataFrame possui índices, os índices no pandas são essenciais para organizar e acessar dados dentro de um DataFrame ou Series. Eles funcionam como identificadores únicos para as linhas, facilitando buscas, filtragens e operações avançadas.

### DataFrame com índices númericos

Normalmente os índices são do tipo **númerico**, do valor **0** ao **número de linhas do DataFrame - 1**, mas também pode ser do tipo **textual(rótuos/labels)**

In [29]:
df_data

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa
0,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
1,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
2,Secretaria de Justiça e Direitos Humanos - Sec...,Plataforma Web,NE,PE,Olinda,F,entre 41 a 50 anos,2024,10,01/10/2024,...,Aplicativo de mobilidade urbana,Cobrança / Contestação,Cobrança por serviço não fornecido/ em desacor...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,
3,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,NE,BA,Salvador,M,entre 21 a 30 anos,2024,10,01/10/2024,...,Cartão de Crédito / Cartão de Débito / Cartão ...,Informação,Informações incompletas / inadequadas sobre o ...,Internet,S,S,Finalizada avaliada,Resolvida,5.0,
4,Fundação de Proteção e Defesa do Consumidor,Plataforma Web,SE,SP,Guarujá,M,entre 51 a 60 anos,2024,10,01/10/2024,...,Água e Esgoto,Atendimento / SAC,Má qualidade no atendimento (descortesia / des...,Loja física,S,S,Finalizada avaliada,Resolvida,3.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105013,Programa Estadual de Proteção e Defesa do Cons...,Plataforma Web,SE,MG,Ibirité,M,entre 21 a 30 anos,2024,12,31/12/2024,...,Energia Elétrica,Atendimento / SAC,SAC - Dificuldade de contato / acesso,Internet,N,S,Finalizada avaliada,Resolvida,5.0,
105014,Programa Estadual de Proteção e Defesa do Cons...,Plataforma Web,SE,MG,Ibirité,M,entre 21 a 30 anos,2024,12,31/12/2024,...,Energia Elétrica,Atendimento / SAC,SAC - Descortesia / despreparo / demora,Internet,N,S,Finalizada avaliada,Resolvida,5.0,
105015,Programa Estadual de Proteção e Defesa do Cons...,Plataforma Web,SE,MG,Ibirité,M,entre 21 a 30 anos,2024,12,31/12/2024,...,Energia Elétrica,Atendimento / SAC,SAC - Descortesia / despreparo / demora,Internet,N,S,Finalizada avaliada,Resolvida,5.0,
105016,Programa Estadual de Proteção e Defesa do Cons...,Plataforma Web,SE,MG,Ibirité,M,entre 21 a 30 anos,2024,12,31/12/2024,...,Energia Elétrica,Atendimento / SAC,SAC - Descortesia / despreparo / demora,Internet,N,S,Finalizada avaliada,Resolvida,5.0,


Observe que o índice do DataFrame `df_data` não possui uma coluna especifica para ele. Para recuperar o index no Pandas, basta utilizar o método `index`:

In [5]:
df_data.index

RangeIndex(start=0, stop=105018, step=1)

### DataFrame com índices textuais (Labels)

Um **índice textual** no pandas é quando usamos valores de texto (strings) como índice em um DataFrame ou Series. Isso facilita buscas e manipulações, tornando os dados mais legíveis e organizados.

In [47]:
satisfacao_labels = pd.DataFrame({
    'bom': [50,21,100],
    'ruim': [131,2,30],
    'pessimo': [30,20,1]
}, index = ['Ford','volkswagen', 'BMW'])

In [7]:
satisfacao_labels

Unnamed: 0,bom,ruim,pessimo
Ford,50,131,30
volkswagen,21,2,20
BMW,100,30,1


In [31]:
satisfacao_labels.index

Index(['Ford', 'volkswagen', 'BMW'], dtype='object')

### DataFrame com índices multi-nível (MultiIndex)

O MultiIndex no pandas permite criar índices hierárquicos, ou seja, um índice composto por múltiplas colunas. Isso é útil para organizar e acessar dados estruturados de forma mais eficiente.

Podemos definir múltiplas colunas como índice usando `set_index()`

In [9]:
MultiIndex = pd.DataFrame({
    'categoria': ['A', 'A', 'B', 'B'],
    'produto': ['P1', 'P2', 'P1', 'P2'],
    'vendas': [100, 150, 200, 250]
})

MultiIndex.set_index(['categoria', 'produto'], inplace=True)

MultiIndex

Unnamed: 0_level_0,Unnamed: 1_level_0,vendas
categoria,produto,Unnamed: 2_level_1
A,P1,100
A,P2,150
B,P1,200
B,P2,250


In [30]:
MultiIndex.index

MultiIndex([('A', 'P1'),
            ('A', 'P2'),
            ('B', 'P1'),
            ('B', 'P2')],
           names=['categoria', 'produto'])

Para resetar o índex ao padrão original, basta usar `MultiIndex.reset_index(inplace=True)`

# Seleção de Índex

A seleção de índice nos permite acessar, organizar e manipular os dados de um DataFrame. O índice funciona como um identificador único para as linhas, possibilitando assim buscas rápidas, segmentação e operações estruturadas.

### Seleção baseada em índices

Para mostrar linhas especificas de um DataFrame, usa-se:

`iloc` : Seleciona elementos de um DataFrame, baseando-se em **índices númericos**

#### Selecionando **uma** amostra/linha

In [10]:
df_data.iloc[1] ## Extraíndo a linha com o índice 1

Gestor                                  Secretaria Nacional do Consumidor
Canal de Origem                                            Plataforma Web
Região                                                                 NE
UF                                                                     AL
Cidade                                                             Maceió
Sexo                                                                    F
Faixa Etária                                           entre 61 a 70 anos
Ano Abertura                                                         2024
Mês Abertura                                                           10
Data Abertura                                                  01/10/2024
Data Resposta                                                  09/10/2024
Data Análise                                                          NaN
Data Recusa                                                           NaN
Data Finalização                      

In [11]:
df_data.iloc[1,6] ## Extraíndo a linha com índice 1 e coluna 6 (Faixa Etária)

'entre 61 a 70 anos'

#### Selecionando **múltiplas** amostras/linhas

Uma das formas de se fazer isso é utilizando **slicing**, passando um intervalo dos nossos valores

In [12]:
df_data.iloc[:3] ## Extraíndo as linhas com índice >= 0 e <= 2

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa
0,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
1,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
2,Secretaria de Justiça e Direitos Humanos - Sec...,Plataforma Web,NE,PE,Olinda,F,entre 41 a 50 anos,2024,10,01/10/2024,...,Aplicativo de mobilidade urbana,Cobrança / Contestação,Cobrança por serviço não fornecido/ em desacor...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,


In [13]:
df_data.iloc[10:13] ## Extraíndo as linhas com índice >= 10 e <= 12

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa
10,Programa Estadual de Proteção e Defesa do Cons...,Plataforma Web,SE,MG,Belo Horizonte,M,entre 31 a 40 anos,2024,10,01/10/2024,...,Cartão de Crédito / Cartão de Débito / Cartão ...,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,
11,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,NE,BA,Feira de Santana,F,entre 41 a 50 anos,2024,10,01/10/2024,...,Telefonia Móvel Pós-paga,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Loja física,S,S,Finalizada avaliada,Resolvida,5.0,
12,Secretaria Nacional do Consumidor,Plataforma Web,NE,RN,Natal,F,entre 31 a 40 anos,2024,10,01/10/2024,...,"Serviços na internet (provedor, hospedagem, ap...",Vício de Qualidade,Suspensão ou desligamento indevido do serviço,Não comprei / contratei,S,S,Finalizada avaliada,Não Resolvida,1.0,Improcedente


In [14]:
df_data.iloc[[1,5,10]] ## Extraíndo as linhas com índice 1, 5 e 10 (Não precisa obedecer ordem númerica)

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa
1,Secretaria Nacional do Consumidor,Plataforma Web,NE,AL,Maceió,F,entre 61 a 70 anos,2024,10,01/10/2024,...,Atendimento Bancário,Atendimento / SAC,Descumprimento do estatuto do idoso,Telefone,S,S,Finalizada avaliada,Resolvida,5.0,
5,Secretaria Adjunta de Proteção e Defesa dos Di...,Plataforma Web,CO,MT,Cuiabá,M,entre 21 a 30 anos,2024,10,01/10/2024,...,Demais aparelhos de comunicação,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Internet,S,S,Finalizada avaliada,Resolvida,5.0,
10,Programa Estadual de Proteção e Defesa do Cons...,Plataforma Web,SE,MG,Belo Horizonte,M,entre 31 a 40 anos,2024,10,01/10/2024,...,Cartão de Crédito / Cartão de Débito / Cartão ...,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,


### Seleção baseada em label

Para seleccionar elementos do DataFrame pelo seu **rótulo/label** usa se:

`loc` : Seleciona elementos de um DataFrame, baseando-se em **rótulo**.

In [32]:
satisfacao_labels.loc['Ford'] ## Retorna a linha cujo o rótulo do índice é 'Ford'

bom         50
ruim       131
pessimo     30
Name: Ford, dtype: int64

Semelhante ao `iloc` podemos selecionar linha e coluna baseando no label

In [20]:
satisfacao_labels.loc['Ford','ruim']

131

Se quisermos buscar apenas as colunas **'ruim'** e **'pessimo'** do DataFrame `satisfacao_labels`, existem duas possibilidades:

In [23]:
## Forma 1:
satisfacao_labels[['ruim','pessimo']] ## Retorna todas as linhas do DataFrame mas apenas as colunas 'ruim' e 'pessimo'

Unnamed: 0,ruim,pessimo
Ford,131,30
volkswagen,2,20
BMW,30,1


In [25]:
## Forma 2
satisfacao_labels.loc[:,['ruim','pessimo']] ## Retorna os índices 0 a n-1 (:) mas apenas as colunas 'ruim' e 'pessimo'

Unnamed: 0,ruim,pessimo
Ford,131,30
volkswagen,2,20
BMW,30,1


Mesmo em DataFrame com índices baseados em rótulos, é possível a utilização do `iloc` para selecionar elementos baseando-se em seu índice implícito, por exemplo, se quisermos seleccionar a linha 2 do DataFrame `satisfacao_labels` basta:

In [18]:
satisfacao_labels.iloc[2] ## Retorna a linha de índice 2 (BMW) do DataFrame

bom        100
ruim        30
pessimo      1
Name: BMW, dtype: int64

**OBSEVAÇÃO:** Índices números, por default, possuem rótulos que correspondem aos seus valores númericos. Ou seja, é possível usar o `iloc` e `loc` para índices númericos.

### Seleção de uma ou mais colunas

Já vimos que para selecionar uma coluna de um DataFrame(`df_data`) basta utilizar `df_data['Cidade']` , `df_data.Cidade` (Este, apenas para casos com colunas sem caracteres especiais e sem espaço) ou `data.loc[:, 'Cidade']` .

Para retorno de mais de uma coluna é necessário passar uma lista ['Colune 1','Coluna 2','Coluna 3', '...']

In [28]:
df_data[['Cidade','UF','Região']] ## Retorna a coluna 'Cidade', 'UF' e 'Região'

Unnamed: 0,Cidade,UF,Região
0,Maceió,AL,NE
1,Maceió,AL,NE
2,Olinda,PE,NE
3,Salvador,BA,NE
4,Guarujá,SP,SE
...,...,...,...
105013,Ibirité,MG,SE
105014,Ibirité,MG,SE
105015,Ibirité,MG,SE
105016,Ibirité,MG,SE


### Seleção de índices MultiIndex

Para identificar os níveis do índex do tipo MultiIndex, utilizaremos o método `index.levels`

In [40]:
MultiIndex

Unnamed: 0_level_0,Unnamed: 1_level_0,vendas
categoria,produto,Unnamed: 2_level_1
A,P1,100
A,P2,150
B,P1,200
B,P2,250


In [35]:
MultiIndex.index.levels

FrozenList([['A', 'B'], ['P1', 'P2']])

Para identificar os valores do nível 1 e 2 respectivamente, usamos o método `get_level_values(n)`, com **n** sendo o level do índice.

In [36]:
MultiIndex.index.get_level_values(0)  ## Retorna os valores do primeiro nível

Index(['A', 'A', 'B', 'B'], dtype='object', name='categoria')

In [38]:
MultiIndex.index.get_level_values(1)  ## Retorna os valores do segundo nível

Index(['P1', 'P2', 'P1', 'P2'], dtype='object', name='produto')

Para extrair informações de índices MultiIndex devemos passar os n índices requeridos através do método `loc`

In [46]:
MultiIndex.loc[('A', 'P1')]  ## Retorna o valor referente ao índice 1 (Categoria) textual 'A' e ao índice 2 (Produto) textual 'P1'

vendas    100
Name: (A, P1), dtype: int64

In [52]:
MultiIndex.loc[(['A', 'B'], ['P1']), :] ## Retorna o valor referente ao índice 1 (Categoria) textual 'A' e 'B' e ao índice 2 (Produto) textual 'P1'

Unnamed: 0_level_0,Unnamed: 1_level_0,vendas
categoria,produto,Unnamed: 2_level_1
A,P1,100
B,P1,200


**OBSEVAÇÃO:** 
1. `(['A', 'B'], ['P1'])` : 
    * O primeiro nível (categoria) recebe uma lista ['A', 'B'], garantindo que ambas sejam selecionadas.
    * O segundo nível (produto) também recebe uma lista ['P1'], garantindo que apenas P1 seja selecionado.
2. Adição de `:` (dois pontos) :
    * Necessário para indicar que queremos todas as colunas.
