In [3]:
import pandas as pd

### Base utilizada

In [4]:
df_data = pd.read_csv('./Base de dados/ConsumidorGov.csv',sep = ';')

# Agrupamento

O agrupamento no Pandas é usado para agrupar dados com base em uma ou mais colunas, permitindo realizar operações estatísticas, funções de agrumento ou agregações sobre os grupos formados.

### groupby()

O agrupamento acontece pelo método `groupby()` e ele é semelhante ao **GROUP BY** do SQL.

`groupby()` é utilizado para criar **grupos de elementos**.

**Funções** podem então ser aplicadas para os elementos de cada grupo, de modo que os resultados de cada grupo são combinados.

In [5]:
df_grupo = df_data.groupby('Região')
df_grupo

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000018ABF441D30>

`pandas.core.groupby.generic.DataFrameGroupBy` é o resultado da aplicação do método `groupby()` em um DataFrame. Ele representa um conjunto de grupos que podem ser manipulados antes de serem agregados com funções como `sum()`, `mean()`, `count()` e outras.

In [6]:
df_grupo.groups

{'CO': [5, 18, 19, 20, 21, 26, 27, 31, 39, 43, 60, 78, 86, 89, 92, 110, 135, 146, 154, 158, 159, 165, 166, 167, 184, 195, 199, 205, 206, 207, 210, 216, 217, 220, 222, 227, 231, 233, 235, 236, 237, 238, 240, 241, 242, 243, 244, 245, 246, 247, 249, 252, 254, 256, 257, 258, 260, 262, 265, 266, 267, 269, 270, 271, 272, 276, 277, 278, 280, 281, 283, 284, 287, 289, 291, 292, 295, 297, 298, 299, 300, 302, 304, 305, 306, 307, 308, 309, 310, 311, 312, 317, 322, 323, 324, 325, 326, 328, 329, 335, ...], 'N ': [7, 55, 65, 88, 99, 145, 162, 181, 204, 209, 211, 219, 274, 336, 342, 350, 361, 388, 392, 421, 520, 587, 597, 619, 702, 717, 728, 820, 840, 874, 882, 901, 906, 910, 914, 915, 916, 923, 930, 971, 1005, 1023, 1024, 1039, 1063, 1069, 1073, 1084, 1094, 1101, 1108, 1127, 1135, 1163, 1182, 1205, 1253, 1284, 1289, 1316, 1328, 1337, 1343, 1348, 1363, 1371, 1397, 1398, 1404, 1411, 1412, 1431, 1443, 1461, 1469, 1471, 1475, 1481, 1483, 1496, 1499, 1505, 1532, 1541, 1552, 1562, 1564, 1575, 1594, 1616, 1

O atributo `groups` retorna um dicionário do objeto `groupby()`. Este contém o Index para cada valor do agrupamento. Da seguinte forma:
* As **chaves** são os valores únicos das colunas usadas para agrupar (Neste exemplo a coluna **Região**).
* Os **valores** são listas com os índices das linhas correspondentes a cada grupo.

In [7]:
df_grupo.indices

{'CO': array([     5,     18,     19, ..., 104963, 104980, 104996], dtype=int64),
 'N ': array([     7,     55,     65, ..., 104889, 104903, 104994], dtype=int64),
 'NE': array([     0,      1,      2, ..., 104961, 104982, 104993], dtype=int64),
 'S ': array([     6,     13,     17, ..., 104933, 104948, 104981], dtype=int64),
 'SE': array([     4,      9,     10, ..., 105015, 105016, 105017], dtype=int64)}

O atributo `indices` de um objeto `groupby()` retorna um dicionário, assim como `groups`, mas com uma diferença:
* As **chaves** são os valores únicos das colunas usadas para agrupar (Neste exemplo a coluna **Região**).
* Os **valores** são arrays NumPy contendo os índices das linhas correspondentes a cada grupo.

Se quisermos no nosso tratamento retornar apenas um valor do grupo utilizado, podemos fazer o seguinte:

Supondo que nosso objetivo seja o agrupamento *Região* mas apenas o valor Centro Oeste (**CO**).

In [8]:
## Retornando um DataFrame contendo o grupo do agrupamento utilizando 'CO'
df_grupo.get_group('CO')

Unnamed: 0,Gestor,Canal de Origem,Região,UF,Cidade,Sexo,Faixa Etária,Ano Abertura,Mês Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Análise da Recusa
5,Secretaria Adjunta de Proteção e Defesa dos Di...,Plataforma Web,CO,MT,Cuiabá,M,entre 21 a 30 anos,2024,10,01/10/2024,...,Demais aparelhos de comunicação,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Internet,S,S,Finalizada avaliada,Resolvida,5.0,
18,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,CO,GO,Anápolis,M,entre 21 a 30 anos,2024,10,02/10/2024,...,Conta corrente / Salário / Poupança /Conta Apo...,Atendimento / SAC,SAC - Demanda não resolvida / não respondida /...,Telefone,S,S,Finalizada avaliada,Não Resolvida,1.0,
19,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,CO,GO,Anápolis,M,entre 21 a 30 anos,2024,10,02/10/2024,...,Serviço de pagamento online/ via celular/ maqu...,Informação,Informações incompletas / inadequadas sobre o ...,Telefone,S,S,Finalizada avaliada,Não Resolvida,1.0,
20,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,CO,GO,Anápolis,M,entre 21 a 30 anos,2024,10,02/10/2024,...,Conta corrente / Salário / Poupança /Conta Apo...,Cobrança / Contestação,Dificuldade / atraso na devolução de valores p...,Telefone,S,S,Finalizada avaliada,Não Resolvida,1.0,
21,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,CO,GO,Anápolis,M,entre 21 a 30 anos,2024,10,02/10/2024,...,Atendimento Bancário,Atendimento / SAC,SAC - Demanda não resolvida / não respondida /...,Telefone,S,S,Finalizada avaliada,Não Resolvida,1.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
104960,Superintendência de Proteção e Defesa do Consu...,Plataforma Web,CO,GO,Anápolis,M,entre 31 a 40 anos,2024,12,30/12/2024,...,Pacote / excursão / agência de turismo,Cobrança / Contestação,Dificuldade / atraso na devolução de valores p...,Internet,S,S,Finalizada avaliada,Não Resolvida,1.0,
104962,Secretaria Nacional do Consumidor,Plataforma Web,CO,DF,Brasília,M,entre 31 a 40 anos,2024,12,30/12/2024,...,Crédito Consignado (para servidores públicos o...,Cobrança / Contestação,Renegociação / parcelamento de dívida,Loja física,S,S,Finalizada avaliada,Não Resolvida,5.0,
104963,Secretaria Adjunta de Proteção e Defesa dos Di...,Plataforma Web,CO,MT,Cuiabá,F,entre 51 a 60 anos,2024,12,30/12/2024,...,Pacote / excursão / agência de turismo,Contrato / Oferta,Dificuldade para alterar ou cancelar o contrat...,Internet,S,S,Finalizada avaliada,Não Resolvida,3.0,
104980,Secretaria Nacional do Consumidor,Plataforma Web,CO,DF,Brasília,M,entre 31 a 40 anos,2024,12,30/12/2024,...,Aéreo,Vício de Qualidade,Cancelamento de voo,Internet,S,S,Finalizada avaliada,Resolvida,3.0,


Também é possível utilizar a operação de análise descritiva (Mostrados na parte 5) utilizando também `describe()` e todos atributos individuais.

In [9]:
df_grupo.describe()

Unnamed: 0_level_0,Ano Abertura,Ano Abertura,Ano Abertura,Ano Abertura,Ano Abertura,Ano Abertura,Ano Abertura,Ano Abertura,Mês Abertura,Mês Abertura,...,Tempo Resposta,Tempo Resposta,Nota do Consumidor,Nota do Consumidor,Nota do Consumidor,Nota do Consumidor,Nota do Consumidor,Nota do Consumidor,Nota do Consumidor,Nota do Consumidor
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Região,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
CO,11424.0,2024.0,0.0,2024.0,2024.0,2024.0,2024.0,2024.0,11424.0,11.340424,...,9.0,54.0,4873.0,2.847117,1.797708,1.0,1.0,3.0,5.0,5.0
N,5323.0,2024.0,0.0,2024.0,2024.0,2024.0,2024.0,2024.0,5323.0,11.350366,...,9.0,50.0,2032.0,2.838091,1.803183,1.0,1.0,3.0,5.0,5.0
NE,19149.0,2024.0,0.0,2024.0,2024.0,2024.0,2024.0,2024.0,19149.0,11.378871,...,9.0,60.0,8466.0,2.709544,1.795274,1.0,1.0,2.0,5.0,5.0
S,16824.0,2024.0,0.0,2024.0,2024.0,2024.0,2024.0,2024.0,16824.0,11.398478,...,9.0,65.0,7615.0,2.730269,1.785076,1.0,1.0,2.0,5.0,5.0
SE,52298.0,2024.0,0.0,2024.0,2024.0,2024.0,2024.0,2024.0,52298.0,11.392367,...,9.0,68.0,23215.0,2.724316,1.791319,1.0,1.0,2.0,5.0,5.0


Podemos também agrupar por mais de uma coluna, utilizando o próprio `groupby()` podemos por exemplo:

Qual a média das avaliações das reclamações pra cada **Região** e **Como Comprou Contratou**?

In [57]:
## Agrupa primeiro por 'Região'
## Agrupa segundo por 'Como comprou Contratou'
df_media_regiao = df_data.groupby(['Região','Como Comprou Contratou'])
## Utilizando a função agregadora de média
df_media_regiao['Nota do Consumidor'].mean()

Região  Como Comprou Contratou 
CO      Catálogo                   2.285714
        Domicílio                  2.602410
        Ganhei de presente         3.166667
        Internet                   2.901321
        Loja física                2.616296
        Não comprei / contratei    2.765161
        SMS / Mensagem de texto    2.818182
        Stand, feiras e eventos    2.533333
        Telefone                   3.055133
N       Catálogo                   2.857143
        Domicílio                  2.473684
        Ganhei de presente         4.200000
        Internet                   2.817937
        Loja física                2.948387
        Não comprei / contratei    2.676630
        SMS / Mensagem de texto    2.909091
        Stand, feiras e eventos    1.857143
        Telefone                   3.192982
NE      Catálogo                   2.190476
        Domicílio                  2.440789
        Ganhei de presente         2.272727
        Internet                   2.794386


### agg()

O método `agg()` permite aplicar múltiplas funções de agregação em colunas específicas de um DataFrame ou Series. Ele é muito útil quando queremos aplicar diferentes funções agregadoras a diferentes colunas ao mesmo tempo.

Por exemplo, tendo o seguinte DataFrame:

In [60]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [None, None, None]],
                  columns=['A','B','C'])

df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


Podemos aplicar diferentes operações, da seguinte forma:

In [63]:
df.agg([sum, min]) ## Ignora o NaN

  df.agg([sum, min]) ## Ignora o NaN
  df.agg([sum, min]) ## Ignora o NaN


Unnamed: 0,A,B,C
sum,12.0,15.0,18.0
min,1.0,2.0,3.0


Podemos também utilizar juntamente com a operação `groupby()`

In [66]:
df_grupo['Nota do Consumidor'].agg([min,max])

  df_grupo['Nota do Consumidor'].agg([min,max])
  df_grupo['Nota do Consumidor'].agg([min,max])


Unnamed: 0_level_0,min,max
Região,Unnamed: 1_level_1,Unnamed: 2_level_1
CO,1.0,5.0
N,1.0,5.0
NE,1.0,5.0
S,1.0,5.0
SE,1.0,5.0


# Ordenação

No pandas, usamos o método `sort_values()` para ordenar os dados de um DataFrame ou Series com base em uma ou mais colunas.

A função básica é : `df.sort_values(by="coluna", ascending=True|False)`
* ascending=True → Define a ordem crescente.
* ascending=False → Define a ordem decrescente.

Utilizaremos o DataFrame criado a seguir:

In [80]:
df_rh = pd.DataFrame({
    "Nome": ["Lucas", "Ana", "Pedro", "Mariana"],
    "Idade": [30, 25, 40, 35],
    "Salario": [4000, 7000, 4000, 8000]
})

df_rh

Unnamed: 0,Nome,Idade,Salario
0,Lucas,30,4000
1,Ana,25,7000
2,Pedro,40,4000
3,Mariana,35,8000


Como ordenar o DataFrame `df_rh` pelo salário? 

1. Do **Menor Salário → Maior Salário**:

In [85]:
## Crescente
df_rh.sort_values(by='Salario', ascending=True)

Unnamed: 0,Nome,Idade,Salario
0,Lucas,30,4000
2,Pedro,40,4000
1,Ana,25,7000
3,Mariana,35,8000


2. Do **Maior Salário → Menor Salário**:

In [86]:
## Decrescente
df_rh.sort_values(by='Salario', ascending=False)

Unnamed: 0,Nome,Idade,Salario
3,Mariana,35,8000
1,Ana,25,7000
0,Lucas,30,4000
2,Pedro,40,4000


Podemos aplicar o método `sort_values()` por mais de uma coluna.

Se quisermos ordenar de forma **Crescente** o valor do Salário e de forma **Descrescente** a idade. Podemos seguir o seguinte exemplo

In [84]:
## Ordenando o Salário de forma crescente (Menor → Maior)
## Ordenando a Idade de forma decrescente (Maior → Menor)
df_rh.sort_values(by=['Salario','Idade'], ascending=[True,False])

Unnamed: 0,Nome,Idade,Salario
2,Pedro,40,4000
0,Lucas,30,4000
1,Ana,25,7000
3,Mariana,35,8000


Note que o DataFrame original não foi alterado:

In [87]:
df_rh

Unnamed: 0,Nome,Idade,Salario
0,Lucas,30,4000
1,Ana,25,7000
2,Pedro,40,4000
3,Mariana,35,8000


**OBSERVAÇÃO :** Para alterar o DataFrame original `df_rh` é necessário o comando `inplace=True`