#### Agrupamento e Resumo de Dados
***

O agrupamento e resumo de dados são etapas essenciais na análise de dados, permitindo extrair informações úteis e insights valiosos a partir de conjuntos de dados complexos. Essas técnicas nos permitem organizar, resumir e comparar os dados com base em categorias ou critérios específicos.


#### Importação das Bibliotecas


In [1]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [2]:
df = pd.read_csv('../datasets/perfil_clientes.csv', sep=';')

#### Método groupby
***
Uma das principais ferramentas utilizadas para agrupar e resumir dados no pandas, uma biblioteca popular do Python para análise de dados, é o método groupby. Esse método permite agrupar os dados com base em uma ou mais colunas, criando grupos que compartilham características comuns. Em seguida, podemos aplicar funções de agregação aos grupos para resumir os dados, como contar, somar, calcular média, máximo, mínimo, entre outros.

In [3]:
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


Note: agrupa por classe de trabalho, seleciona a coluna salário e soma tudo o que está lá

In [5]:
df_agrupado = df.groupby('classe_trabalho')['salario'].sum()
df_agrupado

classe_trabalho
Aposentado                    1033500
Autônomo                      1581160
Desempregado                        0
Empresário                    5054548
Estagiário                       1100
Funcionário Público            903206
Funcionário Setor Privado    13266341
MEI                           1084767
Menor Aprendiz                  97600
Servidor Público              1525387
Name: salario, dtype: int64

Note: Agrupando a classe de trabalho, por estado civil, e calculando a média de salário.

round(2) para arredondar para 2 casas decimais.

reset_index() para visualizar em formato tabela.

In [9]:
agrupamento = ['classe_trabalho', 'estado_civil']
df.groupby(agrupamento)['salario'].mean().round(2).reset_index()

Unnamed: 0,classe_trabalho,estado_civil,salario
0,Aposentado,Casado,3932.76
1,Aposentado,Divorciado,4170.13
2,Aposentado,Separado,4521.0
3,Aposentado,Solteiro,3404.15
4,Aposentado,União Estável,3737.0
5,Aposentado,Viúvo,3807.24
6,Autônomo,Casado,2692.4
7,Autônomo,Divorciado,2901.97
8,Autônomo,Separado,2881.29
9,Autônomo,Solteiro,2679.34


#### Método agg
***
Esse método permite aplicar várias funções de agregação aos grupos definidos pelo groupby. Podemos calcular diferentes métricas para cada grupo ou até mesmo aplicar funções personalizadas.

Note: Agrupando por classe de trabalho e sexo, e estamos somando e calculando a média de salário

In [14]:
# Agrupar os dados por categoria e calcular a soma das vendas em cada categoria
agrupamento = ['classe_trabalho', 'sexo']
grouped = df.groupby(agrupamento)
grouped.agg({'salario': ['sum', 'mean']}).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,salario,salario
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean
classe_trabalho,sexo,Unnamed: 2_level_2,Unnamed: 3_level_2
Aposentado,Feminino,354618,3940.2
Aposentado,Masculino,678882,3835.49
Autônomo,Feminino,225992,2627.81
Autônomo,Masculino,1355168,2699.54
Desempregado,Feminino,0,0.0
Desempregado,Masculino,0,0.0
Empresário,Feminino,1916900,10088.95
Empresário,Masculino,3137648,10253.75
Estagiário,Masculino,1100,1100.0
Funcionário Público,Feminino,258729,3804.84


Note: Agrupamento por classe de trabalho e sexo, e a soma e média dos salários. Nesse exemplo, editamos o nome das colunas de soma e média salário

In [15]:
agrupamento = ['classe_trabalho', 'sexo']
grouped = df.groupby(agrupamento)
df_agrupado = grouped.agg({'salario': ['sum', 'mean']}).round(2)
df_agrupado.columns = ['soma de salário', 'média de salário']
df_agrupado

Unnamed: 0_level_0,Unnamed: 1_level_0,soma de salário,média de salário
classe_trabalho,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
Aposentado,Feminino,354618,3940.2
Aposentado,Masculino,678882,3835.49
Autônomo,Feminino,225992,2627.81
Autônomo,Masculino,1355168,2699.54
Desempregado,Feminino,0,0.0
Desempregado,Masculino,0,0.0
Empresário,Feminino,1916900,10088.95
Empresário,Masculino,3137648,10253.75
Estagiário,Masculino,1100,1100.0
Funcionário Público,Feminino,258729,3804.84


Nota: outra forma de fazer isso é com tuplas...

In [21]:
grouped = df.groupby(agrupamento)
grouped.agg(
    soma_salario = ('salario','sum'),
    media_salario = ('salario','mean'),
    valor_maximo = ('salario','mean')
).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,soma_salario,media_salario,valor_maximo
classe_trabalho,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aposentado,Feminino,354618,3940.2,3940.2
Aposentado,Masculino,678882,3835.49,3835.49
Autônomo,Feminino,225992,2627.81,2627.81
Autônomo,Masculino,1355168,2699.54,2699.54
Desempregado,Feminino,0,0.0,0.0
Desempregado,Masculino,0,0.0,0.0
Empresário,Feminino,1916900,10088.95,10088.95
Empresário,Masculino,3137648,10253.75,10253.75
Estagiário,Masculino,1100,1100.0,1100.0
Funcionário Público,Feminino,258729,3804.84,3804.84


#### Método pivot_table
***
Permite criar uma tabela dinâmica a partir dos dados, onde as linhas representam uma categoria, as colunas representam outra categoria e os valores são agregados com base em uma terceira categoria.


Explicação: Agrupamos por sexo, as raças ficarão em colunas e calculamos a média dos salários de cada uma

In [29]:
df.pivot_table(index='sexo',
               columns= 'raca',
               values= 'salario',
               aggfunc= 'mean').round(2)

raca,Amarelo,Branco,Indígena,Negro,Pardo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,2081.26,3122.62,4478.64,2909.08,2903.52
Masculino,2443.33,3216.23,2063.43,3007.73,3986.65


Outro exemplo:

In [30]:
df.pivot_table(index='sexo',
               columns= 'região',
               values= 'anos_estudo',
               aggfunc= 'mean').round(2)

região,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,10.06,10.01,10.03,9.98,10.03
Masculino,10.03,10.15,10.08,10.03,10.09


#### Método info
***
Fornece um resumo conciso das informações básicas sobre um DataFrame, incluindo o número de linhas, o número de colunas, os nomes das colunas e os tipos de dados de cada coluna. Além disso, ele também mostra a quantidade de memória usada pelo DataFrame. Isso é particularmente útil quando estamos lidando com conjuntos de dados grandes e queremos ter uma visão geral rápida de sua estrutura.

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7999 entries, 0 to 7998
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   idade            7999 non-null   int64  
 1   classe_trabalho  7612 non-null   object 
 2   escolaridade     7999 non-null   object 
 3   anos_estudo      7999 non-null   int64  
 4   estado_civil     7999 non-null   object 
 5   raca             7999 non-null   object 
 6   sexo             7999 non-null   object 
 7   UF               7999 non-null   object 
 8   região           7999 non-null   object 
 9   qtde_filhos      7997 non-null   float64
 10  salario          7999 non-null   int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 687.5+ KB


#### Método describe

***
Fornece um resumo estatístico das colunas numéricas de um DataFrame. Ele calcula várias estatísticas descritivas, como contagem, média, desvio padrão, valor mínimo, quartis e valor máximo. Essa função nos ajuda a ter uma visão rápida das principais informações estatísticas de cada coluna numérica, permitindo identificar tendências, distribuições e possíveis outliers nos dados.

In [32]:
df.describe()

Unnamed: 0,idade,anos_estudo,qtde_filhos,salario
count,7999.0,7999.0,7997.0,7999.0
mean,38.47706,10.067633,2.404902,3169.312664
std,13.568667,2.537797,1.704059,3055.862493
min,17.0,1.0,0.0,0.0
25%,28.0,9.0,1.0,1100.0
50%,37.0,10.0,2.0,2410.0
75%,47.0,12.0,4.0,3640.5
max,90.0,16.0,5.0,19994.0


### Método Transpose

***
A função transpose pode ser útil em diversas situações, como quando queremos realizar operações em colunas específicas, quando precisamos ajustar a estrutura do DataFrame para uma determinada análise ou quando desejamos apresentar os dados de uma forma mais adequada para visualização.

A função transpose do Pandas nos permite realizar a transposição de um DataFrame, trocando as linhas pelas colunas e as colunas pelas linhas. Essa função é útil quando queremos modificar a orientação dos dados para melhor adequá-los às nossas necessidades de análise e visualização.

In [33]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
idade,7999.0,38.47706,13.568667,17.0,28.0,37.0,47.0,90.0
anos_estudo,7999.0,10.067633,2.537797,1.0,9.0,10.0,12.0,16.0
qtde_filhos,7997.0,2.404902,1.704059,0.0,1.0,2.0,4.0,5.0
salario,7999.0,3169.312664,3055.862493,0.0,1100.0,2410.0,3640.5,19994.0


In [34]:
df.describe().transpose().round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
idade,7999.0,38.48,13.57,17.0,28.0,37.0,47.0,90.0
anos_estudo,7999.0,10.07,2.54,1.0,9.0,10.0,12.0,16.0
qtde_filhos,7997.0,2.4,1.7,0.0,1.0,2.0,4.0,5.0
salario,7999.0,3169.31,3055.86,0.0,1100.0,2410.0,3640.5,19994.0
