#### Agrupamento e Resumo de Dados
***

O agrupamento e resumo de dados são etapas essenciais na análise de dados, permitindo extrair informações úteis e insights valiosos a partir de conjuntos de dados complexos. Essas técnicas nos permitem organizar, resumir e comparar os dados com base em categorias ou critérios específicos.


#### Importação das Bibliotecas


In [1]:
import pandas as pd


#### Coletando Dados de Perfil
***

In [2]:
df = pd.read_csv('../../source_data/perfil_clientes.csv', sep=';')


#### Método groupby
***
Uma das principais ferramentas utilizadas para agrupar e resumir dados no pandas, uma biblioteca popular do Python para análise de dados, é o método groupby. Esse método permite agrupar os dados com base em uma ou mais colunas, criando grupos que compartilham características comuns. Em seguida, podemos aplicar funções de agregação aos grupos para resumir os dados, como contar, somar, calcular média, máximo, mínimo, entre outros.

In [3]:
df.head()


Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


In [4]:
df_agrupado = df.groupby('classe_trabalho')['salario'].sum()
df_agrupado

classe_trabalho
Aposentado                    1033500
Autônomo                      1581160
Desempregado                        0
Empresário                    5054548
Estagiário                       1100
Funcionário Público            903206
Funcionário Setor Privado    13266341
MEI                           1084767
Menor Aprendiz                  97600
Servidor Público              1525387
Name: salario, dtype: int64

In [5]:
agrupamento = ['classe_trabalho', 'estado_civil', 'sexo']

df.groupby(agrupamento)['salario'].mean().round(2)


classe_trabalho   estado_civil   sexo     
Aposentado        Casado         Feminino     3287.14
                                 Masculino    3966.74
                  Divorciado     Feminino     4233.67
                                 Masculino    3941.40
                  Separado       Feminino     2971.00
                                               ...   
Servidor Público  Solteiro       Masculino    5154.23
                  União Estável  Feminino     5387.00
                                 Masculino    4793.33
                  Viúvo          Feminino     3025.67
                                 Masculino    8107.00
Name: salario, Length: 89, dtype: float64

In [6]:

df.groupby(agrupamento)['salario'].mean().round(2).reset_index()

Unnamed: 0,classe_trabalho,estado_civil,sexo,salario
0,Aposentado,Casado,Feminino,3287.14
1,Aposentado,Casado,Masculino,3966.74
2,Aposentado,Divorciado,Feminino,4233.67
3,Aposentado,Divorciado,Masculino,3941.40
4,Aposentado,Separado,Feminino,2971.00
...,...,...,...,...
84,Servidor Público,Solteiro,Masculino,5154.23
85,Servidor Público,União Estável,Feminino,5387.00
86,Servidor Público,União Estável,Masculino,4793.33
87,Servidor Público,Viúvo,Feminino,3025.67


#### Método agg
***
Esse método permite aplicar várias funções de agregação aos grupos definidos pelo groupby. Podemos calcular diferentes métricas para cada grupo ou até mesmo aplicar funções personalizadas.

In [7]:
# Agrupar os dados por categoria e calcular a soma das vendas em cada categoria
agrupamento_01 = ['classe_trabalho', 'sexo']
agrupado = df.groupby(agrupamento_01)
df_agrupado = agrupado.agg({'salario': ['sum','mean']}).round(2)
df_agrupado.columns = ['soma de salario', 'media de salario']
df_agrupado


Unnamed: 0_level_0,Unnamed: 1_level_0,soma de salario,media de salario
classe_trabalho,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
Aposentado,Feminino,354618,3940.2
Aposentado,Masculino,678882,3835.49
Autônomo,Feminino,225992,2627.81
Autônomo,Masculino,1355168,2699.54
Desempregado,Feminino,0,0.0
Desempregado,Masculino,0,0.0
Empresário,Feminino,1916900,10088.95
Empresário,Masculino,3137648,10253.75
Estagiário,Masculino,1100,1100.0
Funcionário Público,Feminino,258729,3804.84


In [8]:
df_agrupado.reset_index()

Unnamed: 0,classe_trabalho,sexo,soma de salario,media de salario
0,Aposentado,Feminino,354618,3940.2
1,Aposentado,Masculino,678882,3835.49
2,Autônomo,Feminino,225992,2627.81
3,Autônomo,Masculino,1355168,2699.54
4,Desempregado,Feminino,0,0.0
5,Desempregado,Masculino,0,0.0
6,Empresário,Feminino,1916900,10088.95
7,Empresário,Masculino,3137648,10253.75
8,Estagiário,Masculino,1100,1100.0
9,Funcionário Público,Feminino,258729,3804.84


In [9]:
agrupado = df.groupby(agrupamento_01)
agrupado.agg(
    soma_salario = ('salario', 'sum'),
    media_salario = ('salario', 'mean'),
    max_salario = ('salario', 'max')
).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,soma_salario,media_salario,max_salario
classe_trabalho,sexo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aposentado,Feminino,354618,3940.2,6489
Aposentado,Masculino,678882,3835.49,6449
Autônomo,Feminino,225992,2627.81,8635
Autônomo,Masculino,1355168,2699.54,14130
Desempregado,Feminino,0,0.0,0
Desempregado,Masculino,0,0.0,0
Empresário,Feminino,1916900,10088.95,19955
Empresário,Masculino,3137648,10253.75,19994
Estagiário,Masculino,1100,1100.0,1100
Funcionário Público,Feminino,258729,3804.84,13625


#### Método pivot_table
***
Permite criar uma tabela dinâmica a partir dos dados, onde as linhas representam uma categoria, as colunas representam outra categoria e os valores são agregados com base em uma terceira categoria.


In [10]:

df.pivot_table(
    index = 'sexo',
    columns = 'raca',
    values = 'salario',
    aggfunc = 'sum'
).round(2)


raca,Amarelo,Branco,Indígena,Negro,Pardo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,56194,6607470,161231,1073450,249703
Masculino,112393,15142005,90791,1236178,621917


In [11]:
df.pivot_table(
    index = 'sexo',
    columns = 'raca',
    values = 'anos_estudo',
    aggfunc = 'mean'
).round(2)

raca,Amarelo,Branco,Indígena,Negro,Pardo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,9.11,10.1,9.56,9.59,10.36
Masculino,9.11,10.13,8.82,9.38,11.35


In [13]:
df.pivot_table(
    index = 'sexo',
    columns = 'região',
    values = 'idade',
    aggfunc = 'mean'
).round(2)

região,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Feminino,36.54,37.32,36.94,35.99,37.74
Masculino,39.36,39.32,39.25,38.61,39.56


#### Método info
***
Fornece um resumo conciso das informações básicas sobre um DataFrame, incluindo o número de linhas, o número de colunas, os nomes das colunas e os tipos de dados de cada coluna. Além disso, ele também mostra a quantidade de memória usada pelo DataFrame. Isso é particularmente útil quando estamos lidando com conjuntos de dados grandes e queremos ter uma visão geral rápida de sua estrutura.

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7999 entries, 0 to 7998
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   idade            7999 non-null   int64  
 1   classe_trabalho  7612 non-null   object 
 2   escolaridade     7999 non-null   object 
 3   anos_estudo      7999 non-null   int64  
 4   estado_civil     7999 non-null   object 
 5   raca             7999 non-null   object 
 6   sexo             7999 non-null   object 
 7   UF               7999 non-null   object 
 8   região           7999 non-null   object 
 9   qtde_filhos      7997 non-null   float64
 10  salario          7999 non-null   int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 687.5+ KB


#### Método describe

***
Fornece um resumo estatístico das colunas numéricas de um DataFrame. Ele calcula várias estatísticas descritivas, como contagem, média, desvio padrão, valor mínimo, quartis e valor máximo. Essa função nos ajuda a ter uma visão rápida das principais informações estatísticas de cada coluna numérica, permitindo identificar tendências, distribuições e possíveis outliers nos dados.

In [16]:
df.describe().round(2) 

Unnamed: 0,idade,anos_estudo,qtde_filhos,salario
count,7999.0,7999.0,7997.0,7999.0
mean,38.48,10.07,2.4,3169.31
std,13.57,2.54,1.7,3055.86
min,17.0,1.0,0.0,0.0
25%,28.0,9.0,1.0,1100.0
50%,37.0,10.0,2.0,2410.0
75%,47.0,12.0,4.0,3640.5
max,90.0,16.0,5.0,19994.0


### Método Transpose

***
A função transpose pode ser útil em diversas situações, como quando queremos realizar operações em colunas específicas, quando precisamos ajustar a estrutura do DataFrame para uma determinada análise ou quando desejamos apresentar os dados de uma forma mais adequada para visualização.

A função transpose do Pandas nos permite realizar a transposição de um DataFrame, trocando as linhas pelas colunas e as colunas pelas linhas. Essa função é útil quando queremos modificar a orientação dos dados para melhor adequá-los às nossas necessidades de análise e visualização.

In [18]:
df.describe().transpose().round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
idade,7999.0,38.48,13.57,17.0,28.0,37.0,47.0,90.0
anos_estudo,7999.0,10.07,2.54,1.0,9.0,10.0,12.0,16.0
qtde_filhos,7997.0,2.4,1.7,0.0,1.0,2.0,4.0,5.0
salario,7999.0,3169.31,3055.86,0.0,1100.0,2410.0,3640.5,19994.0
