#### Agrupamento e Resumo de Dados
***

O agrupamento e resumo de dados são etapas essenciais na análise de dados, permitindo extrair informações úteis e insights valiosos a partir de conjuntos de dados complexos. Essas técnicas nos permitem organizar, resumir e comparar os dados com base em categorias ou critérios específicos.


#### Importação das Bibliotecas


In [26]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [27]:
df = pd.read_csv('./datasets/perfil_clientes.csv', sep=';')
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,475450
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,110050
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método groupby
***
Uma das principais ferramentas utilizadas para agrupar e resumir dados no pandas, uma biblioteca popular do Python para análise de dados, é o método groupby. Esse método permite agrupar os dados com base em uma ou mais colunas, criando grupos que compartilham características comuns. Em seguida, podemos aplicar funções de agregação aos grupos para resumir os dados, como contar, somar, calcular média, máximo, mínimo, entre outros.

In [28]:
df.groupby('classe_trabalho')['idade'].mean().sort_values()

classe_trabalho
Menor Aprendiz               17.000000
Estagiário                   19.000000
Funcionário Setor Privado    36.280007
Servidor Público             38.558528
Empresário                   41.006048
Funcionário Público          41.402778
Autônomo                     42.583333
MEI                          44.781818
Desempregado                 45.666667
Aposentado                   72.202247
Name: idade, dtype: float64

In [29]:
df.groupby(['classe_trabalho', 'estado_civil'])['idade'].mean()

classe_trabalho            estado_civil 
Aposentado                 Casado           71.235714
                           Divorciado       70.173913
                           Separado         75.666667
                           Solteiro         75.888889
                           União Estável    72.666667
                           Viúvo            73.197183
Autônomo                   Casado           45.197403
                           Divorciado       44.045455
                           Separado         37.000000
                           Solteiro         31.773585
                           União Estável    40.625000
                           Viúvo            57.777778
Desempregado               Casado           54.000000
                           Solteiro         18.000000
                           Viúvo            65.000000
Empresário                 Casado           43.181818
                           Divorciado       43.488095
                           Separado      

#### Método agg
***
Esse método permite aplicar várias funções de agregação aos grupos definidos pelo groupby. Podemos calcular diferentes métricas para cada grupo ou até mesmo aplicar funções personalizadas.

In [30]:
# Agrupar os dados por categoria e calcular a soma das vendas em cada categoria
df.groupby(['raca', 'UF']).agg(
    media_quantidade_filhos = ('qtde_filhos', 'mean'),
    soma_idades = ('idade', sum)
)

  df.groupby(['raca', 'UF']).agg(


Unnamed: 0_level_0,Unnamed: 1_level_0,media_quantidade_filhos,soma_idades
raca,UF,Unnamed: 2_level_1,Unnamed: 3_level_1
Amarelo,AC,4.000,90
Amarelo,AL,2.500,56
Amarelo,AM,2.250,232
Amarelo,AP,2.200,213
Amarelo,BA,3.000,59
...,...,...,...
Pardo,RS,1.875,298
Pardo,SC,2.250,269
Pardo,SE,2.200,176
Pardo,SP,2.250,153


#### Método pivot_table
***
Permite criar uma tabela dinâmica a partir dos dados, onde as linhas representam uma categoria, as colunas representam outra categoria e os valores são agregados com base em uma terceira categoria.


In [31]:
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,475450
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,110050
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


In [35]:
# Converter o salário para numérico (substituindo vírgula por ponto)
df['salario'] = df['salario'].replace(',', '.', regex=True).astype(float)

# Criar a tabela dinâmica
tabela_pivot = df.pivot_table(index='estado_civil',
                              columns='raca',
                              values='salario',
                              aggfunc='mean').round(2)

print(tabela_pivot)

raca           Amarelo   Branco  Indígena    Negro    Pardo
estado_civil                                               
Casado         2529.07  3415.12   2023.55  3057.25  3961.43
Divorciado     1965.00  3219.73   2842.53  3212.93  3373.81
Separado       1100.00  2870.34   2935.00  3572.68  2641.33
Solteiro       2193.68  2868.87   4697.30  2693.64  3326.43
União Estável  1100.00  3118.64   1100.00  2161.58  3296.45
Viúvo          3435.67  3034.36   4503.50  3501.38  1100.00


#### Método info
***
Fornece um resumo conciso das informações básicas sobre um DataFrame, incluindo o número de linhas, o número de colunas, os nomes das colunas e os tipos de dados de cada coluna. Além disso, ele também mostra a quantidade de memória usada pelo DataFrame. Isso é particularmente útil quando estamos lidando com conjuntos de dados grandes e queremos ter uma visão geral rápida de sua estrutura.

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7999 entries, 0 to 7998
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   idade            7999 non-null   int64  
 1   classe_trabalho  7612 non-null   object 
 2   escolaridade     7999 non-null   object 
 3   anos_estudo      7999 non-null   int64  
 4   estado_civil     7999 non-null   object 
 5   raca             7999 non-null   object 
 6   sexo             7999 non-null   object 
 7   UF               7999 non-null   object 
 8   região           7999 non-null   object 
 9   qtde_filhos      7997 non-null   float64
 10  salario          7999 non-null   float64
dtypes: float64(2), int64(2), object(7)
memory usage: 687.5+ KB


#### Método describe

***
Fornece um resumo estatístico das colunas numéricas de um DataFrame. Ele calcula várias estatísticas descritivas, como contagem, média, desvio padrão, valor mínimo, quartis e valor máximo. Essa função nos ajuda a ter uma visão rápida das principais informações estatísticas de cada coluna numérica, permitindo identificar tendências, distribuições e possíveis outliers nos dados.

In [37]:
df.describe().round(2)

Unnamed: 0,idade,anos_estudo,qtde_filhos,salario
count,7999.0,7999.0,7997.0,7999.0
mean,38.48,10.07,2.4,3169.31
std,13.57,2.54,1.7,3055.86
min,17.0,1.0,0.0,0.0
25%,28.0,9.0,1.0,1100.0
50%,37.0,10.0,2.0,2410.0
75%,47.0,12.0,4.0,3640.5
max,90.0,16.0,5.0,19994.0


### Método Transpose

***
A função transpose pode ser útil em diversas situações, como quando queremos realizar operações em colunas específicas, quando precisamos ajustar a estrutura do DataFrame para uma determinada análise ou quando desejamos apresentar os dados de uma forma mais adequada para visualização.

A função transpose do Pandas nos permite realizar a transposição de um DataFrame, trocando as linhas pelas colunas e as colunas pelas linhas. Essa função é útil quando queremos modificar a orientação dos dados para melhor adequá-los às nossas necessidades de análise e visualização.

In [41]:
dados = df.describe().transpose().round(2)

In [43]:
dados.to_csv('./datasets/resumo_de_dados.csv', sep=';', encoding='latin1')