#### Agrupamento e Resumo de Dados
***

O agrupamento e resumo de dados são etapas essenciais na análise de dados, permitindo extrair informações úteis e insights valiosos a partir de conjuntos de dados complexos. Essas técnicas nos permitem organizar, resumir e comparar os dados com base em categorias ou critérios específicos.


#### Importação das Bibliotecas


In [1]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [3]:
df = pd.read_csv('./datasets/perfil_clientes.csv', sep=';')
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método groupby
***
Uma das principais ferramentas utilizadas para agrupar e resumir dados no pandas, uma biblioteca popular do Python para análise de dados, é o método groupby. Esse método permite agrupar os dados com base em uma ou mais colunas, criando grupos que compartilham características comuns. Em seguida, podemos aplicar funções de agregação aos grupos para resumir os dados, como contar, somar, calcular média, máximo, mínimo, entre outros.

In [5]:
df.groupby('classe_trabalho')['idade'].mean().sort_values()

classe_trabalho
Menor Aprendiz               17.000000
Estagiário                   19.000000
Funcionário Setor Privado    36.280007
Servidor Público             38.558528
Empresário                   41.006048
Funcionário Público          41.402778
Autônomo                     42.583333
MEI                          44.781818
Desempregado                 45.666667
Aposentado                   72.202247
Name: idade, dtype: float64

In [8]:
df.groupby(['classe_trabalho', 'estado_civil'])['idade'].mean()

classe_trabalho            estado_civil 
Aposentado                 Casado           71.235714
                           Divorciado       70.173913
                           Separado         75.666667
                           Solteiro         75.888889
                           União Estável    72.666667
                           Viúvo            73.197183
Autônomo                   Casado           45.197403
                           Divorciado       44.045455
                           Separado         37.000000
                           Solteiro         31.773585
                           União Estável    40.625000
                           Viúvo            57.777778
Desempregado               Casado           54.000000
                           Solteiro         18.000000
                           Viúvo            65.000000
Empresário                 Casado           43.181818
                           Divorciado       43.488095
                           Separado      

#### Método agg
***
Esse método permite aplicar várias funções de agregação aos grupos definidos pelo groupby. Podemos calcular diferentes métricas para cada grupo ou até mesmo aplicar funções personalizadas.

In [10]:
# Agrupar os dados por categoria e calcular a soma das vendas em cada categoria
df.groupby('raca').agg(
    total = ('qtde_filhos', 'mean'),
    soma_idades = ('idade', sum),
    moda_escolaridade = ('escolaridade')
)

  df.groupby('raca').agg(


Unnamed: 0_level_0,total,soma_idades
raca,Unnamed: 1_level_1,Unnamed: 2_level_1
Amarelo,2.506849,2378
Branco,2.4056,263720
Indígena,2.325,2911
Negro,2.347436,29785
Pardo,2.566116,8984


: 

#### Método pivot_table
***
Permite criar uma tabela dinâmica a partir dos dados, onde as linhas representam uma categoria, as colunas representam outra categoria e os valores são agregados com base em uma terceira categoria.


#### Método info
***
Fornece um resumo conciso das informações básicas sobre um DataFrame, incluindo o número de linhas, o número de colunas, os nomes das colunas e os tipos de dados de cada coluna. Além disso, ele também mostra a quantidade de memória usada pelo DataFrame. Isso é particularmente útil quando estamos lidando com conjuntos de dados grandes e queremos ter uma visão geral rápida de sua estrutura.

#### Método describe

***
Fornece um resumo estatístico das colunas numéricas de um DataFrame. Ele calcula várias estatísticas descritivas, como contagem, média, desvio padrão, valor mínimo, quartis e valor máximo. Essa função nos ajuda a ter uma visão rápida das principais informações estatísticas de cada coluna numérica, permitindo identificar tendências, distribuições e possíveis outliers nos dados.

### Método Transpose

***
A função transpose pode ser útil em diversas situações, como quando queremos realizar operações em colunas específicas, quando precisamos ajustar a estrutura do DataFrame para uma determinada análise ou quando desejamos apresentar os dados de uma forma mais adequada para visualização.

A função transpose do Pandas nos permite realizar a transposição de um DataFrame, trocando as linhas pelas colunas e as colunas pelas linhas. Essa função é útil quando queremos modificar a orientação dos dados para melhor adequá-los às nossas necessidades de análise e visualização.