# Agrupamento e resumo de dados
***

O agrupamento e resumo de dados são etapas essenciais na análise de dados, permitindo extrair informações úteis e insights valiosos a partir de conjuntos de dados complexos. Essas técnicas nos permitem organizar, resumir e comparar os dados com base em categorias ou critérios específicos.


### Importação das bibliotecas


In [2]:
import numpy as np
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [32]:
dados = {'Nome': ['Maria', 'João', 'Ana', 'Pedro', 'João'],
        'Categoria': ['A', 'B', 'A', 'B', 'B'],
        'Vendas': [100, 200, 150, 250,350]}

df = pd.DataFrame(dados)
df.head()

Unnamed: 0,Nome,Categoria,Vendas
0,Maria,A,100
1,João,B,200
2,Ana,A,150
3,Pedro,B,250
4,João,B,350


### Método groupby
***
Uma das principais ferramentas utilizadas para agrupar e resumir dados no pandas, uma biblioteca popular do Python para análise de dados, é o método groupby. Esse método permite agrupar os dados com base em uma ou mais colunas, criando grupos que compartilham características comuns. Em seguida, podemos aplicar funções de agregação aos grupos para resumir os dados, como contar, somar, calcular média, máximo, mínimo, entre outros.

In [20]:
df_agrupado = df.groupby('Categoria')['Vendas'].sum()
df_agrupado

Categoria
A    600
B    450
Name: Vendas, dtype: int64

### Método agg
***
Esse método permite aplicar várias funções de agregação aos grupos definidos pelo groupby. Podemos calcular diferentes métricas para cada grupo ou até mesmo aplicar funções personalizadas.

In [21]:
# Agrupar os dados por categoria e calcular a soma das vendas em cada categoria
df_agrupado_2 = df.groupby('Categoria').agg({'Vendas': 'sum'})
df_agrupado_2

Unnamed: 0_level_0,Vendas
Categoria,Unnamed: 1_level_1
A,600
B,450


In [22]:
df_agrupado_3 = df.groupby('Categoria').agg({'Vendas': ['sum', 'mean', 'max']})
df_agrupado_3

Unnamed: 0_level_0,Vendas,Vendas,Vendas
Unnamed: 0_level_1,sum,mean,max
Categoria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,600,200.0,350
B,450,225.0,250


In [23]:
grouped = df.groupby('Categoria')
grouped.agg(
        Total_vendas = ('Vendas', 'sum')
)

Unnamed: 0_level_0,Total_vendas
Categoria,Unnamed: 1_level_1
A,600
B,450


In [34]:
grouped = df.groupby(['Nome','Categoria'])
grouped.agg(
        total_vendas = ('Vendas', 'sum'), 
        Média_vendas = ('Vendas', 'mean')
)

Unnamed: 0_level_0,Unnamed: 1_level_0,total_vendas,Média_vendas
Nome,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Ana,A,150,150.0
João,B,550,275.0
Maria,A,100,100.0
Pedro,B,250,250.0


### Método pivot_table
***
Permite criar uma tabela dinâmica a partir dos dados, onde as linhas representam uma categoria, as colunas representam outra categoria e os valores são agregados com base em uma terceira categoria.


In [28]:
# Criar uma tabela dinâmica com base nas colunas 'Categoria' e 'Nome'
df_pivot = df.pivot_table(index='Categoria', columns='Nome', values='Vendas', aggfunc='sum')

# Exibir a tabela dinâmica
df_pivot

Nome,Ana,João,Maria,Pedro
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,150.0,350.0,100.0,
B,,200.0,,250.0


### Método crosstab
***
Permite criar uma tabela de frequência cruzada, que mostra a contagem dos valores em duas ou mais colunas.

In [36]:
# Criar uma tabela de frequência cruzada com base nas colunas 'Categoria' e 'Nome'
df_crosstab = pd.crosstab(df['Categoria'], df['Nome'])

# Exibir a tabela de frequência cruzada
df_crosstab

Nome,Ana,João,Maria,Pedro
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,0,1,0
B,0,2,0,1


### Método info
***
Fornece um resumo conciso das informações básicas sobre um DataFrame, incluindo o número de linhas, o número de colunas, os nomes das colunas e os tipos de dados de cada coluna. Além disso, ele também mostra a quantidade de memória usada pelo DataFrame. Isso é particularmente útil quando estamos lidando com conjuntos de dados grandes e queremos ter uma visão geral rápida de sua estrutura.

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nome       5 non-null      object
 1   Categoria  5 non-null      object
 2   Vendas     5 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes


### Método describe

***
Fornece um resumo estatístico das colunas numéricas de um DataFrame. Ele calcula várias estatísticas descritivas, como contagem, média, desvio padrão, valor mínimo, quartis e valor máximo. Essa função nos ajuda a ter uma visão rápida das principais informações estatísticas de cada coluna numérica, permitindo identificar tendências, distribuições e possíveis outliers nos dados.

In [47]:
dados = {'Nome': ['Maria', 'João', 'Ana', 'Pedro'],
        'Idade': [25, 32, 28, 40],
        'Salário': [5000, 3000, 4500, 6000]}

df_salarios = pd.DataFrame(dados)
df_salarios.head()

Unnamed: 0,Nome,Idade,Salário
0,Maria,25,5000
1,João,32,3000
2,Ana,28,4500
3,Pedro,40,6000


In [48]:
df_salarios.describe()

Unnamed: 0,Idade,Salário
count,4.0,4.0
mean,31.25,4625.0
std,6.5,1250.0
min,25.0,3000.0
25%,27.25,4125.0
50%,30.0,4750.0
75%,34.0,5250.0
max,40.0,6000.0


### Método Transpose

***
A função transpose pode ser útil em diversas situações, como quando queremos realizar operações em colunas específicas, quando precisamos ajustar a estrutura do DataFrame para uma determinada análise ou quando desejamos apresentar os dados de uma forma mais adequada para visualização.

A função transpose do Pandas nos permite realizar a transposição de um DataFrame, trocando as linhas pelas colunas e as colunas pelas linhas. Essa função é útil quando queremos modificar a orientação dos dados para melhor adequá-los às nossas necessidades de análise e visualização.

In [49]:
df_salarios.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Idade,4.0,31.25,6.5,25.0,27.25,30.0,34.0,40.0
Salário,4.0,4625.0,1250.0,3000.0,4125.0,4750.0,5250.0,6000.0
