# Agrupamento e resumo de dados
***

O agrupamento e resumo de dados são etapas essenciais na análise de dados, permitindo extrair informações úteis e insights valiosos a partir de conjuntos de dados complexos. Essas técnicas nos permitem organizar, resumir e comparar os dados com base em categorias ou critérios específicos.


### Importação das bibliotecas


In [1]:
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [2]:
dados = {'Nome': ['Maria', 'João', 'Ana', 'Pedro', 'João'],
        'Categoria': ['A', 'B', 'A', 'B', 'B'],
        'Vendas': [100, 200, 150, 250,350]}
 
df = pd.DataFrame(dados)
df.head()

Unnamed: 0,Nome,Categoria,Vendas
0,Maria,A,100
1,João,B,200
2,Ana,A,150
3,Pedro,B,250
4,João,B,350


### Método groupby
***
Uma das principais ferramentas utilizadas para agrupar e resumir dados no pandas, uma biblioteca popular do Python para análise de dados, é o método groupby. Esse método permite agrupar os dados com base em uma ou mais colunas, criando grupos que compartilham características comuns. Em seguida, podemos aplicar funções de agregação aos grupos para resumir os dados, como contar, somar, calcular média, máximo, mínimo, entre outros.

In [4]:
df.groupby('Categoria')['Vendas'].sum()

Categoria
A    250
B    800
Name: Vendas, dtype: int64

In [5]:
df.groupby(['Nome','Categoria'])['Vendas'].sum()

Nome   Categoria
Ana    A            150
João   B            550
Maria  A            100
Pedro  B            250
Name: Vendas, dtype: int64

### Método agg
***
Esse método permite aplicar várias funções de agregação aos grupos definidos pelo groupby. Podemos calcular diferentes métricas para cada grupo ou até mesmo aplicar funções personalizadas.

In [6]:
# Agrupar os dados por categoria e calcular a soma das vendas em cada categoria
df.groupby('Categoria').agg({'Vendas': 'sum'})

Unnamed: 0_level_0,Vendas
Categoria,Unnamed: 1_level_1
A,250
B,800


In [8]:
df.groupby('Categoria').agg({'Vendas': ['sum', 'mean', 'std']}).round(2)

Unnamed: 0_level_0,Vendas,Vendas,Vendas
Unnamed: 0_level_1,sum,mean,std
Categoria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,250,125.0,35.36
B,800,266.67,76.38


In [9]:
df.groupby(['Nome','Categoria']).agg({'Vendas': ['sum', 'mean', 'std']}).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Vendas,Vendas,Vendas
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,std
Nome,Categoria,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Ana,A,150,150.0,
João,B,550,275.0,106.07
Maria,A,100,100.0,
Pedro,B,250,250.0,


In [12]:
grouped = df.groupby(['Nome','Categoria'])
grouped.agg(
    Total_vendas = ('Vendas', 'sum'),
    Valor_maximo = ('Vendas', 'max'),
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Total_vendas,Valor_maximo
Nome,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Ana,A,150,150
João,B,550,350
Maria,A,100,100
Pedro,B,250,250


### Método pivot_table
***
Permite criar uma tabela dinâmica a partir dos dados, onde as linhas representam uma categoria, as colunas representam outra categoria e os valores são agregados com base em uma terceira categoria.


In [14]:
# Criar uma tabela dinâmica com base nas colunas 'Categoria' e 'Nome'
df.pivot_table(index='Categoria', 
               columns='Nome',
               values='Vendas',
               aggfunc='sum')

# Exibir a tabela dinâmica


Nome,Ana,João,Maria,Pedro
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,150.0,,100.0,
B,,550.0,,250.0


### Método crosstab
***
Permite criar uma tabela de frequência cruzada, que mostra a contagem dos valores em duas ou mais colunas.

In [15]:
# Criar uma tabela de frequência cruzada com base nas colunas 'Categoria' e 'Nome'
pd.crosstab(df['Categoria'], df['Nome'])

# Exibir a tabela de frequência cruzada


Nome,Ana,João,Maria,Pedro
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,0,1,0
B,0,2,0,1


### Método info
***
Fornece um resumo conciso das informações básicas sobre um DataFrame, incluindo o número de linhas, o número de colunas, os nomes das colunas e os tipos de dados de cada coluna. Além disso, ele também mostra a quantidade de memória usada pelo DataFrame. Isso é particularmente útil quando estamos lidando com conjuntos de dados grandes e queremos ter uma visão geral rápida de sua estrutura.

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nome       5 non-null      object
 1   Categoria  5 non-null      object
 2   Vendas     5 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes


### Método describe

***
Fornece um resumo estatístico das colunas numéricas de um DataFrame. Ele calcula várias estatísticas descritivas, como contagem, média, desvio padrão, valor mínimo, quartis e valor máximo. Essa função nos ajuda a ter uma visão rápida das principais informações estatísticas de cada coluna numérica, permitindo identificar tendências, distribuições e possíveis outliers nos dados.

In [19]:
df.describe()

Unnamed: 0,Vendas
count,5.0
mean,210.0
std,96.17692
min,100.0
25%,150.0
50%,200.0
75%,250.0
max,350.0


### Método Transpose

***
A função transpose pode ser útil em diversas situações, como quando queremos realizar operações em colunas específicas, quando precisamos ajustar a estrutura do DataFrame para uma determinada análise ou quando desejamos apresentar os dados de uma forma mais adequada para visualização.

A função transpose do Pandas nos permite realizar a transposição de um DataFrame, trocando as linhas pelas colunas e as colunas pelas linhas. Essa função é útil quando queremos modificar a orientação dos dados para melhor adequá-los às nossas necessidades de análise e visualização.

In [20]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Vendas,5.0,210.0,96.17692,100.0,150.0,200.0,250.0,350.0
