## Arupamento de dados 
é uma técnica poderosa em análise de dados que permite resumir e analisar subconjuntos de dados baseados em categorias ou valores únicos. Em Pandas, isso é frequentemente realizado com o método `.groupby()`, que agrupa dados em um DataFrame com base em uma ou mais colunas. Vamos explorar como usar esse método, juntamente com algumas operações comuns aplicadas aos grupos resultantes, como agregação, transformação e filtragem.

In [1]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
data = {
    'Departamento': ['Vendas', 'Vendas', 'RH', 'RH', 'TI', 'TI'],
    'Funcionario': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Eduardo', 'Fábio'],
    'Salario': [5000, 4000, 3000, 3500, 7000, 6500]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Departamento,Funcionario,Salario
0,Vendas,Ana,5000
1,Vendas,Bruno,4000
2,RH,Carlos,3000
3,RH,Diana,3500
4,TI,Eduardo,7000
5,TI,Fábio,6500


### Agrupamento Simples

Você pode agrupar os dados baseando-se em uma única coluna e aplicar uma operação de agregação, como soma ou média.

In [2]:
# Agrupando por 'Departamento' e calculando a média dos salários
media_salarios = df.groupby('Departamento')['Salario'].mean()
print(media_salarios)


Departamento
RH        3250.0
TI        6750.0
Vendas    4500.0
Name: Salario, dtype: float64


### Agrupamento Múltiplo

Também é possível agrupar por múltiplas colunas.



In [3]:
# Agrupando por 'Departamento' e 'Funcionario', somando os salários
# Neste caso, a soma não é tão informativa, pois cada funcionário tem um único salário
# Mas este exemplo serve para mostrar como você poderia somar outros valores, como horas trabalhadas, etc.
total_salarios = df.groupby(['Departamento', 'Funcionario'])['Salario'].sum()
print(total_salarios)

Departamento  Funcionario
RH            Carlos         3000
              Diana          3500
TI            Eduardo        7000
              Fábio          6500
Vendas        Ana            5000
              Bruno          4000
Name: Salario, dtype: int64


### Operações de Agregação

Após o agrupamento, você pode aplicar diversas operações de agregação para resumir os dados.

In [12]:
# Usando agg() para aplicar múltiplas funções de agregação - ser.groupby(level=0, dropna=False).sum()
resumo_departamento = df.groupby('Departamento')['Salario'].sum()
print(resumo_departamento)

                mean   max   min    sum
Departamento                           
RH            3250.0  3500  3000   6500
TI            6750.0  7000  6500  13500
Vendas        4500.0  5000  4000   9000


  resumo_departamento = df.groupby('Departamento')['Salario'].agg([np.mean, np.max, np.min, np.sum])
  resumo_departamento = df.groupby('Departamento')['Salario'].agg([np.mean, np.max, np.min, np.sum])
  resumo_departamento = df.groupby('Departamento')['Salario'].agg([np.mean, np.max, np.min, np.sum])
  resumo_departamento = df.groupby('Departamento')['Salario'].agg([np.mean, np.max, np.min, np.sum])


### Transformação

O método `.transform()` permite aplicar uma função a cada grupo e retornar um objeto com o mesmo tamanho que o grupo original.

In [7]:
# Normalizando os salários dentro de cada departamento
normalizado = df.groupby('Departamento')['Salario'].transform(lambda x: (x - x.mean()) / x.std())
df['Salario_Normalizado'] = normalizado
print(df)

  Departamento Funcionario  Salario  Salario_Normalizado
0       Vendas         Ana     5000             0.707107
1       Vendas       Bruno     4000            -0.707107
2           RH      Carlos     3000            -0.707107
3           RH       Diana     3500             0.707107
4           TI     Eduardo     7000             0.707107
5           TI       Fábio     6500            -0.707107


### Filtragem
Você pode filtrar os grupos baseando-se em propriedades dos grupos.

In [8]:
# Filtrando departamentos com média salarial acima de 5000
departamentos_alta_media = df.groupby('Departamento').filter(lambda x: x['Salario'].mean() > 5000)
print(departamentos_alta_media)

  Departamento Funcionario  Salario  Salario_Normalizado
4           TI     Eduardo     7000             0.707107
5           TI       Fábio     6500            -0.707107
