# Apply com group by e expressão lambda

## Exemplo 1) 

Aplicando uma Função Lambda com groupby()

In [65]:
import pandas as pd

# Criando um DataFrame
data = {'Categoria': ['A', 'A', 'B', 'B', 'C', 'C'],
        'Valor': [10, 15, 10, 40, 50, 30]}

df = pd.DataFrame(data)
df

Unnamed: 0,Categoria,Valor
0,A,10
1,A,15
2,B,10
3,B,40
4,C,50
5,C,30


In [66]:
# Agrupando por 'Categoria' e aplicando uma função lambda
resultado = df.groupby('Categoria')['Valor'].apply(lambda x: x.sum())
resultado

Categoria
A    25
B    50
C    80
Name: Valor, dtype: int64

## Exemplo 2)

Aplicando Lambda com Funções Mais Complexas. Vamos calcular a média de cada grupo e subtrair a média de cada valor dentro do grupo

In [67]:
# Agrupando por 'Categoria' e subtraindo a média de cada grupo
resultado = df.groupby('Categoria')['Valor'].apply(lambda x: x - x.mean())

print(resultado)

Categoria   
A          0    -2.5
           1     2.5
B          2   -15.0
           3    15.0
C          4    10.0
           5   -10.0
Name: Valor, dtype: float64


## Exercício 1)

Tente usar o groupby() e apply() para criar uma nova coluna que calcule o desvio de cada valor em relação à soma dos valores do grupo.

In [68]:
import numpy as np

resultado2 = df.groupby('Categoria')['Valor'].apply(lambda x: x - np.sum(x)).reset_index(drop=True)
resultado2

0   -15
1   -10
2   -40
3   -10
4   -30
5   -50
Name: Valor, dtype: int64

## Exercício 2) Cálculo da Média

Crie uma nova coluna em um DataFrame que calcule a média dos valores para cada categoria e subtraia essa média de cada valor.

In [69]:
df

Unnamed: 0,Categoria,Valor
0,A,10
1,A,15
2,B,10
3,B,40
4,C,50
5,C,30


In [70]:
resultado3 = df.groupby('Categoria')['Valor'].apply(lambda x: x - np.mean(x))
resultado3

Categoria   
A          0    -2.5
           1     2.5
B          2   -15.0
           3    15.0
C          4    10.0
           5   -10.0
Name: Valor, dtype: float64

# Exercício 3) Contagem de Elementos

Dado um DataFrame que contém informações sobre vendas, crie uma nova coluna que conta quantas vendas foram feitas em cada categoria.

In [71]:
data = {'Categoria': ['A', 'A', 'B', 'B', 'C', 'C', 'A'],
        'Vendas': [100, 200, 150, 400, 500, 300, 150]}

df1 = pd.DataFrame(data)
df1

Unnamed: 0,Categoria,Vendas
0,A,100
1,A,200
2,B,150
3,B,400
4,C,500
5,C,300
6,A,150


In [72]:
df1['Contagem'] = df1.groupby('Categoria')['Vendas'].transform('count')
df1

Unnamed: 0,Categoria,Vendas,Contagem
0,A,100,3
1,A,200,3
2,B,150,2
3,B,400,2
4,C,500,2
5,C,300,2
6,A,150,3


# Exercício 4) Cálculo do Desvio Padrão

Crie uma nova coluna que calcule o desvio padrão dos valores para cada categoria.

In [73]:
df1['Desvio Padrão'] = df1.groupby('Categoria')['Vendas'].transform(np.std)
df1

  df1['Desvio Padrão'] = df1.groupby('Categoria')['Vendas'].transform(np.std)


Unnamed: 0,Categoria,Vendas,Contagem,Desvio Padrão
0,A,100,3,50.0
1,A,200,3,50.0
2,B,150,2,176.776695
3,B,400,2,176.776695
4,C,500,2,141.421356
5,C,300,2,141.421356
6,A,150,3,50.0


# Exercício 4) Classificação

Utilizando um DataFrame com notas de alunos, crie uma nova coluna que classifica os alunos em "Aprovado" ou "Reprovado" com base na média das notas em cada categoria (por exemplo, matéria)

In [74]:
data = {'Materia': ['Matematica', 'Matematica', 'Portugues', 'Portugues', 'Historia', 'Historia'],
        'Nota': [75, 85, 60, 40, 90, 80]}

df2 = pd.DataFrame(data)
df2

Unnamed: 0,Materia,Nota
0,Matematica,75
1,Matematica,85
2,Portugues,60
3,Portugues,40
4,Historia,90
5,Historia,80


In [75]:
# Calculando a média das notas por matéria
media_por_materia = df2.groupby('Materia')['Nota'].mean().reset_index()
media_por_materia

Unnamed: 0,Materia,Nota
0,Historia,85.0
1,Matematica,80.0
2,Portugues,50.0


In [76]:
# Renomeando a coluna de média
media_por_materia.rename(columns={'Nota': 'Media'}, inplace=True)

In [77]:
# Juntando o DataFrame original com as médias
df2 = df2.merge(media_por_materia, on='Materia')
df2

Unnamed: 0,Materia,Nota,Media
0,Matematica,75,80.0
1,Matematica,85,80.0
2,Portugues,60,50.0
3,Portugues,40,50.0
4,Historia,90,85.0
5,Historia,80,85.0


In [80]:
# Criando a coluna de classificação
df2['Classificacao'] = df2.apply(lambda row: 'Aprovado' if row['Media'] >= 50 else 'Reprovado', axis=1)

In [81]:
df2

Unnamed: 0,Materia,Nota,Media,Classificacao
0,Matematica,75,80.0,Aprovado
1,Matematica,85,80.0,Aprovado
2,Portugues,60,50.0,Aprovado
3,Portugues,40,50.0,Aprovado
4,Historia,90,85.0,Aprovado
5,Historia,80,85.0,Aprovado
