Link chatGPT: https://chatgpt.com/c/6705bfb3-e858-8002-a2cc-1a8ae0fc9121

# Definição

O método tranform() permite realizar transformações em grupos de dados (como em um groupby) ou em uma coluna inteira, retornando uma estrutura com o <b><u>mesmo tamanho da original</u></b>.

O transform() aplica uma função a cada grupo (ou a cada elemento de uma série), e retorna um objeto de mesmo tamanho que o DataFrame ou Série original. Ele é útil quando você quer que o resultado tenha o mesmo índice que a estrutura inicial, para que possa ser atribuído como uma nova coluna ou usado diretamente.

# Estrutura geral

## Para uma série

    série.transform(func)


## Para um DataFrame com groupby

    df.groupby('coluna_chave')['coluna_desejada'].transform(func)

* func: Pode ser uma função predefinida, como mean, sum, std, ou até uma expressão lambda personalizada.


# Principais diferenças com apply()

* transform() retorna um resultado do mesmo tamanho que a entrada.

* apply(), em comparação, pode retornar objetos de tamanhos diferentes (exemplo: um único valor por grupo).

# Exemplo 1) Aplicando em uma Série

In [78]:
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [79]:
# transformação: dobrar cada valor
resultado = s.transform(lambda x: x * 2)
resultado

0     2
1     4
2     6
3     8
4    10
dtype: int64

No exemplo acima, o transform() aplicou a função lambda x: x * 2 em cada elemento da série, retornando uma nova série do mesmo tamanho.

# Exemplo 2) Aplicando com groupby

Imagine um DataFrame com vendas categorizadas por produto:

In [80]:
# Dados
df = pd.DataFrame({
    'Produto': ['A', 'A', 'B', 'B', 'C'],
    'Vendas': [100, 150, 200, 250, 300]
})

In [81]:
df

Unnamed: 0,Produto,Vendas
0,A,100
1,A,150
2,B,200
3,B,250
4,C,300


In [82]:
# Transformação: Calcular a média de vendas por produto
df['Media_Vendas'] = df.groupby('Produto')['Vendas'].transform('mean')
df

Unnamed: 0,Produto,Vendas,Media_Vendas
0,A,100,125.0
1,A,150,125.0
2,B,200,225.0
3,B,250,225.0
4,C,300,300.0


* A função 'mean' foi aplicada em cada grupo (Produto), calculando a média de vendas.

* O resultado foi expandido de volta, criando uma coluna onde cada linha mostra a média correspondente ao grupo da linha.

# Exemplo 3) Transformação personalizada

In [83]:
# Calcular a proporção de cada venda dentro do grupo
df['Proporcao'] = df.groupby('Produto')['Vendas'].transform(lambda x: x/x.sum())
df

Unnamed: 0,Produto,Vendas,Media_Vendas,Proporcao
0,A,100,125.0,0.4
1,A,150,125.0,0.6
2,B,200,225.0,0.444444
3,B,250,225.0,0.555556
4,C,300,300.0,1.0


# Quando usar o transform()?

1. Adicionar colunas ao DataFrame sem alterar o tamanho:

    * Exemplo: Adicionar a média, soma, ou proporção de valores em grupos.

2. Realizar cálculos personalizados para cada grupo:

    * Exemplo: Normalizar os valores dentro de grupos.

3. Aplicar uma transformação em cada elemento de uma Série:

    * Exemplo: Aplicar uma função a todos os valores de uma coluna.

# Exercício Simples

Dado o DataFrame abaixo, calcule a diferença de cada valor em relação à média de vendas do grupo:

In [84]:
df = pd.DataFrame({
    'Produto': ['A', 'A', 'B', 'B', 'C'],
    'Vendas': [100, 150, 200, 250, 300]
})
df

Unnamed: 0,Produto,Vendas
0,A,100
1,A,150
2,B,200
3,B,250
4,C,300


In [85]:
df['Dif_Vendas'] = df.groupby('Produto')['Vendas'].transform(lambda x: x - x.mean())
df

Unnamed: 0,Produto,Vendas,Dif_Vendas
0,A,100,-25.0
1,A,150,25.0
2,B,200,-25.0
3,B,250,25.0
4,C,300,0.0


# Exemplo 1) Documentação

Link: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.transform.html

In [86]:
import pandas as pd
import numpy as np

In [87]:
df = pd.DataFrame({'A': range(3), 'B': range(1,4)})
df

Unnamed: 0,A,B
0,0,1
1,1,2
2,2,3


In [88]:
df.transform(lambda x: x+ 1)

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


# Exemplo 2) Documentação

In [89]:
s = pd.Series(range(3))
s

0    0
1    1
2    2
dtype: int64

In [90]:
s.transform([np.sqrt, np.exp])

Unnamed: 0,sqrt,exp
0,0.0,1.0
1,1.0,2.718282
2,1.414214,7.389056


# Exemplo 3) Documentação

transform com groupby

In [91]:
df = pd.DataFrame({
    "Date": [
        "2015-05-08", "2015-05-07", "2015-05-06", "2015-05-05",
        "2015-05-08", "2015-05-07", "2015-05-06", "2015-05-05"],
    "Data": [5, 8, 6, 1, 50, 100, 60, 120],
})

df

Unnamed: 0,Date,Data
0,2015-05-08,5
1,2015-05-07,8
2,2015-05-06,6
3,2015-05-05,1
4,2015-05-08,50
5,2015-05-07,100
6,2015-05-06,60
7,2015-05-05,120


In [92]:
df.groupby('Date')['Data'].transform('sum')

0     55
1    108
2     66
3    121
4     55
5    108
6     66
7    121
Name: Data, dtype: int64

Não entendi esse exemplo

# Exemplo 4) Documentação

In [93]:
df = pd.DataFrame({
    "c": [1, 1, 1, 2, 2, 2, 2],
    "type": ["m", "n", "o", "m", "m", "n", "n"]
})

df

Unnamed: 0,c,type
0,1,m
1,1,n
2,1,o
3,2,m
4,2,m
5,2,n
6,2,n


In [94]:
df['size'] = df.groupby('c')['type'].transform(len)
df

Unnamed: 0,c,type,size
0,1,m,3
1,1,n,3
2,1,o,3
3,2,m,4
4,2,m,4
5,2,n,4
6,2,n,4


Não entendi esse exemplo também

# Exercícios

Link chatGPT: https://chatgpt.com/c/6705bfb3-e858-8002-a2cc-1a8ae0fc9121

## Exercício 1) Normalizando valores dentro de grupos

Você tem o seguinte DataFrame:

In [1]:
import pandas as pd

df = pd.DataFrame({
    'Categoria': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Valor': [10, 20, 30, 40, 50, 60]
})

<b><u>Tarefa:</u></b> Adicione uma nova coluna ao DataFrame chamada Valor_Normalizado, onde os valores de cada grupo (Categoria) sejam normalizados entre 0 e 1. A fórmula de normalização é:

\begin{equation}
    x_{normalizado} = \frac{x - mínimo}{máximo - mínimo}
\end{equation}

In [2]:
df

Unnamed: 0,Categoria,Valor
0,A,10
1,A,20
2,B,30
3,B,40
4,C,50
5,C,60


In [3]:
df['Valor_Normalizado'] = df.groupby('Categoria')['Valor'].transform(lambda x: (x - x.min())/(x.max() - x.min()))

In [4]:
df

Unnamed: 0,Categoria,Valor,Valor_Normalizado
0,A,10,0.0
1,A,20,1.0
2,B,30,0.0
3,B,40,1.0
4,C,50,0.0
5,C,60,1.0


## Calculando o percentual dentro do grupo

Imagine o mesmo DataFrame do exercício anterior:

In [5]:
df = pd.DataFrame({
    'Categoria': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Valor': [10, 20, 30, 40, 50, 60]
})

<b><u>Tarefa:</u></b> Adicione uma nova coluna ao DataFrame chamada Percentual, que mostre qual é a porcentagem que cada valor representa dentro de seu grupo (Categoria). A fórmula é:

\begin{equation}
    Percentual = \frac{Valor}{soma dos valores do grupo} \times 100
\end{equation}

In [6]:
df

Unnamed: 0,Categoria,Valor
0,A,10
1,A,20
2,B,30
3,B,40
4,C,50
5,C,60


In [9]:
df['Percentual'] = df.groupby('Categoria')['Valor'].transform(lambda x: (x * 100)/(x.sum()))

In [10]:
df

Unnamed: 0,Categoria,Valor,Percentual
0,A,10,33.333333
1,A,20,66.666667
2,B,30,42.857143
3,B,40,57.142857
4,C,50,45.454545
5,C,60,54.545455
