Link chatGPT: https://chatgpt.com/c/6705bfb3-e858-8002-a2cc-1a8ae0fc9121

# Definição

A função apply() permite aplicar uma função (ou expressão) personalizada a elementos de uma coluna ou a linhas de um DataFrame. É uma ferramenta poderosa para realizar operações que vão além das funções padrão do pandas.

## Sintaxe

DataFrame.apply(func, axis=0)  # Para aplicar em colunas (default)

DataFrame.apply(func, axis=1)  # Para aplicar em linhas

Series.apply(func)  # Para aplicar a função em uma coluna/Series

* func: A função que será aplicada. Pode ser uma função definida pelo usuário ou uma função built-in.

* axis: 

        0 (ou omitido): Aplica por coluna.
        
        1: Aplica por linha.

# Exemplo simples com uma série

Suponha que você tenha uma Série com números e queira calcular o quadrado de cada número:

In [9]:
import pandas as pd

serie = pd.Series([1, 2, 3, 4, 5])

resultado = serie.apply(lambda x: x ** 2)

resultado

0     1
1     4
2     9
3    16
4    25
dtype: int64

# Exemplo com um DataFrame

Dado o DataFrame:

In [10]:
df = pd.DataFrame({
    'Produto': ['A', 'B', 'C'],
    'Preço': [10, 20, 30],
    'Quantidade': [1, 2, 3]
})

In [11]:
df

Unnamed: 0,Produto,Preço,Quantidade
0,A,10,1
1,B,20,2
2,C,30,3


Calcular o total (Preço × Quantidade) em uma nova coluna:

In [13]:
df['Total'] = df.apply(lambda x: x['Preço'] * x['Quantidade'], axis=1)
df

Unnamed: 0,Produto,Preço,Quantidade,Total
0,A,10,1,10
1,B,20,2,40
2,C,30,3,90


# Quando usar o apply()?

1. Para transformar valores em uma coluna (ou DataFrame):

* Exemplo: Calcular o log de todos os números em uma coluna.

In [15]:
import numpy as np
df['log_preço'] = df['Preço'].apply(np.log)

2. Quando precisa de operações que envolvem várias colunas:

* Exemplo: Criar uma nova coluna que seja o resultado de uma fórmula envolvendo outras.

3. Para aplicar funções complexas, incluindo funções definidas pelo usuário.

* Exemplo: Categorizar preços em "caro" ou "barato":

In [16]:
def categorizar(preco):
    return 'Caro' if preco > 20 else 'Barato'

In [18]:
df['Categoria'] = df['Preço'].apply(categorizar)
df

Unnamed: 0,Produto,Preço,Quantidade,Total,log_preço,Categoria
0,A,10,1,10,2.302585,Barato
1,B,20,2,40,2.995732,Barato
2,C,30,3,90,3.401197,Caro


# Exercícios

## Exercício 1 - Nível fácil

Crie um DataFrame com informações de preços e descontos de produtos, e calcule o preço final de cada produto.

In [19]:
df = pd.DataFrame({
    'Produto': ['A', 'B', 'C'],
    'Preço': [100, 200, 150],
    'Desconto (%)': [10, 5, 20]
})

<b><u>Tarefa:</u></b> Adicione uma nova coluna chamada Preço Final, que calcula o preço após aplicar o desconto.

In [20]:
df

Unnamed: 0,Produto,Preço,Desconto (%)
0,A,100,10
1,B,200,5
2,C,150,20


In [23]:
df['Preço Final'] = df.apply(lambda x: x['Preço'] * (1 - x['Desconto (%)']/100), axis=1)
df

Unnamed: 0,Produto,Preço,Desconto (%),Preço Final
0,A,100,10,90.0
1,B,200,5,190.0
2,C,150,20,120.0


## Nível médio

Você tem um DataFrame com dados sobre estudantes e suas notas em 3 disciplinas. Crie uma nova coluna indicando se o estudante passou ou reprovou.

In [24]:
df = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carlos', 'Diana'],
    'Matemática': [70, 50, 80, 65],
    'Física': [60, 40, 90, 70],
    'Química': [50, 55, 85, 80]
})

df

Unnamed: 0,Nome,Matemática,Física,Química
0,Alice,70,60,50
1,Bob,50,40,55
2,Carlos,80,90,85
3,Diana,65,70,80


<b><u>Tarefa:</u></b> Adicione uma nova coluna chamada Resultado, com valores "Aprovado" ou "Reprovado".

Um estudante é aprovado se a média das 3 notas for maior ou igual a 60.

In [27]:
df['Resultado'] = df.apply(lambda x: 'Aprovado' if (x['Matemática'] + x['Física'] + x['Química'])/3 >= 60 else 'Reprovado', axis = 1)
df

Unnamed: 0,Nome,Matemática,Física,Química,Resultado
0,Alice,70,60,50,Aprovado
1,Bob,50,40,55,Reprovado
2,Carlos,80,90,85,Aprovado
3,Diana,65,70,80,Aprovado


O código abaixo mostra melhor como funciona o apply() utilizado

In [28]:
df.apply(lambda x: print(x), axis = 1)

Nome             Alice
Matemática          70
Física              60
Química             50
Resultado     Aprovado
Name: 0, dtype: object
Nome                Bob
Matemática           50
Física               40
Química              55
Resultado     Reprovado
Name: 1, dtype: object
Nome            Carlos
Matemática          80
Física              90
Química             85
Resultado     Aprovado
Name: 2, dtype: object
Nome             Diana
Matemática          65
Física              70
Química             80
Resultado     Aprovado
Name: 3, dtype: object


0    None
1    None
2    None
3    None
dtype: object

# Nível difícil

Você gerencia uma loja e possui um registro de produtos vendidos por dia. Para cada dia, determine qual produto teve o maior valor total vendido.

In [29]:
df = pd.DataFrame({
    'Dia': ['Segunda', 'Segunda', 'Terça', 'Terça'],
    'Produto': ['A', 'B', 'A', 'B'],
    'Quantidade': [10, 5, 8, 12],
    'Preço Unitário': [20, 50, 20, 50]
})

Tarefa: 
Crie uma nova coluna chamada Maior Valor Vendido, onde cada linha indica o produto mais lucrativo no respectivo dia.

Dica: Use groupby('Dia') com apply() para encontrar o maior valor (Quantidade * Preço Unitário) de cada grupo.

In [30]:
df

Unnamed: 0,Dia,Produto,Quantidade,Preço Unitário
0,Segunda,A,10,20
1,Segunda,B,5,50
2,Terça,A,8,20
3,Terça,B,12,50


In [33]:
df['Total'] = df.apply(lambda x: x['Quantidade'] * x['Preço Unitário'], axis = 1)
df

Unnamed: 0,Dia,Produto,Quantidade,Preço Unitário,Total
0,Segunda,A,10,20,200
1,Segunda,B,5,50,250
2,Terça,A,8,20,160
3,Terça,B,12,50,600


In [37]:
df.groupby('Dia').apply(lambda grupo: grupo.loc[grupo['Total'].idxmax()]
)

  df.groupby('Dia').apply(lambda grupo: grupo.loc[grupo['Total'].idxmax()]


Unnamed: 0_level_0,Dia,Produto,Quantidade,Preço Unitário,Total
Dia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Segunda,Segunda,B,5,50,250
Terça,Terça,B,12,50,600
