<a href="https://colab.research.google.com/github/jafiorucci/CEE2PY125/blob/main/12_pandas_parte_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas - Parte 2

## Aplicar funções em um DataFrame

`DataFrame.agg()` e `DataFrame.transform()` aplicam, respectivamente, uma função definida pelo usuário para reduzir ou propagar os resultados.

* `DataFrame.agg(func, axis=0)` é utilizada para aplicar funções por eixos.

* `DataFrame.transform(func, axis=0)` é utilizada para operar elemento a elemento.

Veja os exemplos:

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, np.nan, 8],
    'C': [10, 20, 30, 40]
})

# Aplicar uma única função em todas as colunas
result = df.agg('mean')
print(result)
# A    2.5
# B    6.333333
# C    25.0

# Aplicar múltiplas funções a todas as colunas

  ## Função personalizada para calcular a variação percentual
def amplitude(series):
    amp = float( series.max() - series.min() )
    return amp

result = df.agg(['sum', 'min', amplitude])
print("\n", result)
#                     A     B      C
# sum              10.0  19.0  100.0
# min               1.0   5.0   10.0
# amplitude         3.0   3.0   30.0

# Aplicar diferentes funções a diferentes colunas
result = df.agg({'A': 'sum', 'B': 'mean', 'C': 'max'})
print("\n")
print(result)
# A     10.0
# B      6.333333
# C     40.0


In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, np.nan, 8],
    'C': [10, 20, 30, 40]
})

print("df:\n", df)

# Exemplo: padronizar os dados subtraindo de cada elemento o mínimo da coluna e
# dividindo pela pela amplitude de cada coluna
result = df.transform( lambda x: (x - x.min())/(x.max() - x.min()) )
print("\nresult:\n", result)
#     A     B     C
# 0   2  10.0   20
# 1   4  12.0   40
# 2   6   NaN   60
# 3   8  16.0   80

# Aplicar funções diferentes a cada coluna
result = df.transform({'A': lambda x: x + 10, 'B': lambda x: x.fillna(0), 'C': np.sqrt})
print("\nresult:\n", result)
#      A    B         C
# 0   11  5.0  3.162278
# 1   12  6.0  4.472136
# 2   13  0.0  5.477226
# 3   14  8.0  6.324555


**Explicação**: `lambda` é uma forma de declarar um **função anônima**, geralmente utilizada em situações mais simples em que a função não será reaproveitada no futuro.

* sintaxe:
```python
lambda argumentos: expressão
```



### Exercício 1

Considere o seguinte `DataFrame`:
```python
dados = {
    "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste"],
    "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana"],
    "Vendas": [120, 200, 150, 300, 250, 180],
    "Lucro": [30, 50, 25, 70, 60, 40],
    "Desconto (%)": [5, 10, 0, 15, 5, 10],
}
df = pd.DataFrame(dados)
```
Então:

1. Use `DataFrame.agg()` para calcular, para cada coluna numérica do DataFrame:
  * A soma;
  * A média;
  * O valor máximo;

1. Use `DataFrame.transform()` para criar uma nova coluna chamada *Vendas Normalizadas*, que:
  * Subtraia a média das vendas de cada valor.
  * Divida pelo desvio padrão das vendas.
  
  Dica: Aplique a normalização (fórmula: $z = (x - média) / std$) diretamente sobre a coluna *Vendas*.


## Contagem de valores

Pandas disponbiliza a função `count()` que pode ser aplicada para objetos do tipo `Series` e `DataFrame`. Esta função é usada para contar o número de valores **não nulos**, seja por linha ou coluna.

```python
DataFrame.count(axis=0, level=None, numeric_only=False)
```
1. `axis`:
  * 0 ou 'index' (padrão): Conta os valores não nulos por coluna.
  * 1 ou 'columns': Conta os valores não nulos por linha.

1. `level` (opcional):
  * Usado quando o DataFrame possui um índice hierárquico (MultiIndex).
  * Especifica o nível do índice para calcular os valores.

3. `numeric_only` (opcional):
  * Se True, considera apenas colunas (ou linhas) numéricas

 Veja o exemplo:


In [None]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [np.nan, 2, 3, 4],
    "C": ["foo", "bar", np.nan, "baz"],
    "D": [np.nan, np.nan, np.nan, np.nan],
})

print("DataFrame:")
print(df)

# Contando valores não nulos em cada coluna
print("\nContagem por coluna:")
print(df.count())


O método `Series.value_counts()` em pandas conta a frequência de cada valor único em um objeto `Series`, ou seja, quantas vezes cada valor aparece.

> É uma ferramenta muito útil para análise de dados categóricos, pois oferece uma visão rápida da distribuição de valores.

In [None]:
import pandas as pd

# Criando uma Series
serie = pd.Series(["maçã", "banana", "laranja", "maçã", "banana", "maçã"])

print("Série original:")
print(serie)

# Contando valores únicos
print("\nContagem de valores:")
print(serie.value_counts())

# Frequência relativa
print("\nFrequência relativa:")
print(serie.value_counts(normalize=True))

## Métodos para *strings*

`Series` possui um conjunto de métodos para processar atributos do tipo `str`.

In [None]:
s = pd.Series(["A", "11B8", "99C", "Aaba", "Baca", np.nan, "CABA", "81dog", "cat"])
print( s.str.lower() )
print("\n")
print( s.str.findall("\d+") )

## no caso de dataframe, então deve ser aplicado por coluna
df = pd.DataFrame({"A": ["AA99", "asda21", "21asd23"],
                   "B": ["AA99", "asda21", "21asd23"]})

print("\ndf:\n", df)

df_transformed = df.agg(lambda col: col.str.findall(r"\d+"))
print("\n")
print(df_transformed)

## Concatenação

A concatenação de objetos do *Pandas* é feito com `concat()`:

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

In [None]:
# quebra em vários pedaços
pieces = (df[:3], df[3:7], df[7:]) ## tupla de DataFrames

# junção dos pedaços
pd.concat(pieces, axis=0)

## Exercício 2

Considere o seguinte `DataFrame`:
```python
dados = {
    "Cliente": ["Ana", "bruno", "Carlos", "Diana", "Eduarda", np.nan, "fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Smartphone", np.nan, "Tablet"],
    "Valor": [3000, 2000, 3000, 1500, 3000, 2000, 1500, 1500],
    "Data": ["2023-01-15", "2023-01-16", np.nan, "2023-02-10", "2023-02-10", "2023-01-16", "2023-02-15", "2023-02-16"],
}
df = pd.DataFrame(dados)
```
Então:

1. Qual é o número de valores não nulos em cada coluna do DataFrame?
  
  Dica: Utilize o método `count()`.

1. Qual produto foi vendido mais vezes?
  
  Dica: Utilize o método `value_counts()` para listar a quantidade de prudutos vendidos e `.idxmax()` para mostrar qual o produto mais vendito.
  
1. Passe a primeira letra do nome de cada cliente para maiúscula. Dica: Utilize o método `str.title()`.

1. Inclua o seguinte dados no final do `df`:
```python
df2 = pd.DataFrame({
    "Cliente": ["Jose", "Paula"],
    "Produto": ["Tablet", "Notebook"],
    "Valor": [1500, 4000],
    "Data": ["2023-03-01", "2023-03-02"],
})
```


## Junção de *dataframe*s

A função `merge()` habilita junções no estilo SQL entre colunas.

In [None]:
import pandas as pd

# DataFrame à esquerda
esquerda = pd.DataFrame({"produto": ["maçã", "pera", "banana", "uva"], "quantidade": [3, 5, 4, 2]})

# DataFrame à direita
direita = pd.DataFrame({"produto": ["pera", "banana", "maçã"], "preço": [4.50, 2.34, 3.25]})

print("esquerda:\n", esquerda)
print("\ndireita:\n", direita)

# 1) Mesclando os DataFrames
## O produto "uva" está presente em esquerda, mas não em direita.
## Por padrão esse produto é excluido por não ter correspondencia
resultado = pd.merge(esquerda, direita, on="produto")
print("\nResultado da junção 1:\n", resultado)

# 2) Mesclando os DataFrames (how='left')
## Neste caso, o valor na coluna "preço" para essa linha é NaN
resultado = pd.merge(esquerda, direita, on="produto", how='left')
print("\nResultado da junção 2:\n", resultado)

Outro exemplo, agora com 2 chaves.

In [None]:
import pandas as pd

# DataFrame à esquerda com mais um atributo (fornecedor)
esquerda = pd.DataFrame({
    "produto": ["maçã", "pera", "banana", "maçã", "banana"],
    "cor": ["vermelha", "verde", "amarela", "verde", "amarela"],
    "quantidade": [3, 5, 4, 6, 7],
    "fornecedor": ["Fornecedor A", "Fornecedor B", "Fornecedor C", "Fornecedor C", "Fornecedor A"]
})

# DataFrame à direita
direita = pd.DataFrame({
    "produto": ["maçã", "pera", "banana"],
    "cor": ["vermelha", "verde", "amarela"],
    "preço": [3.25, 4.50, 2.34]
})

print("esquerda:\n", esquerda)
print("\ndireita:\n", direita)

# Mesclando os DataFrames com mais de uma chave (produto, cor)
resultado = pd.merge(esquerda, direita, on=["produto", "cor"], how="left")
print("\nResultado da junção com múltiplas chaves (produto, cor) e fornecedor:\n", resultado)


## Agrupamento

Por “agrupamento” se refere a um processo que envolve um ou mais dos seguintes passos:

- **particionar** os dados em grupos basedos em algum critério;

- **aplicar** uma função em cada grupo independentemente;

- **combinar** os resultados em uma estrutura de dados.

In [None]:
import pandas as pd
import numpy as np

# Criando o DataFrame simulando vendas de banana e maça por regiões
df = pd.DataFrame(
    {
        "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana", "Maçã", "Maçã"],
        "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste", "Norte", "Leste"],
        "Vendas": np.abs(np.random.randn(8)),  # Valores numéricos aleatórios representando as vendas
        "Lucro": np.random.randn(8),   # Valores numéricos aleatórios representando o lucro
    }
)

print(df)

Exemplo, agrupando por uma coluna, selecionando outras colunas e aplicando a função `sum()` aos dados resultantes:

In [None]:
print("\nAgrupamento por 'Produto' e soma de Vendas e Lucro:")
print(df.groupby("Produto")[["Vendas", "Lucro"]].sum())

Agrupar por múltiplas colunas forma um `MultiIndex`.

In [None]:
# Agrupando por Produto e Região e somando as colunas 'Vendas' e 'Lucro'
print("\nAgrupamento por 'Produto' e 'Região' e soma de Vendas e Lucro:")
print(df.groupby(["Produto", "Região"]).sum())

## Exercício 3

1. Para o código abaixo use a função `merge()` para combinar os dois DataFrames com base na coluna `Produto`.
  * E depois `how="outer"` (união de todos os dados).  
  * E depois `how="inner"` (interseção entre os DataFrames).

2. Para a ultima junção, faça um agrupamento pela coluna `Produto` e então selecione as colunas `Quantidade` e `Preço` e some elas.

```python
import pandas as pd

# DataFrame de produtos vendidos
vendas = pd.DataFrame({
    "Cliente": ["Ana", "Bruno", "Carlos", "Diana", "Eduarda", "Fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Mouse", "Smartphone"],
    "Data": ["2023-01-15", "2023-01-16", "2023-01-16", "2023-02-10", "2023-02-10", "2023-02-15", "2023-02-16"],
    "Quantidade": [1, 2, 1, 1, 3, 2, 1],
})

# DataFrame com os preços dos produtos
precos = pd.DataFrame({
    "Produto": ["Notebook", "Smartphone", "Tablet"],
    "Preço": [3000, 2000, 1500],
})

print("DataFrame de vendas:")
print(vendas)

print("\nDataFrame de preços:")
print(precos)
```

## Reorganização

Para exemplos, vamos primeiramente criar um DataFrame para análise de dados relacionados a vendas e custos.

Este DataFrame será criado com um índice hierárquico de duas categorias:
* Categoria (Fruta, Legume, etc.)
* Métrica (Venda, Custo).

In [None]:
import pandas as pd
import numpy as np

# MultiIndex com dois níveis: Categoria e Métrica
arrays = [
    ["Fruta", "Fruta", "Legume", "Legume", "Bebida", "Bebida", "Grão", "Grão"],
    ["Venda", "Custo", "Venda", "Custo", "Venda", "Custo", "Venda", "Custo"],
]

index = pd.MultiIndex.from_arrays(arrays, names=["Categoria", "Métrica"])

# Criando um DataFrame com valores aleatórios para Vendas e Custos
df = pd.DataFrame(abs(np.random.randn(8, 3)), index=index, columns=["Janeiro", "Fevereiro", "Março"])
print("DataFrame Original:\n")
print(df)

### Empilhamento

* A função `stack()` modifica a distribuição das células para criar um formato vertical.

* A função `unstack()` faz o inverso do `stack()`, retorna o formato original.

  Como temos dois níveis de indices, também podemos utilizar:
  * `unstack(0)` para reorganiza pelo primeiro indice (Categoria) como colunas;
  * `unstack(1)` para reorganiza pelo segundo indice (Métrica) como colunas.  

In [None]:
# Empilhando as colunas para transformar em um formato mais vertical
stacked = df.stack()
print("\nDataFrame Empilhado (com stack):\n")
print(stacked)

# Desempilhando para reorganizar os dados de volta ao formato tabular
unstacked = stacked.unstack()
print("\n\nDataFrame Desempilhado (com unstack):\n")
print(unstacked)

In [None]:
# Desempilhando com foco no nível 0 (Categoria)
unstacked_level0 = stacked.unstack(0)
print("\n\nDataFrame Desempilhado por 'Categoria' (nível 0):\n")
print(unstacked_level0)

# Desempilhando com foco no nível 1 (Métrica)
unstacked_level1 = stacked.unstack(1)
print("\n\nDataFrame Desempilhado por 'Métrica' (nível 1):\n")
print(unstacked_level1)


### Pivot tables

A função `pivot_table` permite:
* resumir as informações contidas em um DataFrame;
* personalizar a forma como os dados são organizados;
* utilizar agregações complexas e funções customizadas.

**Sintaxe:**

```python
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc="mean",
 fill_value=None, margins=False, margins_name="All", dropna=True, observed=False, sort=True)
```

Principais argumentos:

* `data`: O DataFrame a partir do qual a tabela dinâmica será criada.
* `values`: A(s) coluna(s) cujos valores você deseja agregar.
* `index`: A(s) coluna(s) que formarão os índices da tabela.
* `columns`: A(s) coluna(s) que formarão as colunas da tabela.
* `aggfunc`: A função de agregação a ser usada. O padrão é "mean", mas você pode usar outras como "sum", "count", "max", "min", ou funções personalizadas. Pode ser uma lista de funções.
* `fill_value`: Valor para preencher células vazias ou NaN.
* `margins`: Inclui nas margens o total agregado.
* `observed`: Se `True`, então as variáveis categóricas ficam restritas apenas aos níveis observados.

Veja os exemplos.

In [None]:
import pandas as pd
import numpy as np

# Criando o DataFrame
dados = {
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrodomésticos", "Eletrodomésticos", "Móveis", "Móveis"],
    "Produto": ["Notebook", "Smartphone", "Geladeira", "Fogão", "Sofá", "Cama"],
    "Vendas": [5000, 3000, 4000, 2500, 2000, 1500],
    "Ano": [2023, 2023, 2023, 2023, 2024, 2024]
}

df = pd.DataFrame(dados)
print(df)

**1. Agregando por uma única coluna:**

Vamos organizar as vendas por categoria usando pivot_table.

In [None]:
# Vendas totais por Categoria
tabela = pd.pivot_table(df, values="Vendas", index="Categoria", aggfunc="sum")
print(tabela)


**2. Selecionando colunas:**

In [None]:
# Vendas totais por Categoria e Ano
tabela = pd.pivot_table(df, values="Vendas", index="Categoria",
                        columns="Ano", aggfunc="sum", fill_value=0)
print(tabela)

print("\n")

# Vendas totais por Categoria e Ano
tabela = pd.pivot_table(df, values="Vendas", index="Categoria",
                        columns=["Ano","Produto"], aggfunc="sum", fill_value=0)
print(tabela)


**3. Adicionando margens (Totais):**

In [None]:
# Incluindo uma linha/coluna de total
tabela = pd.pivot_table(df, values="Vendas", index="Categoria", columns="Ano",
        aggfunc="sum", fill_value=0, margins=True, margins_name="Total Geral")
print(tabela)


**4. Pivot Table com múltiplos índices e colunas:**

In [None]:
# Pivot Table com múltiplos índices e colunas
tabela = pd.pivot_table(df, values="Vendas", index=["Categoria", "Produto"],
                        columns="Ano", aggfunc="sum", fill_value=0)
print(tabela)


### Exercício 4

Considere o seguinte conjunto de dados:
```python
import pandas as pd
import numpy as np

# DataFrame para os exercícios
dados = {
    "Produto": ["Notebook", "Notebook", "Smartphone", "Smartphone", "Tablet", "Tablet"],
    "Região": ["Norte", "Sul", "Norte", "Sul", "Norte", "Sul"],
    "Ano": [2023, 2023, 2024, 2024, 2023, 2024],
    "Vendas": [5000, 4500, 3000, 3500, 2000, 2500],
    "Lucro": [1000, 900, 800, 850, 300, 400],
}

df = pd.DataFrame(dados)
print(df)
```

Então:

1. Aplique `stack()` no DataFrame original e observe como ele transforma as colunas em um índice.

  Pergunta: Qual a principal diferença entre o DataFrame antes e depois de usar `stack()`?

2. A partir do resultado de `stack()`, use `unstack()` para reorganizar os dados. Experimente utilizar os níveis de índice (0, 1 ou nomeados).

3. Crie uma tabela dinâmica que mostre o lucro médio (Lucro) por "Produto" e "Região". Use `aggfunc="mean"`.

  Pergunta: Como a função de agregação afeta os dados?

4. Adicione margens (totais) à tabela dinâmica do exercício anterior, usando o parâmetro `margins=True`.   