<a href="https://colab.research.google.com/github/py242016019/CEE2/blob/main/12_pandas_parte_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas - Parte 2

## Aplicar funções em um DataFrame

`DataFrame.agg()` e `DataFrame.transform()` aplicam, respectivamente, uma função definida pelo usuário para reduzir ou propagar os resultados.

* `DataFrame.agg(func, axis=0)` é utilizada para aplicar funções por eixos.

* `DataFrame.transform(func, axis=0)` é utilizada para operar elemento a elemento.

Veja os exemplos:

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, np.nan, 8],
    'C': [10, 20, 30, 40]
})

# Aplicar uma única função em todas as colunas
result = df.agg('mean')
print(result)
# A    2.5
# B    6.333333
# C    25.0

# Aplicar múltiplas funções a todas as colunas

  ## Função personalizada para calcular a variação percentual
def amplitude(series):
    amp = float( series.max() - series.min() )
    return amp

result = df.agg(['sum', 'min', amplitude])
print("\n", result)
#                     A     B      C
# sum              10.0  19.0  100.0
# min               1.0   5.0   10.0
# amplitude         3.0   3.0   30.0

# Aplicar diferentes funções a diferentes colunas
result = df.agg({'A': 'sum', 'B': 'mean', 'C': 'max'})
print("\n")
print(result)
# A     10.0
# B      6.333333
# C     40.0


A     2.500000
B     6.333333
C    25.000000
dtype: float64

               A     B      C
sum        10.0  19.0  100.0
min         1.0   5.0   10.0
amplitude   3.0   3.0   30.0


A    10.000000
B     6.333333
C    40.000000
dtype: float64


In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, np.nan, 8],
    'C': [10, 20, 30, 40]
})

print("df:\n", df)

# Exemplo: padronizar os dados subtraindo de cada elemento o mínimo da coluna e
# dividindo pela pela amplitude de cada coluna
result = df.transform( lambda x: (x - x.min())/(x.max() - x.min()) )
print("\nresult:\n", result)
#     A     B     C
# 0   2  10.0   20
# 1   4  12.0   40
# 2   6   NaN   60
# 3   8  16.0   80

# Aplicar funções diferentes a cada coluna
result = df.transform({'A': lambda x: x + 10, 'B': lambda x: x.fillna(0), 'C': np.sqrt})
print("\nresult:\n", result)
#      A    B         C
# 0   11  5.0  3.162278
# 1   12  6.0  4.472136
# 2   13  0.0  5.477226
# 3   14  8.0  6.324555


df:
    A    B   C
0  1  5.0  10
1  2  6.0  20
2  3  NaN  30
3  4  8.0  40

result:
           A         B         C
0  0.000000  0.000000  0.000000
1  0.333333  0.333333  0.333333
2  0.666667       NaN  0.666667
3  1.000000  1.000000  1.000000

result:
     A    B         C
0  11  5.0  3.162278
1  12  6.0  4.472136
2  13  0.0  5.477226
3  14  8.0  6.324555


**Explicação**: `lambda` é uma forma de declarar um **função anônima**, geralmente utilizada em situações mais simples em que a função não será reaproveitada no futuro.

* sintaxe:
```python
lambda argumentos: expressão
```



### Exercício 1

Considere o seguinte `DataFrame`:
```python
dados = {
    "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste"],
    "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana"],
    "Vendas": [120, 200, 150, 300, 250, 180],
    "Lucro": [30, 50, 25, 70, 60, 40],
    "Desconto (%)": [5, 10, 0, 15, 5, 10],
}
df = pd.DataFrame(dados)
```
Então:

1. Use `DataFrame.agg()` para calcular, para cada coluna numérica do DataFrame:
  * A soma;
  * A média;
  * O valor máximo;

1. Use `DataFrame.transform()` para criar uma nova coluna chamada *Vendas Normalizadas*, que:
  * Subtraia a média das vendas de cada valor.
  * Divida pelo desvio padrão das vendas.
  
  Dica: Aplique a normalização (fórmula: $z = (x - média) / std$) diretamente sobre a coluna *Vendas*.


In [None]:
dados = {
    "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste"],
    "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana"],
    "Vendas": [120, 200, 150, 300, 250, 180],
    "Lucro": [30, 50, 25, 70, 60, 40],
    "Desconto (%)": [5, 10, 0, 15, 5, 10],
}
df = pd.DataFrame(dados)

#1
col_numericas= ["Vendas", "Lucro", "Desconto (%)"]
resultado1= df[col_numericas].agg("sum")
print(resultado1, "\n")
resultado2= df[col_numericas].agg("mean")
print(resultado2, "\n")
resultado3= df[col_numericas].agg("max")
print(resultado3, "\n")

#2
df["Vendas normalizadas"]= df["Vendas"].transform(lambda x: (x - x.mean() / x.std()))
print(df)

Vendas          1200
Lucro            275
Desconto (%)      45
dtype: int64 

Vendas          200.000000
Lucro            45.833333
Desconto (%)      7.500000
dtype: float64 

Vendas          300
Lucro            70
Desconto (%)     15
dtype: int64 

  Região Produto  Vendas  Lucro  Desconto (%)  Vendas normalizadas
0  Norte    Maçã     120     30             5           116.971087
1  Norte  Banana     200     50            10           196.971087
2    Sul    Maçã     150     25             0           146.971087
3    Sul  Banana     300     70            15           296.971087
4  Leste    Maçã     250     60             5           246.971087
5  Leste  Banana     180     40            10           176.971087


## Contagem de valores

Pandas disponbiliza a função `count()` que pode ser aplicada para objetos do tipo `Series` e `DataFrame`. Esta função é usada para contar o número de valores **não nulos**, seja por linha ou coluna.

```python
DataFrame.count(axis=0, level=None, numeric_only=False)
```
1. `axis`:
  * 0 ou 'index' (padrão): Conta os valores não nulos por coluna.
  * 1 ou 'columns': Conta os valores não nulos por linha.

1. `level` (opcional):
  * Usado quando o DataFrame possui um índice hierárquico (MultiIndex).
  * Especifica o nível do índice para calcular os valores.

3. `numeric_only` (opcional):
  * Se True, considera apenas colunas (ou linhas) numéricas

 Veja o exemplo:


In [None]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [np.nan, 2, 3, 4],
    "C": ["foo", "bar", np.nan, "baz"],
    "D": [np.nan, np.nan, np.nan, np.nan],
})

print("DataFrame:")
print(df)

# Contando valores não nulos em cada coluna
print("\nContagem por coluna:")
print(df.count())


DataFrame:
     A    B    C   D
0  1.0  NaN  foo NaN
1  2.0  2.0  bar NaN
2  NaN  3.0  NaN NaN
3  4.0  4.0  baz NaN

Contagem por coluna:
A    3
B    3
C    3
D    0
dtype: int64


O método `Series.value_counts()` em pandas conta a frequência de cada valor único em um objeto `Series`, ou seja, quantas vezes cada valor aparece.

> É uma ferramenta muito útil para análise de dados categóricos, pois oferece uma visão rápida da distribuição de valores.

In [None]:
import pandas as pd

# Criando uma Series
serie = pd.Series(["maçã", "banana", "laranja", "maçã", "banana", "maçã"])

print("Série original:")
print(serie)

# Contando valores únicos
print("\nContagem de valores:")
print(serie.value_counts())

# Frequência relativa
print("\nFrequência relativa:")
print(serie.value_counts(normalize=True))

Série original:
0       maçã
1     banana
2    laranja
3       maçã
4     banana
5       maçã
dtype: object

Contagem de valores:
maçã       3
banana     2
laranja    1
Name: count, dtype: int64

Frequência relativa:
maçã       0.500000
banana     0.333333
laranja    0.166667
Name: proportion, dtype: float64


## Métodos para *strings*

`Series` possui um conjunto de métodos para processar atributos do tipo `str`.

In [None]:
s = pd.Series(["A", "11B8", "99C", "Aaba", "Baca", np.nan, "CABA", "81dog", "cat"])
print( s.str.lower() )
print("\n")
print( s.str.findall("\d+") )

## no caso de dataframe, então deve ser aplicado por coluna
df = pd.DataFrame({"A": ["AA99", "asda21", "21asd23"],
                   "B": ["AA99", "asda21", "21asd23"]})

print("\ndf:\n", df)

df_transformed = df.agg(lambda col: col.str.findall(r"\d+"))
print("\n")
print(df_transformed)

0        a
1     11b8
2      99c
3     aaba
4     baca
5      NaN
6     caba
7    81dog
8      cat
dtype: object


0         []
1    [11, 8]
2       [99]
3         []
4         []
5        NaN
6         []
7       [81]
8         []
dtype: object

df:
          A        B
0     AA99     AA99
1   asda21   asda21
2  21asd23  21asd23


          A         B
0      [99]      [99]
1      [21]      [21]
2  [21, 23]  [21, 23]


## Concatenação

A concatenação de objetos do *Pandas* é feito com `concat()`:

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,0.002002,0.199962,-0.820255,1.200089
1,0.734426,-0.213133,-0.296428,0.704089
2,0.741621,-0.756392,0.193753,-0.205301
3,0.240663,-0.090028,0.611825,1.567686
4,0.92433,-0.926581,0.713112,-0.784845
5,0.413979,0.739795,-0.026743,0.186615
6,-0.252851,-1.742885,0.918557,1.467571
7,1.23038,-0.012636,-1.828446,-0.873468
8,-0.98348,1.975338,0.246997,0.740834
9,-0.272577,1.768139,-0.244684,0.549863


In [None]:
# quebra em vários pedaços
pieces = (df[:3], df[3:7], df[7:]) ## tupla de DataFrames

# junção dos pedaços
pd.concat(pieces, axis=0)

Unnamed: 0,0,1,2,3
0,0.002002,0.199962,-0.820255,1.200089
1,0.734426,-0.213133,-0.296428,0.704089
2,0.741621,-0.756392,0.193753,-0.205301
3,0.240663,-0.090028,0.611825,1.567686
4,0.92433,-0.926581,0.713112,-0.784845
5,0.413979,0.739795,-0.026743,0.186615
6,-0.252851,-1.742885,0.918557,1.467571
7,1.23038,-0.012636,-1.828446,-0.873468
8,-0.98348,1.975338,0.246997,0.740834
9,-0.272577,1.768139,-0.244684,0.549863


## Exercício 2

Considere o seguinte `DataFrame`:
```python
dados = {
    "Cliente": ["Ana", "bruno", "Carlos", "Diana", "Eduarda", np.nan, "fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Smartphone", np.nan, "Tablet"],
    "Valor": [3000, 2000, 3000, 1500, 3000, 2000, 1500, 1500],
    "Data": ["2023-01-15", "2023-01-16", np.nan, "2023-02-10", "2023-02-10", "2023-01-16", "2023-02-15", "2023-02-16"],
}
df = pd.DataFrame(dados)
```
Então:

1. Qual é o número de valores não nulos em cada coluna do DataFrame?
  
  Dica: Utilize o método `count()`.

1. Qual produto foi vendido mais vezes?
  
  Dica: Utilize o método `value_counts()` para listar a quantidade de prudutos vendidos e `.idxmax()` para mostrar qual o produto mais vendito.
  
1. Passe a primeira letra do nome de cada cliente para maiúscula. Dica: Utilize o método `str.title()`.

1. Inclua o seguinte dados no final do `df`:
```python
df2 = pd.DataFrame({
    "Cliente": ["Jose", "Paula"],
    "Produto": ["Tablet", "Notebook"],
    "Valor": [1500, 4000],
    "Data": ["2023-03-01", "2023-03-02"],
})
```


In [None]:
dados = {
    "Cliente": ["Ana", "bruno", "Carlos", "Diana", "Eduarda", np.nan, "fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Smartphone", np.nan, "Tablet"],
    "Valor": [3000, 2000, 3000, 1500, 3000, 2000, 1500, 1500],
    "Data": ["2023-01-15", "2023-01-16", np.nan, "2023-02-10", "2023-02-10", "2023-01-16", "2023-02-15", "2023-02-16"],
}
df = pd.DataFrame(dados)

#1
print(df.count(), "\n")

#2
mais_vendido= df['Produto'].value_counts().idxmax()
print(mais_vendido, "\n")

#3
maiusculo= df['Cliente'].str.title()
print(maiusculo, "\n")

#4
df2 = pd.DataFrame({
 "Cliente": ["Jose", "Paula"],
 "Produto": ["Tablet", "Notebook"],
 "Valor": [1500, 4000],
 "Data": ["2023-03-01", "2023-03-02"],
})
print(pd.concat([df, df2], axis=0))

Cliente    7
Produto    7
Valor      8
Data       7
dtype: int64 

Notebook 

0         Ana
1       Bruno
2      Carlos
3       Diana
4     Eduarda
5         NaN
6       Fábio
7    Gabriela
Name: Cliente, dtype: object 

    Cliente     Produto  Valor        Data
0       Ana    Notebook   3000  2023-01-15
1     bruno  Smartphone   2000  2023-01-16
2    Carlos    Notebook   3000         NaN
3     Diana      Tablet   1500  2023-02-10
4   Eduarda    Notebook   3000  2023-02-10
5       NaN  Smartphone   2000  2023-01-16
6     fábio         NaN   1500  2023-02-15
7  Gabriela      Tablet   1500  2023-02-16
0      Jose      Tablet   1500  2023-03-01
1     Paula    Notebook   4000  2023-03-02


## Junção de *dataframe*s

A função `merge()` habilita junções no estilo SQL entre colunas.

In [None]:
import pandas as pd

# DataFrame à esquerda
esquerda = pd.DataFrame({"produto": ["maçã", "pera", "banana", "uva"], "quantidade": [3, 5, 4, 2]})

# DataFrame à direita
direita = pd.DataFrame({"produto": ["pera", "banana", "maçã"], "preço": [4.50, 2.34, 3.25]})

print("esquerda:\n", esquerda)
print("\ndireita:\n", direita)

# 1) Mesclando os DataFrames
## O produto "uva" está presente em esquerda, mas não em direita.
## Por padrão esse produto é excluido por não ter correspondencia
resultado = pd.merge(esquerda, direita, on="produto")
print("\nResultado da junção 1:\n", resultado)

# 2) Mesclando os DataFrames (how='left')
## Neste caso, o valor na coluna "preço" para essa linha é NaN
resultado = pd.merge(esquerda, direita, on="produto", how='left')
print("\nResultado da junção 2:\n", resultado)

esquerda:
   produto  quantidade
0    maçã           3
1    pera           5
2  banana           4
3     uva           2

direita:
   produto  preço
0    pera   4.50
1  banana   2.34
2    maçã   3.25

Resultado da junção 1:
   produto  quantidade  preço
0    maçã           3   3.25
1    pera           5   4.50
2  banana           4   2.34

Resultado da junção 2:
   produto  quantidade  preço
0    maçã           3   3.25
1    pera           5   4.50
2  banana           4   2.34
3     uva           2    NaN


Outro exemplo, agora com 2 chaves.

In [None]:
import pandas as pd

# DataFrame à esquerda com mais um atributo (fornecedor)
esquerda = pd.DataFrame({
    "produto": ["maçã", "pera", "banana", "maçã", "banana"],
    "cor": ["vermelha", "verde", "amarela", "verde", "amarela"],
    "quantidade": [3, 5, 4, 6, 7],
    "fornecedor": ["Fornecedor A", "Fornecedor B", "Fornecedor C", "Fornecedor C", "Fornecedor A"]
})

# DataFrame à direita
direita = pd.DataFrame({
    "produto": ["maçã", "pera", "banana"],
    "cor": ["vermelha", "verde", "amarela"],
    "preço": [3.25, 4.50, 2.34]
})

print("esquerda:\n", esquerda)
print("\ndireita:\n", direita)

# Mesclando os DataFrames com mais de uma chave (produto, cor)
resultado = pd.merge(esquerda, direita, on=["produto", "cor"], how="left")
print("\nResultado da junção com múltiplas chaves (produto, cor) e fornecedor:\n", resultado)


esquerda:
   produto       cor  quantidade    fornecedor
0    maçã  vermelha           3  Fornecedor A
1    pera     verde           5  Fornecedor B
2  banana   amarela           4  Fornecedor C
3    maçã     verde           6  Fornecedor C
4  banana   amarela           7  Fornecedor A

direita:
   produto       cor  preço
0    maçã  vermelha   3.25
1    pera     verde   4.50
2  banana   amarela   2.34

Resultado da junção com múltiplas chaves (produto, cor) e fornecedor:
   produto       cor  quantidade    fornecedor  preço
0    maçã  vermelha           3  Fornecedor A   3.25
1    pera     verde           5  Fornecedor B   4.50
2  banana   amarela           4  Fornecedor C   2.34
3    maçã     verde           6  Fornecedor C    NaN
4  banana   amarela           7  Fornecedor A   2.34


## Agrupamento

Por “agrupamento” se refere a um processo que envolve um ou mais dos seguintes passos:

- **particionar** os dados em grupos basedos em algum critério;

- **aplicar** uma função em cada grupo independentemente;

- **combinar** os resultados em uma estrutura de dados.

In [None]:
import pandas as pd
import numpy as np

# Criando o DataFrame simulando vendas de banana e maça por regiões
df = pd.DataFrame(
    {
        "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana", "Maçã", "Maçã"],
        "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste", "Norte", "Leste"],
        "Vendas": np.abs(np.random.randn(8)),  # Valores numéricos aleatórios representando as vendas
        "Lucro": np.random.randn(8),   # Valores numéricos aleatórios representando o lucro
    }
)

print(df)

  Produto Região    Vendas     Lucro
0    Maçã  Norte  0.497855  0.054190
1  Banana  Norte  0.426735  1.174904
2    Maçã    Sul  0.819180 -0.783016
3  Banana    Sul  0.003509  0.405920
4    Maçã  Leste  0.266317 -0.442427
5  Banana  Leste  0.268481 -0.384790
6    Maçã  Norte  1.079426 -0.840809
7    Maçã  Leste  0.852410  1.355207


Exemplo, agrupando por uma coluna, selecionando outras colunas e aplicando a função `sum()` aos dados resultantes:

In [None]:
print("\nAgrupamento por 'Produto' e soma de Vendas e Lucro:")
print(df.groupby("Produto")[["Vendas", "Lucro"]].sum())


Agrupamento por 'Produto' e soma de Vendas e Lucro:
           Vendas     Lucro
Produto                    
Banana   0.698725  1.196033
Maçã     3.515187 -0.656856


Agrupar por múltiplas colunas forma um `MultiIndex`.

In [None]:
# Agrupando por Produto e Região e somando as colunas 'Vendas' e 'Lucro'
print("\nAgrupamento por 'Produto' e 'Região' e soma de Vendas e Lucro:")
print(df.groupby(["Produto", "Região"]).sum())


Agrupamento por 'Produto' e 'Região' e soma de Vendas e Lucro:
                  Vendas     Lucro
Produto Região                    
Banana  Leste   0.268481 -0.384790
        Norte   0.426735  1.174904
        Sul     0.003509  0.405920
Maçã    Leste   1.118726  0.912780
        Norte   1.577281 -0.786619
        Sul     0.819180 -0.783016


## Exercício 3

1. Para o código abaixo use a função `merge()` para combinar os dois DataFrames com base na coluna `Produto`.
  * E depois `how="outer"` (união de todos os dados).  
  * E depois `how="inner"` (interseção entre os DataFrames).

2. Para a ultima junção, faça um agrupamento pela coluna `Produto` e então selecione as colunas `Quantidade` e `Preço` e some elas.

```python
import pandas as pd

# DataFrame de produtos vendidos
vendas = pd.DataFrame({
    "Cliente": ["Ana", "Bruno", "Carlos", "Diana", "Eduarda", "Fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Mouse", "Smartphone"],
    "Data": ["2023-01-15", "2023-01-16", "2023-01-16", "2023-02-10", "2023-02-10", "2023-02-15", "2023-02-16"],
    "Quantidade": [1, 2, 1, 1, 3, 2, 1],
})

# DataFrame com os preços dos produtos
precos = pd.DataFrame({
    "Produto": ["Notebook", "Smartphone", "Tablet"],
    "Preço": [3000, 2000, 1500],
})

print("DataFrame de vendas:")
print(vendas)

print("\nDataFrame de preços:")
print(precos)
```

In [None]:
import pandas as pd

# DataFrame de produtos vendidos
vendas = pd.DataFrame({
    "Cliente": ["Ana", "Bruno", "Carlos", "Diana", "Eduarda", "Fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Mouse", "Smartphone"],
    "Data": ["2023-01-15", "2023-01-16", "2023-01-16", "2023-02-10", "2023-02-10", "2023-02-15", "2023-02-16"],
    "Quantidade": [1, 2, 1, 1, 3, 2, 1],
})

# DataFrame com os preços dos produtos
precos = pd.DataFrame({
    "Produto": ["Notebook", "Smartphone", "Tablet"],
    "Preço": [3000, 2000, 1500],
})

print("DataFrame de vendas:")
print(vendas, "\n")

print("\nDataFrame de preços:")
print(precos, "\n")

#1
resultado= pd.merge(vendas, precos, on="Produto")
print(resultado, "\n")
resultado2= pd.merge(vendas, precos, on="Produto", how="outer")
print(resultado2, "\n")
resultado3= pd.merge(vendas, precos, on="Produto", how="inner")
print(resultado3, "\n")

#2
print(resultado3.groupby("Produto")[["Quantidade", "Preço"]].sum())

DataFrame de vendas:
    Cliente     Produto        Data  Quantidade
0       Ana    Notebook  2023-01-15           1
1     Bruno  Smartphone  2023-01-16           2
2    Carlos    Notebook  2023-01-16           1
3     Diana      Tablet  2023-02-10           1
4   Eduarda    Notebook  2023-02-10           3
5     Fábio       Mouse  2023-02-15           2
6  Gabriela  Smartphone  2023-02-16           1 


DataFrame de preços:
      Produto  Preço
0    Notebook   3000
1  Smartphone   2000
2      Tablet   1500 

    Cliente     Produto        Data  Quantidade  Preço
0       Ana    Notebook  2023-01-15           1   3000
1     Bruno  Smartphone  2023-01-16           2   2000
2    Carlos    Notebook  2023-01-16           1   3000
3     Diana      Tablet  2023-02-10           1   1500
4   Eduarda    Notebook  2023-02-10           3   3000
5  Gabriela  Smartphone  2023-02-16           1   2000 

    Cliente     Produto        Data  Quantidade   Preço
0     Fábio       Mouse  2023-02-15       

## Reorganização

Para exemplos, vamos primeiramente criar um DataFrame para análise de dados relacionados a vendas e custos.

Este DataFrame será criado com um índice hierárquico de duas categorias:
* Categoria (Fruta, Legume, etc.)
* Métrica (Venda, Custo).

In [None]:
import pandas as pd
import numpy as np

# MultiIndex com dois níveis: Categoria e Métrica
arrays = [
    ["Fruta", "Fruta", "Legume", "Legume", "Bebida", "Bebida", "Grão", "Grão"],
    ["Venda", "Custo", "Venda", "Custo", "Venda", "Custo", "Venda", "Custo"],
]

index = pd.MultiIndex.from_arrays(arrays, names=["Categoria", "Métrica"])

# Criando um DataFrame com valores aleatórios para Vendas e Custos
df = pd.DataFrame(abs(np.random.randn(8, 3)), index=index, columns=["Janeiro", "Fevereiro", "Março"])
print("DataFrame Original:\n")
print(df)

DataFrame Original:

                    Janeiro  Fevereiro     Março
Categoria Métrica                               
Fruta     Venda    1.321239   2.156656  0.187854
          Custo    0.744970   0.102975  1.401382
Legume    Venda    0.939997   0.057181  0.490256
          Custo    1.675754   2.194000  0.981652
Bebida    Venda    0.394597   0.925485  0.259910
          Custo    0.502609   1.135131  0.530813
Grão      Venda    0.337337   0.709568  0.825987
          Custo    1.896861   1.946758  1.328454


### Empilhamento

* A função `stack()` modifica a distribuição das células para criar um formato vertical.

* A função `unstack()` faz o inverso do `stack()`, retorna o formato original.

  Como temos dois níveis de indices, também podemos utilizar:
  * `unstack(0)` para reorganiza pelo primeiro indice (Categoria) como colunas;
  * `unstack(1)` para reorganiza pelo segundo indice (Métrica) como colunas.  

In [None]:
# Empilhando as colunas para transformar em um formato mais vertical
stacked = df.stack()
print("\nDataFrame Empilhado (com stack):\n")
print(stacked)

# Desempilhando para reorganizar os dados de volta ao formato tabular
unstacked = stacked.unstack()
print("\n\nDataFrame Desempilhado (com unstack):\n")
print(unstacked)


DataFrame Empilhado (com stack):

Categoria  Métrica           
Fruta      Venda    Janeiro      1.321239
                    Fevereiro    2.156656
                    Março        0.187854
           Custo    Janeiro      0.744970
                    Fevereiro    0.102975
                    Março        1.401382
Legume     Venda    Janeiro      0.939997
                    Fevereiro    0.057181
                    Março        0.490256
           Custo    Janeiro      1.675754
                    Fevereiro    2.194000
                    Março        0.981652
Bebida     Venda    Janeiro      0.394597
                    Fevereiro    0.925485
                    Março        0.259910
           Custo    Janeiro      0.502609
                    Fevereiro    1.135131
                    Março        0.530813
Grão       Venda    Janeiro      0.337337
                    Fevereiro    0.709568
                    Março        0.825987
           Custo    Janeiro      1.896861
           

In [None]:
# Desempilhando com foco no nível 0 (Categoria)
unstacked_level0 = stacked.unstack(0)
print("\n\nDataFrame Desempilhado por 'Categoria' (nível 0):\n")
print(unstacked_level0)

# Desempilhando com foco no nível 1 (Métrica)
unstacked_level1 = stacked.unstack(1)
print("\n\nDataFrame Desempilhado por 'Métrica' (nível 1):\n")
print(unstacked_level1)




DataFrame Desempilhado por 'Categoria' (nível 0):

Categoria            Bebida     Fruta      Grão    Legume
Métrica                                                  
Custo   Janeiro    0.502609  0.744970  1.896861  1.675754
        Fevereiro  1.135131  0.102975  1.946758  2.194000
        Março      0.530813  1.401382  1.328454  0.981652
Venda   Janeiro    0.394597  1.321239  0.337337  0.939997
        Fevereiro  0.925485  2.156656  0.709568  0.057181
        Março      0.259910  0.187854  0.825987  0.490256


DataFrame Desempilhado por 'Métrica' (nível 1):

Métrica                 Custo     Venda
Categoria                              
Bebida    Janeiro    0.502609  0.394597
          Fevereiro  1.135131  0.925485
          Março      0.530813  0.259910
Fruta     Janeiro    0.744970  1.321239
          Fevereiro  0.102975  2.156656
          Março      1.401382  0.187854
Grão      Janeiro    1.896861  0.337337
          Fevereiro  1.946758  0.709568
          Março      1.328454  0

### Pivot tables

A função `pivot_table` permite:
* resumir as informações contidas em um DataFrame;
* personalizar a forma como os dados são organizados;
* utilizar agregações complexas e funções customizadas.

**Sintaxe:**

```python
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc="mean",
 fill_value=None, margins=False, margins_name="All", dropna=True, observed=False, sort=True)
```

Principais argumentos:

* `data`: O DataFrame a partir do qual a tabela dinâmica será criada.
* `values`: A(s) coluna(s) cujos valores você deseja agregar.
* `index`: A(s) coluna(s) que formarão os índices da tabela.
* `columns`: A(s) coluna(s) que formarão as colunas da tabela.
* `aggfunc`: A função de agregação a ser usada. O padrão é "mean", mas você pode usar outras como "sum", "count", "max", "min", ou funções personalizadas. Pode ser uma lista de funções.
* `fill_value`: Valor para preencher células vazias ou NaN.
* `margins`: Inclui nas margens o total agregado.
* `observed`: Se `True`, então as variáveis categóricas ficam restritas apenas aos níveis observados.

Veja os exemplos.

In [None]:
import pandas as pd
import numpy as np

# Criando o DataFrame
dados = {
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrodomésticos", "Eletrodomésticos", "Móveis", "Móveis"],
    "Produto": ["Notebook", "Smartphone", "Geladeira", "Fogão", "Sofá", "Cama"],
    "Vendas": [5000, 3000, 4000, 2500, 2000, 1500],
    "Ano": [2023, 2023, 2023, 2023, 2024, 2024]
}

df = pd.DataFrame(dados)
print(df)

          Categoria     Produto  Vendas   Ano
0       Eletrônicos    Notebook    5000  2023
1       Eletrônicos  Smartphone    3000  2023
2  Eletrodomésticos   Geladeira    4000  2023
3  Eletrodomésticos       Fogão    2500  2023
4            Móveis        Sofá    2000  2024
5            Móveis        Cama    1500  2024


**1. Agregando por uma única coluna:**

Vamos organizar as vendas por categoria usando pivot_table.

In [None]:
# Vendas totais por Categoria
tabela = pd.pivot_table(df, values="Vendas", index="Categoria", aggfunc="sum")
print(tabela)


                  Vendas
Categoria               
Eletrodomésticos    6500
Eletrônicos         8000
Móveis              3500


**2. Selecionando colunas:**

In [None]:
# Vendas totais por Categoria e Ano
tabela = pd.pivot_table(df, values="Vendas", index="Categoria",
                        columns="Ano", aggfunc="sum", fill_value=0)
print(tabela)

print("\n")

# Vendas totais por Categoria e Ano
tabela = pd.pivot_table(df, values="Vendas", index="Categoria",
                        columns=["Ano","Produto"], aggfunc="sum", fill_value=0)
print(tabela)


Ano               2023  2024
Categoria                   
Eletrodomésticos  6500     0
Eletrônicos       8000     0
Móveis               0  3500


Ano               2023                                2024      
Produto          Fogão Geladeira Notebook Smartphone  Cama  Sofá
Categoria                                                       
Eletrodomésticos  2500      4000        0          0     0     0
Eletrônicos          0         0     5000       3000     0     0
Móveis               0         0        0          0  1500  2000


**3. Adicionando margens (Totais):**

In [None]:
# Incluindo uma linha/coluna de total
tabela = pd.pivot_table(df, values="Vendas", index="Categoria", columns="Ano",
        aggfunc="sum", fill_value=0, margins=True, margins_name="Total Geral")
print(tabela)


Ano                2023  2024  Total Geral
Categoria                                 
Eletrodomésticos   6500     0         6500
Eletrônicos        8000     0         8000
Móveis                0  3500         3500
Total Geral       14500  3500        18000


**4. Pivot Table com múltiplos índices e colunas:**

In [None]:
# Pivot Table com múltiplos índices e colunas
tabela = pd.pivot_table(df, values="Vendas", index=["Categoria", "Produto"],
                        columns="Ano", aggfunc="sum", fill_value=0)
print(tabela)


Ano                          2023  2024
Categoria        Produto               
Eletrodomésticos Fogão       2500     0
                 Geladeira   4000     0
Eletrônicos      Notebook    5000     0
                 Smartphone  3000     0
Móveis           Cama           0  1500
                 Sofá           0  2000


### Exercício 4

Considere o seguinte conjunto de dados:
```python
import pandas as pd
import numpy as np

# DataFrame para os exercícios
dados = {
    "Produto": ["Notebook", "Notebook", "Smartphone", "Smartphone", "Tablet", "Tablet"],
    "Região": ["Norte", "Sul", "Norte", "Sul", "Norte", "Sul"],
    "Ano": [2023, 2023, 2024, 2024, 2023, 2024],
    "Vendas": [5000, 4500, 3000, 3500, 2000, 2500],
    "Lucro": [1000, 900, 800, 850, 300, 400],
}

df = pd.DataFrame(dados)
print(df)
```

Então:

1. Aplique `stack()` no DataFrame original e observe como ele transforma as colunas em um índice.

  Pergunta: Qual a principal diferença entre o DataFrame antes e depois de usar `stack()`?

2. A partir do resultado de `stack()`, use `unstack()` para reorganizar os dados. Experimente utilizar os níveis de índice (0, 1 ou nomeados).

3. Crie uma tabela dinâmica que mostre o lucro médio (Lucro) por "Produto" e "Região". Use `aggfunc="mean"`.

  Pergunta: Como a função de agregação afeta os dados?

4. Adicione margens (totais) à tabela dinâmica do exercício anterior, usando o parâmetro `margins=True`.   

In [None]:
import pandas as pd
import numpy as np

# DataFrame para os exercícios
dados = {"Produto": ["Notebook", "Notebook", "Smartphone", "Smartphone", "Tablet", "Tablet"],
    "Região": ["Norte", "Sul", "Norte", "Sul", "Norte", "Sul"],
    "Ano": [2023, 2023, 2024, 2024, 2023, 2024],
    "Vendas": [5000, 4500, 3000, 3500, 2000, 2500],
    "Lucro": [1000, 900, 800, 850, 300, 400],}

df = pd.DataFrame(dados)
print(df, "\n")

#1
stacked= df.stack()
print(stacked, "\n")

#2
unstacked= staked.unstack(0)
print(unstacked, "\n")
unstacked2= staked.unstack(1)
print(unstacked2, "\n")

#3
tabela= pd.pivot_table(df, values= "Lucro", index= ("Produto", "Região"), aggfunc= "mean")
print(tabela, "\n")

#4
tabela2= pd.pivot_table(df, values= "Lucro", index= ("Produto", "Região"), aggfunc= "mean", margins=True)
print(tabela2)

      Produto Região   Ano  Vendas  Lucro
0    Notebook  Norte  2023    5000   1000
1    Notebook    Sul  2023    4500    900
2  Smartphone  Norte  2024    3000    800
3  Smartphone    Sul  2024    3500    850
4      Tablet  Norte  2023    2000    300
5      Tablet    Sul  2024    2500    400 

0  Produto      Notebook
   Região          Norte
   Ano              2023
   Vendas           5000
   Lucro            1000
1  Produto      Notebook
   Região            Sul
   Ano              2023
   Vendas           4500
   Lucro             900
2  Produto    Smartphone
   Região          Norte
   Ano              2024
   Vendas           3000
   Lucro             800
3  Produto    Smartphone
   Região            Sul
   Ano              2024
   Vendas           3500
   Lucro             850
4  Produto        Tablet
   Região          Norte
   Ano              2023
   Vendas           2000
   Lucro             300
5  Produto        Tablet
   Região            Sul
   Ano              2024
   V