<a href="https://colab.research.google.com/github/py222015328/CEE2/blob/main/12_pandas_parte_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas - Parte 2

## Aplicar funções em um DataFrame

`DataFrame.agg()` e `DataFrame.transform()` aplicam, respectivamente, uma função definida pelo usuário para reduzir ou propagar os resultados.

* `DataFrame.agg(func, axis=0)` é utilizada para aplicar funções por eixos.

* `DataFrame.transform(func, axis=0)` é utilizada para operar elemento a elemento.

Veja os exemplos:

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, np.nan, 8],
    'C': [10, 20, 30, 40]
})

# Aplicar uma única função em todas as colunas
result = df.agg('mean')
print(result)
# A    2.5
# B    6.333333
# C    25.0

# Aplicar múltiplas funções a todas as colunas

  ## Função personalizada para calcular a variação percentual
def amplitude(series):
    amp = float( series.max() - series.min() )
    return amp

result = df.agg(['sum', 'min', amplitude])
print("\n", result)
#                     A     B      C
# sum              10.0  19.0  100.0
# min               1.0   5.0   10.0
# amplitude         3.0   3.0   30.0

# Aplicar diferentes funções a diferentes colunas
result = df.agg({'A': 'sum', 'B': 'mean', 'C': 'max'})
print("\n")
print(result)
# A     10.0
# B      6.333333
# C     40.0


A     2.500000
B     6.333333
C    25.000000
dtype: float64

               A     B      C
sum        10.0  19.0  100.0
min         1.0   5.0   10.0
amplitude   3.0   3.0   30.0


A    10.000000
B     6.333333
C    40.000000
dtype: float64


In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, np.nan, 8],
    'C': [10, 20, 30, 40]
})

print("df:\n", df)

# Exemplo: padronizar os dados subtraindo de cada elemento o mínimo da coluna e
# dividindo pela pela amplitude de cada coluna
result = df.transform( lambda x: (x - x.min())/(x.max() - x.min()) )
print("\nresult:\n", result)
#     A     B     C
# 0   2  10.0   20
# 1   4  12.0   40
# 2   6   NaN   60
# 3   8  16.0   80

# Aplicar funções diferentes a cada coluna
result = df.transform({'A': lambda x: x + 10, 'B': lambda x: x.fillna(0), 'C': np.sqrt})
print("\nresult:\n", result)
#      A    B         C
# 0   11  5.0  3.162278
# 1   12  6.0  4.472136
# 2   13  0.0  5.477226
# 3   14  8.0  6.324555


df:
    A    B   C
0  1  5.0  10
1  2  6.0  20
2  3  NaN  30
3  4  8.0  40

result:
           A         B         C
0  0.000000  0.000000  0.000000
1  0.333333  0.333333  0.333333
2  0.666667       NaN  0.666667
3  1.000000  1.000000  1.000000

result:
     A    B         C
0  11  5.0  3.162278
1  12  6.0  4.472136
2  13  0.0  5.477226
3  14  8.0  6.324555


**Explicação**: `lambda` é uma forma de declarar um **função anônima**, geralmente utilizada em situações mais simples em que a função não será reaproveitada no futuro.

* sintaxe:
```python
lambda argumentos: expressão
```



### Exercício 1

Considere o seguinte `DataFrame`:
```python
dados = {
    "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste"],
    "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana"],
    "Vendas": [120, 200, 150, 300, 250, 180],
    "Lucro": [30, 50, 25, 70, 60, 40],
    "Desconto (%)": [5, 10, 0, 15, 5, 10],
}
df = pd.DataFrame(dados)
```
Então:

1. Use `DataFrame.agg()` para calcular, para cada coluna numérica do DataFrame:
  * A soma;
  * A média;
  * O valor máximo;

1. Use `DataFrame.transform()` para criar uma nova coluna chamada *Vendas Normalizadas*, que:
  * Subtraia a média das vendas de cada valor.
  * Divida pelo desvio padrão das vendas.
  
  Dica: Aplique a normalização (fórmula: $z = (x - média) / std$) diretamente sobre a coluna *Vendas*.


In [38]:
dados = {
    "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste"],
    "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana"],
    "Vendas": [120, 200, 150, 300, 250, 180],
    "Lucro": [30, 50, 25, 70, 60, 40],
    "Desconto (%)": [5, 10, 0, 15, 5, 10],
}
df = pd.DataFrame(dados)
print(df, '\n')

r1 = df.agg({'Vendas': 'sum', 'Lucro': 'sum', 'Desconto (%)': 'sum'})
print(r1,'\n')

r2 = df.agg({'Vendas': 'mean', 'Lucro': 'mean', 'Desconto (%)': 'mean'})
print(r2,'\n')

r3 = df.agg({'Vendas': 'max', 'Lucro': 'max', 'Desconto (%)': 'max'})
print(r3,'\n')

df['Vendas Normalizadas'] = df['Vendas']
print(df, '\n')
r4 = df.transform({'Vendas Normalizadas': lambda x: (x-x.mean())/x.std()})
df['Vendas Normalizadas'] = r4
print(df, '\n')

  Região Produto  Vendas  Lucro  Desconto (%)
0  Norte    Maçã     120     30             5
1  Norte  Banana     200     50            10
2    Sul    Maçã     150     25             0
3    Sul  Banana     300     70            15
4  Leste    Maçã     250     60             5
5  Leste  Banana     180     40            10 

Vendas          1200
Lucro            275
Desconto (%)      45
dtype: int64 

Vendas          200.000000
Lucro            45.833333
Desconto (%)      7.500000
dtype: float64 

Vendas          300
Lucro            70
Desconto (%)     15
dtype: int64 

  Região Produto  Vendas  Lucro  Desconto (%)  Vendas Normalizadas
0  Norte    Maçã     120     30             5                  120
1  Norte  Banana     200     50            10                  200
2    Sul    Maçã     150     25             0                  150
3    Sul  Banana     300     70            15                  300
4  Leste    Maçã     250     60             5                  250
5  Leste  Banana     18

## Contagem de valores

Pandas disponbiliza a função `count()` que pode ser aplicada para objetos do tipo `Series` e `DataFrame`. Esta função é usada para contar o número de valores **não nulos**, seja por linha ou coluna.

```python
DataFrame.count(axis=0, level=None, numeric_only=False)
```
1. `axis`:
  * 0 ou 'index' (padrão): Conta os valores não nulos por coluna.
  * 1 ou 'columns': Conta os valores não nulos por linha.

1. `level` (opcional):
  * Usado quando o DataFrame possui um índice hierárquico (MultiIndex).
  * Especifica o nível do índice para calcular os valores.

3. `numeric_only` (opcional):
  * Se True, considera apenas colunas (ou linhas) numéricas

 Veja o exemplo:


In [None]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
df = pd.DataFrame({
    "A": [1, 2, np.nan, 4],
    "B": [np.nan, 2, 3, 4],
    "C": ["foo", "bar", np.nan, "baz"],
    "D": [np.nan, np.nan, np.nan, np.nan],
})

print("DataFrame:")
print(df)

# Contando valores não nulos em cada coluna
print("\nContagem por coluna:")
print(df.count())


DataFrame:
     A    B    C   D
0  1.0  NaN  foo NaN
1  2.0  2.0  bar NaN
2  NaN  3.0  NaN NaN
3  4.0  4.0  baz NaN

Contagem por coluna:
A    3
B    3
C    3
D    0
dtype: int64


O método `Series.value_counts()` em pandas conta a frequência de cada valor único em um objeto `Series`, ou seja, quantas vezes cada valor aparece.

> É uma ferramenta muito útil para análise de dados categóricos, pois oferece uma visão rápida da distribuição de valores.

In [None]:
import pandas as pd

# Criando uma Series
serie = pd.Series(["maçã", "banana", "laranja", "maçã", "banana", "maçã"])

print("Série original:")
print(serie)

# Contando valores únicos
print("\nContagem de valores:")
print(serie.value_counts())

# Frequência relativa
print("\nFrequência relativa:")
print(serie.value_counts(normalize=True))

Série original:
0       maçã
1     banana
2    laranja
3       maçã
4     banana
5       maçã
dtype: object

Contagem de valores:
maçã       3
banana     2
laranja    1
Name: count, dtype: int64

Frequência relativa:
maçã       0.500000
banana     0.333333
laranja    0.166667
Name: proportion, dtype: float64


## Métodos para *strings*

`Series` possui um conjunto de métodos para processar atributos do tipo `str`.

In [None]:
s = pd.Series(["A", "11B8", "99C", "Aaba", "Baca", np.nan, "CABA", "81dog", "cat"])
print( s.str.lower() )
print("\n")
print( s.str.findall("\d+") )

## no caso de dataframe, então deve ser aplicado por coluna
df = pd.DataFrame({"A": ["AA99", "asda21", "21asd23"],
                   "B": ["AA99", "asda21", "21asd23"]})

print("\ndf:\n", df)

df_transformed = df.agg(lambda col: col.str.findall(r"\d+"))
print("\n")
print(df_transformed)

0        a
1     11b8
2      99c
3     aaba
4     baca
5      NaN
6     caba
7    81dog
8      cat
dtype: object


0         []
1    [11, 8]
2       [99]
3         []
4         []
5        NaN
6         []
7       [81]
8         []
dtype: object

df:
          A        B
0     AA99     AA99
1   asda21   asda21
2  21asd23  21asd23


          A         B
0      [99]      [99]
1      [21]      [21]
2  [21, 23]  [21, 23]


## Concatenação

A concatenação de objetos do *Pandas* é feito com `concat()`:

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,-0.437748,-0.00678,-1.862934,1.123194
1,-0.615004,0.014545,-0.332321,0.97962
2,0.330155,0.690127,0.184645,1.293462
3,-0.086174,0.138647,0.111647,0.177912
4,0.818666,0.763075,1.431204,0.125222
5,-1.40243,-0.699437,0.07913,-0.057078
6,1.343583,0.089536,1.578267,1.530965
7,-1.61813,-0.001601,-0.297473,-1.220412
8,-0.006364,-0.24637,0.262798,-0.111511
9,0.581486,1.24225,-2.564055,0.649698


In [None]:
# quebra em vários pedaços
pieces = (df[:3], df[3:7], df[7:]) ## tupla de DataFrames

# junção dos pedaços
pd.concat(pieces, axis=0)

Unnamed: 0,0,1,2,3
0,-0.437748,-0.00678,-1.862934,1.123194
1,-0.615004,0.014545,-0.332321,0.97962
2,0.330155,0.690127,0.184645,1.293462
3,-0.086174,0.138647,0.111647,0.177912
4,0.818666,0.763075,1.431204,0.125222
5,-1.40243,-0.699437,0.07913,-0.057078
6,1.343583,0.089536,1.578267,1.530965
7,-1.61813,-0.001601,-0.297473,-1.220412
8,-0.006364,-0.24637,0.262798,-0.111511
9,0.581486,1.24225,-2.564055,0.649698


## Exercício 2

Considere o seguinte `DataFrame`:
```python
dados = {
    "Cliente": ["Ana", "bruno", "Carlos", "Diana", "Eduarda", np.nan, "fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Smartphone", np.nan, "Tablet"],
    "Valor": [3000, 2000, 3000, 1500, 3000, 2000, 1500, 1500],
    "Data": ["2023-01-15", "2023-01-16", np.nan, "2023-02-10", "2023-02-10", "2023-01-16", "2023-02-15", "2023-02-16"],
}
df = pd.DataFrame(dados)
```
Então:

1. Qual é o número de valores não nulos em cada coluna do DataFrame?
  
  Dica: Utilize o método `count()`.

1. Qual produto foi vendido mais vezes?
  
  Dica: Utilize o método `value_counts()` para listar a quantidade de prudutos vendidos e `.idxmax()` para mostrar qual o produto mais vendito.
  
1. Passe a primeira letra do nome de cada cliente para maiúscula. Dica: Utilize o método `str.title()`.

1. Inclua o seguinte dados no final do `df`:
```python
df2 = pd.DataFrame({
    "Cliente": ["Jose", "Paula"],
    "Produto": ["Tablet", "Notebook"],
    "Valor": [1500, 4000],
    "Data": ["2023-03-01", "2023-03-02"],
})
```


In [14]:
import numpy as np
import pandas as pd

dados = {
    "Cliente": ["Ana", "bruno", "Carlos", "Diana", "Eduarda", np.nan, "fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Smartphone", np.nan, "Tablet"],
    "Valor": [3000, 2000, 3000, 1500, 3000, 2000, 1500, 1500],
    "Data": ["2023-01-15", "2023-01-16", np.nan, "2023-02-10", "2023-02-10", "2023-01-16", "2023-02-15", "2023-02-16"],
}
df = pd.DataFrame(dados)
print(df, '\n')

print(df.count(), '\n')

mais_vendido = df.value_counts('Produto')
print(mais_vendido, '\n')
print(mais_vendido.idxmax(), '\n')

df['Cliente'] = df['Cliente'].str.title()
print(df, '\n')

df2 = pd.DataFrame({
 "Cliente": ["Jose", "Paula"],
 "Produto": ["Tablet", "Notebook"],
 "Valor": [1500, 4000],
 "Data": ["2023-03-01", "2023-03-02"],
})

dataframe = pd.concat([df,df2], ignore_index=True)
print(dataframe, '\n')

    Cliente     Produto  Valor        Data
0       Ana    Notebook   3000  2023-01-15
1     bruno  Smartphone   2000  2023-01-16
2    Carlos    Notebook   3000         NaN
3     Diana      Tablet   1500  2023-02-10
4   Eduarda    Notebook   3000  2023-02-10
5       NaN  Smartphone   2000  2023-01-16
6     fábio         NaN   1500  2023-02-15
7  Gabriela      Tablet   1500  2023-02-16 

Cliente    7
Produto    7
Valor      8
Data       7
dtype: int64 

Produto
Notebook      3
Smartphone    2
Tablet        2
Name: count, dtype: int64 

Notebook 

    Cliente     Produto  Valor        Data
0       Ana    Notebook   3000  2023-01-15
1     Bruno  Smartphone   2000  2023-01-16
2    Carlos    Notebook   3000         NaN
3     Diana      Tablet   1500  2023-02-10
4   Eduarda    Notebook   3000  2023-02-10
5       NaN  Smartphone   2000  2023-01-16
6     Fábio         NaN   1500  2023-02-15
7  Gabriela      Tablet   1500  2023-02-16 

    Cliente     Produto  Valor        Data
0       Ana    No

## Junção de *dataframe*s

A função `merge()` habilita junções no estilo SQL entre colunas.

In [None]:
import pandas as pd

# DataFrame à esquerda
esquerda = pd.DataFrame({"produto": ["maçã", "pera", "banana", "uva"], "quantidade": [3, 5, 4, 2]})

# DataFrame à direita
direita = pd.DataFrame({"produto": ["pera", "banana", "maçã"], "preço": [4.50, 2.34, 3.25]})

print("esquerda:\n", esquerda)
print("\ndireita:\n", direita)

# 1) Mesclando os DataFrames
## O produto "uva" está presente em esquerda, mas não em direita.
## Por padrão esse produto é excluido por não ter correspondencia
resultado = pd.merge(esquerda, direita, on="produto")
print("\nResultado da junção 1:\n", resultado)

# 2) Mesclando os DataFrames (how='left')
## Neste caso, o valor na coluna "preço" para essa linha é NaN
resultado = pd.merge(esquerda, direita, on="produto", how='left')
print("\nResultado da junção 2:\n", resultado)

esquerda:
   produto  quantidade
0    maçã           3
1    pera           5
2  banana           4
3     uva           2

direita:
   produto  preço
0    pera   4.50
1  banana   2.34
2    maçã   3.25

Resultado da junção 1:
   produto  quantidade  preço
0    maçã           3   3.25
1    pera           5   4.50
2  banana           4   2.34

Resultado da junção 2:
   produto  quantidade  preço
0    maçã           3   3.25
1    pera           5   4.50
2  banana           4   2.34
3     uva           2    NaN


Outro exemplo, agora com 2 chaves.

In [None]:
import pandas as pd

# DataFrame à esquerda com mais um atributo (fornecedor)
esquerda = pd.DataFrame({
    "produto": ["maçã", "pera", "banana", "maçã", "banana"],
    "cor": ["vermelha", "verde", "amarela", "verde", "amarela"],
    "quantidade": [3, 5, 4, 6, 7],
    "fornecedor": ["Fornecedor A", "Fornecedor B", "Fornecedor C", "Fornecedor C", "Fornecedor A"]
})

# DataFrame à direita
direita = pd.DataFrame({
    "produto": ["maçã", "pera", "banana"],
    "cor": ["vermelha", "verde", "amarela"],
    "preço": [3.25, 4.50, 2.34]
})

print("esquerda:\n", esquerda)
print("\ndireita:\n", direita)

# Mesclando os DataFrames com mais de uma chave (produto, cor) e considerando o fornecedor
resultado = pd.merge(esquerda, direita, on=["produto", "cor"], how="left")
print("\nResultado da junção com múltiplas chaves (produto, cor) e fornecedor:\n", resultado)


esquerda:
   produto       cor  quantidade    fornecedor
0    maçã  vermelha           3  Fornecedor A
1    pera     verde           5  Fornecedor B
2  banana   amarela           4  Fornecedor C
3    maçã     verde           6  Fornecedor C
4  banana   amarela           7  Fornecedor A

direita:
   produto       cor  preço
0    maçã  vermelha   3.25
1    pera     verde   4.50
2  banana   amarela   2.34

Resultado da junção com múltiplas chaves (produto, cor) e fornecedor:
   produto       cor  quantidade    fornecedor  preço
0    maçã  vermelha           3  Fornecedor A   3.25
1    pera     verde           5  Fornecedor B   4.50
2  banana   amarela           4  Fornecedor C   2.34
3    maçã     verde           6  Fornecedor C    NaN
4  banana   amarela           7  Fornecedor A   2.34


## Agrupamento

Por “agrupamento” se refere a um processo que envolve um ou mais dos seguintes passos:

- **particionar** os dados em grupos basedos em algum critério;

- **aplicar** uma função em cada grupo independentemente;

- **combinar** os resultados em uma estrutura de dados.

In [None]:
import pandas as pd
import numpy as np

# Criando o DataFrame simulando vendas de banana e maça por regiões
df = pd.DataFrame(
    {
        "Produto": ["Maçã", "Banana", "Maçã", "Banana", "Maçã", "Banana", "Maçã", "Maçã"],
        "Região": ["Norte", "Norte", "Sul", "Sul", "Leste", "Leste", "Norte", "Leste"],
        "Vendas": np.abs(np.random.randn(8)),  # Valores numéricos aleatórios representando as vendas
        "Lucro": np.random.randn(8),   # Valores numéricos aleatórios representando o lucro
    }
)

print(df)

  Produto Região    Vendas     Lucro
0    Maçã  Norte  0.402862 -0.118198
1  Banana  Norte  0.836102 -0.561212
2    Maçã    Sul  0.989555  0.124458
3  Banana    Sul  0.241646  1.240817
4    Maçã  Leste  0.100956 -1.282637
5  Banana  Leste  1.362776 -1.694917
6    Maçã  Norte  1.035115 -1.000123
7    Maçã  Leste  2.018766  1.942012


Exemplo, agrupando por uma coluna, selecionando outras colunas e aplicando a função `sum()` aos dados resultantes:

In [None]:
print("\nAgrupamento por 'Produto' e soma de Vendas e Lucro:")
print(df.groupby("Produto")[["Vendas", "Lucro"]].sum())


Agrupamento por 'Produto' e soma de Vendas e Lucro:
           Vendas     Lucro
Produto                    
Banana   2.440524 -1.015313
Maçã     4.547253 -0.334487


Agrupar por múltiplas colunas forma um `MultiIndex`.

In [None]:
# Agrupando por Produto e Região e somando as colunas 'Vendas' e 'Lucro'
print("\nAgrupamento por 'Produto' e 'Região' e soma de Vendas e Lucro:")
print(df.groupby(["Produto", "Região"]).sum())


Agrupamento por 'Produto' e 'Região' e soma de Vendas e Lucro:
                  Vendas     Lucro
Produto Região                    
Banana  Leste   1.362776 -1.694917
        Norte   0.836102 -0.561212
        Sul     0.241646  1.240817
Maçã    Leste   2.119722  0.659376
        Norte   1.437976 -1.118320
        Sul     0.989555  0.124458


## Exercício 3

1. Para o código abaixo use a função `merge()` para combinar os dois DataFrames com base na coluna `Produto`.
  * E depois `how="outer"` (união de todos os dados).  
  * Utilize primeiramente `how="inner"` (interseção entre os DataFrames).

2. Para a ultima junção, faça um agrupamento pela coluna `Produto` e então selecione as colunas `Quantidade` e `Preço` e some elas.

```python
import pandas as pd

# DataFrame de produtos vendidos
vendas = pd.DataFrame({
    "Cliente": ["Ana", "Bruno", "Carlos", "Diana", "Eduarda", "Fábio", "Gabriela"],
    "Produto": ["Notebook", "Smartphone", "Notebook", "Tablet", "Notebook", "Mouse", "Smartphone"],
    "Data": ["2023-01-15", "2023-01-16", "2023-01-16", "2023-02-10", "2023-02-10", "2023-02-15", "2023-02-16"],
    "Quantidade": [1, 2, 1, 1, 3, 2, 1],
})

# DataFrame com os preços dos produtos
precos = pd.DataFrame({
    "Produto": ["Notebook", "Smartphone", "Tablet"],
    "Preço": [3000, 2000, 1500],
})

print("DataFrame de vendas:")
print(vendas)

print("\nDataFrame de preços:")
print(precos)
```

## Reorganização

Para exemplos, vamos primeiramente criar um DataFrame para análise de dados relacionados a vendas e custos.

Este DataFrame será criado com um índice hierárquico de duas categorias:
* Categoria (Fruta, Legume, etc.)
* Métrica (Venda, Custo).

In [None]:
import pandas as pd
import numpy as np

# MultiIndex com dois níveis: Categoria e Métrica
arrays = [
    ["Fruta", "Fruta", "Legume", "Legume", "Bebida", "Bebida", "Grão", "Grão"],
    ["Venda", "Custo", "Venda", "Custo", "Venda", "Custo", "Venda", "Custo"],
]

index = pd.MultiIndex.from_arrays(arrays, names=["Categoria", "Métrica"])

# Criando um DataFrame com valores aleatórios para Vendas e Custos
df = pd.DataFrame(abs(np.random.randn(8, 3)), index=index, columns=["Janeiro", "Fevereiro", "Março"])
print("DataFrame Original:\n")
print(df)

DataFrame Original:

                    Janeiro  Fevereiro     Março
Categoria Métrica                               
Fruta     Venda    1.219529   0.338334  0.402502
          Custo    0.257627   0.172249  0.555268
Legume    Venda    0.952821   0.603647  0.623190
          Custo    1.423351   0.407285  0.628515
Bebida    Venda    0.466751   0.222750  0.125841
          Custo    0.231922   0.211247  1.242865
Grão      Venda    1.973443   1.005019  0.698037
          Custo    0.336547   1.222737  0.201677


### Empilhamento

* A função `stack()` modifica a distribuição das células para criar um formato vertical.

* A função `unstack()` faz o inverso do `stack()`, retorna o formato original.

  Como temos dois níveis de indices, também podemos utilizar:
  * `unstack(0)` para reorganiza pelo primeiro indice (Categoria) como colunas;
  * `unstack(1)` para reorganiza pelo segundo indice (Métrica) como colunas.  

In [None]:
# Empilhando as colunas para transformar em um formato mais vertical
stacked = df.stack()
print("\nDataFrame Empilhado (com stack):\n")
print(stacked)

# Desempilhando para reorganizar os dados de volta ao formato tabular
unstacked = stacked.unstack()
print("\n\nDataFrame Desempilhado (com unstack):\n")
print(unstacked)

# Desempilhando com foco no nível 0 (Categoria)
unstacked_level0 = stacked.unstack(0)
print("\n\nDataFrame Desempilhado por 'Categoria' (nível 0):\n")
print(unstacked_level0)

# Desempilhando com foco no nível 1 (Métrica)
unstacked_level1 = stacked.unstack(1)
print("\n\nDataFrame Desempilhado por 'Métrica' (nível 1):\n")
print(unstacked_level1)



DataFrame Empilhado (com stack):

Categoria  Métrica           
Fruta      Venda    Janeiro      1.219529
                    Fevereiro    0.338334
                    Março        0.402502
           Custo    Janeiro      0.257627
                    Fevereiro    0.172249
                    Março        0.555268
Legume     Venda    Janeiro      0.952821
                    Fevereiro    0.603647
                    Março        0.623190
           Custo    Janeiro      1.423351
                    Fevereiro    0.407285
                    Março        0.628515
Bebida     Venda    Janeiro      0.466751
                    Fevereiro    0.222750
                    Março        0.125841
           Custo    Janeiro      0.231922
                    Fevereiro    0.211247
                    Março        1.242865
Grão       Venda    Janeiro      1.973443
                    Fevereiro    1.005019
                    Março        0.698037
           Custo    Janeiro      0.336547
           

### Pivot tables

A função `pivot_table` permite:
* resumir as informações contidas em um DataFrame;
* personalizar a forma como os dados são organizados;
* utilizar agregações complexas e funções customizadas.

**Sintaxe:**

```python
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc="mean",
 fill_value=None, margins=False, margins_name="All", dropna=True, observed=False, sort=True)
```

Principais argumentos:

* `data`: O DataFrame a partir do qual a tabela dinâmica será criada.
* `values`: A(s) coluna(s) cujos valores você deseja agregar.
* `index`: A(s) coluna(s) que formarão os índices da tabela.
* `columns`: A(s) coluna(s) que formarão as colunas da tabela.
* `aggfunc`: A função de agregação a ser usada. O padrão é "mean", mas você pode usar outras como "sum", "count", "max", "min", ou funções personalizadas. Pode ser uma lista de funções.
* `fill_value`: Valor para preencher células vazias ou NaN.

Veja os exemplos.

In [None]:
import pandas as pd
import numpy as np

# Criando o DataFrame
dados = {
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrodomésticos", "Eletrodomésticos", "Móveis", "Móveis"],
    "Produto": ["Notebook", "Smartphone", "Geladeira", "Fogão", "Sofá", "Cama"],
    "Vendas": [5000, 3000, 4000, 2500, 2000, 1500],
    "Ano": [2023, 2023, 2023, 2023, 2024, 2024]
}

df = pd.DataFrame(dados)
print(df)

          Categoria     Produto  Vendas   Ano
0       Eletrônicos    Notebook    5000  2023
1       Eletrônicos  Smartphone    3000  2023
2  Eletrodomésticos   Geladeira    4000  2023
3  Eletrodomésticos       Fogão    2500  2023
4            Móveis        Sofá    2000  2024
5            Móveis        Cama    1500  2024


**1. Agregando por uma única coluna:**

Vamos organizar as vendas por categoria usando pivot_table.

In [None]:
# Vendas totais por Categoria
tabela = pd.pivot_table(df, values="Vendas", index="Categoria", aggfunc="sum")
print(tabela)


                  Vendas
Categoria               
Eletrodomésticos    6500
Eletrônicos         8000
Móveis              3500


**2. Selecionando colunas:**

In [None]:
# Vendas totais por Categoria e Ano
tabela = pd.pivot_table(df, values="Vendas", index="Categoria",
                        columns="Ano", aggfunc="sum", fill_value=0)
print(tabela)

print("\n")

# Vendas totais por Categoria e Ano
tabela = pd.pivot_table(df, values="Vendas", index="Categoria",
                        columns=["Ano","Produto"], aggfunc="sum", fill_value=0)
print(tabela)


Ano               2023  2024
Categoria                   
Eletrodomésticos  6500     0
Eletrônicos       8000     0
Móveis               0  3500


Ano               2023                                2024      
Produto          Fogão Geladeira Notebook Smartphone  Cama  Sofá
Categoria                                                       
Eletrodomésticos  2500      4000        0          0     0     0
Eletrônicos          0         0     5000       3000     0     0
Móveis               0         0        0          0  1500  2000


**3. Adicionando margens (Totais):**

In [None]:
# Incluindo uma linha/coluna de total
tabela = pd.pivot_table(df, values="Vendas", index="Categoria", columns="Ano",
        aggfunc="sum", fill_value=0, margins=True, margins_name="Total Geral")
print(tabela)


Ano                2023  2024  Total Geral
Categoria                                 
Eletrodomésticos   6500     0         6500
Eletrônicos        8000     0         8000
Móveis                0  3500         3500
Total Geral       14500  3500        18000


**4. Pivot Table com múltiplos índices e colunas:**

In [None]:
# Pivot Table com múltiplos índices e colunas
tabela = pd.pivot_table(df, values="Vendas", index=["Categoria", "Produto"],
                        columns="Ano", aggfunc="sum", fill_value=0)
print(tabela)


Ano                          2023  2024
Categoria        Produto               
Eletrodomésticos Fogão       2500     0
                 Geladeira   4000     0
Eletrônicos      Notebook    5000     0
                 Smartphone  3000     0
Móveis           Cama           0  1500
                 Sofá           0  2000


### Exercício 4

Considere o seguinte conjunto de dados:
```python
import pandas as pd
import numpy as np

# DataFrame para os exercícios
dados = {
    "Produto": ["Notebook", "Notebook", "Smartphone", "Smartphone", "Tablet", "Tablet"],
    "Região": ["Norte", "Sul", "Norte", "Sul", "Norte", "Sul"],
    "Ano": [2023, 2023, 2024, 2024, 2023, 2024],
    "Vendas": [5000, 4500, 3000, 3500, 2000, 2500],
    "Lucro": [1000, 900, 800, 850, 300, 400],
}

df = pd.DataFrame(dados)
print(df)
```

Então:

1. Aplique `stack()` no DataFrame original e observe como ele transforma as colunas em um índice.

  Pergunta: Qual a principal diferença entre o DataFrame antes e depois de usar `stack()`?

2. A partir do resultado de `stack()`, use `unstack()` para reorganizar os dados. Experimente utilizar os níveis de índice (0, 1 ou nomeados).

3. Crie uma tabela dinâmica que mostre o lucro médio (Lucro) por "Produto" e "Região". Use `aggfunc="mean"`.

  Pergunta: Como a função de agregação afeta os dados?

4. Adicione margens (totais) à tabela dinâmica do exercício anterior, usando o parâmetro `margins=True`.   

## Séries temporais

*Pandas* é uma das principais bibliotecas utilizadas para manipulação de séries temporais por possuir diversas funcionalidades úteis para esse tipo de dados.

Em *Pandas* uma série temporal é representada por um objeto do tipo `Series` ou `DataFrame` indexadas por um tipo de objeto especifico para trabalhar com datas, o `datetime`.

  **Objetos `datetime` no Python**

  O módulo `datetime` do Python é utilizado para manipular datas e horários. Ele fornece várias classes úteis para criar, modificar, comparar e realizar cálculos com datas e tempos.

  Principais Classes do Módulo `datetime`:

  * `datetime.date`: Representa uma data (ano, mês e dia).
  * `datetime.time`: Representa um horário (hora, minuto, segundo e microssegundo).
  * `datetime.datetime`: Combina data e horário.
  * `datetime.timedelta`: Representa diferenças entre datas ou tempos.
  * `datetime.tzinfo` e `datetime.timezone`: Representam informações de fuso horário

In [None]:
## Exemplos datetime

import datetime

# Criando uma data
data = datetime.date(2024, 11, 29)
print("Data Criada:", data)

# Acessando componentes
print("Ano:", data.year)
print("Mês:", data.month)
print("Dia:", data.day)

# Criando um horário
horario = datetime.time(14, 30, 45)
print("\nHorário Criado:", horario)

# Acessando componentes
print("Hora:", horario.hour)
print("Minuto:", horario.minute)
print("Segundo:", horario.second)

# Criando um objeto datetime
data_hora = datetime.datetime(2024, 11, 29, 14, 30, 45)
print("\nData e Hora Criadas:", data_hora)

# Acessando componentes
print("Ano:", data_hora.year)
print("Hora:", data_hora.hour)

# Convertendo string para datetime
# Principais códigos de formatação:
# %Y: Ano com quatro dígitos.
# %m: Mês (01-12).
# %d: Dia do mês (01-31).
# %H: Hora (00-23).
# %M: Minuto (00-59).
# %S: Segundo (00-59).

data_string = "29/11/2024 14:30:45"
data_convertida = datetime.datetime.strptime(data_string, "%d/%m/%Y %H:%M:%S")

print("\nString Convertida para datetime:", data_convertida)

Data Criada: 2024-11-29
Ano: 2024
Mês: 11
Dia: 29

Horário Criado: 14:30:45
Hora: 14
Minuto: 30
Segundo: 45

Data e Hora Criadas: 2024-11-29 14:30:45
Ano: 2024
Hora: 14

String Convertida para datetime: 2024-11-29 14:30:45


**1. Criando Séries Temporais**

Podemos criar séries temporais usando o `pd.date_range()` e trabalhar diretamente com objetos `datetime`.

In [None]:
import pandas as pd
import numpy as np


####### serie diaria ###########################################################

# Gerando uma sequência de dias
dias = pd.date_range(start="2023-01-02", end="2023-01-20", freq="D")
print("Sequência de dias:\n", dias)

# Criando uma série temporal diária
serie_diaria = pd.Series(np.random.randint(1, 100, len(dias)), index=dias)
print("\nSérie diaria:\n", serie_diaria)

################################################################################

####### serie semanal ##########################################################

# Gerando uma sequência de semanas
semanas = pd.date_range("2023-01-01", "2023-03-01", freq="W")

# Criando uma série temporal semanal
serie_semanal = pd.Series(np.random.randint(1, 100, len(semanas)), index=semanas)
print("\nSérie semanal:\n", serie_semanal)

################################################################################

####### serie horária ##########################################################

# Frequência por horas
horas = pd.date_range("2023-01-01", "2023-01-02", freq="h")

# Criando uma série temporal horaria
serie_horaria = pd.Series(np.random.randint(1, 100, len(horas)), index=horas)
print("\nSérie horaria:\n", serie_horaria)

################################################################################


**2. Manipulando Datas como Índices**

As colunas de datas ou índices permitem acessar, filtrar e realizar operações.

In [None]:
# Filtrando dados específicos
print("Valores de 2023-01-03 a 2023-01-05:\n", serie_diaria["2023-01-03":"2023-01-05"])

# Selecionando com base em condições
print("\nValores maiores que 50:\n", serie_diaria[serie_diaria > 50])


**4. Reamostragem e Alteração de Frequência**

A reamostragem ajusta a frequência temporal dos dados (e.g., diário para mensal).

In [None]:
# Seria diaria
print("serie diaria:\n", serie_diaria )

# Reamostragem para frequência semanal
reamostrado = serie_diaria.resample("W")

## media dos valores
print("\nSerie Semanal (media):\n", reamostrado.mean())

## soma dos valores
print("\nSerie Semanal (soma):\n", reamostrado.sum())

## maximo dos valores
print("\nSerie Semanal (max):\n", reamostrado.max())

**5. Operações de Deslocamento**

O deslocamento temporal é útil para calcular diferenças ou comparar valores passados.

In [None]:
serie = serie_diaria["2023-01-02":"2023-01-08"]
print("serie diaria:\n", serie)

# Deslocando os valores para frente
deslocado1 = serie.shift(1)
print("\nSérie Deslocada para Frente:\n", deslocado1)

# Deslocando os valores para trás
deslocado2 = serie.shift(-1)
print("\nSérie Deslocada para trás:\n", deslocado2)

# Calculando diferenças
diferencas = serie.diff()
print("\nDiferenças Entre Valores Consecutivos:\n", diferencas)

**6. Trabalhando com Timezones**

O Pandas suporta fuso horário com `tz_localize` e `tz_convert`.

In [None]:
import numpy as np
import pandas as pd

# Criando uma série temporal horária (UTC)
horas_utc = pd.date_range("2023-01-01 07:00", "2023-01-01 12:00", freq="h", tz="UTC")
serie_horaria_utc = pd.Series(np.random.randint(1, 100, len(horas_utc)), index=horas_utc)

print("Série horária no timezone UTC:")
print(serie_horaria_utc)

# Convertendo para o timezone América/São_Paulo
serie_horaria_sao_paulo = serie_horaria_utc.tz_convert("America/Sao_Paulo")
print("\nSérie horária convertida para América/São_Paulo:")
print(serie_horaria_sao_paulo)

# Adicionando timezone a uma série sem fuso horário
horas_sem_tz = pd.date_range("2023-01-01 07:00", "2023-01-01 12:00", freq="h")
serie_sem_tz = pd.Series(np.random.randint(1, 100, len(horas_sem_tz)), index=horas_sem_tz)

# Adicionando timezone à série sem fuso horário
serie_com_tz = serie_sem_tz.tz_localize("America/New_York")
print("\nSérie sem timezone adicionada ao timezone América/New_York:")
print(serie_com_tz)


Os fusos horários disponíveis podem ser acessados em [time-zones](https://en.wikipedia.org/wiki/List_of_tz_database_time_zones).

**7. Gráfico de séries temporais**

No Pandas, é possível criar gráficos de séries temporais de forma simples utilizando o método `.plot()` integrado. Ele é ideal para representar visualmente dados temporais, como tendências ao longo do tempo. Para isso, você pode usar diretamente o DataFrame ou a Series, desde que tenham um índice temporal.


In [None]:
import pandas as pd
import numpy as np

# Gerar uma série temporal horaria
datas = pd.date_range("2023-01-01", "2023-01-5", freq="h")
valores = np.random.randint(50, 100, len(datas))
serie_temporal = pd.Series(valores, index=datas)

# Criar o gráfico
serie_temporal.plot(title="Série Temporal", xlabel="Data", ylabel="Valor",
                    figsize=(6, 3))

In [None]:
# Gera um DataFrame com múltiplas séries temporais
df = pd.DataFrame({
    "Produto A": np.random.randint(50, 100, len(datas)),
    "Produto B": np.random.randint(60, 120, len(datas)),
    "Produto C": np.random.randint(30, 90, len(datas)),
}, index=datas)

# Gera o gráfico
df.plot(title="Comparação de Produtos", xlabel="Data", ylabel="Vendas",
        figsize=(7, 4))


A biblioteca `matplotlib` pode ser utilizada para personalizar os gráficos. Será visto a frente.

### Exercício 5

Considere o seguinte código:

```python
import pandas as pd
import numpy as np

# Série temporal diária para janeiro de 2023
dias = pd.date_range(start="2023-01-01", end="2023-01-31", freq="D")
serie = pd.Series(np.random.randint(10, 100, len(dias_janeiro)), index=dias)
print("Série Temporal:\n", serie)
```

Então para o objeto `serie`:

1. Construa uma série semanal tomando os valores máximos de cada semana.

2. Construa uma série semanal tomando os valores médios de cada semana.

3. Inclua o fuso horário "America/Sao_Paulo".

4. Plote o gráfico.

## Dados categorizados

Os dados categorizados são úteis para representar variáveis que têm um número fixo e limitado de categorias. O *Pandas* oferece suporte para o tipo de dado `category`, permitindo economizar memória e melhorar o desempenho em operações com dados categóricos.

Obs: `category` em *Pandas* é o equivalente ao `factor` na linguagem R.

Por que usar dados categorizados?

* Eficiência de memória: Categorias são armazenadas como índices inteiros internamente, reduzindo o uso de memória.
* Desempenho: Operações como comparação e agrupamento são mais rápidas.
* Validação: Você pode limitar os valores aceitos em uma coluna a um conjunto de categorias fixas.
* **Modelagem**: Modelos de regressão não lidam diretamente com variáveis categóricas. Elas precisam ser convertidas em uma representação numérica, como **one-hot encoding** (cada categoria vira uma coluna binária) ou codificação **ordinal** (são tratadas como números).  


**Criando Dados Categorizados**

In [None]:
import pandas as pd
import numpy as np

## A partir de uma lista
categoricas = pd.Series(["Alto", "Médio", "Baixo", "Médio"], dtype="category")
print("Série categórica:")
print(categoricas)  # Aqui o Python não sabe qual é a ordem

# Definindo uma ordem explícita
categoricas2 = categoricas.cat.set_categories(["Baixo", "Médio", "Alto"],
                                             ordered=True)
print("\nSérie categórica ordenada:")
print(categoricas2)


Segmentando variáveis utilizando `.cut`

In [None]:
df = pd.DataFrame({
    "Nome": ["Ana", "Bruno", "Carlos", "Diana", "Eduardo"],
    "Gênero": ["Feminino", "Masculino", "Masculino", "Feminino", "Masculino"],
    "Notas": [9.5, 5.3, 0.1, 6.1, 7.7]
})

# Aplicando a função .cut para criar a coluna menção
cortes = [0.0, 3.0, 5, 7, 9, 10]
classes = ["II","MI","MM","MS","SS"]
df['Menção'] = pd.cut(df['Notas'], bins=cortes, labels=classes)

# Transformando Menção em categorica
df["Menção"] = df["Menção"].astype("category")

# Transformando Menção em categorica ordinal
df.Menção = df.Menção.cat.set_categories(["SR","II","MI","MM","MS","SS"],
                                               ordered = True)
print("df:\n", df)

Renomeando as categorias para nomes com mais significado:

In [None]:
from typing_extensions import runtime
print("df:\n", df)

new_categories = ["péssimo", "muito ruim", "ruim", "meia boca", "aceitável", "bom"]
# SR -> péssimo
# II -> muito ruim
# MI -> ruim
# ...

df["Menção"] = df["Menção"].cat.rename_categories(new_categories)

print("\ndf:\n", df)

A  ordenação nas categorias é por classe, não alfabética:

In [None]:
df.sort_values(by="Menção")

Agrupamento de variáveis categorizadas com `observed=False` também mostram as categorias vazias:

In [None]:
df.groupby("Menção", observed=False).size()

**Codificação one-hot**

Neste exemplo, vamos simular que estamos preparando a variável "Gênero" para ser utilizada em um modelo de regressão. Por conta disso, vamos transformar ela em dummy:

In [None]:
## Dummies da variável "Gênero"
df_dummies = pd.get_dummies(df, columns=["Gênero"])
print( df_dummies )

### Exercício 6

Considere o seguinte código:

```python
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
dados = {
    "Produto": ["Notebook", "Smartphone", "Tablet", "Notebook", "Smartphone", "Tablet", "Notebook", "Smartphone", "Tablet", "Notebook"],
    "Loja": ["Loja A", "Loja B", "Loja C", "Loja A", "Loja B", "Loja C", "Loja A", "Loja B", "Loja C", "Loja A"],
    "Vendas": [1500, 2000, 1000, 1800, 2200, 1200, 1700, 2100, 1300, 1600],
    "Ano": [2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023, 2023],
    "Categoria": ["Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos", "Eletrônicos"],
}

df = pd.DataFrame(dados)

print("Conjunto de Dados de Vendas:")
print(df)

```

Então para o objeto `serie`:

1. Converta as colunas "Loja" e "Produto" para categóricas.

2. Faça a coluna "Produto" ter a seguinte ordem: "Tablet", "Smartphone", "Notebook".

3. Calcule a quantidade de ocorrências de cada loja na coluna "Loja" usando `value_counts()`.

4. Crie uma nova coluna categórica ordinal chamada `Categoria_Vendas`, onde será categorizado para "Alto", "Médio" ou "Baixo", com base nos seguintes critérios:
  * "Alto": Vendas > 2000
  * "Médio": 1500 <= Vendas <= 2000
  * "Baixo": Vendas < 1500.

5. Transforme em dummies as variáveis `Produto` e  `Categoria_Vendas`.    

## Importando e exportando dados

### Valores separados por vírgula (CSV)

Para escrever um arquivo CSV (*valores separados por vírgula*) use `DataFrame.to_csv()`:

In [None]:
df = pd.DataFrame(np.random.randint(0, 5, (10, 5)))
df.to_csv("foo.csv")

Para ler o arquivo CSV use `DataFrame.read_csv()`:

In [None]:
pd.read_csv("foo.csv")

### Excel

Para escrever um arquivo Excel use `DataFrame.to_excel()`:

In [None]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")

Para ler um arquivo Excel use `DataFrame.read_excel()`:

In [None]:
pd.read_excel("foo.xlsx", "Sheet1", index_col=None)