# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# VII. Introdução ao **pandas** (parte 2)

Este notebook é a continuação do guia **prático** para estudar a biblioteca **pandas**.

Como vimos anteriormente na parte 1, trabalhamos os **fundamentos do pandas**, aprendendo a:

- Criar e manipular `Series` e `DataFrames`;
- Selecionar e filtrar dados com indexação;
- Tratar valores nulos;
- Converter e ajustar tipos de dados;
- Realizar operações vetorizadas sobre colunas;
- Agrupar e combinar tabelas.

Agora, neste notebook parte 2 sobre o **pandas**, vamos estudar **operações avançadas**, explorando recursos que permitem:

- Aplicar funções personalizadas com `.apply()`;
- Executar transformações em `DataFrames`;
- Trabalhar com hierarquias de índices (*MultiIndex*);
- Introdução a séries temporais;
- Técnicas para otimizar performance e memória.

In [1]:
# Importação das bibliotecas

import pandas as pd
import numpy as np

pd.__version__ # exibe a versão instalada (opcional)

'2.3.2'

## 1. Aplicando funções personalizadas com `.apply()` <a id="sec1"></a>


O método `.apply()` permite aplicar funções às colunas ou linhas de um `DataFrame`.
Isso é útil quando precisamos de maior flexibilidade além das operações vetorizadas.

- `df.apply(func, axis=0)` → aplica a função a cada **coluna**.
- `df.apply(func, axis=1)` → aplica a função a cada **linha**.

**LEMBRETE**: Embora o uso de funções personalizadas com `.apply()` seja útil em situações específicas, é importante lembrar que as operações vetorizadas são, em geral, muito mais rápidas e devem ser a primeira escolha sempre que possível.

In [14]:
# Exemplo de DataFrame
df = pd.DataFrame({
    "A": [10, 20, 30, 40],
    "B": [5, 15, 25, 35],
    "C": [2, 4, 6, 8]
})

df

Unnamed: 0,A,B,C
0,10,5,2
1,20,15,4
2,30,25,6
3,40,35,8


In [15]:
# Aplicando uma função em cada coluna (axis=0)
df.apply(np.mean)

A    25.0
B    20.0
C     5.0
dtype: float64

In [16]:
# Aplicando função em cada linha (axis=1)
df.apply(lambda row: row["A"] + row["B"] - row["C"], axis=1)

0    13
1    31
2    49
3    67
dtype: int64

In [17]:
# Usando .apply() com funções externas

# Definindo uma função separada
def categorizar_valor(x):
    if x < 15:
        return "baixo"
    elif x < 30:
        return "médio"
    else:
        return "alto"

df["categoria_B"] = df["B"].apply(categorizar_valor)
df


Unnamed: 0,A,B,C,categoria_B
0,10,5,2,baixo
1,20,15,4,médio
2,30,25,6,médio
3,40,35,8,alto


#### Funções Lambda no Python

As **funções `lambda`** são funções **anônimas** (sem nome) em Python, úteis para criar operações simples e rápidas.
- Não precisam de def nem de nome.
- Normalmente usadas em operações rápidas, quando não vale a pena criar uma função completa.
- Retornam automaticamente o valor da expressão (não é necessário return).

> Sintaxe: 
> ```python
> lambda argumentos: expressão
> ```

In [6]:
# Exemplo de função lambda

# Função tradicional
def quadrado(x):
    return x ** 2

# Equivalente com lambda
quadrado_lambda = lambda x: x ** 2

O **pandas** oferece também métodos semelhantes ao `.apply()` para aplicar funções personalizadas:

- **`.map()`** → usado em **Series** (coluna única). Aplica função a cada elemento.  
- **`.applymap()`** → usado em **DataFrames**. Aplica função a cada elemento da tabela (**em deuso**).  
- **`.apply()`** → já vimos, é o mais flexível (funciona em `Series` e `DataFrames`, por linha ou coluna).

Em resumo:  
- Use `.map()` quando trabalhar com uma única **Series**.  
- Use `.applymap()` quando quiser aplicar função **elemento a elemento** em um **DataFrame**.  
- Use `.apply()` quando precisar de mais flexibilidade (linhas, colunas, funções complexas).


In [9]:
# .map() em Series → atua elemento por elemento em uma única coluna (Series)
# Cada valor é passado para a função e substituído pelo retorno
print(df["A"].map(lambda x: x**2))

# .applymap() em DataFrame → atua elemento por elemento em todo o DataFrame
# Cada célula é passada para a função e substituída pelo retorno
# print(df.applymap(lambda x: f"[{x}]"))

# .apply() em DataFrame → atua em colunas inteiras (padrão, axis=0) ou em linhas inteiras (axis=1)
# print(df.apply(sum, axis=0))

0     100
1     400
2     900
3    1600
Name: A, dtype: int64


In [None]:
# TODO: rever melhor sobre as diferenças de aplicação entre o cálculo vetorizado e o uso de .apply()

# Comparação de desempenho entre operações vetorizadas e apply

# Criando um DataFrame grande
n = 1_000_000 # 1 milhão de linhas
df = pd.DataFrame({"A": np.random.randint(1, 100, size=n)})

# 1. Operação vetorizada
%timeit df["A"] ** 2

# 2. Usando .apply()
%timeit df["A"].apply(lambda x: x ** 2)

1.95 ms ± 226 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
397 ms ± 23.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## 2. Transformações em DataFrames

Transformações permitem modificar dados **mantendo a estrutura do DataFrame**.

- `.transform(func)` → retorna um objeto do mesmo tamanho do original (mantém o mesmo **número de linhas**)
- Diferença para `.apply()`: `transform` é usado quando queremos retornar valores "transformados" mantendo alinhamento


In [18]:
# Exemplo com transform: padronizando colunas (z-score)
df[["A", "B"]].transform(lambda x: (x - x.mean()) / x.std())

Unnamed: 0,A,B
0,-1.161895,-1.161895
1,-0.387298,-0.387298
2,0.387298,0.387298
3,1.161895,1.161895


In [19]:
# Usando transform com dicionário
df_scaled = df.transform({"A": lambda x: x * 10, "B": lambda x: x / 5})
df_scaled #.astype("int64")

Unnamed: 0,A,B
0,100,1.0
1,200,3.0
2,300,5.0
3,400,7.0


In [20]:
df2 = pd.DataFrame({
    "grupo": ["X", "X", "Y", "Y", "Y"],
    "valor": [10, 12, 20, 22, 25]
})

print(df2.groupby("grupo")["valor"].mean())  # média geral

# Subtraindo a média de cada grupo (centralização)
df2["valor_centralizado"] = df2.groupby("grupo")["valor"].transform(lambda x: x - x.mean())
df2


grupo
X    11.000000
Y    22.333333
Name: valor, dtype: float64


Unnamed: 0,grupo,valor,valor_centralizado
0,X,10,-1.0
1,X,12,1.0
2,Y,20,-2.333333
3,Y,22,-0.333333
4,Y,25,2.666667


## 3. Reshape: `pivot`, `melt`, `stack`/`unstack` <a id="12-reshape"></a>

No pandas, **reshape** significa **mudar o formato da tabela** — reorganizando linhas, colunas e índices.

Operações mais comuns:
- `.pivot()` / `.pivot_table()` → transforma dados de formato **longo → largo** (cria colunas novas a partir de valores).
- `.melt()` → transforma dados de formato **largo → longo** (desfaz pivot, "achatando" dados).
- `.stack()` → move colunas para o índice (empilha colunas no índice).
- `.unstack()` → move índices para colunas (faz o oposto, trazendo níveis do índice para colunas).


In [21]:
# Dataframe de referência
df = pd.DataFrame({
    "País": ["Brasil", "Brasil", "Argentina", "Argentina"],
    "Ano": [2020, 2021, 2020, 2021],
    "PIB": [2100, 2200, 450, 470],
    "População": [212, 213, 45, 46]
})
df

Unnamed: 0,País,Ano,PIB,População
0,Brasil,2020,2100,212
1,Brasil,2021,2200,213
2,Argentina,2020,450,45
3,Argentina,2021,470,46


In [24]:
# Reorganiza os anos em colunas (pivot)
df_pivot = df.pivot(index="País", columns="Ano", values="PIB") # Queremos ver o PIB por País, organizado o ano como colunas
df_pivot

Ano,2020,2021
País,Unnamed: 1_level_1,Unnamed: 2_level_1
Argentina,450,470
Brasil,2100,2200


In [25]:
# Outro exemplo de pivot
df_pivot2 = df.pivot(index="Ano", columns="País", values="População") # Queremos ver a População por Ano, organizando os países como colunas
df_pivot2

País,Argentina,Brasil
Ano,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,45,212
2021,46,213


In [26]:
# Desfaz o pivot: indicadores em uma única coluna (melt)
df_melt = df.melt(id_vars=["País", "Ano"],
                  value_vars=["PIB", "População"],
                  var_name="Indicador",
                  value_name="Valor")
df_melt

Unnamed: 0,País,Ano,Indicador,Valor
0,Brasil,2020,PIB,2100
1,Brasil,2021,PIB,2200
2,Argentina,2020,PIB,450
3,Argentina,2021,PIB,470
4,Brasil,2020,População,212
5,Brasil,2021,População,213
6,Argentina,2020,População,45
7,Argentina,2021,População,46


In [30]:
# Stack (colunas → índice)
df_stacked = df.set_index(["País", "Ano"]).stack()
df_stacked

País       Ano            
Brasil     2020  PIB          2100
                 População     212
           2021  PIB          2200
                 População     213
Argentina  2020  PIB           450
                 População      45
           2021  PIB           470
                 População      46
dtype: int64

In [34]:
# Unstack (índice → colunas)
df_unstacked = df_stacked.unstack()
df_unstacked

Unnamed: 0_level_0,Unnamed: 1_level_0,PIB,População
País,Ano,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,2020,450,45
Argentina,2021,470,46
Brasil,2020,2100,212
Brasil,2021,2200,213


## 4. Tabelas dinâmicas (`pivot_table`) <a id="10-pivot"></a>

O `.pivot_table()` funciona de forma semelhante ao `.pivot()`, mas com duas diferenças principais:

- Pode lidar com **valores duplicados**, aplicando uma **função de agregação** (`aggfunc`).
- Por padrão, a função de agregação é a **média** (`mean`).

> Sintaxe básica:
> ```python
> df.pivot_table(index=..., columns=..., values=..., aggfunc=...)
> ```

Em resumo:
- `.pivot()` → reorganiza os dados (não aceita duplicados).
- `.pivot_table()` → além de reorganizar, permite **agregações** sobre dados duplicados.
- `aggfunc` pode ser:
  - Funções simples: `"mean"`, `"sum"`, `"max"`, `"min"`;
  - Uma lista de funções: `["mean", "sum"]`;
  - Ou até uma função customizada.


In [39]:
# Calculando média do PIB (se houver duplicatas)
pivot_pib = df.pivot_table(index="País", columns="Ano", values="PIB", aggfunc="mean")
pivot_pib

Ano,2020,2021
País,Unnamed: 1_level_1,Unnamed: 2_level_1
Argentina,450.0,470.0
Brasil,2100.0,2200.0


In [36]:
# Soma da População por País
pivot_pop = df.pivot_table(index="País", values="População", aggfunc="sum")
pivot_pop

Unnamed: 0_level_0,População
País,Unnamed: 1_level_1
Argentina,91
Brasil,425


In [37]:
# Mais de uma agregação com mais de uma função
pivot_multi = df.pivot_table(index="País", columns="Ano",
                             values="PIB", aggfunc=["mean", "max", "min"])
pivot_multi

Unnamed: 0_level_0,mean,mean,max,max,min,min
Ano,2020,2021,2020,2021,2020,2021
País,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Argentina,450.0,470.0,450,470,450,470
Brasil,2100.0,2200.0,2100,2200,2100,2200


## 5. Hierarquia de Índices (**MultiIndex**)

Um **MultiIndex** (ou índice hierárquico) permite organizar os dados em **várias dimensões de índice**, não apenas uma.  
Isso é útil quando os dados têm **níveis de hierarquia** — por exemplo, `países → estados → cidades`.

Características principais:
- Um índice pode ter **dois ou mais níveis**.
- Facilita a representação de dados em formato de tabela **multi-dimensional** sem precisar de pivôs complexos.
- Permite operações de seleção e agregação.

In [41]:
# Duas listas de índices
arrays = [
    ["Brasil", "Brasil", "Argentina", "Argentina"],
    ["São Paulo", "Rio de Janeiro", "Buenos Aires", "Córdoba"]
]

index = pd.MultiIndex.from_arrays(arrays, names=("País", "Cidade")) # cria o MultiIndex
print(index)
# Criando DataFrame com MultiIndex
df_multi = pd.DataFrame({
    "População (milhões)": [12.3, 6.7, 15.0, 1.3],
    "PIB (bilhões)": [699, 415, 92, 20]
}, index=index)
# Neste caso, o índice tem dois níveis: País e Cidade

df_multi

MultiIndex([(   'Brasil',      'São Paulo'),
            (   'Brasil', 'Rio de Janeiro'),
            ('Argentina',   'Buenos Aires'),
            ('Argentina',        'Córdoba')],
           names=['País', 'Cidade'])


Unnamed: 0_level_0,Unnamed: 1_level_0,População (milhões),PIB (bilhões)
País,Cidade,Unnamed: 2_level_1,Unnamed: 3_level_1
Brasil,São Paulo,12.3,699
Brasil,Rio de Janeiro,6.7,415
Argentina,Buenos Aires,15.0,92
Argentina,Córdoba,1.3,20


In [43]:
# Seleção em MultiIndex com .loc()

# Todas as cidades do Brasil
print(df_multi.loc["Brasil"])
print()
# Apenas São Paulo
print(df_multi.loc[("Brasil", "São Paulo")])

                População (milhões)  PIB (bilhões)
Cidade                                            
São Paulo                      12.3            699
Rio de Janeiro                  6.7            415

População (milhões)     12.3
PIB (bilhões)          699.0
Name: (Brasil, São Paulo), dtype: float64


In [45]:
# Seleção por "níveis" do índice com .xs()

# Todas as populações, pegando apenas o nível 'Cidade'
print(df_multi.xs("São Paulo", level="Cidade"))
print()
# Todas as cidades da Argentina, selecionando por nível 'País'
print(df_multi.xs("Argentina", level="País"))

        População (milhões)  PIB (bilhões)
País                                      
Brasil                 12.3            699

              População (milhões)  PIB (bilhões)
Cidade                                          
Buenos Aires                 15.0             92
Córdoba                       1.3             20


In [47]:
# Manipulação de MultiIndex

# Exibindo o DataFrame original
print(df_multi)
print()
# Trocar a ordem dos níveis
df_multi_swapped = df_multi.swaplevel("País", "Cidade")
print(df_multi_swapped)
print()
# Ordenar o índice para facilitar consultas
df_multi_sorted = df_multi.sort_index()
print(df_multi_sorted)


                          População (milhões)  PIB (bilhões)
País      Cidade                                            
Brasil    São Paulo                      12.3            699
          Rio de Janeiro                  6.7            415
Argentina Buenos Aires                   15.0             92
          Córdoba                         1.3             20

                          População (milhões)  PIB (bilhões)
Cidade         País                                         
São Paulo      Brasil                    12.3            699
Rio de Janeiro Brasil                     6.7            415
Buenos Aires   Argentina                 15.0             92
Córdoba        Argentina                  1.3             20

                          População (milhões)  PIB (bilhões)
País      Cidade                                            
Argentina Buenos Aires                   15.0             92
          Córdoba                         1.3             20
Brasil    Rio de Janei

## 6. Séries Temporais

O **pandas** possui suporte nativo para manipulação de **datas e tempos**:

- Criação de faixas de datas com `pd.date_range()`;
- Indexação temporal (ou seja, índices com datas);
- Reamostragem (`resample`) e janelas móveis (`rolling`).


In [55]:
# Criando uma série com datas diárias
datas = pd.date_range("2023-01-01", periods=10, freq="D") # 10 dias a partir de 2023-01-01, freq="D" significa frequência diária
serie = pd.Series(np.random.randint(10, 100, size=10), index=datas) 
serie

2023-01-01    33
2023-01-02    26
2023-01-03    49
2023-01-04    17
2023-01-05    34
2023-01-06    26
2023-01-07    81
2023-01-08    14
2023-01-09    38
2023-01-10    11
Freq: D, dtype: int32

In [56]:
# Selecionar um dia específico
print(serie["2023-01-03"])

# Selecionar um intervalo
print(serie["2023-01-03":"2023-01-06"])

49
2023-01-03    49
2023-01-04    17
2023-01-05    34
2023-01-06    26
Freq: D, dtype: int32


In [57]:
# Reamostragem para frequência semanal (média)
serie.resample("W").mean()

2023-01-01    33.000000
2023-01-08    35.285714
2023-01-15    24.500000
Freq: W-SUN, dtype: float64

In [51]:
# Média móvel de 3 dias
serie.rolling(window=3).mean()


2023-01-01          NaN
2023-01-02          NaN
2023-01-03    42.333333
2023-01-04    48.666667
2023-01-05    39.666667
2023-01-06    47.000000
2023-01-07    52.333333
2023-01-08    68.333333
2023-01-09    85.333333
2023-01-10    92.000000
Freq: D, dtype: float64

In [58]:
# Criando um DataFrame com frequência mensal
datas = pd.date_range("2022-01-01", periods=12, freq="ME")
df_temporal = pd.DataFrame({
    "vendas": np.random.randint(100, 500, size=12),
    "custos": np.random.randint(50, 300, size=12)
}, index=datas)

df_temporal

Unnamed: 0,vendas,custos
2022-01-31,204,120
2022-02-28,144,169
2022-03-31,390,249
2022-04-30,115,54
2022-05-31,257,162
2022-06-30,414,276
2022-07-31,422,117
2022-08-31,181,196
2022-09-30,150,221
2022-10-31,334,97


#### Operações comuns em Séries Temporais

O pandas oferece métodos poderosos para manipulação e análise de dados temporais.  

- **`resample()`** → muda a granularidade dos dados (ex: diário → semanal, aplicando média, soma etc.).  
- **`diff()`** → calcula a diferença entre períodos consecutivos (ex: crescimento dia a dia).  
- **`shift()`** → desloca valores no tempo (cria defasagens/“lags” ou antecipa valores).  
- **`asfreq()`** → ajusta a frequência da série, inserindo `NaN` ou preenchendo com `ffill` / `bfill`.  


In [None]:
# Operações em séries temporais

# Reamostrando para trimestre (soma)
print(df_temporal.resample("QE").sum())

# Diferença mês a mês
print(df_temporal.diff())

LEGENDA: Frequências no `resample()`

| Código  | Descrição                          |
|---------|------------------------------------|
| D       | Diário                             |
| B       | Dia útil (business day)            |
| W       | Semanal (final de semana)          |
| ME      | Fim do mês                         |
| MS      | Início do mês                      |
| QE      | Fim do trimestre                   |
| QS      | Início do trimestre                |
| YE      | Fim do ano                         |
| YS      | Início do ano                      |
| H       | Horário (hora em hora)             |
| T, min  | Minuto                             |
| S       | Segundo                            |
| L, ms   | Milissegundo                       |
| U       | Microssegundo                      |
| N       | Nanossegundo                       |


In [59]:
# Deslocamento temporal com .shift()

# Série temporal diária
datas = pd.date_range("2023-01-01", periods=6, freq="D")
serie = pd.Series([10, 20, 15, 25, 30, 40], index=datas)
print("Série original:")
print(serie)

print("\nValor do dia anterior (shift):")
print(serie.shift(1))  # desloca 1 dia para baixo

print("\nDiferença em relação ao dia anterior:")
print(serie - serie.shift(1))

Série original:
2023-01-01    10
2023-01-02    20
2023-01-03    15
2023-01-04    25
2023-01-05    30
2023-01-06    40
Freq: D, dtype: int64

Valor do dia anterior (shift):
2023-01-01     NaN
2023-01-02    10.0
2023-01-03    20.0
2023-01-04    15.0
2023-01-05    25.0
2023-01-06    30.0
Freq: D, dtype: float64

Diferença em relação ao dia anterior:
2023-01-01     NaN
2023-01-02    10.0
2023-01-03    -5.0
2023-01-04    10.0
2023-01-05     5.0
2023-01-06    10.0
Freq: D, dtype: float64


In [60]:
# Frequência com asfreq()

# Criando série mensal
datas_mensais = pd.date_range("2023-01-01", periods=6, freq="ME")
serie_mensal = pd.Series(np.arange(10, 70, 10), index=datas_mensais)
print("Série mensal:")
print(serie_mensal)

# Convertendo para frequência semanal
print("\nReamostrada para frequência semanal, sem preenchimento:")
print(serie_mensal.asfreq("W"))

# Preenchendo valores ausentes para frente (forward fill)
print("\nReamostrada para semanal, preenchendo para frente:")
print(serie_mensal.asfreq("W", method="ffill"))


Série mensal:
2023-01-31    10
2023-02-28    20
2023-03-31    30
2023-04-30    40
2023-05-31    50
2023-06-30    60
Freq: ME, dtype: int64

Reamostrada para frequência semanal, sem preenchimento:
2023-02-05     NaN
2023-02-12     NaN
2023-02-19     NaN
2023-02-26     NaN
2023-03-05     NaN
2023-03-12     NaN
2023-03-19     NaN
2023-03-26     NaN
2023-04-02     NaN
2023-04-09     NaN
2023-04-16     NaN
2023-04-23     NaN
2023-04-30    40.0
2023-05-07     NaN
2023-05-14     NaN
2023-05-21     NaN
2023-05-28     NaN
2023-06-04     NaN
2023-06-11     NaN
2023-06-18     NaN
2023-06-25     NaN
Freq: W-SUN, dtype: float64

Reamostrada para semanal, preenchendo para frente:
2023-02-05    10
2023-02-12    10
2023-02-19    10
2023-02-26    10
2023-03-05    20
2023-03-12    20
2023-03-19    20
2023-03-26    20
2023-04-02    30
2023-04-09    30
2023-04-16    30
2023-04-23    30
2023-04-30    40
2023-05-07    40
2023-05-14    40
2023-05-21    40
2023-05-28    40
2023-06-04    50
2023-06-11    50
20

Resumo:
- `DatetimeIndex` permite usar datas como índice.
- `.resample()` → muda a granularidade temporal (ex: diário → semanal).
- `.rolling()` → janelas móveis (médias móveis, somas acumuladas).
- Métodos como `.shift()`, `.diff()`, `.asfreq()` ampliam a análise temporal.

## 7. Otimizando performance e memória

Algumas dicas importantes para trabalhar com grandes volumes de dados:

- **Tipos de dados mais leves**: converter `int64` → `int32`, `float64` → `float32`.
- **Categorias**: usar `category` para colunas com valores repetidos.
- **Leitura em chunks**: processar arquivos grandes em pedaços.


In [None]:
n = 1000  # número de linhas desejado
df_opt = pd.DataFrame({
    "id": range(1, n + 1),
    "categoria": np.tile(["A", "B", "A", "C", "B"], n // 5)
})
print("Primeiro DF:")
print(df_opt)

print(df_opt.dtypes)
print()

# Criando uma cópia para otimização
df_opt_copia = df_opt.copy()
before = df_opt_copia.memory_usage(deep=True).sum() # Uso de memória antes

# Otimizando
df_opt_copia["id"] = df_opt_copia["id"].astype("int32") # Redução de 64 para 32 bits
df_opt_copia["categoria"] = df_opt_copia["categoria"].astype("category") # Redução com category 
#TODO: procurar pelo tamanho de category

print("Otimizado DF:")
print(df_opt_copia)
print(df_opt_copia.dtypes)
print()
print("Comparação:")
after = df_opt_copia.memory_usage(deep=True).sum() # Uso de memória depois
print(before, after, f"redução={(before-after)/before:.1%}") # Mostra a redução de memória

Primeiro DF:
       id categoria
0       1         A
1       2         B
2       3         A
3       4         C
4       5         B
..    ...       ...
995   996         A
996   997         B
997   998         A
998   999         C
999  1000         B

[1000 rows x 2 columns]
id            int64
categoria    object
dtype: object

Otimizado DF:
       id categoria
0       1         A
1       2         B
2       3         A
3       4         C
4       5         B
..    ...       ...
995   996         A
996   997         B
997   998         A
998   999         C
999  1000         B

[1000 rows x 2 columns]
id              int32
categoria    category
dtype: object

Comparação:
58132 5390 redução=90.7%


In [None]:
# Leitura em chunks (pedaços)

# Caminho para um arquivo CSV grande
#TODO: criar o arquivo
caminho = "dados_vendas.csv" # precisa criar o arquivo

# Lê em pedaços de 1 mil linhas (por exemplo)
for i, chunk in enumerate(pd.read_csv(caminho, chunksize=1000)):
    print(f"Chunk {i}: {chunk.shape}")
    
    # Exemplo: calcular receita nesse pedaço
    if {"quantidade", "preco_unit"}.issubset(chunk.columns):
        chunk["receita"] = chunk["quantidade"] * chunk["preco_unit"]
        print(chunk[["quantidade", "preco_unit", "receita"]].head())
    
    # Para o exemplo, processa só os 2 primeiros pedaços
    #if i == 1:
    #    break

Chunk 0: (8, 4)


## 8. `assign` e `pipe`

Até agora aprendemos a aplicar funções customizadas (`apply`, `map`, `transform`), a reorganizar dados (`pivot`, `melt`, `stack`, `unstack`), a trabalhar com **MultiIndex** e com **séries temporais**.  

Agora, vamos ver duas ferramentas que ajudam a **organizar pipelines de transformação** de forma mais legível:

- **`.assign()`** → cria ou modifica colunas no DataFrame.  
- **`.pipe()`** → permite encadear funções externas de forma a estruturar pipelines de transformação.  

In [None]:
# Usando assign para criar colunas derivadas

# Exemplo de DataFrame
df = pd.DataFrame({
    "produto": ["A", "B", "C", "D"],
    "preço": [100, 250, 80, 150],
    "quantidade": [10, 5, 20, 8]
})
print(df)

# Usando assign para criar novas colunas
df2 = (
    df
    .assign(
        receita=lambda x: x["preço"] * x["quantidade"],
        imposto=lambda x: x["preço"] * 0.2,
        receita_liquida=lambda x: x["preço"] * x["quantidade"] - x["preço"] * 0.2
    )
)

print(df2)

In [None]:
# Usando pipe para organizar transformações

# Funções externas que transformam o DataFrame
def aplicar_desconto(df, taxa=0.1):
    df = df.copy()
    df["preço_desc"] = df["preço"] * (1 - taxa)
    return df

def filtrar_produtos(df, preco_min=100):
    return df[df["preço"] > preco_min]

# Pipeline com pipe
df_pipe = (
    df
    .pipe(aplicar_desconto, taxa=0.15)
    .pipe(filtrar_produtos, preco_min=90)
)

df_pipe

In [None]:
# Pipeline realista combinando assign + pipe + groupby

# Exemplo de vendas mensais
datas = pd.date_range("2023-01-01", periods=6, freq="ME")
df_vendas = pd.DataFrame({
    "data": datas,
    "produto": ["A", "A", "B", "B", "A", "B"],
    "vendas": [100, 120, 200, 210, 130, 250],
    "preço_unit": [10, 10, 8, 8, 10, 8]
})

# Função externa que agrupa e resume
def resumo_vendas(df):
    return df.groupby("produto").agg(
        receita_total=("receita", "sum"),
        vendas_totais=("vendas", "sum")
    )

# Pipeline completo
df_resultado = (
    df_vendas
    .assign(receita=lambda x: x["vendas"] * x["preço_unit"])
    .pipe(resumo_vendas)
)

df_resultado

# Mini-Projeto: Análise de Vendas

Você recebeu um conjunto de dados de vendas de uma rede varejista, contendo:

- **data** → data da venda  
- **loja** → cidade da loja  
- **categoria** → categoria do produto (ex: Eletrônicos, Alimentos, Vestuário)  
- **produto** → nome do produto  
- **quantidade** → quantidade vendida  
- **preço_unit** → preço unitário  

## Objetivo

Responder às seguintes questões usando **pandas** e os conceitos estudados:

1. **Pré-processamento e otimização**  
   - Converter colunas para tipos de dados adequados (`int32`, `category`, `datetime`).  
   - Medir a memória antes e depois (`memory_usage`).  

2. **Criação de colunas derivadas**  
   - Calcular o **faturamento (quantidade × preço_unit)** usando `.assign()`.  
   - Criar uma coluna de **imposto (10% do faturamento)** com `.apply()` ou `.assign()`.  

3. **Transformações e funções customizadas**  
   - Usar `.apply()` para classificar os produtos em "alto ticket" ou "baixo ticket".  
   - Usar `.transform()` para calcular a participação percentual de cada venda dentro da loja.  

4. **Reshape e pivot**  
   - Criar uma tabela **pivot** com o faturamento mensal por categoria.  
   - Usar `.melt()` para voltar ao formato longo.  
   - Explorar `.stack()` e `.unstack()` para reorganizar.  

5. **MultiIndex**  
   - Agrupar os dados por `loja` e `categoria`, calcular o total de faturamento e vendas.  
   - Trabalhar o resultado com índices hierárquicos (selecionar uma loja específica).  

6. **Séries temporais**  
   - Converter `data` para índice (`DatetimeIndex`).  
   - Calcular o faturamento mensal total (`resample("ME").sum()`).  
   - Calcular a variação mês a mês (`diff`) e a média móvel de 3 meses (`rolling`).  
   - Usar `.shift()` para criar uma coluna com o faturamento do mês anterior.  
   - Usar `.asfreq("D")` para converter a série para frequência diária e preencher faltantes (`ffill`).  

7. **Pipeline funcional (`assign` + `pipe`)**  
   - Criar um pipeline que:  
     - Adicione coluna de faturamento,  
     - Filtre apenas a categoria `"Eletrônicos"`,  
     - Resuma os dados por mês,  
     - Retorne um DataFrame final com receita e quantidade mensal. 

>OBSERVAÇÃO: Cada item acima deverá ser respondido em células separadas.  
>OBSERVAÇÃO 2: O código com os dados iniciais é fornecido abaixo.

In [None]:
import pandas as pd
import numpy as np

np.random.seed(42) # para reprodutibilidade (semente fixa de números aleatórios)

datas = pd.date_range("2023-01-01", periods=180, freq="D") # 180 dias
lojas = ["São Paulo", "Rio de Janeiro", "Belo Horizonte"] 
categorias = ["Eletrônicos", "Alimentos", "Vestuário"]
produtos = {
    "Eletrônicos": ["Notebook", "Smartphone", "TV"],
    "Alimentos": ["Arroz", "Feijão", "Macarrão"],
    "Vestuário": ["Camiseta", "Calça", "Tênis"]
}

# Criando DataFrame simulado
df = pd.DataFrame({
    "data": np.random.choice(datas, 1000),
    "loja": np.random.choice(lojas, 1000),
    "categoria": np.random.choice(categorias, 1000),
})

# Preenche produtos de acordo com a categoria
df["produto"] = df["categoria"].map(lambda c: np.random.choice(produtos[c]))
df["quantidade"] = np.random.randint(1, 20, size=1000)
df["preço_unit"] = np.random.randint(20, 2000, size=1000)

# Exibindo as primeiras linhas do DataFrame
df.head()