![Logo BV IBMEC](https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/logo-bv-ibmec-notebooks.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ian-iania/IBMEC-BV-Modelos-Preditivos/blob/main/notebooks/NB00_WarmUp_Colab_Python_BV.ipynb)

# NB00 - Warm-up no Colab (FP&A Banco BV)

**Objetivo:** primeiro contato com Python em notebooks, com foco em DataFrame e operacoes basicas (sem graficos).


## 0) Como usar o Google Colab

1. Clique em **Conectar (Connect)** no canto superior direito.
2. Se necessario: **Ambiente de execucao -> Alterar tipo de ambiente -> CPU**.
3. Rode cada celula com **Shift + Enter**.

Se algo travar:
- **Ambiente de execucao -> Reiniciar sessao**
- Em seguida use **Executar tudo** ou rode as celulas novamente na ordem.


## 1) Tipos de celula

- **Markdown (texto):** explica conceitos e instrucoes.
- **Codigo:** executa Python e retorna um output.

Neste notebook, voce vai rodar **celula por celula** para entender cada comando.


## 2) Upload do arquivo Excel (obrigatorio para o Plano A)

No Colab, abra o painel de arquivos (icone de pasta) e faca upload de:
- `bv_originacao_auto_sintetico.xlsx`

Este arquivo esta na pasta `data/` do repositório.


## 3) Importando biblioteca (`import`)

O comando `import` traz funcionalidades prontas para o notebook.

Aqui usamos `pandas` (apelido `pd`) para trabalhar com tabelas, como se fosse um Excel programavel.


In [None]:
# RUN_ME 1 - importar bibliotecas
# Importa pandas para trabalhar com tabelas (DataFrame)
import pandas as pd
# Importa matplotlib para criar graficos
import matplotlib.pyplot as plt


**Como ler o output:**
- Se nao aparecer erro, os imports funcionaram.
- `pandas` sera usado para tabelas e `matplotlib` para os graficos da Parte 2.


## 4) Definindo o nome do arquivo

Vamos guardar o nome do Excel em uma variavel chamada `arquivo`.


In [None]:
# RUN_ME 2 - nome do arquivo que voce fez upload
# Guarda o nome do arquivo em uma variavel para reutilizar depois
arquivo = "bv_originacao_auto_sintetico.xlsx"
# Mostra o conteudo da variavel para confirmar o nome
arquivo


**Como ler o output:**
- O Python retorna o texto da variavel (`bv_originacao_auto_sintetico.xlsx`).
- Se o nome estiver diferente no seu upload, ajuste aqui.


## 5) Lendo o Excel para dentro do DataFrame

`pd.read_excel(...)` abre o arquivo e carrega os dados na variavel `df`.


In [None]:
# RUN_ME 3 - leitura do Excel
# Le o arquivo Excel e carrega a tabela no DataFrame df
df = pd.read_excel(arquivo)


**Como ler o output:**
- Se nao aparecer erro, a leitura foi feita com sucesso.
- `df` agora e sua tabela principal para as proximas etapas.


## 6) Primeira visualizacao da tabela (`head`)

`df.head()` mostra as primeiras linhas para conferir se os dados vieram corretos.


In [None]:
# RUN_ME 4 - visualizar as 5 primeiras linhas
df.head()


**Como ler o output:**
- Cada linha representa um mes.
- Cada coluna representa um campo (originação, SELIC, desemprego etc.).


## 7) Tamanho da tabela (`shape`)

`shape` retorna `(linhas, colunas)`.


In [None]:
# RUN_ME 5 - quantidade de linhas e colunas
df.shape


**Como ler o output:**
- Exemplo `(60, 8)` significa 60 linhas e 8 colunas.


## 8) Nome das colunas (`columns`)

Use para ver os titulos de cada coluna da tabela.


In [None]:
# RUN_ME 6 - lista de colunas
list(df.columns)


**Como ler o output:**
- A lista mostra exatamente os nomes que voce deve usar nos comandos.
- Se errar um nome, o Python retorna erro de coluna inexistente.


## 9) Tipo de cada coluna (`dtypes`)

Mostra se a coluna e texto, inteiro, decimal etc.


In [None]:
# RUN_ME 7 - tipos das colunas
df.dtypes


**Como ler o output:**
- `object`: texto
- `int64`: inteiro
- `float64`: numero decimal


## 10) Operacao 1: SOMA (Excel -> Pandas)

Equivalencia de `=SOMA(...)` no Excel.


In [None]:
# RUN_ME 8 - soma da originacao (R$ mi)
# Soma todos os valores da coluna originacao_auto_m
soma_originacao = df["originacao_auto_m"].sum()
# Exibe o total calculado
soma_originacao


**Como ler o output:**
- Retorna um numero unico com o total da coluna `originacao_auto_m`.


## 11) Operacao 2: MEDIA (Excel -> Pandas)

Equivalencia de `=MEDIA(...)` no Excel.


In [None]:
# RUN_ME 9 - media da originacao (R$ mi)
# Calcula a media da coluna originacao_auto_m
media_originacao = df["originacao_auto_m"].mean()
# Exibe a media calculada
media_originacao


**Como ler o output:**
- Retorna um numero unico com a media da coluna.


## 12) Operacao 3: FILTRO (Excel -> Pandas)

Equivalencia do filtro de tabela no Excel.

Exemplo: meses com `selic_aa > 12`.


In [None]:
# RUN_ME 10 - filtro (SELIC > 12)
# Cria um recorte da base com meses em que a SELIC foi maior que 12
filtro_selic = df[df["selic_aa"] > 12]
# Mostra as 10 primeiras linhas desse recorte
filtro_selic.head(10)


**Como ler o output:**
- A tabela exibida contem apenas as linhas que atendem a condicao.
- Isso e um recorte de cenario para analise.


## 13) Operacao 4: 'Tabela dinamica' simples (`groupby`)

Vamos criar a coluna `ano` e somar a originacao por ano.


In [None]:
# RUN_ME 11 - criar coluna ano a partir de mes
# Extrai os 4 primeiros caracteres de mes (YYYY) e salva na coluna ano
df["ano"] = df["mes"].astype(str).str.slice(0, 4)

# Seleciona indices de meses espalhados na base para mostrar troca de ano
amostra_anos = df.loc[[0, 11, 12, 23, 24, 35, 36, 47, 48, 59], ["mes", "ano"]]
# Imprime um titulo para a saida
print("Amostra com mudanca de ano:")
# Exibe a amostra de meses e anos
display(amostra_anos)

# Imprime um titulo para a lista de anos
print("Anos encontrados na base:")
# Mostra os anos unicos em ordem crescente
print(sorted(df["ano"].unique()))


**Como ler o output:**
- A tabela agora mostra meses de anos diferentes (2020, 2021, 2022, ...).
- A lista final confirma todos os anos unicos encontrados na base.


In [None]:
# RUN_ME 12 - soma da originacao por ano (groupby)
# Agrupa os dados por ano e soma a coluna de originacao
originacao_por_ano = df.groupby("ano", as_index=False)["originacao_auto_m"].sum()
# Exibe a tabela agregada por ano
originacao_por_ano


**Como ler o output:**
- Cada linha representa um ano.
- A coluna de valor traz a soma anual da originação.


## 14) Mini-insight 1: Top 5 meses de maior originacao


In [None]:
# RUN_ME 13 - top 5 meses
# Ordena a base da maior para a menor originacao e seleciona colunas relevantes
top5 = df.sort_values("originacao_auto_m", ascending=False)[["mes", "originacao_auto_m"]].head(5)
# Exibe os 5 maiores meses
top5


**Como ler o output:**
- Lista os 5 meses com maior `originacao_auto_m`.
- E um exemplo de ranking simples para discussao de negocio.


## 15) Mini-insight 2: conferencia de ticket (sanity check)

Calculamos um `ticket_implicito` com base em:
`originacao_auto_m * 1_000_000 / contratos_qtd`


In [None]:
# RUN_ME 14 - comparar ticket_medio vs ticket_implicito
# Calcula ticket implicito: (originacao em R$) / quantidade de contratos
df["ticket_implicito"] = (df["originacao_auto_m"] * 1_000_000 / df["contratos_qtd"]).round(0).astype(int)
# Mostra uma amostra para comparar ticket informado x ticket implicito
df[["mes", "ticket_medio", "ticket_implicito"]].head(10)


**Como ler o output:**
- Os valores de `ticket_medio` e `ticket_implicito` devem ficar proximos.
- Serve como verificacao rapida de consistencia da base.


---

## Parte 2 - Visualizacao inicial com Matplotlib

Nesta segunda parte, vamos usar os mesmos dados para enxergar padroes visuais antes da regressao.

Importante: para evitar graficos vazios no Colab, cada grafico sera gerado **inteiro em uma unica celula de codigo**.


### 2.1 Preparar coluna de data (`mes_data`)

**Por que?** A coluna `mes` esta em texto e o eixo de tempo funciona melhor com tipo data.


In [None]:
# RUN_ME 16 - preparar data para eixo X
# Converte a coluna mes (texto) para tipo data
df["mes_data"] = pd.to_datetime(df["mes"])
# Exibe uma amostra com mes original, mes convertido e originacao
df[["mes", "mes_data", "originacao_auto_m"]].head()


**Como ler o output:**
- `mes_data` vira data e sera usada no grafico de linha.
- Ja conferimos as primeiras linhas antes de plotar.


### Grafico 1: linha no tempo (originação mensal)

**Quando usar:** acompanhar evolucao no tempo (tendencia, sazonalidade, mudancas de nivel).

Antes de plotar, veja uma amostra dos dados que entram no grafico.


In [None]:
# RUN_ME 17 - amostra dos dados do grafico de linha
df[["mes_data", "originacao_auto_m"]].head(10)


In [None]:
# RUN_ME 18 - grafico de linha (completo em uma celula)
# Cria uma figura com largura 10 e altura 4
plt.figure(figsize=(10, 4))
# Desenha a linha: tempo no eixo X e originacao no eixo Y
plt.plot(df["mes_data"], df["originacao_auto_m"], color="#1f77b4", linewidth=2)
# Define o titulo do grafico
plt.title("Originação Auto (R$ mi) ao longo do tempo")
# Define o nome do eixo X
plt.xlabel("Mes")
# Define o nome do eixo Y
plt.ylabel("Originação (R$ mi)")
# Adiciona grade para facilitar leitura
plt.grid(alpha=0.3)
# Renderiza o grafico na tela
plt.show()


**Leitura do grafico de linha:**
- Eixo X: meses.
- Eixo Y: originação.
- Melhor uso: analisar comportamento temporal antes de forecast/regressao temporal.


### Grafico 2: barras por ano (agregacao)

**Quando usar:** comparar valores entre categorias (aqui, categorias = anos).

Antes de plotar, confira a tabela agregada `originacao_por_ano`.


In [None]:
# RUN_ME 19 - dados do grafico de barras
originacao_por_ano


In [None]:
# RUN_ME 20 - grafico de barras (completo em uma celula)
# Cria uma figura com largura 8 e altura 4
plt.figure(figsize=(8, 4))
# Desenha barras: anos no eixo X e originacao agregada no eixo Y
plt.bar(originacao_por_ano["ano"], originacao_por_ano["originacao_auto_m"], color="#2ca02c")
# Define o titulo do grafico
plt.title("Originação total por ano")
# Define o nome do eixo X
plt.xlabel("Ano")
# Define o nome do eixo Y
plt.ylabel("Soma da originação (R$ mi)")
# Adiciona grade apenas no eixo Y para comparar alturas
plt.grid(axis="y", alpha=0.3)
# Renderiza o grafico na tela
plt.show()


**Leitura do grafico de barras:**
- Cada barra representa um ano.
- Melhor uso: comparar desempenho agregado entre anos, produtos ou segmentos.


### Grafico 3: dispersao (SELIC x Originação)

**Quando usar:** avaliar relacao entre duas variaveis numericas (ponte para regressao).

Antes de plotar, confira as colunas usadas.


In [None]:
# RUN_ME 21 - dados do grafico de dispersao
df[["selic_aa", "originacao_auto_m"]].head(10)


In [None]:
# RUN_ME 22 - grafico de dispersao (completo em uma celula)
# Cria uma figura com largura 6 e altura 4
plt.figure(figsize=(6, 4))
# Desenha os pontos: SELIC no eixo X e originacao no eixo Y
plt.scatter(df["selic_aa"], df["originacao_auto_m"], alpha=0.7, color="#ff7f0e")
# Define o titulo do grafico
plt.title("Relacao entre SELIC e Originação")
# Define o nome do eixo X
plt.xlabel("SELIC (% a.a.)")
# Define o nome do eixo Y
plt.ylabel("Originação (R$ mi)")
# Adiciona grade para ajudar leitura dos pontos
plt.grid(alpha=0.3)
# Renderiza o grafico na tela
plt.show()


**Leitura do grafico de dispersao:**
- Cada ponto representa um mes.
- Melhor uso: inspecionar visualmente se existe relacao (positiva, negativa ou fraca) antes de modelar.


## Plano B (opcional): carregar CSV direto do GitHub

Use apenas se o upload do Excel falhar para algum aluno.


In [None]:
# RUN_ME 15 (opcional) - Plano B com CSV raw
# Define a URL do CSV publico no GitHub
url = "https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/data/bv_originacao_auto_sintetico.csv"
# Le o CSV remoto para o DataFrame df
df = pd.read_csv(url)
# Mostra as 5 primeiras linhas para validar leitura
df.head()


**Como ler o output:**
- O dataset e carregado direto da internet, sem upload local.


## BONUS (opcional): exportar para CSV

Equivalente a "Salvar como" no Excel para usar em outra etapa da aula.


In [None]:
# BONUS - exportar CSV
# Define o nome do arquivo de saida
output = "bv_originacao_auto_sintetico_exportado.csv"
# Exporta o DataFrame para CSV sem coluna de indice
df.to_csv(output, index=False)
# Exibe mensagem confirmando a exportacao
print(f"Arquivo exportado: {output}")
