![Logo BV IBMEC](https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/logo-bv-ibmec-notebooks.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ian-iania/IBMEC-BV-Modelos-Preditivos/blob/main/notebooks/NB00_WarmUp_Colab_Python_BV.ipynb)

# NB00 - Warm-up no Colab (FP&A Banco BV)

**Objetivo:** primeiro contato com Python em notebooks, com foco em DataFrame e operacoes basicas (sem graficos).


## 0) Como usar o Google Colab

1. Clique em **Conectar (Connect)** no canto superior direito.
2. Se necessario: **Ambiente de execucao -> Alterar tipo de ambiente -> CPU**.
3. Rode cada celula com **Shift + Enter**.

Se algo travar:
- **Ambiente de execucao -> Reiniciar sessao**
- Em seguida use **Executar tudo** ou rode as celulas novamente na ordem.


## 1) Tipos de celula

- **Markdown (texto):** explica conceitos e instrucoes.
- **Codigo:** executa Python e retorna um output.

Neste notebook, voce vai rodar **celula por celula** para entender cada comando.


## 2) Upload do arquivo Excel (obrigatorio para o Plano A)

No Colab, abra o painel de arquivos (icone de pasta) e faca upload de:
- `bv_originacao_auto_sintetico.xlsx`

Este arquivo esta na pasta `data/` do repositório.


## 3) Importando biblioteca (`import`)

O comando `import` traz funcionalidades prontas para o notebook.

Aqui usamos `pandas` (apelido `pd`) para trabalhar com tabelas, como se fosse um Excel programavel.


In [None]:
# RUN_ME 1 - importar bibliotecas
import pandas as pd
import matplotlib.pyplot as plt


**Como ler o output:**
- Se nao aparecer erro, os imports funcionaram.
- `pandas` sera usado para tabelas e `matplotlib` para os graficos da Parte 2.


## 4) Definindo o nome do arquivo

Vamos guardar o nome do Excel em uma variavel chamada `arquivo`.


In [None]:
# RUN_ME 2 - nome do arquivo que voce fez upload
arquivo = "bv_originacao_auto_sintetico.xlsx"
arquivo


**Como ler o output:**
- O Python retorna o texto da variavel (`bv_originacao_auto_sintetico.xlsx`).
- Se o nome estiver diferente no seu upload, ajuste aqui.


## 5) Lendo o Excel para dentro do DataFrame

`pd.read_excel(...)` abre o arquivo e carrega os dados na variavel `df`.


In [None]:
# RUN_ME 3 - leitura do Excel
df = pd.read_excel(arquivo)


**Como ler o output:**
- Se nao aparecer erro, a leitura foi feita com sucesso.
- `df` agora e sua tabela principal para as proximas etapas.


## 6) Primeira visualizacao da tabela (`head`)

`df.head()` mostra as primeiras linhas para conferir se os dados vieram corretos.


In [None]:
# RUN_ME 4 - visualizar as 5 primeiras linhas
df.head()


**Como ler o output:**
- Cada linha representa um mes.
- Cada coluna representa um campo (originação, SELIC, desemprego etc.).


## 7) Tamanho da tabela (`shape`)

`shape` retorna `(linhas, colunas)`.


In [None]:
# RUN_ME 5 - quantidade de linhas e colunas
df.shape


**Como ler o output:**
- Exemplo `(60, 8)` significa 60 linhas e 8 colunas.


## 8) Nome das colunas (`columns`)

Use para ver os titulos de cada coluna da tabela.


In [None]:
# RUN_ME 6 - lista de colunas
list(df.columns)


**Como ler o output:**
- A lista mostra exatamente os nomes que voce deve usar nos comandos.
- Se errar um nome, o Python retorna erro de coluna inexistente.


## 9) Tipo de cada coluna (`dtypes`)

Mostra se a coluna e texto, inteiro, decimal etc.


In [None]:
# RUN_ME 7 - tipos das colunas
df.dtypes


**Como ler o output:**
- `object`: texto
- `int64`: inteiro
- `float64`: numero decimal


## 10) Operacao 1: SOMA (Excel -> Pandas)

Equivalencia de `=SOMA(...)` no Excel.


In [None]:
# RUN_ME 8 - soma da originação (R$ mi)
soma_originacao = df["originacao_auto_m"].sum()
soma_originacao


**Como ler o output:**
- Retorna um numero unico com o total da coluna `originacao_auto_m`.


## 11) Operacao 2: MEDIA (Excel -> Pandas)

Equivalencia de `=MEDIA(...)` no Excel.


In [None]:
# RUN_ME 9 - media da originação (R$ mi)
media_originacao = df["originacao_auto_m"].mean()
media_originacao


**Como ler o output:**
- Retorna um numero unico com a media da coluna.


## 12) Operacao 3: FILTRO (Excel -> Pandas)

Equivalencia do filtro de tabela no Excel.

Exemplo: meses com `selic_aa > 12`.


In [None]:
# RUN_ME 10 - filtro (SELIC > 12)
filtro_selic = df[df["selic_aa"] > 12]
filtro_selic.head(10)


**Como ler o output:**
- A tabela exibida contem apenas as linhas que atendem a condicao.
- Isso e um recorte de cenario para analise.


## 13) Operacao 4: 'Tabela dinamica' simples (`groupby`)

Vamos criar a coluna `ano` e somar a originacao por ano.


In [None]:
# RUN_ME 11 - criar coluna ano a partir de mes
df["ano"] = df["mes"].astype(str).str.slice(0, 4)

# Mostra alguns meses ao longo da base (nao apenas o inicio)
amostra_anos = df.loc[[0, 11, 12, 23, 24, 35, 36, 47, 48, 59], ["mes", "ano"]]
print("Amostra com mudanca de ano:")
display(amostra_anos)

print("Anos encontrados na base:")
print(sorted(df["ano"].unique()))


**Como ler o output:**
- A tabela agora mostra meses de anos diferentes (2020, 2021, 2022, ...).
- A lista final confirma todos os anos unicos encontrados na base.


In [None]:
# RUN_ME 12 - soma da originação por ano (groupby)
originacao_por_ano = df.groupby("ano", as_index=False)["originacao_auto_m"].sum()
originacao_por_ano


**Como ler o output:**
- Cada linha representa um ano.
- A coluna de valor traz a soma anual da originação.


## 14) Mini-insight 1: Top 5 meses de maior originacao


In [None]:
# RUN_ME 13 - top 5 meses
top5 = df.sort_values("originacao_auto_m", ascending=False)[["mes", "originacao_auto_m"]].head(5)
top5


**Como ler o output:**
- Lista os 5 meses com maior `originacao_auto_m`.
- E um exemplo de ranking simples para discussao de negocio.


## 15) Mini-insight 2: conferencia de ticket (sanity check)

Calculamos um `ticket_implicito` com base em:
`originacao_auto_m * 1_000_000 / contratos_qtd`


In [None]:
# RUN_ME 14 - comparar ticket_medio vs ticket_implicito
df["ticket_implicito"] = (df["originacao_auto_m"] * 1_000_000 / df["contratos_qtd"]).round(0).astype(int)
df[["mes", "ticket_medio", "ticket_implicito"]].head(10)


**Como ler o output:**
- Os valores de `ticket_medio` e `ticket_implicito` devem ficar proximos.
- Serve como verificacao rapida de consistencia da base.


---

## Parte 2 - Visualizacao inicial com Matplotlib

Agora vamos fazer um walkthrough rapido de graficos para enxergar os dados antes da etapa de regressao.

O que e `matplotlib`?
- E a biblioteca de graficos mais usada no Python.
- Aqui vamos usar apenas o basico: grafico de linha, barras e dispersao.


### Grafico 1: linha no tempo (originação mensal)

Primeiro, convertemos `mes` para data para o eixo X ficar correto.


In [None]:
# RUN_ME 16 - preparar coluna de data
df["mes_data"] = pd.to_datetime(df["mes"])


**Como ler o output:**
- Esta celula prepara os dados e nao precisa mostrar tabela.
- Se nao deu erro, a coluna de data esta pronta para o grafico.


In [None]:
# RUN_ME 17 - grafico de linha (originação ao longo do tempo)
plt.figure(figsize=(10, 4))
plt.plot(df["mes_data"], df["originacao_auto_m"], color="#1f77b4", linewidth=2)
plt.title("Originação Auto (R$ mi) ao longo do tempo")
plt.xlabel("Mes")
plt.ylabel("Originação (R$ mi)")
plt.grid(alpha=0.3)
plt.show()


**Como ler o output:**
- Eixo X: tempo (meses).
- Eixo Y: originação em R$ milhoes.
- Este grafico ajuda a ver tendencia e variacao ao longo do tempo.


### Grafico 2: barras por ano (agregacao)

Aqui visualizamos a soma da originação por ano.


In [None]:
# RUN_ME 18 - grafico de barras (originação por ano)
plt.figure(figsize=(8, 4))
plt.bar(originacao_por_ano["ano"], originacao_por_ano["originacao_auto_m"], color="#2ca02c")
plt.title("Originação total por ano")
plt.xlabel("Ano")
plt.ylabel("Soma da originação (R$ mi)")
plt.grid(axis="y", alpha=0.3)
plt.show()


**Como ler o output:**
- Cada barra e um ano.
- Barras mais altas indicam anos com maior originação acumulada.


### Grafico 3: dispersao (SELIC x Originação)

Este grafico ja prepara o olhar para regressao: relacao entre variavel explicativa e variavel alvo.


In [None]:
# RUN_ME 19 - grafico de dispersao
plt.figure(figsize=(6, 4))
plt.scatter(df["selic_aa"], df["originacao_auto_m"], alpha=0.7, color="#ff7f0e")
plt.title("Relacao entre SELIC e Originação")
plt.xlabel("SELIC (% a.a.)")
plt.ylabel("Originação (R$ mi)")
plt.grid(alpha=0.3)
plt.show()


**Como ler o output:**
- Cada ponto e um mes.
- O objetivo aqui e so leitura visual da relacao entre duas variaveis.
- Na proxima fase da aula, essa intuicao vira modelo de regressao.


## Plano B (opcional): carregar CSV direto do GitHub

Use apenas se o upload do Excel falhar para algum aluno.


In [None]:
# RUN_ME 15 (opcional) - Plano B com CSV raw
url = "https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/data/bv_originacao_auto_sintetico.csv"
df = pd.read_csv(url)
df.head()


**Como ler o output:**
- O dataset e carregado direto da internet, sem upload local.


## BONUS (opcional): exportar para CSV

Equivalente a "Salvar como" no Excel para usar em outra etapa da aula.


In [None]:
# BONUS - exportar CSV
output = "bv_originacao_auto_sintetico_exportado.csv"
df.to_csv(output, index=False)
print(f"Arquivo exportado: {output}")
