[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ian-iania/IBMEC-BV-Modelos-Preditivos/blob/main/notebooks/NB00_WarmUp_Colab_Python_BV.ipynb)

# NB00 - Warm-up no Colab (FP&A Banco BV)

**Objetivo (10-12 min):** fazer o primeiro contato com notebook, DataFrame e operações basicas de analise usando um dataset sintetico de FP&A.

Neste warm-up **nao vamos usar graficos**. O foco e reduzir atrito e praticar a mecanica.


## 0) Como usar o Google Colab

1. Clique em **Conectar (Connect)** no canto superior direito.
2. Se necessario: **Ambiente de execucao -> Alterar tipo de ambiente -> CPU**.
3. Execute uma celula com **Shift + Enter**.

Tipos de celula:
- **Markdown (texto):** explicacoes e instrucoes.
- **Codigo:** roda Python e gera output.

Se travar:
- **Ambiente de execucao -> Reiniciar sessao**
- Depois use **Executar tudo**.


## 1) Dataset da aula

Arquivo usado no warm-up:
- `bv_originacao_auto_sintetico.xlsx` (upload manual no Colab)

Colunas:
- `mes`
- `originacao_auto_m` (R$ milhoes)
- `contratos_qtd`
- `ticket_medio` (R$)
- `selic_aa`
- `desemprego`
- `share_digital`
- `inad_30d`

> Dados sinteticos para ensino (nao representam dados reais do BV).


## 2) Upload do Excel (Plano A)

No Colab:
1. Clique no icone de pasta (Files) na lateral esquerda.
2. Clique em **Upload**.
3. Selecione `bv_originacao_auto_sintetico.xlsx`.

Depois rode as celulas `RUN_ME` abaixo.


In [None]:
# RUN_ME 1 - imports
import pandas as pd


In [None]:
# RUN_ME 2 - leitura do Excel apos upload
arquivo = "bv_originacao_auto_sintetico.xlsx"
df = pd.read_excel(arquivo)
df.head()


## 3) DataFrame = tabela (analogia com Excel)

Equivalencias uteis:
- Tamanho da tabela: `df.shape`
- Nomes das colunas: `df.columns`
- Tipo de cada coluna: `df.dtypes`


In [None]:
# RUN_ME 3 - inspecao basica
print("shape:", df.shape)
print("colunas:", list(df.columns))
print("\ntipos:")
print(df.dtypes)


## 4) Excel -> Pandas (operacoes basicas)

- SOMA: `df["coluna"].sum()`
- MEDIA: `df["coluna"].mean()`
- FILTRO: `df[df["coluna"] > valor]`
- Tabela dinamica simples: `groupby(...).sum()`


In [None]:
# RUN_ME 4 - soma e media da originacao
total_originacao = df["originacao_auto_m"].sum()
media_originacao = df["originacao_auto_m"].mean()

print(f"Soma originacao_auto_m: {total_originacao:.1f} R$ mi")
print(f"Media originacao_auto_m: {media_originacao:.1f} R$ mi")


In [None]:
# RUN_ME 5 - filtro de cenario (SELIC > 12)
filtro_selic = df[df["selic_aa"] > 12]
filtro_selic.head(10)


In [None]:
# RUN_ME 6 - 'tabela dinamica' por ano
df["ano"] = df["mes"].astype(str).str.slice(0, 4)
originacao_por_ano = df.groupby("ano", as_index=False)["originacao_auto_m"].sum()
originacao_por_ano


## 5) Mini-insight de negocio (sem estatistica pesada)

Dois checks simples:
- Top 5 meses de maior originacao
- Ticket implicito para comparar com `ticket_medio`


In [None]:
# RUN_ME 7 - top 5 meses e sanity check
top5 = df.sort_values("originacao_auto_m", ascending=False)[["mes", "originacao_auto_m"]].head(5)

df["ticket_implicito"] = (df["originacao_auto_m"] * 1_000_000 / df["contratos_qtd"]).round(0).astype(int)
sanidade = df[["mes", "ticket_medio", "ticket_implicito"]].head(10)

print("Top 5 meses:")
display(top5)
print("Comparacao ticket_medio vs ticket_implicito:")
display(sanidade)


## Plano B (opcional): carregar CSV direto do GitHub

Use esta celula se o upload do Excel falhar para algum aluno.


In [None]:
# RUN_ME 8 (opcional) - plano B com CSV raw do GitHub
url = "https://raw.githubusercontent.com/ian-iania/IBMEC-BV-Modelos-Preditivos/main/data/bv_originacao_auto_sintetico.csv"
df = pd.read_csv(url)
df.head()


In [None]:
# BONUS - exportar para CSV
df.to_csv("bv_originacao_auto_sintetico_exportado.csv", index=False)
print("Arquivo exportado: bv_originacao_auto_sintetico_exportado.csv")
