# An√°lise de Probabilidade de Retorno e Credit Scoring
Este notebook segue o exerc√≠cio proposto com base na teoria de modelos de classifica√ß√£o bin√°ria, utilizando a base de doa√ß√µes da Nota Fiscal Paulista.

## 1. Carregamento da base e filtro a partir de 2020

In [None]:

import pandas as pd

# Carregar base
df_nfp = pd.read_pickle("base_nfp.pkl")

# Filtrar dados a partir de janeiro de 2020
df_2020 = df_nfp[df_nfp["Data Emiss√£o"] >= "2020-01-01"].copy()
df_2020["flag_retorno"] = (df_2020["Retorno"] > 0).astype(int)
df_2020.head()


## 2. Propor√ß√£o de Notas com Retorno por Categoria

In [None]:

import matplotlib.pyplot as plt
import seaborn as sns

# Agrupamento por categoria
proporcao_retorno = (
    df_2020.groupby("categoria")["flag_retorno"]
    .mean()
    .sort_values(ascending=False)
    .reset_index()
)

# Gr√°fico
plt.figure(figsize=(12, 6))
sns.barplot(data=proporcao_retorno, x="flag_retorno", y="categoria", palette="viridis")
plt.xlabel("Propor√ß√£o de Notas com Retorno > 0")
plt.ylabel("Categoria do Estabelecimento")
plt.title("Propor√ß√£o de Notas com Retorno por Categoria (a partir de 2020)")
plt.tight_layout()
plt.show()


## 3. C√°lculo do Weight of Evidence (WoE)

In [None]:

import numpy as np

# Fun√ß√£o WoE e IV
def calculate_woe_iv(df, feature, target):
    eps = 0.0001
    temp = pd.crosstab(df[feature], df[target])
    temp.columns = ['No_Event', 'Event'] if 0 in temp.columns else ['Event', 'No_Event']
    temp['Dist_Event'] = temp['Event'] / temp['Event'].sum()
    temp['Dist_No_Event'] = temp['No_Event'] / temp['No_Event'].sum()
    temp['WoE'] = np.log((temp['Dist_Event'] + eps) / (temp['Dist_No_Event'] + eps))
    temp['IV'] = (temp['Dist_Event'] - temp['Dist_No_Event']) * temp['WoE']
    return temp.reset_index(), temp['IV'].sum()

# Calcular WoE e IV
woe_df, iv_categoria = calculate_woe_iv(df_2020, 'categoria', 'flag_retorno')
woe_df_sorted = woe_df.sort_values(by='WoE', ascending=False)
woe_df_sorted


## 4. Gr√°fico do WoE por Categoria

In [None]:

# Gr√°fico de WoE
plt.figure(figsize=(12, 6))
sns.barplot(data=woe_df_sorted, x='WoE', y='categoria', palette='coolwarm')
plt.title("WoE por Categoria de Estabelecimento")
plt.xlabel("Weight of Evidence (WoE)")
plt.ylabel("Categoria")
plt.tight_layout()
plt.show()


## 5. Information Value (IV) da vari√°vel `categoria`

In [None]:
print(f'IV da vari√°vel categoria: {iv_categoria:.3f}')

## 6. Conclus√£o


### üìå Conclus√£o T√©cnica

A partir da an√°lise dos dados a partir de 2020, verificou-se que a vari√°vel **`categoria`** dos estabelecimentos apresenta varia√ß√µes significativas na propor√ß√£o de notas com **retorno financeiro positivo** (`Retorno > 0`). Isso indica que essa vari√°vel pode ser utilizada como um **atributo discriminativo** em modelos de classifica√ß√£o bin√°ria voltados √† predi√ß√£o de retorno.

As categorias **Restaurantes** e **Alimentos** destacaram-se com os maiores valores de **Weight of Evidence (WoE)**, evidenciando forte associa√ß√£o com o evento de interesse. J√° categorias como **Varejo** e **Vestu√°rio** mostraram valores negativos de WoE, sugerindo menor propens√£o a gerar cr√©ditos.

O **Information Value (IV)** da vari√°vel `categoria` foi de **0.278**, indicando um **poder preditivo moderado** de acordo com os crit√©rios cl√°ssicos:

- IV < 0.02: Sem valor preditivo  
- 0.02 ‚â§ IV < 0.1: Fraco  
- 0.1 ‚â§ IV < 0.3: Moderado  
- IV ‚â• 0.3: Forte

Portanto, a vari√°vel `categoria` √© **estatisticamente relevante** e pode ser utilizada na constru√ß√£o de um **scorecard log√≠stico** ou qualquer modelo de classifica√ß√£o que se beneficie de transforma√ß√µes baseadas em WoE.

---

### üîç Pr√≥ximos Passos Recomendados

- Incluir vari√°veis cont√≠nuas e discretiz√°-las em faixas para aplicar WoE;
- Realizar valida√ß√£o cruzada com modelos log√≠sticos treinados com e sem WoE;
- Avaliar estabilidade temporal da vari√°vel `categoria` (Population Stability Index ‚Äì PSI);
- Estender o modelo com outras vari√°veis comportamentais e demogr√°ficas, se dispon√≠veis.
