<div style='line-height: 1.5; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
    
#  An√°lise de Risco de sinistros Residenciais com Machine Learning

![image-2.png](attachment:image-2.png)

**********************************************************************************
# 1. Introdu√ß√£o

<div style='line-height: 1.5; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
    
<p>
    Neste projeto, abordamos a complexa quest√£o dos sinistros residenciais atrav√©s de t√©cnicas avan√ßadas de machine learning. O objetivo √© desenvolver um modelo preditivo que possa identificar o risco de sinistros com base em uma s√©rie de caracter√≠sticas das propriedades seguradas.

**********************************************************************************
# 2. Contexto

<div style='line-height: 1.5; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
    
<p>
Os sinistros residenciais representam uma significativa preocupa√ß√£o para as seguradoras, dado que impactam diretamente na sustentabilidade financeira e na satisfa√ß√£o do cliente. A previs√£o eficaz de sinistros pode ajudar as seguradoras a aprimorar suas estrat√©gias de precifica√ß√£o e mitiga√ß√£o de riscos.

**********************************************************************************
# 3. Problema Proposto

<div style='line-height: 1.5; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
    
<p>
    O desafio consiste em analisar um conjunto de dados de propriedades residenciais e seus hist√≥ricos de sinistros para construir um modelo que preveja a probabilidade de ocorr√™ncia de um sinistro. 

**********************************************************************************
# 4. Metodologia

<div style='line-height: 1.8; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
  
   
* Prepara√ß√£o dos Dados: Limpeza e transforma√ß√£o de dados para garantir a qualidade e a adequa√ß√£o ao modelo de machine learning.
* Explora√ß√£o de Dados: An√°lise explorat√≥ria para entender as caracter√≠sticas e a distribui√ß√£o das vari√°veis.
* Modelagem Estat√≠stica: Utiliza√ß√£o de t√©cnicas estat√≠sticas para identificar correla√ß√µes e padr√µes significativos.
* Desenvolvimento de Modelo de ML: Treinamento de modelos de classifica√ß√£o para prever sinistros.
* Valida√ß√£o e Teste: Avalia√ß√£o do modelo atrav√©s de m√©tricas de desempenho e valida√ß√£o cruzada para garantir a generaliza√ß√£o.
* Interpreta√ß√£o e Implementa√ß√£o: Discuss√£o dos resultados e planejamento para a implementa√ß√£o operacional do modelo.

**********************************************************************************
# 5. Importa√ß√£o de Bibliotecas


## Prepara√ß√£o do Ambiente de An√°lise


<div style='line-height: 1.5; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
    
<p>
    
Inicializa o ambiente de an√°lise carregando todas as bibliotecas necess√°rias para manipula√ß√£o de dados, an√°lise estat√≠stica e visualiza√ß√£o, garantindo que todas as ferramentas estejam dispon√≠veis para as etapas subsequentes.

In [None]:
# Importando bibliotecas necess√°rias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
from scipy.stats import ttest_ind
import plotly.express as px
from IPython.display import display, Markdown, HTML
from sklearn.metrics import mean_squared_error, r2_score

from sklearn.model_selection import train_test_split, cross_val_score

# Configura√ß√µes est√©ticas dos gr√°ficos do Seaborn e supress√£o de avisos
sns.set(style="whitegrid")
pd.options.display.float_format = '{:.2f}'.format
import warnings
warnings.filterwarnings("ignore")

# Configura√ß√µes adicionais de visualiza√ß√£o
%matplotlib inline


**********************************************************************************
# 6. Carregamento de Dados

In [None]:
# Carregamento de dados
try:
    dados = pd.read_csv('dados_seguro_residenciais.csv', delimiter=';', encoding='utf-8')
    display(Markdown("<h3 style='color: darkred'>Dados carregados com sucesso!!</h3>"))
except FileNotFoundError:
    display(Markdown("<h3 style='color: darkred'>N√£o foi poss√≠vel carregar o arquivo!!</h3>"))


****************************
# 7.  Explora√ß√£o Inicial dos Dados


********************
## 7.1. Primeiras linhas do DataFrame para inspe√ß√£o inicial


In [None]:
# Exibir as primeiras linhas e informa√ß√µes dos dados
display(dados.head())
display(dados.info())


******************
## 7.2. Verifica√ß√£o de Dados Faltantes

In [None]:
# Verifica√ß√£o de dados faltantes
if dados.isnull().sum().sum() == 0:
    display(Markdown("<h3 style='color: darkblue'> N√£o foi encontrado dados faltantes no DataSet.</h3>"))
else:
    display(Markdown("<h3 style='color: darkblue'> Existem dados faltantes no DataSet.</h3>"))


**********************************************************************************
## 7.3. Apresenta Metadados de Cada Vari√°vel:


    
  
| Vari√°vel         | Descri√ß√£o                                                    | Tipo de Dados |
|------------------|--------------------------------------------------------------|---------------|
| `cidade_residencia`      | Nome da cidade da propriedade segurada             | `object`      |
| `idade_prop`     | Idade do propriet√°rio da propriedade                         | `int64`       |
| `valor_imovel`   | Valor estimado da propriedade                                | `float64`     |
| `tipo_construcao`| Tipo de constru√ß√£o da propriedade (casa, apartamento, etc.)  | `object`      |
| `hist_sinistro`  | Indica se houve sinistros anteriores na propriedade (1 para sim, 0 para n√£o)| `object`      |
| `valor_premio_seguro` | Valor do pr√™mio do seguro da propriedade                     | `float64`     |
| `sinistro`       | Indica se ocorreu um sinistro (0 para N√£o, 1 para Sim)       | `int64`       |
| `regiao`         | Informa qual das regi√µes presentes no Brasil est√° o im√≥vel   | `object`      |
| `renda_anual`    | Renda anual do propriet√°rio da propriedade                   | `float64`     |
| `historico_credito` | Score de cr√©dito do propriet√°rio                           | `int64`       |
| `numero_dependentes` | N√∫mero de pessoas dependentes do propriet√°rio              | `int64`       |
| `ano_construcao`  | Ano de constru√ß√£o da propriedade                             | `int64`       |
| `distancia_bombeiros` | Dist√¢ncia at√© a esta√ß√£o de bombeiros mais pr√≥xima        | `float64`     |
| `sistema_alarme` | Indica se a propriedade possui sistema de alarme (1 para sim, 0 para n√£o) | `int64` |
| `cameras_seguranca` | Indica se a propriedade possui c√¢meras de seguran√ßa (1 para sim, 0 para n√£o) | `int64` |
| `estado`         | Estado onde a propriedade est√° localizada                    | `object`      |
| `valor_seguro`   | Valor total do seguro da propriedade                         | `float64`     |

</div>


# 7.2.1 Verifica√ß√£o do N√∫mero de Observa√ß√µes e Colunas

In [None]:
# Verifica√ß√£o de n√∫mero de observa√ß√µes e colunas
display(Markdown(f"<h3 style='color: darkblue'>Verificamos a exist√™ncia de {dados.shape[0]} observa√ß√µes e {dados.shape[1]} colunas no DataSet.</h3>"))


*************************
## 7.3.1 Contabilizando o n√∫mero de valores √∫nicos em cada vari√°vel do dataset.

In [None]:
# Contabilizando o n√∫mero de valores √∫nicos em cada vari√°vel do dataset.

num_valor_unico = dados.nunique().sort_values()

# Determinando o tipo de dado de cada uma das vari√°veis do dataset.

num_valor_unico = pd.DataFrame(num_valor_unico.values, index = num_valor_unico.index, columns = ['valor_unicos'])

# Atribuindo informa√ß√µes sobre o tipo de dado das vari√°veis ao DataFrame.

num_valor_unico

*********************
## 7.4. An√°lise de dados faltantes

In [None]:
# Calcula o total e a porcentagem de dados faltantes por coluna

total_faltantes = dados.isnull().sum()

percentual_faltantes = (dados.isnull().mean() * 100)

# Criar um DataFrame para a tabela resumida

tabela_resumo_faltantes = pd.DataFrame({
    'Coluna': total_faltantes.index,
    
    'Dados Faltantes': total_faltantes.values,
    
    'Percentual (%)': percentual_faltantes.values
})

# Ordenar a tabela pelo n√∫mero de dados faltantes

if (total_faltantes > 0).any():
    tabela_resumo_faltantes = tabela_resumo_faltantes.sort_values(by='Dados Faltantes', ascending=False)
else:
    tabela_resumo_faltantes = tabela_resumo_faltantes
# Exibi a tabela resumida

display(Markdown("<h3 style='color: darkblue'>Tabela Resumo de Dados Faltantes</h3>"))

print(tabela_resumo_faltantes)

******************************
## 7.5 An√°lise de Dados Duplicados

In [None]:
# Conta o n√∫mero de registros duplicados

numero_duplicados = dados.duplicated().sum()

# calcula a porcentagem de duplicatas em rela√ß√£o ao total

percentual_duplicados = (numero_duplicados / len(dados)) * 100

if numero_duplicados > 0: # informa quantidade de dados duplicados
  
    display(Markdown(f"<h3 style='color: darkred'>Foram encontrados {numero_duplicados} registros duplicados, representando {percentual_duplicados:.2f}% do total de {dados.shape[0]} registros!</h3>"))
    
else:  # informa se n√£o existe dados duplicados 
   
    display(Markdown("<h2 style='color: red'>N√£o foram encontrados dados duplicados no conjunto de dados</h2>"))


print()

***************************************
# 7.6.  Resumo Estat√≠stico das Vari√°veis Num√©ricas

In [None]:

# Configurando a formata√ß√£o global de n√∫meros flutuantes para duas casas decimais

pd.options.display.float_format = '{:.2f}'.format

# Gerando o resumo estat√≠stico dos dados
estatisticas = dados.describe()

# Renomeando as colunas e √≠ndices do resumo estat√≠stico para portugu√™s
estatisticas.rename(columns={
    'count': 'contagem',
    'mean': 'm√©dia',
    'std': 'desvio_padr√£o',
    'min': 'm√≠nimo',
    '25%': '1¬∫ quartil 25%',
    '50%': 'mediana 50%',
    '75%': '3¬∫ quartil 75%',
    'max': 'm√°ximo'
}, index={
    'count': 'contagem',
    'mean': 'm√©dia',
    'std': 'desvio_padr√£o',
    'min': 'm√≠nimo',
    '25%': '1¬∫ quartil 25%',
    '50%': 'mediana 50%',
    '75%': '3¬∫ quartil 75%',
    'max': 'm√°ximo'
}, inplace=True)

# Imprimindo o resumo estat√≠stico formatado e traduzido
print(estatisticas)


**********************
## 7.7. Visualizando da Distribui√ß√£o da Idade dos Propriet√°rios


In [None]:
# Histograma simplificado da idade dos propriet√°rios

plt.figure(figsize=(12, 6)) # define dimen√ß√£o do gr√°fico

bins_valor = range(21, 75, 5)  # Definindo bins de 21 a 75 com passo de 5

histograma = sns.histplot(dados['idade_prop'], bins=21, kde=True, color='skyblue', edgecolor='black')

# Agora, ajustando os limites do eixo Y conforme a frequ√™ncia m√°xima
max_height = histograma.patches[0].get_height()  # Come√ßa com a altura da primeira barra

for patch in histograma.patches:
    
    if patch.get_height() > max_height:
        
        max_height = patch.get_height()  # Encontra a altura m√°xima

plt.ylim(0, max_height * 1.2)  # Define o limite superior do eixo y como 10% acima da barra mais alta


# T√≠tulos e r√≥tulos
plt.title('Distribui√ß√£o da Idade dos Propriet√°rios', fontsize=18, pad=20)   # pad define valor para espa√ßamento
plt.xlabel('Idade', fontsize=16, labelpad=20)
plt.ylabel('Quantidade de Propriet√°rios', fontsize=16, labelpad=20)


# Calculando a m√©dia e convertendo para inteiro
media_idade = int(np.mean(dados['idade_prop']))

# Desenhando uma linha vertical na m√©dia e adicionando uma legenda com o valor da m√©dia
plt.axvline(media_idade, color='red', linestyle='--', label=f'M√©dia: {media_idade}')


for p in histograma.patches:
    plt.text(
        p.get_x() + p.get_width() / 2.,  # posi√ß√£o x
        
        p.get_height() +1,  # posi√ß√£o y
        
        f'{int(p.get_height())}',  # valor inteiro da altura
        
        fontsize=11,  # tamanho da fonte
        
        color='black',  # cor do texto
        
        ha='center',  # alinhamento horizontal
        
        va='bottom',  # alinhamento vertical
    )

# Legenda
plt.legend()

# Exibir o gr√°fico
plt.show()




# 7.8 An√°lise de frequ√™ncia de sinistros por faixa de idade


In [None]:


# Agrupando as idades em faixas de 5 anos
dados['faixa_etaria'] = pd.cut(dados['idade_prop'], bins=np.arange(25, 100, 5), right=False)

colors = ['#ff9999','#66b3ff','#99ff99','#ffcc99']

# Criando o gr√°fico de frequ√™ncia de sinistros por faixa et√°ria
plt.figure(figsize=(16, 7))
ax = sns.countplot(x='faixa_etaria', hue='sinistro', data=dados, palette=colors)
plt.title('Frequ√™ncia de Sinistros por Faixa Et√°ria', fontsize=18, pad=20)
plt.xlabel('Faixa Et√°ria', labelpad=20, fontsize=18)
plt.ylabel('N√∫mero de Sinistros', labelpad=20, fontsize=18)
plt.xticks(rotation=45)
plt.legend(title='Sinistro Ocorrido', loc='upper right')
plt.ylim(0, 1250)  # Aumentando o limite superior para melhor visualiza√ß√£o

# Adicionando os valores de sinistro acima de cada barra
for p in ax.patches:
   ax.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='center', fontsize=12, color='black', xytext=(0, 10),
                 textcoords='offset points')

plt.tight_layout()
plt.show()

# An√°lise estat√≠stica da diferen√ßa entre as faixas et√°rias
from scipy.stats import chi2_contingency

# Criando a tabela de conting√™ncia
contingencia = pd.crosstab(dados['faixa_etaria'], dados['sinistro'])

# Realizando o teste qui-quadrado
chi2, p, _, _ = chi2_contingency(contingencia)

print(f'Resultado do Teste Qui-Quadrado: chi2 = {chi2:.2f}, p-value = {p:.4f}')


********************************************
## 7.9. An√°lise de sinistros e Hist√≥rico de sinistros Residenciais


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Calculando os percentuais
percentual_sinistro = dados['sinistro'].mean() * 100
percentual_hist_sinistro = (dados['hist_sinistro'] == 1).mean() * 100

total_imoveis = dados.shape[0]
imoveis_sinistro = total_imoveis * (percentual_sinistro / 100)

# Preparando os dados para o gr√°fico de pizza
percentuais = [percentual_sinistro, 100 - percentual_sinistro,
               percentual_hist_sinistro, 100 - percentual_hist_sinistro]

labels = ['Com sinistros', 'Sem sinistros', 'Hist√≥rico de sinistros', 'Sem Hist√≥rico de sinistros']
colors = ['#ff9999','#66b3ff','#99ff99','#ffcc99']
explode = (0.1, 0, 0.1, 0)  # somente explode as fatias de sinistros

# Configura√ß√£o do autopct para usar uma fonte maior para as porcentagens
autopct = lambda p: f'{p:.1f}%' if p > 0 else ''

# Criando os gr√°ficos de pizza com a fonte das porcentagens maior
fig, axs = plt.subplots(1, 2, figsize=(16, 9))

axs[0].pie(percentuais[:2], explode=explode[:2], labels=labels[:2], colors=colors[:2], 
           autopct=autopct, startangle=140, textprops={'fontsize': 23})
axs[0].set_title('Percentual de Im√≥veis com sinistros', fontsize=20)

axs[1].pie(percentuais[2:], explode=explode[2:], labels=labels[2:], colors=colors[2:], 
           autopct=autopct, startangle=140, textprops={'fontsize': 18})
axs[1].set_title('Percentual Im√≥veis com Hist√≥rico de Sinistros Anteriores', fontsize=20)

plt.tight_layout()
plt.show()

# An√°lise da correla√ß√£o entre hist√≥rico de sinistros e ocorr√™ncia de novos sinistros
correlacao = dados[['hist_sinistro', 'sinistro']].corr()
print(f'Correla√ß√£o entre hist√≥rico de sinistros e ocorr√™ncia de novos sinistros: \n{correlacao}')


*********************
## 7.10. Teste t de Student para Compara√ß√£o de M√©dias
<div style='line-height: 1.5; color: #00008B; font-size: 16px; font-family: Arial, sans-serif;'>
    
<p>

Compara√ß√£o das m√©dias do valor do pr√™mio de seguro entre propriedades com e sem sinistros, assumindo que os dados s√£o normalmente distribu√≠dos.

In [None]:
# Bibliotecas para an√°lise estat√≠stica
from scipy.stats import ttest_ind

# Dividindo os dados em dois grupos: com sinistros e sem sinistros
grupo_com_sinistro = dados[dados['sinistro'] == 1]['valor_premio_seguro']
grupo_sem_sinistro = dados[dados['sinistro'] == 0]['valor_premio_seguro']

# Garantindo que n√£o h√° valores NaN antes de realizar o teste t
grupo_com_sinistro = grupo_com_sinistro.dropna()
grupo_sem_sinistro = grupo_sem_sinistro.dropna()

# Realizando o teste t de Student
t_stat, p_valor = ttest_ind(grupo_com_sinistro, grupo_sem_sinistro)

# Calculando as m√©dias dos dois grupos para o gr√°fico de pizza
media_com_sinistro = grupo_com_sinistro.mean()
media_sem_sinistro = grupo_sem_sinistro.mean()

# Criando o gr√°fico de pizza com as m√©dias dos grupos
labels = ['Com sinistro', 'Sem sinistro']
sizes = [media_com_sinistro, media_sem_sinistro]
colors = ['#ff9999', '#66b3ff']  # Cores para cada grupo

fig, ax = plt.subplots()
ax.pie(sizes, labels=labels, colors=colors, autopct=lambda p: f'R${p * sum(sizes) / 100:.2f}',
       startangle=90)
ax.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
plt.title('Compara√ß√£o das M√©dias do Valor do Pr√™mio de Seguro')


# T√≠tulo e anota√ß√µes
plt.title('Compara√ß√£o das M√©dias do Valor do Pr√™mio de Seguro', fontsize=14)

# Colocando a legenda com os resultados do teste t abaixo da legenda de cores
ax.legend(loc='upper right', bbox_to_anchor=(1, 0, 0.5, 1), title=f'Teste t: {t_stat:.2f}\np-valor: {p_valor:.4f}\n')



# Exibindo o gr√°fico
plt.show()




**********************************************************************************
# 8. Pr√©-processamento dos Dados: Codifica√ß√£o de Vari√°veis Categ√≥ricas

In [None]:
# Pr√©-processamento de dados
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

colunas_categoricas = ['tipo_construcao', 'estado', 'regiao', 'sistema_alarme', 'cameras_seguranca']
colunas_numericas = ['idade_prop', 'valor_imovel', 'valor_premio_seguro', 'renda_anual', 'distancia_bombeiros']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), colunas_numericas),
        ('cat', OneHotEncoder(handle_unknown='ignore'), colunas_categoricas)
    ])

# Transformando os dados
X = dados.drop('sinistro', axis=1)
y = dados['sinistro']
X_transformed = preprocessor.fit_transform(X)



*********************************
# 9. Divis√£o de Dados

In [None]:
# Divis√£o dos dados em conjuntos de treinamento e teste

X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.3, random_state=42)


*****************************
# 10. Treinamento do Modelo de Regress√£o Log√≠stica

In [None]:
# Treinamento do modelo de Regress√£o Log√≠stica

logistic_model = LogisticRegression(solver='liblinear', random_state=42)

logistic_model.fit(X_train, y_train)


# 11. Avalia;√°o do Modelo

In [None]:
# Avalia√ß√£o do modelo
y_pred = logistic_model.predict(X_test)
print("Relat√≥rio de Classifica√ß√£o:\n", classification_report(y_test, y_pred))


****************************
# 12. Aplica√ß√£o do SMOTE para Balanceamento de Dados

In [None]:
# Aplica√ß√£o do SMOTE para balanceamento de dados

from imblearn.over_sampling import SMOTE

sm = SMOTE(random_state=42)

X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

logistic_model.fit(X_train_res, y_train_res)

y_pred_res = logistic_model.predict(X_test)

print("Relat√≥rio de Classifica√ß√£o ap√≥s SMOTE:\n", classification_report(y_test, y_pred_res))




***********************************
# 13. ViValida√ß√£o Cruzadao

In [None]:
# Valida√ß√£o cruzada

from sklearn.model_selection import cross_val_score

scores = cross_val_score(logistic_model, X_transformed, y, cv=5, scoring='f1_macro')

print("M√©dia do F1-Score com Valida√ß√£o Cruzada:", np.mean(scores))



**************************
# 14. Engenharia de Caracter√≠sticas com PolynomialFeaturesed_poly))


In [None]:
# Engenharia de Caracter√≠sticas com PolynomialFeatures

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)

X_poly = poly.fit_transform(X_transformed)

X_train_poly, X_test_poly, y_train_poly, y_test_poly = train_test_split(X_poly, y, test_size=0.3, random_state=42)

logistic_model.fit(X_train_poly, y_train_poly)

y_pred_poly = logistic_model.predict(X_test_poly)

print("Relat√≥rio de Classifica√ß√£o com Feature Engineering:\n", classification_report(y_test_poly, y_pred_poly))



# 15 Conclus√£o e Considera√ß√µes

## Conclus√£o e Considera√ß√µes Finais

Neste projeto, abordamos a an√°lise de risco de sinistros residenciais utilizando t√©cnicas de Machine Learning. As principais etapas inclu√≠ram:

1. **Carregamento e explora√ß√£o dos dados:** Carregamos os dados, verificamos a presen√ßa de dados faltantes e registros duplicados, e realizamos uma an√°lise explorat√≥ria inicial.
2. **Pr√©-processamento dos dados:** Aplicamos transforma√ß√µes em vari√°veis categ√≥ricas e num√©ricas, e utilizamos t√©cnicas de balanceamento de dados como o SMOTE.
3. **Modelagem preditiva:** Treinamos e avaliamos modelos de regress√£o log√≠stica, aplicamos valida√ß√£o cruzada e realizamos engenharia de caracter√≠sticas.
4. **Avalia√ß√£o dos resultados:** Avaliamos os modelos utilizando m√©tricas como F1-Score e analisamos a signific√¢ncia das vari√°veis atrav√©s de testes estat√≠sticos.

Os resultados obtidos indicam que o modelo de regress√£o log√≠stica, combinado com t√©cnicas de balanceamento de dados e engenharia de caracter√≠sticas, pode ser uma abordagem eficaz para prever o risco de sinistros residenciais.

Recomenda√ß√µes para trabalhos futuros incluem a experimenta√ß√£o com outros algoritmos de Machine Learning, como √°rvores de decis√£o e redes neurais, e a explora√ß√£o de diferentes t√©cnicas de sele√ß√£o de caracter√≠sticas para melhorar ainda mais a performance do modelo.


# 16. Salvando Modelo Treinado

In [None]:
# Salvando o modelo treinado
import joblib

# Salvando o modelo logistic_model ap√≥s o treinamento com SMOTE
joblib.dump(logistic_model, 'modelo_logistico_smote.pkl')

# Salvando o pr√©-processador
joblib.dump(preprocessor, 'preprocessor.pkl')

print("Modelos salvos com sucesso!")


# 17. Carregando o Modelo e Fazendo Previs√µes

In [None]:
# Carregando o modelo treinado e o pr√©-processador
logistic_model_loaded = joblib.load('modelo_logistico_smote.pkl')

preprocessor_loaded = joblib.load('preprocessor.pkl')

# Fazendo previs√µes com novos dados
novos_dados = pd.read_csv('novos_dados.csv', delimiter=';', encoding='utf-8')

novos_dados_transformados = preprocessor_loaded.transform(novos_dados)

previsoes = logistic_model_loaded.predict(novos_dados_transformados)

print("Previs√µes para novos dados:", previsoes)
