# Apresentação

UM BREVE DESCRITIVO DA IMPORTANCIA DO USO DE ML PARA SEGURADORADAS

## OBJETIVOS
***

### GERAL

Desenvolver um modelo preditivo para o valor da indenização com o objetivo de auxiliar o time de pricing a melhorar as políticas de preços praticadas pela seguradora, a fim de estimar custos de acordo com o perfil do contrato (cliente).

### Específicos 

1) Realizar Análise Descritiva:

* Descrição: Entender o comportamento das variáveis presentes no dataset.
* Objetivo: Identificar padrões e relações importantes entre as variáveis que possam influenciar o valor da indenização.
  
2) Criar um Modelo Preditivo:

* Descrição: Desenvolver um modelo de aprendizado de máquina capaz de estimar o valor da indenização pago em cada contrato.
* Objetivo: Fornecer previsões precisas que possam ser utilizadas pelo time de pricing para ajustar as políticas de preços.

3) Fazer o Deploy do Modelo:

* Descrição: Implementar o modelo preditivo através de uma API.
* Objetivo: Permitir que o time de pricing tenha acesso fácil e rápido ao modelo para realizar previsões e ajustes de preços em tempo real.

## VARIÁVEIS
***

PARA ESSE PROJETO SERÃO UTILIZADAS AS SEGUINTES VARIÁVEIS:

|  CAMPO | DESCRIÇÃO | TIPO |
|:-------------:|:-------------:|:-------------:|
| COD_SEG  | Código da Seguradora – FIP. Exemplo: 08001. | STRING |
| APOLICE  | Preencher com o respectivo número da apólice. O número deve estar alinhado à direita, e completado com zeros à esquerda (Ex.: “00000000000001A1330”). | FLOAT |
| ENDOSSO  | Preencher com o respectivo número do endosso. No caso de registro de apólice, o campo “endosso” deve ser preenchido com o valor “0000000000”. O número deve estar alinhado à direita, e completado com zeros à esquerda. | STRING |
| ITEM  | Preencher com o item de identificação do veículo em caso de apólice coletiva. Caso contrário, preencher com o valor “000000”. O número deve estar alinhado à direita, e completado com zeros à esquerda | INT  |
| MODALIDADE  | Preencher com o código correspondente à modalidade. Exemplo: VMR – Valor de Mercado Referenciado (1), VR – Valor Determinado (2), Produtos com uma única cobertura de RCF (3) e seguro popular (4). | INT |
| TIPO_PROD  | Preencher com o código correspondente ao tipo de produto. Exemplo: Padrão (1) e Perfil (2). | INT |
| COBERTURA  | Preencher com o tipo de cobertura contratada, de acordo com o código estabelecido na Tabela 6-3. | INT |
| COD_MODELO  | Preencher com o código do modelo do veículo na tabela FIPE (Tabela 6-9). Caso o modelo não exista na tabela FIPE, deve ser preenchido com “999999-9”. | STRING |
| ANO_MODELO  | Preencher com o ano do modelo do veículo – AAAA | DATETIME |
| COD_TARIF  | Preencher com o código da categoria tarifária em que o veículo se enquadra. | INT |
| REGIAO  | Preencher com o código do tipo de contrato de seguro: 1 – para valor de mercado referenciado (V. M. R.), 2 – para valor definido (V. D.). | INT |
| EVENTO  | Preencher com o código de sinistro. | INT |
| INDENIZ  | Preencher com o valor total da indenização efetivamente paga ao segurado, de acordo com o evento informado, sem desconto de cosseguro e/ou resseguro. Para o caso de sinistro avisado e não pago, a seguradora deve informar o valor estimado desta indenização | FLOAT |
| VAL_SALVAD  | Preencher com o valor do salvado. | FLOAT |
| D_SALVADO  | Preencher com a data de recuperação do salvado, referente ao sinistro gerador do registro – AAAAMMDD. Caso não haja informação para este campo, preencher com “00000000”. | DATETIME |
| VAL_RESS  | Preencher com o valor do ressarcimento. | FLOAT |
| D_RESS  | Preencher com a data de recuperação do ressarcimento, referente ao sinistro gerador do registro – AAAAMMDD. Caso não haja informação para este campo, preencher com “00000000”. | DATETIME |
| D_AVI  | Preencher com a data do aviso do sinistro, de acordo com o evento informado – AAAAMMDD. Caso não haja informação para este campo, preencher com “00000000”. | DATETIME |
| D_LIQ  | Preencher com a data de liquidação do sinistro, de acordo com o evento informado – AAAAMMDD. Obs.: Em caso de valor estimado, preencher com “00000000” | DATETIME |
| D_OCORR  | Preencher com a data de ocorrência do sinistro – AAAAMMDD. | DATETIME |
| CAUSA  | Preencher com o código da causa geradora do sinistro. | INT |
| SEXO  | Preencher com a letra correspondente ao sexo do condutor sinistrado. Exemplo: Masculino (M); Feminino (F). | STRING |
| D_NASC  | Data de Nascimento do condutor sinistrado - AAAAMMDD | DATETIME |
| CEP  | Código de Endereçamento Postal da localidade de ocorrência do sinistro. No caso de produto do tipo Perfil, este campo deverá ser obrigatoriamente preenchido com um CEP válido, caso contrário, este campo poderá ser preenchido com ‘00000000’, na eventualidade da seguradora não possuir esse dado. | INT |

### Códigos

|  CAMPO | DESCRIÇÃO | TIPO |
|:-------------:|:-------------:|:-------------:|
| COD_SEG  | Código da Seguradora – FIP. Exemplo: 08001. | STRING |

# SETUP

## LIBS

In [23]:
#Análise de Dados

import pandas as pd
import numpy as np
import datetime as dt

#Análise Gráfica

import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import seaborn as sns

#Análise Estátistica

import statsmodels.formula.api as smf

#ML

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.preprocessing import MinMaxScaler, power_transform
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor, GradientBoostingRegressor

## FUNÇÕES

## LEITURA DOS DADOS

In [24]:
df = pd.read_csv("D:\Projetos\Previsao_valor_seguro\PrevisaoValorSeguro\Data\S_AUTO_2021A.csv", sep=';',decimal=',')
df.head()

  df = pd.read_csv("D:\Projetos\Previsao_valor_seguro\PrevisaoValorSeguro\Data\S_AUTO_2021A.csv", sep=';',decimal=',')


Unnamed: 0,cod_apo,ENDOSSO,ITEM,MODALIDADE,TIPO_PROD,COBERTURA,COD_MODELO,ANO_MODELO,COD_TARIF,REGIAO,...,D_SALVADO,VAL_RESS,D_RESS,D_AVI,D_LIQ,D_OCORR,CAUSA,SEXO,D_NASC,CEP
0,,0,0,1,1,1,004354-0,2009,10,11,...,0,0.0,0,20201016,20201026,20201015,7,M,19740216,9371420
1,,0,0,1,1,1,004354-0,2009,10,11,...,0,0.0,0,20201017,20201026,20201016,7,M,19740216,9371420
2,,0,0,1,1,1,004354-0,2009,10,11,...,0,0.0,0,20201017,20201105,20201016,7,M,19740216,9030620
3,,0,0,1,1,1,004354-0,2009,10,11,...,0,0.0,0,20200812,20200819,20200811,7,M,19740216,9371520
4,,0,0,1,1,1,004354-0,2009,10,11,...,0,0.0,0,20200812,20200819,20200811,7,M,19740216,0


# DATA PREPARATION I

O objetivo dessa seção é compreender quais dados serão úteis para seguir com as análises descritivas, e modelagem. Além de compreender se os dados estão no formato correto, se existe ocorrência de dados nulos, duplicados.

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3747647 entries, 0 to 3747646
Data columns (total 24 columns):
 #   Column      Dtype  
---  ------      -----  
 0   cod_apo     float64
 1   ENDOSSO     object 
 2   ITEM        int64  
 3   MODALIDADE  int64  
 4   TIPO_PROD   int64  
 5   COBERTURA   int64  
 6   COD_MODELO  object 
 7   ANO_MODELO  int64  
 8   COD_TARIF   object 
 9   REGIAO      object 
 10  COD_CONT    int64  
 11  EVENTO      int64  
 12  INDENIZ     float64
 13  VAL_SALVAD  float64
 14  D_SALVADO   int64  
 15  VAL_RESS    float64
 16  D_RESS      int64  
 17  D_AVI       int64  
 18  D_LIQ       int64  
 19  D_OCORR     int64  
 20  CAUSA       int64  
 21  SEXO        object 
 22  D_NASC      int64  
 23  CEP         int64  
dtypes: float64(4), int64(15), object(5)
memory usage: 686.2+ MB


Verifiquei que todos os dados estão no formato correto, com exceção das Datas. Porém de todas as datas disponíbilizadas a única relevante para nosso modelo nesse momento é a data de nascimento, já que nos ajuda a identificar o perfil do segurado. Converterei essa data para idade, levando em consideração a diferença entre o dia de hoje e o dia do nascimento, e o restante será descartado. Em seguida irei identificar a presença de dados duplicados, nulos e zeros.

In [26]:
#Nulos
df.isnull().sum()

cod_apo       1131767
ENDOSSO             0
ITEM                0
MODALIDADE          0
TIPO_PROD           0
COBERTURA           0
COD_MODELO          1
ANO_MODELO          0
COD_TARIF           0
REGIAO              0
COD_CONT            0
EVENTO              0
INDENIZ             0
VAL_SALVAD          0
D_SALVADO           0
VAL_RESS            0
D_RESS              0
D_AVI               0
D_LIQ               0
D_OCORR             0
CAUSA               0
SEXO                0
D_NASC              0
CEP                 0
dtype: int64

Como apenas a primeira coluna possui dados nulos e ela não é relevante para nossa análise e modelo, ela também será descartada. A seguir será realizado a compreensão de quantos % do Dataframe é composto por valores zerados, e quais tratamentos serão aplicados para esses casos. (Lembrando que em colunas booleanas ou que contenha o 0 como código, um valor elevado de zeros pode ser normal.)

In [33]:
round((df.apply(lambda x: (x == 0).sum()) / len(df)) * 100, 2)

cod_apo        0.00
ENDOSSO        1.65
ITEM          51.50
MODALIDADE     0.00
TIPO_PROD      0.00
COBERTURA      0.00
COD_MODELO     0.00
ANO_MODELO     0.10
COD_TARIF      0.00
REGIAO         0.01
COD_CONT       0.00
EVENTO         0.03
INDENIZ        1.15
VAL_SALVAD    98.22
D_SALVADO     98.58
VAL_RESS      99.84
D_RESS        99.88
D_AVI          0.00
D_LIQ         25.28
D_OCORR        0.00
CAUSA          0.00
SEXO           0.00
D_NASC        14.86
CEP            9.09
dtype: float64

In [10]:
#Duplicados

print(f'Total de Dados Duplicados: {df.duplicated().sum()}')

df.drop_duplicates(inplace=True)

print('Dados duplicados removidos')

Total de Dados Duplicados: 48363
Dados duplicados removidos


## FEATURE ENGINEERING 

Buscando criar novas variáveis descritivas que podem ser importantes para o modelo, será realizado um processo de feature engineering, com objetivo de criar a váriavel idade do cliente (a partir da coluna da data do nascimento) e a váriável de cidade (a partir da coluna CEP).

In [16]:
df['D_NASC'] = pd.to_datetime(df['D_NASC'],format='%Y%m%d',errors='coerce')

In [18]:
df['D_NASC'].isnull().sum()

553292

# EDA

Perguntas para EDA:

A causa gerá impacto em relação ao valor da indenização?

E o modelo do carro?