<a href="https://colab.research.google.com/github/hernandemonteiro/market-analysis/blob/main/model_previdenciario.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Importando libs**


In [10]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd

import warnings
warnings.filterwarnings("ignore")

## **Importando Dados**

Tabela está em processo de construção, parâmetros de entrada estão sendo
estudados

In [32]:
df = pd.read_excel("/content/drive/MyDrive/Data/previdencia.xlsx")
df.head()

Unnamed: 0,Declaração IR,Idade,Horizonte,Salário,Plano,Tabela
0,Simples,25,Longo Prazo,3250,VGBL,Regressiva
1,Completa,23,Longo Prazo,5000,VGBL,Regressiva
2,Completa,35,Curto Prazo,7500,PGBL,Progressiva
3,Simples,37,Médio Prazo,4237,VGBL,Regressiva
4,Simples,42,Médio Prazo,3300,PGBL,Regressiva


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 66 entries, 0 to 65
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Declaração IR  66 non-null     object
 1   Idade          66 non-null     int64 
 2   Horizonte      66 non-null     object
 3   Salário        66 non-null     int64 
 4   Plano          66 non-null     object
 5   Tabela         66 non-null     object
dtypes: int64(2), object(4)
memory usage: 3.2+ KB


## **Preparando os Dados**

Mapeando dados numéricamente para uso em treino com regressão linear.

Os dados vão ficar dispostos da seguinte forma:
```
Declaração IR:

Simples => 1
Completa => 2
```

```
Horizonte:

Curto Prazo => 1
Médio Prazo => 2
Longo Prazo => 3
```

```
Plano:

PGBL => 1
VGBL => 2
```


In [36]:
## Criando dicionario para os dados
declaracao_ir = {"Simples": 1, "Completa": 2}
horizonte = {"Curto Prazo": 1, "Médio Prazo": 2, "Longo Prazo": 3}
plano = {"PGBL": 1, "VGBL": 2}

## modificando dados
df["Declaração IR"].replace(declaracao_ir, inplace=True)
df["Horizonte"].replace(horizonte, inplace=True)
df["Plano"].replace(plano, inplace=True)

## Visualizando dados transformados
df.head()

Unnamed: 0,Declaração IR,Idade,Horizonte,Salário,Plano,Tabela
0,1,25,3,3250,2,Regressiva
1,2,23,3,5000,2,Regressiva
2,2,35,1,7500,1,Progressiva
3,1,37,2,4237,2,Regressiva
4,1,42,2,3300,1,Regressiva


## **Prevendo Plano**

Aqui usamos a regressão logistica para definir o melhor plano para
o cliente, com base nos seguintes dados:

- Declaração IR - Tipo de declaração de imposto de renda feita pelo cliente.
- Salário - Quanto o cliente Ganha de salário mensalmente.
- Horizonte - Tempo que o cliente pretende investir

In [68]:

## Variáveis independentes (X) e variável dependente (y)
X = df[['Declaração IR', 'Salário', 'Horizonte']]
y = df['Plano']

# Dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.35, random_state=42)

## Inicializando e treinando um modelo de Regressão Logistica
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

## predições no conjunto de teste
y_pred = model.predict(X_test)

## acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {round(accuracy * 100)}%')

## Criando simulação
resposta = {'Declaração IR': 2, 'Salário': 9500, 'Horizonte': 3}
predicao = model.predict([list(resposta.values())])[0]

## Criando dicionário para a resposta ser legivel
plano_predicted = {1: "PGBL", 2: "VGBL"}
print(f'A predição para o novo caso é: {plano_predicted[predicao]}')

Acurácia do modelo: 67%
A predição para o novo caso é: PGBL
