# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio

O objetivo deste exercicío é simular um modelo real de previsão de renda e se o cliente é um bom ou mau pagador, iremos utilizar a metodologia CRISP-DM para montar o projeto.

## Etapa 2 Crisp-DM: Entendimento dos dados

### Dicionário de dados


|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|possui_email            | Indica se o cliente possui veiculo|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|mau| Indica se o cliente é mau pagador|



#### Carregando os pacotes

In [None]:
!pip install --update pandas
!pip install ydata_profiling

Collecting multimethod<2,>=1.4 (from ydata_profiling)
  Downloading multimethod-1.11.2-py3-none-any.whl (10 kB)
Collecting typeguard<5,>=4.1.2 (from ydata_profiling)
  Downloading typeguard-4.1.5-py3-none-any.whl (34 kB)
Collecting imagehash==4.3.1 (from ydata_profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl (296 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m296.5/296.5 kB[0m [31m14.0 MB/s[0m eta [36m0:00:00[0m
Collecting dacite>=1.8 (from ydata_profiling)
  Downloading dacite-1.8.1-py3-none-any.whl (14 kB)
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/cli/base_command.py", line 169, in exc_logging_wrapper
    status = run_func(*args)
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/cli/req_command.py", line 242, in wrapper
    return func(self, options, args)
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/commands/install.py", line 377, in run
    requirement_set = re

In [None]:
from google.colab import drive

import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score, precision_recall_curve, auc
from ydata_profiling import ProfileReport

ModuleNotFoundError: No module named 'ydata_profiling'

#### Carregando os dados

In [None]:
drive.mount('/content/drive')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/Ebac/Profissão: Cientista de dados/Ciência de dados/Módulo 16/Aula 10/input/dados.csv')
df.head(1)

#### Entendimento dos dados - Univariada

In [None]:
#verificando a taxa de inadimplentes
print(df['mau'].value_counts())
print("\nTaxa de inadimplentes:")
print(df['mau'].mean())

In [None]:
#realizando uma exploração utilizando o profile report
prof = ProfileReport(df, explorative=True, minimal=False)
#prof

In [None]:
#prof.to_file('exploracao_dados.html')

Por meio da análise utilizando o método ProfileReport podemos realizar uma boa análise exploratória de nossa base de dados, tendo também um gráfico de calor contendo a correlação entre as variáveis


#### Entendimento dos dados - Bivariada

In [None]:
sns.pairplot(data=df, corner=True)

Utilizando a biblioteca Seaborn conseguimos gerar gráficos bivariados de todas as variáveis

## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



- Seleção

In [None]:
#Removendo dados que não nos trazem informações relevantes e/ou não estão de acordo com a LGPD
df.drop(['possui_celular', 'sexo', 'possui_fone', 'possui_email'], axis=1, inplace=True)

- Limpeza

In [None]:
#Verificando se há dados faltantes em nossa base de dados, podemos verificar que não há
df.isna().value_counts()

- Formatação

In [None]:
df.info()

In [None]:
#transformando as colunas de objeto em variáveis dummies
df = pd.get_dummies(df, columns=df.select_dtypes(include='object').columns, dummy_na=False)

In [None]:
df.head()

## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


### Rodando o modelo


In [None]:
# Tirando a variavel resposta da base de treinamento
x = df.drop("mau",axis = 1)
y = df["mau"]

x_train, x_test, y_train, y_test = train_test_split(x, y)

In [None]:
# Treinar uma Random Forest com 5 árvores

modelo = RandomForestClassifier(n_estimators=3)
modelo.fit(x_train,y_train)

In [None]:
# calculando a acuracia
y_pred = modelo.predict(x_test)
acuracia = metrics.accuracy_score(y_test, y_pred)
print('Acurácia: {0:.2f}%'.format(acuracia*100))

In [None]:
# Utilizando o relatório de classificação
classif_report = classification_report(y_test, y_pred)
print('Relatório de Classificação:')
print(classif_report)

## Etapa 5 Crisp-DM: Avaliação dos resultados


A acurácia do modelo se deu em torno de 97,5% de precisão, o que nos mostra um valor satisfatório


## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.