# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio

#### 1. Objetivos do Negócio
#### Contexto do Problema
O problema em questão está relacionado à **concessão de cartões de crédito** e ao risco de inadimplência dos clientes. A definição de inadimplência neste caso é baseada na ocorrência de um atraso igual ou superior a 90 dias no pagamento dentro de um horizonte de 12 meses após a concessão do crédito.

### Objetivo Principal
O objetivo principal deste projeto é desenvolver um modelo preditivo que auxilie os mutuários (clientes) a avaliar suas próprias decisões financeiras antes de solicitar um cartão de crédito. Especificamente:

- O modelo deve identificar o risco de inadimplência com base em variáveis observadas no momento da solicitação do crédito.
- O foco está no mutuário , não na instituição de crédito, o que significa que o modelo será uma ferramenta de autoavaliação para os clientes.

### Diferencial do Projeto
- Normalmente, modelos preditivos de crédito são desenvolvidos para ajudar as instituições financeiras a decidir se devem ou não conceder crédito. Aqui, o diferencial é que o modelo será voltado para empoderar os próprios clientes , permitindo que eles tomem decisões informadas sobre sua saúde financeira.

## Etapa 2 Crisp-DM: Entendimento dos dados
A segunda etapa do CRISP-DM é o Entendimento dos Dados , que tem como objetivo explorar, compreender e avaliar a qualidade dos dados disponíveis. Essa fase é essencial para garantir que os dados sejam adequados para atender aos objetivos do projeto definidos na etapa anterior.

Vamos detalhar como essa etapa pode ser conduzida no contexto do problema de concessão de cartões de crédito, considerando o dicionário de dados fornecido.


### Dicionário de dados

Os dados estão dispostos em uma tabela com uma linha para cada cliente, e uma coluna para cada variável armazenando as características desses clientes. Colocamos uma cópia o dicionário de dados (explicação dessas variáveis) abaixo neste notebook:


| Variable Name            | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| sexo| M = 'Masculino'; F = 'Feminino' |M/F|
| posse_de_veiculo| Y = 'possui'; N = 'não possui' |Y/N|
| posse_de_imovel| Y = 'possui'; N = 'não possui' |Y/N|
| qtd_filhos| Quantidade de filhos |inteiro|
| tipo_renda|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| educacao| Nível de educação (ex: secundário, superior etc) |texto|
| estado_civil | Estado civil (ex: solteiro, casado etc)| texto |
| tipo_residencia | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| idade | idade em anos |inteiro|
| tempo de emprego | tempo de emprego em anos |inteiro|
| possui_celular | Indica se possui celular (1 = sim, 0 = não) |binária|
| possui_fone_comercial | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| possui_fone | Indica se possui telefone (1 = sim, 0 = não) |binária|
| possui_email | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| qt_pessoas_residencia | quantidade de pessoas na residência |inteiro|
| **mau** | indicadora de mau pagador (True = mau, False = bom) |binária|





#### Carregando os pacotes
É considerado uma boa prática carregar os pacotes que serão utilizados como a primeira coisa do programa.

In [1]:
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier

#### Carregando os dados
O comando pd.read_csv é um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

In [6]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport

ModuleNotFoundError: No module named 'ydata_profiling'

In [7]:
renda = pd.read_csv('./input/previsao_de_renda.csv')

In [8]:
renda.head(1)

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34


#### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribuição de todas as variáveis. 

In [9]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof


NameError: name 'ProfileReport' is not defined

In [None]:
prof.to_file('./output/renda_analisys.html')

<span style="color:red">ESCREVER AQUI</span>


### Entendimento dos dados - Bivariadas




<span style="color:red">ESCREVER AQUI</span>


## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



<span style="color:red">ESCREVER AQUI</span>


## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


<span style="color:red">ESCREVER AQUI</span>


### Rodando o modelo


<span style="color:red">ESCREVER AQUI</span>


## Etapa 5 Crisp-DM: Avaliação dos resultados


<span style="color:red">ESCREVER AQUI</span>


## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.