# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio

<span><b>Principal objetivo:</b> A entrega de um modelo que seja capaz de prever com precisão máxima a renda de um indivíduo levando em consideração diversos fatores sobre o mesmo.</span>

<span><b>O recurso principal para realizar a previsão se trata de um Dataset com diversas variáveis explicativas.</b></span>

<span><b>Os principais interessados na realização da previsão de renda podem ser:</b> Seguradoras, Bancos e outras instituições financeiras.</span>


## Etapa 2 Crisp-DM: Entendimento dos dados
<span> A princípio, os dados são compostos por 13 variáveis independentes, ou seja, que serão utilizadas com o único objetivo de melhorar a análise e a previsibilidade do nosso modelo e 1 variável dependente (renda) que será a variável que o modelo tentará prever baseado nas informação providas pelas variáveis independentes.</span>


### Dicionário de dados

<span>Abaixo se encontra um dicionário completo dos dados iniciais do nosso dataset principal, incluindo o nome das variáveis, descrição e o tipo da variável.</span>

<span>Vale mencionar também que os dados apresentados abaixo poderão sofrer alterações de tipo, ou contar com a remoção de algumas dessas variáveis para o melhor desempenho do modelo</span>


| Variável                | Descrição                                           | Tipo         |
| ----------------------- |:---------------------------------------------------:| ------------:|
| data_ref                |  Data da coleta dos dados                                      | datatime|
| id_cliente              |  ID único do cliente em questão                                      | int|
| sexo                    |  Sexo do cliente em questão                                      | object|
| posse_de_veiculo        |  Posse de veículo próprio ou não                                     | bool|
| posse_de_imovel         |  Posse de imóvel próprio ou não                                     | bool|
| qtd_filhos              |  A quantidade de filhos que o cliente possui                                      | int|
| tipo_renda              |  Empresário, Assalariado, Servidor Público, Pensionista ou Bolsista                                      | object|
| educacao                |  Primário, Secundário, Superior Incompleto, Superior Completo, ou Pós Graduação                                      | object|
| estado_civil            |  Solteiro, Casado, Viúvo, União ou Separado                                      | object|
| tipo_residencia         |  Casa, Governamental, Com os pais, Aluguel, Estúdio ou Comunitário                                      | object|
| idade                   |  Idade do cliente em questão                                      | int|
| tempo_emprego           |  Tempo de emprego (em anos) do cliente em questão                                      | float|
| qt_pessoas_residencia   |  Quantidade de pessoas vivendo na residência do cliente em questão                                      | float|
| renda                   |  Renda do cliente em questão (Variável dependente)                                      | float|





#### Carregando os pacotes
É considerado uma boa prática carregar os pacotes que serão utilizados como a primeira coisa do programa.

<span style="color:red">ESCREVER AQUI</span>


#### Carregando os dados
O comando pd.read_csv é um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

<span style="color:red">ESCREVER AQUI</span>


In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
#from pandas_profiling import ProfileReport

In [3]:
renda = pd.read_csv('./input/previsao_de_renda.csv')

In [11]:
renda['tempo_emprego']

0         6.602740
1         7.183562
2         0.838356
3         4.846575
4         4.293151
           ...    
14995    13.887671
14996          NaN
14997     7.832877
14998     4.298630
14999     7.219178
Name: tempo_emprego, Length: 15000, dtype: float64

In [7]:
renda.dtypes

Unnamed: 0                 int64
data_ref                  object
id_cliente                 int64
sexo                      object
posse_de_veiculo            bool
posse_de_imovel             bool
qtd_filhos                 int64
tipo_renda                object
educacao                  object
estado_civil              object
tipo_residencia           object
idade                      int64
tempo_emprego            float64
qt_pessoas_residencia    float64
renda                    float64
dtype: object

#### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribuição de todas as variáveis. 

In [None]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof


In [5]:
prof.to_file('./output/renda_analisys.html')

HBox(children=(HTML(value='Export report to file'), FloatProgress(value=0.0, max=1.0), HTML(value='')))




<span style="color:red">ESCREVER AQUI</span>


### Entendimento dos dados - Bivariadas




<span style="color:red">ESCREVER AQUI</span>


## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



<span style="color:red">ESCREVER AQUI</span>


## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


<span style="color:red">ESCREVER AQUI</span>


### Rodando o modelo


<span style="color:red">ESCREVER AQUI</span>


## Etapa 5 Crisp-DM: Avaliação dos resultados


<span style="color:red">ESCREVER AQUI</span>


## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.