# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio
O Objetivo do negócio e a avaliação dos seus clientes 


## Etapa 2 Crisp-DM: Entendimento dos dados
Os dados fornecidos para a análise estão estruturados com 15 variáveis sendo a variável resposta **renda** e buscamos documentar o significado de cada variável para melhor identificação de cada variável.


### Dicionário de dados
Os dados abaixo são apresentados em formato de tabela com uma linha para cada cliente e uma coluna para cada variável apresenta as características dos clientes e a sua renda.


| Variável                | Descrição                                                   | Tipo          |
| ----------------------- |:-----------------------------------------------------------:| -------------:|
| data_ref                |  Data de referência                                         | data          |
| id_cliente              |  Código de identificação do cliente                         | interio       |
| sexo                    |  M = 'Masculino'; F = 'Feminino'                            | M/F           |
| posse_de_veiculo        |  Y = 'possui'; N = 'não possui'                             | Y/N           |
| posse_de_imovel         |  Y = 'possui'; N = 'não possui'                             | Y/N           |
| qtd_filhos              |  Quantidade de filhos                                       | inteiro       |
| tipo_renda              |  Tipo de renda (ex: assaliariado, autônomo etc)             | texto         |
| educacao                |  Nível de educação (ex: secundário, superior etc)           | texto         |
| estado_civil            |  Estado civil (ex: solteiro, casado etc)                    | texto         |
| tipo_residencia         |  Tipo de residência (ex: casa/apartamento, com os pais etc) | texto         |
| idade                   |  Idade em anos                                              | inteiro       |
| tempo_emprego           |  tempo de emprego em anos                                   | decimal       |
| qt_pessoas_residencia   |  quantidade de pessoas na residência                        | decimal       |
| **renda**               |  renda do cliente                                           | decimal       |





#### Carregando os pacotes
É considerado uma boa prática carregar os pacotes que serão utilizados como a primeira coisa do programa.

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pandas_profiling import ProfileReport

  from pandas_profiling import ProfileReport


#### Carregando os dados
O comando pd.read_csv é um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

<span style="color:red">ESCREVER AQUI</span>


In [2]:
renda = pd.read_csv('./input/previsao_de_renda.csv')
renda['data_ref'] = pd.to_datetime(renda['data_ref'])

In [3]:
renda.head(1)

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34


#### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribuição de todas as variáveis. 

In [4]:
prof = ProfileReport(renda, explorative=True)
prof

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [5]:
prof.to_file('./output/renda_analisys.html')

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

<span style="color:red">ESCREVER AQUI</span>


### Entendimento dos dados - Bivariadas




<span style="color:red">ESCREVER AQUI</span>


In [8]:
var = 'tempo_emprego'
cat_srs, bins = pd.qcut(renda['tempo_emprego'], 4, retbins=True)
g = renda.groupby(cat_srs)
biv = g['renda'].mean()

ax = biv.plot.line()
ax.set_ylabel("Proporção de inadimplentes")
ticks = plt.xticks(range(len(biv.index.values)), biv.index.values, rotation = 90)


  plt.show()


## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



<span style="color:red">ESCREVER AQUI</span>


LIMPEZA

In [13]:
renda.isna().sum()

Unnamed: 0               0
data_ref                 0
id_cliente               0
sexo                     0
posse_de_veiculo         0
posse_de_imovel          0
qtd_filhos               0
tipo_renda               0
educacao                 0
estado_civil             0
tipo_residencia          0
idade                    0
tempo_emprego            0
qt_pessoas_residencia    0
renda                    0
dtype: int64

In [12]:
renda['tempo_emprego'].fillna(0, inplace=True)

Unnamed: 0                  0
data_ref                    0
id_cliente                  0
sexo                        0
posse_de_veiculo            0
posse_de_imovel             0
qtd_filhos                  0
tipo_renda                  0
educacao                    0
estado_civil                0
tipo_residencia             0
idade                       0
tempo_emprego            2573
qt_pessoas_residencia       0
renda                       0
dtype: int64

## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


<span style="color:red">ESCREVER AQUI</span>


### Rodando o modelo


<span style="color:red">ESCREVER AQUI</span>


## Etapa 5 Crisp-DM: Avaliação dos resultados


<span style="color:red">ESCREVER AQUI</span>


## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.