# PREVISÃO DE EMPRÉSTIMO

## <font color = "#C71585">PROBLEMA</font>

A empresa Dream Housing Finance lida com todos os tipos de empréstimos à habitação. Estão presentes em todas as áreas urbanas, semi-urbanas e rurais. O cliente primeiro solicita o empréstimo à habitação e, em seguida, esta empresa valida a elegibilidade do cliente para o empréstimo. Atualmente, a avaliação do crédito é feita com base no histórico de crédito do cliente, o que corresponde a um modelo cuja precisão é de 74,1%.

A empresa deseja automatizar o processo de elegibilidade do empréstimo (em tempo real) com base nos detalhes do cliente fornecidos ao preencher o formulário de inscrição on-line. Esses detalhes são Gênero, Estado Civil, Educação, Número de Dependentes, Renda, Valor do Empréstimo, Histórico de Crédito e outros. Para automatizar esse processo, eles forneceram um conjunto de dados para identificar segmentos de clientes qualificados para o valor do empréstimo, para que possam direcionar especificamente esses clientes.

*Observação: Taxa de juros fixada em 1,2% ao mês.*

## <font color = "#C71585">PLANEJAMENTO DA SOLUÇÃO</font>

***Entrada:***

Utilizando uma base de dados contendo cerca de 600 solicitações de empréstimo, contendo dados do cliente e se o empréstimo foi aprovado ou não.

***Saída:***

Um modelo que automatize o processo de elegibilidade do empréstimo e que tenha uma precisão superior ao modelo utilizado atualmente (74.1%).

***Tarefas:***

1. Coleta de dados;
2. Limpeza dos dados;
3. Análise exploratória dos dados;
4. Criação de variáveis;
5. Preparação dos dados;
6. Modelo;
7. Avaliação do modelo;
8. Avaliação do negócio;
9. Implementação da solução em nuvem.

## BIBLIOTECAS E CONFIGURAÇÕES

In [38]:
import numpy                 as np
import pandas                as pd
import matplotlib.pyplot     as plt
import seaborn               as sns

from IPython.display         import Image
from sklearn.model_selection import train_test_split
from sklearn.tree            import DecisionTreeClassifier
from sklearn.model_selection import cross_validate

In [2]:
sns.set_style('whitegrid')

## FUNÇÕES

In [4]:
# configura os eixos dos gráficos
def axis_settings(x_label, y_label = ' ', fontsize = 12, x_rotation = 0, y_rotation = 0):
    plt.xlabel(x_label, fontsize = fontsize)
    plt.ylabel(y_label, fontsize = fontsize)
    plt.xticks(fontsize = fontsize, rotation = x_rotation)
    plt.yticks(fontsize = fontsize, rotation = y_rotation)

## 1. OBTENÇÃO DOS DADOS

O dados utilizados neste projetos podem ser encontrados neste [link](https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/#ProblemStatement).

In [6]:
df_raw = pd.read_csv('../dados/train.csv')

### 1.1. Renomeação das colunas

In [7]:
df_raw.columns = ['id', 'gender', 'married', 'dependents', 'education', 'self_employed', 'applicant_income', 
                  'coapplicant_income', 'loan_amount','loan_amount_term', 'credit_history', 'property_area', 'loan_status']

## 2. DESCRIÇÃO DOS DADOS

### 2.1. Informações básicas

In [8]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 614 entries, 0 to 613
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  614 non-null    object 
 1   gender              601 non-null    object 
 2   married             611 non-null    object 
 3   dependents          599 non-null    object 
 4   education           614 non-null    object 
 5   self_employed       582 non-null    object 
 6   applicant_income    614 non-null    int64  
 7   coapplicant_income  614 non-null    float64
 8   loan_amount         592 non-null    float64
 9   loan_amount_term    600 non-null    float64
 10  credit_history      564 non-null    float64
 11  property_area       614 non-null    object 
 12  loan_status         614 non-null    object 
dtypes: float64(4), int64(1), object(8)
memory usage: 62.5+ KB


- Há doze variáveis independentes e uma variável alvo (`loan_status`);
- O dataset contém 614 linhas;
- Há sete variáveis com valores faltantes (`gender`, `married`, `dependents`, `self_employed`, `loan_amount`, `loan_amount_term` and `credit_history`).

## 3. LIMPEZA DOS DADOS

In [25]:
# exclui registros com dados faltantes
df = df_raw.dropna().reset_index(drop = True)

## 4. CRIAÇÃO DE VARIÁVEIS

## 5. ANÁLISE EXPLORATÓRIA DOS DADOS (EDA)

## 6. PREPARAÇÃO DOS DADOS

In [26]:
# gender
df.loc[:, 'gender'] = df['gender'].apply(lambda x: 1 if x == 'Female' else 0)

# married
df.loc[:, 'married'] = df['married'].apply(lambda x: 1 if x == 'Yes' else 0)

# education
df.loc[:, 'education'] = df['education'].apply(lambda x: 1 if x == 'Graduate' else 0)

# self_employed
df.loc[:, 'self_employed'] = df['self_employed'].apply(lambda x: 1 if x == 'Yes' else 0)

# loan_status
df.loc[:, 'loan_status'] = df['loan_status'].apply(lambda x: 1 if x == 'Y' else 0)

# dependents
df.loc[:, 'dependents'] = df['dependents'].apply(lambda x: 0 if x == '0' else
                                                           1 if x == '1' else
                                                           2 if x == '2' else 3)

# property_area
df.loc[:, 'property_area'] = df['property_area'].apply(lambda x: 0 if x == 'Rural' else
                                                                 1 if x == 'Semiurban' else 2)

## 7. SELEÇÃO DE VARIÁVEIS

## 8. TREINAMENTO DO MODELO

In [37]:
# x e y
x = df.drop(['id', 'loan_status'], axis = 1)
y = df['loan_status']

# divisão do dataset em treino e validação
#x_train, x_valid, y_train, y_valid = train_test_split(x, y, test_size = 0.20, random_state = 42)

### 8.1. Árvore de decisão

In [45]:
# modelo
dt = DecisionTreeClassifier()

# validação cruzada
score = cross_validate(dt, x, y, cv = 10)

## 9. AVALIAÇÃO DO MODELO

In [46]:
m = score['test_score'].mean() 
s = score['test_score'].std()

print(f'Acurácia: {m:.2f} +/- {s:.2f}')

Acurácia: 0.71 +/- 0.06


## 10. HIPERPARÂMETROS FINE-TUNNING

## 11. AVALIAÇÃO DO NEGÓCIO

## 12. IMPLEMENTAÇÃO DA SOLUÇÃO