# Análise Exploratória dos Dados


In [None]:
## Pacotes
import pandas as pd     #Biblioteca de Funções de Manipulação de Dados
import seaborn as sns   #Biblioteca de Funções de Visualização Gráfica
import warnings
warnings.filterwarnings("ignore")

In [None]:
#Importação dos Dados
clientes = pd.read_csv('clientes.csv')

In [None]:
#Verifica as Dimensões do Arquivo (linhas, colunas)
clientes.shape

In [None]:
#Verificando os primeiros registros
clientes.head()

In [None]:
#Verificando as informações dos campos da tabela de dados
clientes.info()

In [None]:
#Verifica se há valores Nulos/ausentes
clientes.isnull().sum()

In [None]:
#verifica se há valores duplicados
clientes.duplicated().sum()

### Conhecendo a Distribuição dos Dados de Cada Variável/Campo

In [None]:
#Estatísticas descritivas das variáveis numéricas
clientes.describe()

In [None]:
# Tabela de Frequência da Variável "aprovacao_emprestimo" - Nosso Target ou Y ou Variável a ser Predita (o que a gente quer descobrir)
clientes.aprovacao_emprestimo.value_counts()

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas (o campo entre barras pode ser qualquer coluna do dataframe)
sns.countplot(clientes['aprovacao_emprestimo'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['historico_credito'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['educacao'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['sexo'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['imovel'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['educacao'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['dependentes'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['estado_civil'])

In [None]:
#Criando Gráfico de Barras para variáveis Categóricas
sns.countplot(clientes['empregado'])

In [None]:
#Criando Gráfico de Distribuição para variáveis contínuas
sns.histplot(clientes['renda'], bins=50, kde=True)

In [None]:
#Distribuição dos dados BOXPLOT (traço verde é a mediana)
clientes.boxplot(column='emprestimo', vert=False )

In [None]:
#Criando Gráfico de Distribuição para variáveis contínuas
sns.histplot(clientes['emprestimo'], bins=50, kde=True)

In [None]:
# Correlação entre as Variáveis
sns.scatterplot(data=clientes, x="emprestimo", y="renda", hue='aprovacao_emprestimo')

In [None]:
# Criação do Gráfico de dispersão (scatter) conhecido como pairplot
sns.pairplot(clientes, hue='aprovacao_emprestimo') # kind=reg é a reta de regressão

# 3° Pré-Processamento dos Dados

In [None]:
#Substituindo caracteres por números
clientes['sexo']= clientes['sexo'].map({'Male':0, 'Female':1})
clientes['estado_civil']= clientes['estado_civil'].map({'No':0, 'Yes':1})
clientes['aprovacao_emprestimo']= clientes['aprovacao_emprestimo'].map({'N':0, 'Y':1})

In [None]:
# Eliminando valores Nulos
clientes = clientes.dropna()
clientes.isnull().sum()

In [None]:
# Separando variáveis Explicativas(X) e Variável TARGET(Y)
X = clientes[['sexo', 'estado_civil', 'renda', 'emprestimo', 'historico_credito']]
y = clientes.aprovacao_emprestimo
X.shape, y.shape

In [None]:
# importando Pacote para Amostragem dos Dados
from sklearn.model_selection import train_test_split

In [None]:
# Realizando Amostragem dosa Dados (20% dos dados serão para teste)
x_train, x_teste, y_train, y_teste = train_test_split(X,y, test_size = 0.2, random_state = 7)

In [None]:
x_train

In [None]:
y_train

### 1° Versão da Máquina Preditiva: Criando um **baseline**

Aqui nós vamos criar a primeira versão da Máquina Preditiva. Depois, vamos buscar formas de melhorar a assertividade do modelo.

In [None]:
#Importando Pacotes para Construção das Máquinas Preditivas com Machine Learning

## Algoritmo Random Forest
from sklearn.ensemble import RandomForestClassifier 

In [None]:
# Criando a Máquina Preditiva com o Random Forest
maquina = RandomForestClassifier() 
maquina.fit(x_train, y_train)

## Avaliando a máquina preditiva

In [None]:
#Importando a Métrica de Avaliação
from sklearn.metrics import accuracy_score

In [None]:
#Avaliando a Acurácia da Máquina Preditiva Baseline com os dados de Treino
pred_maquina = maquina.predict(x_train)
accuracy_score(y_train,pred_maquina)

In [None]:
#Avaliando a Acurácia da Máquina Preditiva Baseline com dados de Teste
pred_maquina = maquina.predict(x_teste)
accuracy_score(y_teste,pred_maquina)

### 2° Versão da Máquina Preditiva: Batendo o Baseline

#### Tunando (calibrando) **Hiperparâmetros** do Algoritmo

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

Vamos utilizar um hiperparâmetro do algoritimo RANDOM FOREST de nome "**max_depth**", cujo objetivo é exatamente combater problemas de "***Overfiting***".

### Usando o Hiperparâmetro "**max_depth**" para diminuir "overfiting"

In [None]:
# Criando a Máquina Preditiva com o Random Forest 
maquina = RandomForestClassifier(max_depth=4, random_state = 7) 
maquina.fit(x_train, y_train)

In [None]:
#Avaliando a Acurácia da Máquina Preditiva Baseline com os dados de Treino
pred_maquina_treino = maquina.predict(x_train)
accuracy_score(y_train,pred_maquina_treino)

In [None]:
#Avaliando a Acurácia da Máquina Preditiva Baseline com dados de Teste
pred_maquina_teste = maquina.predict(x_teste)
accuracy_score(y_teste,pred_maquina_teste)

### Verificando as Variáveis mais importantes

In [None]:
#Importancia das Variáveis
maquina.feature_importances_

In [None]:
#Importancia das Variáveis com Gráfico
print(maquina.feature_importances_)
# plot
from matplotlib import pyplot
pyplot.bar(range(len(maquina.feature_importances_)), maquina.feature_importances_)
pyplot.show()

In [None]:
#['sexo', 'estado_civil', 'renda', 'emprestimo', 'historico_credito']

## Podemos salvar nossa Máquina Preditiva para criarmos o Sistema na WEB

In [None]:
#Comando de Salvamento da Máquina Preditiva
import pickle 
pickle_out = open("maquina_preditiva.pkl", mode = "wb") 
pickle.dump(maquina, pickle_out) 
pickle_out.close()

## Instalação do Pacote para Conexão do nosso Sistema na WEB 

In [None]:
!pip install -q pyngrok

In [None]:
##2° Instalar o Pacote para Implementação do nosso Sistema na WEB

#instalação dos Pacotes para Implementação do nosso Sistema na WEB
!pip install -q streamlit
!pip install -q streamlit_ace

## 3° Criar o Sistema  

#Comando para Criar o Sistema no arquivo app.py (%%writefile)

In [None]:
%%writefile app.py

#Importando Pacotes 
import pickle
import streamlit as st
 
# Carregando a Máquina Preditiva
pickle_in = open('maquina_preditiva.pkl', 'rb') 
maquina_preditiva = pickle.load(pickle_in)

#Manter a sessão em cache 
@st.cache()
  
# Criando a função que irá fazer a predição usando os dados impostados pelo usuário do Sistema 
def prediction(sexo, estado_civil, renda, emprestimo, historico_credito):   
 
    # Pre-processando a entrada do Usuário    
    if sexo == "Masculino":
        sexo = 0
    else:
        sexo = 1
 
    if estado_civil == "Solteiro(a)":
        estado_civil = 0
    else:
        estado_civil = 1
 
    if historico_credito == "Débitos Pendentes":
        historico_credito = 0
    else:
        historico_credito = 1  
 
    emprestimo = emprestimo / 1000
 
    # Fazendo Predições
    prediction = maquina_preditiva.predict( 
        [[sexo, estado_civil, renda, emprestimo, historico_credito]])
     
    if prediction == 0:
        pred = 'Rejeitado'
    else:
        pred = 'Aprovado'
    return pred
      
# Essa função é para criação da webpage  
def main():  

    # Elementos da webpage
    # Nesse Ponto vc deve Personalizar o Sistema com sua Marca
    html_temp = """ 
    <div style ="background-color:salmon;padding:13px"> 
    <h1 style ="color:white;text-align:center;">DR. DANIEL ARAÚJO</h1> 
    <h2 style ="color:white;text-align:center;">Sistema Preditivo de Perfil - by BedaTech</h2> 
    </div> 
    """
      
    # Função do streamlit que faz o display da webpage
    st.markdown(html_temp, unsafe_allow_html = True) 
      
    # As linhas abaixo criam as caixas na qual o usuário vai entrar com dados da pessoa que quer o empréstimo para fazer a Predição
    sexo = st.selectbox('Sexo',("Masculino","Feminino"))
    estado_civil = st.selectbox('Estado Civil',("Solteiro(a)","Casado(a)")) 
    renda = st.number_input("Renda Mensal") 
    emprestimo = st.number_input("Valor Total do Empréstimo")
    historico_credito = st.selectbox('Histórico de Créditos',("Sem Débitos","Débitos Pendentes"))
    result =""
      
    #Quando o Usuário clicar no botão "Verificar" a Máquina Preditiva faz seu trabalho
    if st.button("Verificar"): 
        result = prediction(sexo, estado_civil, renda, emprestimo, historico_credito) 
        st.success('O empréstimo foi {}'.format(result))
        print(emprestimo)
     
    if __name__=='__main__': 
        main()

In [None]:
##4° Executar o Sistema

#Executa o sistema
!streamlit run app.py &>/dev/null&

In [None]:
##5° Criar a Conexão do nosso Sistema na WEB

# Importando a Biblioteca para Conexão do nosso Sistema na WEB 
from pyngrok import ngrok

In [None]:
##6° Publicar nosso Sistema numa URL

#Publica o sistema numa URL
public_url = ngrok.connect('8501')

In [None]:
##7° Abrir o Sistema via Link que contém a palavra ngrok.io

#URL do sistema
public_url