In [33]:
# 1 - criando uma engine para localizar o banco de dados
# iremos importar as bibliotecas para serem usadas

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://root:1234@localhost:3306/ia')

# comando para selecionar qual seria a tabela no banco de dados
# DF seria um variavel criada para receber os valores da tabela

df = pd.read_sql_query("SELECT * FROM clientes", engine)

# iremos ver as informações da tabela

print("Informações da tabela")

# podemos retirar as colunas com valores vazios ou formatos errado
# .dropna comando para excluir os valores vazios na tabela


print("Sem a coluna ID e Sexo:") 
df =  df.dropna()
print(df)


Informações da tabela
Sem a coluna ID e Sexo:
     id_cliente  mes  idade      profissao  salario_anual  num_contas  \
0          3392    1   23.0      cientista       19114.12         3.0   
1          3392    2   23.0      cientista       19114.12         3.0   
2          3392    3   23.0      cientista       19114.12         3.0   
3          3392    4   23.0      cientista       19114.12         3.0   
4          3392    5   23.0      cientista       19114.12         3.0   
..          ...  ...    ...            ...            ...         ...   
591       14412    8   42.0      cientista        9841.34         8.0   
592       27835    1   35.0  gerente_midia       72330.98         0.0   
593       27835    2   35.0  gerente_midia       72330.98         0.0   
594       27835    3   35.0  gerente_midia       72330.98         0.0   
595       27835    4   35.0  gerente_midia       72330.98         0.0   

     num_cartoes  juros_emprestimo  num_emprestimos  dias_atraso  ...  \
0   

In [34]:
# 2- iremos importar a biblioteca para podermos adequar alguns formatos

from sklearn.preprocessing import LabelEncoder

# vai transformar as colunas de texto em números, ex: profissoes vai sair de cientista, professor, mecanico, etc para 0, 1, 2, etc

codificador = LabelEncoder()

# só não aplicamos na coluna de score_credito que é o nosso objetivo
for coluna in df.columns:
    if df[coluna].dtype == "object" and coluna != "score_credito":
        df[coluna] = codificador.fit_transform(df[coluna])

# verificando se realmente todas as colunas foram modificadas
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 596 entries, 0 to 595
Data columns (total 25 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id_cliente                596 non-null    int64  
 1   mes                       596 non-null    int64  
 2   idade                     596 non-null    float64
 3   profissao                 596 non-null    int32  
 4   salario_anual             596 non-null    float64
 5   num_contas                596 non-null    float64
 6   num_cartoes               596 non-null    float64
 7   juros_emprestimo          596 non-null    float64
 8   num_emprestimos           596 non-null    float64
 9   dias_atraso               596 non-null    float64
 10  num_pagamentos_atrasados  596 non-null    float64
 11  num_verificacoes_credito  596 non-null    float64
 12  mix_credito               596 non-null    int32  
 13  divida_total              596 non-null    float64
 14  taxa_uso_c

In [35]:
# 3- escolhendo quais colunas vamos usar para treinar o modelo
# y é a coluna que queremos que o modelo calcule
# x vai todas as colunas que vamos usar para prever o score de credito
# não vamos usar a coluna id_cliente porque ela nao ajuda na previsao

x = df.drop(["score_credito", "id_cliente"], axis=1)
y = df["score_credito"]

from sklearn.model_selection import train_test_split

# separamos os dados em treino e teste. 
# Treino vamos dar para os modelos aprenderem 
# teste vamos usar para ver se o modelo aprendeu corretamente

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1) 

In [36]:
# 4- iremos usar dois modelos para ver qual se adapata melhor
# importando as bibliotecas

from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# modelos de classificação

modelo_arvore = RandomForestClassifier() # modelo arvore de decisao
modelo_knn = KNeighborsClassifier() # modelo do KNN (nearest neighbors - vizinhos mais proximos)

# treinando os modelos

modelo_arvore.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

In [37]:
# 5- Testando a precisão do nosso modelo caso ele chutasse tudo "Standard"

contagem_scores = df["score_credito"].value_counts()
print("A contagem seria: ")
print(contagem_scores['Standard'] / sum(contagem_scores))

# iremos fazer um comparação da precisao do dois modelos usados 

from sklearn.metrics import accuracy_score

# calculamos as previsoes

previsao_arvore = modelo_arvore.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste.to_numpy())

# comparamos as previsoes com o y_teste
# esse score queremos o maior (maior acuracia, mas tb tem que ser maior do que o chute de tudo Standard)

print("A precisao seria: ")
print(accuracy_score(y_teste, previsao_arvore))
print(accuracy_score(y_teste, previsao_knn))

A contagem seria: 
0.5335570469798657
A precisao seria: 
0.7597765363128491
0.7374301675977654




In [38]:
# 6- fazendo novas previsões com 2 clientes que foram adicionados a outro banco de dados
# importando o novo banco de dados

newengine = create_engine('mysql+pymysql://root:1234@localhost:3306/novocliente')
dfnovo = pd.read_sql_query("SELECT * FROM novos", newengine)

# só não aplicamos na coluna de score_credito que é o nosso objetivo

print("Esse seriam os novos clientes: ")
display(dfnovo)
for coluna in dfnovo.columns:
    if dfnovo[coluna].dtype == "object" and coluna != "score_credito":
        dfnovo[coluna] = codificador.fit_transform(dfnovo[coluna])

# vendo qual seria a previsao dos novos clientes

previsoes = modelo_arvore.predict(dfnovo)
print("A previsão dos novos clientes seria: ")
print(previsoes)

Esse seriam os novos clientes: 


Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,38204,31.0,empresario,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,baixo_gasto_pagamento_baixo,312.487689,1,1,0,0,0
1,4,32.0,advogado,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,baixo_gasto_pagamento_medio,300.994163,0,0,0,0,1


A previsão dos novos clientes seria: 
['Poor' 'Standard']


In [39]:
# 7- podemos ver a relevância das caracteristicas usadas para definir o score de credito

colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvore.feature_importances_)
importancia = importancia * 100
print(importancia)

                                  0
mes                        3.783470
idade                      2.750210
profissao                  3.320179
salario_anual              4.721740
num_contas                 4.677974
num_cartoes                3.351112
juros_emprestimo           7.322347
num_emprestimos            2.194748
dias_atraso                9.087723
num_pagamentos_atrasados   6.366464
num_verificacoes_credito   3.389834
mix_credito                7.756015
divida_total              10.639056
taxa_uso_credito           4.560594
idade_historico_credito    9.211309
investimento_mensal        3.358242
comportamento_pagamento    3.518928
saldo_final_mes            6.055126
emprestimo_carro           0.716978
emprestimo_casa            0.396590
emprestimo_pessoal         1.034031
emprestimo_credito         0.463050
emprestimo_estudantil      1.324279
