In [15]:
# Importa a biblioteca pandas para manipulação de dados em formato de tabelas
import pandas as pd

# Carrega o arquivo CSV contendo os dados dos clientes
tabela = pd.read_csv("clientes.csv")
# Exibe informações sobre a estrutura da tabela, como tipos de dados e valores nulos
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  object 
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  object 
 13  divida_total              100000 non-null  fl

None

In [16]:
# Importa o LabelEncoder da biblioteca scikit-learn para codificação de variáveis categóricas
from sklearn.preprocessing import LabelEncoder

# Inicializa o codificador
codificador = LabelEncoder()
# Converte a coluna "profissao" de valores categóricos para valores numéricos
tabela["profissao"] = codificador.fit_transform(tabela["profissao"])
# Converte a coluna "mix_credito" de valores categóricos para valores numéricos
tabela["mix_credito"] = codificador.fit_transform(tabela["mix_credito"])
# Converte a coluna "comportamento_pagamento" de valores categóricos para valores numéricos
tabela["comportamento_pagamento"] = codificador.fit_transform(tabela["comportamento_pagamento"])
# Exibe as informações da tabela atualizada
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int64  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int64  
 13  divida_total              100000 non-null  fl

None

In [17]:
# Define as variáveis independentes (X) removendo colunas irrelevantes para o modelo
x = tabela.drop(columns=["score_credito", "id_cliente"])
# Define a variável dependente (y), que é o valor a ser previsto
y = tabela["score_credito"]

In [18]:
# Importa a função para dividir os dados em conjuntos de treino e teste
from sklearn.model_selection import train_test_split

# Divide os dados em conjuntos de treino (70%) e teste (30%)
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)

In [19]:
# Importa os modelos de aprendizado de máquina RandomForest e KNN
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# Inicializa o modelo Random Forest
modelo_arvoredecisao = RandomForestClassifier()
# Inicializa o modelo K-Nearest Neighbors
modelo_knn = KNeighborsClassifier()

# Treina o modelo Random Forest com os dados de treino
modelo_arvoredecisao.fit(x_treino, y_treino)
# Treina o modelo KNN com os dados de treino
modelo_knn.fit(x_treino, y_treino)

In [20]:
# Realiza previsões no conjunto de teste usando o modelo Random Forest
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
# Realiza previsões no conjunto de teste usando o modelo KNN
previsao_knn = modelo_knn.predict(x_teste)

# Importa a métrica de acurácia para avaliar os modelos
from sklearn.metrics import accuracy_score

# Calcula e exibe a acurácia do modelo Random Forest em porcentagem
accuracy_arvore = accuracy_score(y_teste, previsao_arvoredecisao) * 100
print(f"Acurácia do modelo Random Forest: {accuracy_arvore:.2f}%")

# Calcula e exibe a acurácia do modelo KNN em porcentagem
accuracy_knn = accuracy_score(y_teste, previsao_knn) * 100
print(f"Acurácia do modelo KNN: {accuracy_knn:.2f}%")

Acurácia do modelo Random Forest: 82.61%
Acurácia do modelo KNN: 74.08%


In [21]:
# Carrega o arquivo CSV contendo dados de novos clientes
tabela_novos_clientes = pd.read_csv("novos_clientes.csv")
# Exibe os dados dos novos clientes
display(tabela_novos_clientes)

# Codifica as variáveis categóricas dos novos clientes usando o mesmo LabelEncoder
tabela_novos_clientes["profissao"] = codificador.fit_transform(tabela_novos_clientes["profissao"])
tabela_novos_clientes["mix_credito"] = codificador.fit_transform(tabela_novos_clientes["mix_credito"])
tabela_novos_clientes["comportamento_pagamento"] = codificador.fit_transform(tabela_novos_clientes["comportamento_pagamento"])

# Realiza previsões para os novos clientes usando o modelo Random Forest
previsoes = modelo_arvoredecisao.predict(tabela_novos_clientes)

# Exibe as previsões para os novos clientes
display(previsoes)

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,empresario,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,baixo_gasto_pagamento_baixo,312.487689,1,1,0,0,0
1,4,32.0,advogado,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,baixo_gasto_pagamento_medio,300.994163,0,0,0,0,1
2,2,48.0,empresario,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,baixo_gasto_pagamento_alto,345.081577,0,1,0,1,0


array(['Poor', 'Good', 'Standard'], dtype=object)