Passo a passo:
0. Entender o desafio e a impresa;
1. Importar a base de dados;
2. Preparar a base dados para a inteligência artificial;
    2.1 Separar as informações em dados de treino e dados de teste;
3. Criar um model de IA e identificar se o Score de crédito é ruim, médio ou bom;
4. Escolher o melhor modelo;
5. Usar o modelo em um cenário real

In [None]:
# 1. Importar a base de dados;
import pandas as pd # importa pandas como pd # pd será o nome utilizado para chamar pandas
tabela = pd.read_csv("clientes.csv")

# display(tabela) # mostra os dados da tabela
print(tabela.info()) # mostra informações sobre as colunas das tabelas

In [None]:
# 2. Preparar a base dados para a inteligência artificial;
""" algumas tabelas colunas em que seus valores são textos (object na tabela.info()). Estas precisam ser
modificadas para números: profissao, mix_credito, comportamento_pagamento. O score_credito não deve ser alterado
visto que este é que queremos calcular, saber como os outros valores se agrupam em torno deste grupo
"""
from sklearn.preprocessing import LabelEncoder # quando se utiliza a biblioteca scikit-learn escreve-se sklearn

codificador = LabelEncoder() # LabelEncoder -> transforma texto específico em número, tipo medico = 0. Todo medico agora é 0.
tabela["profissao"] = codificador.fit_transform(tabela["profissao"]) # coluna profissao de tabela recebe a transformação de texto para número que ocorrerá nesse mesmo espaço
tabela["mix_credito"] = codificador.fit_transform(tabela["mix_credito"])
tabela["comportamento_pagamento"] = codificador.fit_transform(tabela["comportamento_pagamento"])
print(tabela.info()) # os valores das colunas acima agora são int


In [None]:
#    2.1 Separar as informações em dados de treino e dados de teste;
""" quando uma IA precisa aprender sobre uma base de dados, é necessário fazer duas separações:
a primeria separação: isolar a coluna que você quer que a máquina faça predição. Nesse caso, o score_credito (y) as
outras colunas (y) serão para descobrir a previsão
observação: x e y são nome comuns quando realiza-se esse tipo de operação 
"""
y = tabela["score_credito"]
x = tabela.drop(["score_credito", "id_cliente"], axis = 1)# todas as colunas que não sejam score_credito(pq se aparecer não haverá predição) e id_cliente (não  é útil)
# axis = 1 -> coluna
# axis = 0 -> linha

""" segunda separação: um pedaço da base de dados irá compor o teste. A outra será o treino """
from sklearn.model_selection import train_test_split # ferramenta que sorteia quais linhas vão para treino (70%) e teste (30%)

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.3) # por meio de test_size podemos modificar o tamanho de dados que irão para teste e treino

In [None]:
# 3. Criar um model de IA e identificar se o Score de crédito é ruim, médio ou bom;
# modelo de árvore de decisão
from sklearn.ensemble import RandomForestClassifier
# modelo KNN (nearest neighbors)
from sklearn.neighbors import KNeighborsClassifier

modelo_arvoredecisao = RandomForestClassifier() # criação da inteligência artificial
modelo_knn = KNeighborsClassifier()

modelo_arvoredecisao.fit(x_treino, y_treino) # treinamento das IAs
modelo_knn.fit(x_treino, y_treino)

In [None]:
# 4. Escolher o melhor modelo;
# calcular a acurácia do modelo;
from sklearn.metrics import accuracy_score

previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste) # predict realiza a predição utilizando os valores de x_teste
previsao_knn = modelo_knn.predict(x_teste.to_numpy()) # os valores da tabela x precisam estar no formato do numpy para ser processada pelo knn 

print(accuracy_score(y_teste, previsao_arvoredecisao)) # é o melhor modelo
print(accuracy_score(y_teste, previsao_knn))

In [None]:
# 5. Usar o modelo em um cenário real
novos_clientes = pd.read_csv("novos_clientes.csv")
# print(novos_clientes.info()) # é necessário transforma as colunas de texto em número
novos_clientes["profissao"] = codificador.fit_transform(novos_clientes["profissao"]) # coluna profissao de tabela recebe a transformação de texto para número que ocorrerá nesse mesmo espaço
novos_clientes["mix_credito"] = codificador.fit_transform(novos_clientes["mix_credito"])
novos_clientes["comportamento_pagamento"] = codificador.fit_transform(novos_clientes["comportamento_pagamento"])
# print(novos_clientes.info()) # foi modificado
display(novos_clientes)

previsao = modelo_arvoredecisao.predict(novos_clientes)
print(previsao)


Em uma situação real, o primerio indíviduo apresenta maiores chances de obter um score de crédito ruim, enquanto os outros dois novos clientes apresentam um score de crédito bom.