In [None]:
# PASSO A PASSO
# PASSO 0 - ENTENDER O DESAFIO DA EMPRESA
# PASSO 1 - IMPORTAR A BASE DE DADOS
# PASSO 2 - PREPARAR A BASE DE DADOS PARA A IA 
# PASSO 3 - CRIAR UM MODELO DE IA (SCORE DE CREDITO)
# PASSO 4 - ESCOLHER O MELHOR MODELO
# PASSO 5 - UTILIZAR A IA PARA REALIZAR AS PREVISÕES


In [None]:
# PASSO 1
import pandas
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

tabela = pandas.read_csv("clientes.csv")
display(tabela)

In [None]:
# PASSO 2 

# ANÁLISE PARA ENCONTRAR POSSÍVEIS ERROS
display(tabela.info())


In [None]:
# APÓS A ANÁLISE É POSSÍVEL NOTAMOS ALGUMAS COLUNAS COM O TIPO "object" QUE SERIA ALGO SEMELHANTE AO TIPO STRING
# COMO AS MÁQUINAS NÃO SÃO TREINADAS PARA TRABALHAR COM TEXTOS, APENAS COM NÚMEROS, DEVEMOS TRATAR ESSAS COLUNAS
# "profissao" ; "mix_credito" ; "corpotamento_pagamento"
# A COLUNA "score_credito" NÃO PRECISA SER ALTERADA INICIALMENTE, POIS É O RESULTADO QUE ALMEJAMOS
codificador = LabelEncoder()

tabela["profissao"] = codificador.fit_transform(tabela["profissao"])
tabela["mix_credito"] = codificador.fit_transform(tabela["mix_credito"])
tabela["comportamento_pagamento"] = codificador.fit_transform(tabela["comportamento_pagamento"])


# ANÁLISE APÓS AS ALTERAÇÕES PARA CONFERIR SE OS ERROS FORAM CORRIGIDOS
display(tabela.info())

In [None]:
# PASSO 3 / PASSO 4
# APRENDIZADO DE MÁQUINA
# A COLUNA Y É A COLUNA QUE EU QUERO PREVER
# AS COLUNAS X SÃO AS COLUNAS QUE IREI UTILIZAR PARA FAZER A PREVISÃO
y = tabela["score_credito"]
x = tabela.drop(columns=["id_cliente", "score_credito"])

# A SEGUINTE ORDEM DE VARIÁVEIS DEVE SER SEGUIDA
# O METODO "train_test_split" SERVE PARA DIVIDIR A BASE DE DADOS EM PARTES DE TREINO E TESTE
x_treino, x_test, y_treino, y_test = train_test_split(x, y, test_size=0.3)

# CRIAR AS IA's QUE FORAM IMPORTADAS DA BIBLIOTECA SKLEARN
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# TREINAR AS IA's
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

# TESTAR AS IA's
previsao_avoredecisao = modelo_arvoredecisao.predict(x_test)
previsao_knn = modelo_knn.predict(x_test.to_numpy())

# REALIZAR A COMPARAÇÃO ENTRE A PREVISÃO E O Y_TESTE, QUE SERIA O RESULTADO A SER ALMEJADO
print(accuracy_score(y_test, previsao_avoredecisao))
print(accuracy_score(y_test, previsao_knn))

# COMO A IA DA ARVORE DE DECISÃO SE MOSTROU MAIS CERTEIRA EM MEIO A COMPARAÇÃO, ELA SERÁ A UTILIZADA


In [None]:
# PASSO 5
# IMPORTAR NOVA BASE DE DADOS
tabela_nova = pandas.read_csv("novos_clientes.csv")
display(tabela_nova)
# ANALISAR NOVA BASE DE DADOS
display(tabela_nova.info())

# NOVAMENTE AS COLUNAS "profissao", "mix_credito", "comportamento_pagamento" ESTÃO EM FORMATOS DIFERENTES DO ESPERADO
tabela_nova["profissao"] = codificador.fit_transform(tabela_nova["profissao"])
tabela_nova["mix_credito"] = codificador.fit_transform(tabela_nova["mix_credito"])
tabela_nova["comportamento_pagamento"] = codificador.fit_transform(tabela_nova["comportamento_pagamento"])

# CONFIRMAR A ALTERAÇÃO DOS DADOS
display(tabela_nova)
display(tabela_nova.info())

In [None]:
# REALIZAR NOVAS PREVISÕES
previsoes = modelo_arvoredecisao.predict(tabela_nova)
print(previsoes)