# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

Arquivos da aula: https://drive.google.com/drive/folders/1FbDqVq4XLvU85VBlVIMJ73p9oOu6u2-J?usp=drive_link

In [None]:
# Passo 0: Entender o Desafio e a empresa


# pacotes de códigos = bibliotecas
# pip install pandas
# !pip install pandas
# !pip install scikit-learn


In [None]:
# Passo 1: Importar a base de dados
import pandas as pd
# from pandas import read_csv

tabela = pd.read_csv("clientes.csv") #dar nome tabela para database

display(tabela)

In [None]:
# Passo 2: Preparar a base de dados para a inteligência artificial
 
display(tabela.info())

# Dtype = tipo de dados

# int -> numeros
# float -> numero casa decimal
# object -> textos

# score de crédito

# good = bom
# standart = ok 
# poor = ruim

In [None]:
# passo 2.2
# profissao

# mecanico - 1
# professor - 2
# artista - 3
# advogado - 4
# medico - 5
# bombeiro - 6

# Label Encoder - transformar as profissões em números

# import sklearn as sk
from sklearn.preprocessing import LabelEncoder

# profissao
codificador = LabelEncoder() # codificador = sklearn.preprocessing.LabelEncoder()
tabela["profissao"] = codificador.fit_transform(tabela["profissao"])

# mix_credito
codificador2 = LabelEncoder()
tabela["mix_credito"] = codificador2.fit_transform(tabela["mix_credito"])

# comportamento_pagamento
codificador3 = LabelEncoder()
tabela["comportamento_pagamento"] = codificador3.fit_transform(tabela["comportamento_pagamento"])

display(tabela.info())

In [31]:

# passo 2.3
y = tabela["score_credito"] #y é quem eu quero prever

x = tabela.drop(columns=["score_credito", "id_cliente"]) #x é quem eu vou usar para prever, menos as colunas dropadas


# dividar dados da tabela em dados de treino80% e dados de testes20%

from sklearn.model_selection import train_test_split #divide de forma aleatoria os dados em dados de treino e testes, 80/20
# = train_test_split(x, y, test_size=0.2 #20%,)
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y)

In [None]:
# Passo 3: Criar um modelo d IA -> Nota/Score de crédito: Bom, OK, Ruim
# Arvore de Decisão -> RandomForest
# Vizinhos Próximos (Nearest Neighbors) -> KNM
# existem centenas de modelos 

# importa a inteligencia artificial (IA)
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# cria a IA
modelo_arvoredecisao = RandomForestClassifier() #parece uma ávore binária divide pelas resposta s/n das perguntas
modelo_knn = KNeighborsClassifier() #define o resultado com base no vizinho mais próximos se, vizinho bom, ele bom tbm

# após desligar o computador modelo precisará ser treinado novamente
# existem ferramentas em python que permite vc salvar a variavel modelo_arvoredecisao em um arquivo
# joblib | picket
# streamlit (ferramenta que consegue pegar variavel e disponibilizar em um mini aplicativo)


# treina a ia
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

In [None]:
# Passo 4: Avaliar qual o melhor modelo de IA 
# verificar se o resultado do teste da ia está igual ao resultado gabarito
# resultados = good | standart | poor

#faz previsões com base em novos dados
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

# acurácia (precisão de percentual de acertos)
from sklearn.metrics import accuracy_score #mede a acurácia de previsões corretas em relação ao total de relações


display(accuracy_score(y_teste, previsao_arvoredecisao)) #83% de acurácia (MELHOR MODELO)
display(accuracy_score(y_teste, previsao_knn)) #74% de acurácia

# a porcentagem pode variar pois tem vários pontos que são aleatórios então depende dos dados

# a porcentagem boa e ideal depende do objetivo de cada projeto
# se o resultado n for satisfatório eu posso:
# aumentar dados de treino ou porcentagem no test_size
# existe um método que consiste em fazer vários treinos diferentes com pedaços de dados diferentes e depois consolidar tudo
# testar parametros diferentes de cada modelo
# testar mais modelos de ia

In [None]:
# Passo 5: Fazer Novas previsões em uma nova tabela
# usando modelo vencedor


#importar nova tabela
tabela_novos_clientes = pd.read_csv("novos_clientes.csv")
display(tabela_novos_clientes)


#formatar a nova database de forma correta
tabela_novos_clientes["profissao"] = codificador.fit_transform(tabela_novos_clientes["profissao"])

tabela_novos_clientes["mix_credito"] = codificador2.fit_transform(tabela_novos_clientes["mix_credito"])

tabela_novos_clientes["comportamento_pagamento"] = codificador3.fit_transform(tabela_novos_clientes["comportamento_pagamento"])


#executar a previsão do score de crédito mesmo sem existir nessa nova database
previsao = modelo_arvoredecisao.predict(tabela_novos_clientes)
display(previsao)


#tabela_novos_clientes["score_credito"] = previsao #Causo desejasse colocar nova coluna na tabela nova
tabela = tabela_novos_clientes["score_credito"]