# Projeto Python IA: Inteligência Artificial e Previsões

### Previsão de Score de Crédito de Clientes

Este projeto tem como objetivo principal a construção e aplicação de um modelo de Machine Learning para prever o score de crédito de clientes. Através da análise de um conjunto de dados (clientes.csv), o modelo é treinado para classificar o score de crédito em três categorias: "Ruim", "Ok" ou "Bom", com base nas informações fornecidas por cada cliente.

### Configuração Inicial e Instalação de Bibliotecas

Esta seção é dedicada à preparação do ambiente, garantindo que todas as bibliotecas Python necessárias para a execução do projeto estejam instaladas. As bibliotecas pandas são essenciais para a manipulação e análise de dados, enquanto scikit-learn fornece as ferramentas para a construção e avaliação dos modelos de Machine Learning.

In [None]:
# instalando bibliotecas
#!pip install jupyter
#!pip install pandas scikit-learn

### Importação e Exploração Inicial dos Dados

Nesta etapa, a base de dados dos clientes (clientes.csv) é carregada para um DataFrame do pandas. Em seguida, é realizada uma exibição das primeiras linhas do DataFrame para uma visualização rápida da estrutura dos dados, permitindo entender as colunas disponíveis e o formato inicial das informações.

In [None]:
# Passo 1: Importar a base de dados
import pandas as pd
tabela = pd.read_csv("clientes.csv")
display(tabela)

### Pré-processamento e Estrutura dos Dados

Esta fase é crucial para preparar os dados para o treinamento do modelo de Machine Learning. Primeiramente, é exibido um resumo da estrutura dos dados (tabela.info()), que detalha os tipos de variáveis em cada coluna e a presença de valores nulos.

Em seguida, as colunas não numéricas ("profissao", "mix_credito", "comportamento_pagamento") são convertidas para um formato numérico utilizando o LabelEncoder da biblioteca sklearn.preprocessing. Esta conversão é fundamental, pois a maioria dos algoritmos de Machine Learning requer entradas numéricas. Após a transformação, um novo resumo da estrutura dos dados é exibido para confirmar que todas as colunas, exceto a variável alvo "score_credito", estão agora em formato numérico.

In [None]:
# Passo 2: Preparar a base para Inteligência Artificial
display(tabela.info())

# Necessário deixar todas as colunas com formato numérico, exceto a coluna 'score_credito' - utilizaremos LabelEncoder
from sklearn.preprocessing import LabelEncoder

# Comecando pela coluna Profissao
codificador_profissao = LabelEncoder()
tabela["profissao"] = codificador_profissao.fit_transform(tabela["profissao"])

# Coluna Mix_credito
codificador_credito = LabelEncoder()
tabela["mix_credito"] = codificador_credito.fit_transform(tabela["mix_credito"])

# Coluna Comportamento_pagamento
codificador_pagamento = LabelEncoder()
tabela["comportamento_pagamento"] = codificador_pagamento.fit_transform(tabela["comportamento_pagamento"])

display(tabela.info())

### Divisão dos Dados em Treinamento e Teste

Nesta etapa, a base de dados é dividida em conjuntos de treinamento e teste. A variável 'y' é definida como a coluna que se deseja prever ("score_credito"), enquanto 'x' compreende todas as outras colunas que serão usadas como características para a previsão, excluindo também a coluna "id_cliente" por não ser relevante para o treinamento do modelo.

A função train_test_split do sklearn.model_selection é utilizada para realizar essa divisão, reservando 30% dos dados para teste (test_size=0.3), o que permite avaliar a performance do modelo em dados que ele nunca viu durante o treinamento.

In [None]:
# Passo 3: Separar a base em duas
# Onde Y é a coluna que eu quero prever 'score_credito'
y = tabela["score_credito"]

# X será todas as demais colunas que utilizaremos para fazer a previsão
x = tabela.drop(columns=["score_credito","id_cliente"])

# Separando em dados de treino e dados de teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y,test_size=0.3)

### Treinamento dos Modelos de Inteligência Artificial

Aqui, dois modelos de classificação são instanciados: RandomForestClassifier (Árvore de Decisão) e KNeighborsClassifier (Vizinhos Próximos - KNN). Ambos os modelos são importados de sklearn.ensemble e sklearn.neighbors, respectivamente.

Em seguida, cada modelo é treinado utilizando os dados de treinamento (x_treino e y_treino). O processo de fit permite que os modelos aprendam os padrões e relacionamentos presentes nos dados, preparando-os para fazer previsões.

In [None]:
# Passo 4: Treinar a Inteligência Artificial

# Criando modelo
# Arvore de decisao - RandowForest
# Vizinhos proximos - Nearest Neighbors (KNN)

# Importar IA 
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# Criar IA
modelo_arvoredecisao = RandomForestClassifier()
modelo_vizinhosproximos = KNeighborsClassifier()

# Treinando IA
modelo_arvoredecisao.fit(x_treino,y_treino)
modelo_vizinhosproximos.fit(x_treino,y_treino)



### Avaliação e Escolha do Melhor Modelo

Nesta etapa, os modelos treinados são utilizados para fazer previsões nos dados de teste (x_teste). As previsões de ambos os modelos (previsao_arvoredecisao e previsao_vizinhosproximos) são então comparadas com os valores reais (y_teste) para calcular a acurácia.

A accuracy_score do sklearn.metrics é usada para determinar a proporção de previsões corretas. A exibição das acurácias permite identificar qual dos modelos performou melhor no conjunto de teste, indicando o modelo mais adequado para futuras previsões. Nesse contexto, o RandomForestClassifier obteve uma acurácia maior (0.8229) comparado ao KNeighborsClassifier (0.7368), sendo, portanto, o modelo escolhido para a próxima fase.

In [None]:
# Passo 5: Escolher o melhor modelo
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_vizinhosproximos = modelo_vizinhosproximos.predict(x_teste)

# Medindo accuracy
from sklearn.metrics import accuracy_score
display(accuracy_score(y_teste,previsao_arvoredecisao))
display(accuracy_score(y_teste,previsao_vizinhosproximos))

### Previsão para Novos Clientes

Finalmente, o modelo com melhor desempenho (modelo_arvoredecisao) é aplicado para prever o score de crédito de um novo conjunto de clientes, carregado do arquivo novos_clientes.csv.

Similar à etapa de pré-processamento dos dados de treinamento, as colunas categóricas ("profissao", "mix_credito", "comportamento_pagamento") na tabela de novos clientes são transformadas usando os mesmos LabelEncoders que foram fitados nos dados de treinamento. Isso garante consistência nas transformações.

Após o pré-processamento, o modelo realiza a previsão (nova_previsao), e o resultado é adicionado como uma nova coluna ("score_credito") na tabela de novos clientes, demonstrando a aplicação prática do modelo.

In [None]:
# Passo 6: Usar o melhor modelo para fazer a previsão de novos clientes
# Importar os novos clientes para fazer a previsão

tabela_novos_clientes = pd.read_csv("novos_clientes.csv")

# Necessario tratamento de dados LabelEncoder para utilização do modelo

# Comecando pela coluna Profissao
tabela_novos_clientes["profissao"] = codificador_profissao.fit_transform(tabela_novos_clientes["profissao"])

# Coluna Mix_credito
tabela_novos_clientes["mix_credito"] = codificador_credito.fit_transform(tabela_novos_clientes["mix_credito"])

# Coluna Comportamento_pagamento
tabela_novos_clientes["comportamento_pagamento"] = codificador_pagamento.fit_transform(tabela_novos_clientes["comportamento_pagamento"])

display(tabela_novos_clientes)

nova_previsao = modelo_arvoredecisao.predict(tabela_novos_clientes)
display(nova_previsao)

# Adicionando a coluna score_credito com o resultado da previsao do melhor modelo na tabela
tabela_novos_clientes["score_credito"] = nova_previsao

display(tabela_novos_clientes)
