In [10]:
import pickle
import numpy as np
import pandas as pd

from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

# Salvar um classificador já treinado

In [5]:
with open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/credit.pkl', 'rb') as f:
  X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pickle.load(f)

- `pickle`: Biblioteca Python para serialização e desserialização de objetos.
- `open(...) as f`: Abre o arquivo pickle em modo leitura binária (`'rb'`).
- `pickle.load(f)`: Carrega os dados contidos no arquivo pickle `f`.
- `X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste`: Variáveis que recebem os dados de treinamento e teste carregados do arquivo.

Certifique-se de ajustar o caminho do arquivo conforme necessário para o local onde o seu arquivo `credit.pkl` está armazenado.

In [8]:
# Concatenar os conjuntos de dados de crédito
X_credit = np.concatenate((X_credit_treinamento, X_credit_teste), axis = 0)
y_credit = np.concatenate((y_credit_treinamento, y_credit_teste), axis = 0)


- `np.concatenate(...)`: Função do NumPy para concatenar arrays ao longo de um eixo especificado (`axis=0` indica a concatenação ao longo das linhas).
- `X_credit_treinamento, X_credit_teste`: Arrays de features (características) para treinamento e teste do conjunto de dados de crédito.
- `y_credit_treinamento, y_credit_teste`: Arrays de labels (rótulos) para treinamento e teste do conjunto de dados de crédito.
- `X_credit, y_credit`: Arrays resultantes que contêm todas as features e labels, respectivamente, após a concatenação.

Esse processo é útil para consolidar dados de treinamento e teste em um único conjunto quando necessário para certos tipos de análises ou modelagem.

In [9]:
# verificar as dimensões dos arrays X_credit e y_credit
X_credit.shape, y_credit.shape

((2000, 3), (2000,))

retornará as dimensões dos arrays X_credit e y_credit, fornecendo o número de amostras (linhas) e características (colunas) para X_credit, e o número de amostras para y_credit.

In [11]:
# Criar o classificador de rede neural
classificador_rede_neural = MLPClassifier(activation='relu', batch_size=56, solver='adam')

# Treinar o classificador com os dados de crédito combinados
classificador_rede_neural.fit(X_credit, y_credit)



- `MLPClassifier`: Classe do scikit-learn que implementa uma rede neural multilayer perceptron para classificação.
- `activation='relu'`: Função de ativação ReLU (Rectified Linear Unit) para as camadas ocultas da rede neural.
- `batch_size=56`: Tamanho do lote utilizado durante o treinamento da rede neural.
- `solver='adam'`: Otimizador Adam, que é eficiente para otimização de redes neurais.
- `fit(X_credit, y_credit)`: Método para treinar o classificador com os dados `X_credit` (features) e `y_credit` (labels).

Certifique-se de ajustar os parâmetros `activation`, `batch_size`, e `solver` conforme necessário para otimizar o desempenho do seu modelo de rede neural.

In [12]:
# Criar o classificador de árvore de decisão
classificador_arvore = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, splitter='best')

# Treinar o classificador com os dados de crédito combinados
classificador_arvore.fit(X_credit, y_credit)

- `DecisionTreeClassifier`: Classe do scikit-learn que implementa árvores de decisão para classificação.
- `criterion='entropy'`: Critério para avaliar a qualidade da divisão dos nós da árvore, utilizando a entropia.
- `min_samples_leaf=1`: Número mínimo de amostras necessárias para ser um nó folha.
- `min_samples_split=5`: Número mínimo de amostras necessárias para dividir um nó interno.
- `splitter='best'`: Estratégia utilizada para escolher a divisão em cada nó ('best' escolhe a melhor divisão).

Ao ajustar esses parâmetros, você pode controlar a complexidade da árvore de decisão e evitar overfitting. O método `fit(X_credit, y_credit)` treina o classificador utilizando os dados de features `X_credit` e os rótulos `y_credit`.

In [13]:
# Criar o classificador SVM
classificador_svm = SVC(C=2.0, kernel='rbf', probability=True)

# Treinar o classificador com os dados de crédito combinados
classificador_svm.fit(X_credit, y_credit)


- `SVC`: Classe do scikit-learn que implementa uma Support Vector Machine para classificação.
- `C=2.0`: Parâmetro de regularização, controla o equilíbrio entre a margem de decisão e a classificação correta das amostras.
- `kernel='rbf'`: Kernel usado pelo SVM, neste caso o RBF (Radial Basis Function), que é comumente usado para dados não lineares.
- `probability=True`: Habilita o cálculo de probabilidades para as previsões, útil para algumas métricas de avaliação e métodos de ensamble.

Ao utilizar SVMs, é importante ajustar o parâmetro `C` para otimizar o trade-off entre a suavidade da margem e a precisão do modelo. O método `fit(X_credit, y_credit)` treina o classificador utilizando os dados de features `X_credit` e os rótulos `y_credit`.

In [14]:
# Salvar o classificador de rede neural
pickle.dump(classificador_rede_neural, open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/Classificadores_finalizados/rede_neural_finalizado.sav', 'wb'))

# Salvar o classificador de árvore de decisão
pickle.dump(classificador_arvore, open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/Classificadores_finalizados/arvore_finalizado.sav', 'wb'))

# Salvar o classificador SVM
pickle.dump(classificador_svm, open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/Classificadores_finalizados/svm_finalizado.sav', 'wb'))

- `pickle.dump(objeto, arquivo)`: Função do pickle que serializa o objeto (`objeto`) para o arquivo especificado (`arquivo`) em modo de escrita binária (`'wb'`).
- `classificador_rede_neural`, `classificador_arvore`, `classificador_svm`: São os objetos dos classificadores treinados que serão salvos.
- `'rede_neural_finalizado.sav'`, `'arvore_finalizado.sav'`, `'svm_finalizado.sav'`: São os nomes dos arquivos onde os classificadores serão salvos.

Após executar este código, os classificadores treinados estarão salvos em arquivos com extensão `.sav`, prontos para serem carregados e utilizados posteriormente em aplicações de classificação.

é esse o arquivo que é enviado para o desenvolvedor para a criação da interfase gráfica, etc..


# Carregar um classificador já treinado

In [17]:
# Carregar o classificador de rede neural
rede_neural = pickle.load(open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/Classificadores_finalizados/rede_neural_finalizado.sav', 'rb'))

# Carregar o classificador de árvore de decisão
arvore = pickle.load(open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/Classificadores_finalizados/arvore_finalizado.sav', 'rb'))

# Carregar o classificador SVM
svm = pickle.load(open('/content/drive/MyDrive/ML e Data Sciece com python/dataset/credit_risc/Classificadores_finalizados/svm_finalizado.sav', 'rb'))


pickle.load(open(caminho_arquivo, 'rb')): Função do pickle que desserializa o objeto a partir do arquivo especificado (caminho_arquivo) em modo de leitura binária ('rb').

In [19]:
# SIMULAR SE UM NOVO CLIENTE FOI NO BANCO E VAMOS GERAR UMA PREVISÃO
novo_registro = X_credit[1999]
novo_registro

array([-1.03572293, -0.93978122,  0.04244312])

Isso selecionará o registro de índice 1999 da matriz X_credit e armazenará em novo_registro.

In [22]:
#retornará a forma do novo registro, ou seja, o número de dimensões e o tamanho ao longo de cada dimensão.
novo_registro.shape

(3,)

Ao usar .reshape(1, -1) no array novo_registro, você está ajustando sua forma para que ele tenha uma linha e a mesma quantidade de colunas que tinha originalmente. Isso é útil quando você precisa passar um único exemplo de dado para modelos de aprendizado de máquina que esperam uma matriz bidimensional como entrada.

In [23]:
# Isso resultará na forma (1, n), onde n é o número total de elementos no registro original.
novo_registro = novo_registro.reshape(1, -1)
novo_registro.shape

(1, 3)

In [24]:
novo_registro

array([[-1.03572293, -0.93978122,  0.04244312]])

### Previsão de teste com Rede Neural, Arvore de decisão e SVM


Para fazer uma previsão usando o classificador de rede neural carregado (rede_neural) no novo registro (novo_registro), você pode usar o método .predict() do modelo treinado:

In [25]:
rede_neural.predict(novo_registro)

array([1])

In [26]:
arvore.predict(novo_registro)

array([1])

In [27]:
svm.predict(novo_registro)

array([1])

Em todos os casos é retornado a previsão feita pelo modelo de rede neural, arvore de decisão e SVM para o novo registro fornecido. No caso, está retornando 1 = MAU PAGADOR

## Ordem correta para as etapas de avaliação de algoritmos

1 - Base de treinamento
2 - base de teste
3 - algoritmo de aprendizagem de maquina
4 - classificador

* Underfitting ocorre quando o existe um problema e o algoritmo de Aprendizagem de maquina não consegue resolver, ou seja, de alguma forma o problema foi sub-estimado.
* Overfitting ocorre quando o algoritmo se adapta muito à base de dados, tendo desempenho bom no treinamento e desempenho ruim no teste
