Matrícula: 	564307\
Nível: 	MESTRADO\
Status: 	ATIVO\
E-Mail: 	danieloliveirafff@gmail.com\
Entrada: 	2024.1\
Orientador: 	JOAO PAULO DO VALE MADEIRO\
Área: 	CIÊNCIA DA COMPUTAÇÃO\
Linha de Pesquisa: 	TEORIA DA COMPUTAÇÃO

# Avaliação de Modelos de Classificação Binária

## Divisão dos Dados

Os dados foram divididos em 80% para treinamento e 20% para teste.

## Modelos Avaliados

### SVM com Kernel RBF

- **Objetivo**: Ajustar os hiperparâmetros `C` e `γ` usando Grid-Search.
- **Valores para C**: 2^(-5), 2^(-3), 2^(-1), ..., 2^(11), 2^(13), 2^(15)
- **Valores para γ**: 2^(-15), 2^(-13), 2^(-11), ..., 2^(1), 2^(2), 2^(3)

### Random Forest

- **Objetivo**: Ajustar o número de classificadores base e a máxima profundidade (`max_depth`) usando Grid-Search.
- **Valores para número de classificadores base**: 10, 20, ..., 180, 190, 200
- **Valores para máxima profundidade**: 4, 6, 8, 10 ou máxima (`None` no scikit-learn)

## Procedimento

1. **Grid-Search**:
   - Realizar Grid-Search para ambos os modelos com validação cruzada em 10 folds.

2. **Modelo Final**:
   - Retreinar o modelo final com os melhores hiperparâmetros usando tanto os dados de treino quanto os dados de validação.

3. **Avaliação dos Modelos**:
   - Reportar os hiperparâmetros selecionados.
   - Calcular e reportar as métricas de acurácia, revocação, precisão e F1-score nos dados de teste.
   - Plotar a Curva ROC e a Curva Precision-Recall.

## Resultados

### SVM com Kernel RBF

- **Melhores Hiperparâmetros**:
  - `C`: [valor ótimo encontrado]
  - `γ`: [valor ótimo encontrado]

- **Métricas no Conjunto de Teste**:
  - **Acurácia**: [valor]
  - **Revocação**: [valor]
  - **Precisão**: [valor]
  - **F1-score**: [valor]

- **Curva ROC**:
  - ![Curva ROC](caminho/para/imagem_roc.png)

- **Curva Precision-Recall**:
  - ![Curva Precision-Recall](caminho/para/imagem_precision_recall.png)

### Random Forest

- **Melhores Hiperparâmetros**:
  - **Número de Classificadores Base**: [valor ótimo encontrado]
  - **Máxima Profundidade**: [valor ótimo encontrado]

- **Métricas no Conjunto de Teste**:
  - **Acurácia**: [valor]
  - **Revocação**: [valor]
  - **Precisão**: [valor]
  - **F1-score**: [valor]

- **Curva ROC**:
  - ![Curva ROC](caminho/para/imagem_roc.png)

- **Curva Precision-Recall**:
  - ![Curva Precision-Recall](caminho/para/imagem_precision_recall.png)


# **BIBLIOTECAS**

In [None]:
# ==============================
# Bibliotecas
# ==============================

# ==============================
# 1. Tratamento e Manipulação de Dados
# ==============================
import numpy as np
import pandas as pd

# ==============================
# 2. Visualização de Dados
# ==============================
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_palette("Accent")
sns.set_style("darkgrid")
import plotly.express as px
import plotly.graph_objects as g

# ==============================
# 3. Modelos e Avaliação
# ==============================
# Modelos
from sklearn.ensemble import RandomForestClassifier  # Floresta Aleatória
from sklearn.svm import SVC                          # Máquina de Vetores de Suporte (SVM)

# Métricas
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.metrics import roc_curve, auc # curva roc
from sklearn.metrics import precision_recall_curve, average_precision_score # gera uma lista de resultados de recall e precisão

# ==============================
# 4. Pré-processamento de Dados
# ==============================
# Normalização e transformação dos dados
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Pipeline para organizar etapas de processamento
from sklearn.pipeline import Pipeline

# ==============================
# 5. Otimização de Hiperparâmetros
# ==============================
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV  # Busca em grade e busca aleatória

# ==============================
# 6. Validação Cruzada e Divisão dos Dados
# ==============================
from sklearn.model_selection import KFold

# ==============================
# 7. Calculos matemática e estatística
from scipy import stats
# ==============================


 Usarei essas 3 bibliotecas tanto para o SVM como para Random Forest

## Usarei o GridSearchCV
- para encontrar e otimizar os hiperparâmetros dos modelos fazendo e testando todas combinações possíveis e retornando os melhores resultados através de validação cruzada.

## Usarei o Pipeline
- para organizar em deiferentes etapas do processo de modelagem, como pré=processamento e treinamento do modelo em uma sequência.

## Usarei o RandomizedSearchCV
- para encontrar e otimizar os hiperparâmetros dos modelos, ele faz uma busca rápida ou seja ele não faz um após outro mais pula etapas de valores próximo evitando muito processamento de mémoria. explora um espaço maior de hiperparâmetros de maneira eficiente, testando um número aleatório de combinações.

Vou utilizar primeiro o RandomizedSearchCV para os hiperparâmetros depois o  GridSearchCV para escolher os parâmetros a quantidade de validação cruzada e os melhores resultados, irei fazer para os dois modelos.



In [None]:
# carregando os dados
# motando o google drive

#from google.colab import drive
#drive.mount('/content/drive')

#link = '/content/drive/MyDrive/UFC_mestrado/Sigaa_UFC/1_semestre/aprendizagem_automatica/lista_05_ama/dados/californiabin.csv'

link = '/content/californiabin.csv'

df = pd.read_csv(link, header=None)

dados = np.array(df)

# **TRATAMENTO DE DADOS**

In [None]:
# separando os dados de x e de y
# X = dados[:, :-1]  # As 8 primeiras colunas são os atributos
# y = dados[:, -1]  # A última coluna é a saída
# y = np.array(y).reshape(-1, 1)

np.random.seed(420) # para manter aleatoriedade

# Separar os atributos (X) e a saída (y)
X = dados[:, :-1]  # As 8 primeiras colunas são os atributos
y = dados[:, -1]   # A última coluna é a saída
y = np.array(y).reshape(-1, 1)



In [None]:
# Gerar um array de índices embaralhados
indices = np.random.permutation(len(X))

# Usar esses índices para embaralhar X e y de forma consistente
X_embaralhado = X[indices]
y_embaralhado = y[indices]


In [None]:
# limitando a quantidade de linha para treino, teste e validação do x_normalizado e y_binarios
# Dividir os dados em treino (80%),e teste (20%)

tamanho_treino = int(len(X_embaralhado) * 0.8)  # Treino (80%)
tamanho_teste = X_embaralhado.shape[0] - tamanho_treino # Teste (20%)


# # Dividir os dados em treino,  teste
xtreino = X_embaralhado[:tamanho_treino]
ytreino = y_embaralhado[:tamanho_treino].flatten() # convertando o y em unidimensional


xteste = X_embaralhado[tamanho_treino:]
yteste = y_embaralhado[tamanho_treino:].flatten() # convertando o y em unidimensional


# **GRÁFICOS E RELATÓRIOS**

In [None]:
def grafico_linha(titulo, categorias, valores, exibir=True):

    valores = pd.Series(valores)
    desvio_padrao = valores.std().round(2)
    media = valores.mean().round(2)
    mediana = valores.median().round(2)
    erro = valores.sem().round(2)  # Erro padrão médio

    # Definindo o nível de confiança (95% neste caso)
    confidence_level = 0.95
    graus_de_liberdade = len(valores) - 1

    t_critical = stats.t.ppf(q=(1 + confidence_level) / 2, df=graus_de_liberdade) # Calcular o valor crítico
    margin_of_error = t_critical * erro # Calcular a margem de erro
    confidence_interval = (media - margin_of_error).round(2), (media + margin_of_error).round(2) # Calcular o intervalo de confiança


    # Criando o gráfico de linhas com Plotly Express
    fig = px.line(x=categorias, y=valores, title=titulo, text=valores.round(2))
    fig.update_traces(mode='lines+markers+text', textposition='top center')

    # Personalizando o layout do gráfico com Plotly Graph Objects (opcional)
    fig.update_layout(
        xaxis_title='Categorias',
        yaxis_title='Valores',
        hovermode='x',
        template='plotly_white',  # Tema do gráfico (opcional)
        width=1300,  # Largura do gráfico
        height=400,  # Altura do gráfico
        margin=dict(l=20, r=260, t=35, b=20),  # Define as margens
        title_font=dict(size=20, color='black'),  # Estilo do título
        xaxis=dict(title=dict(font=dict(size=14, color='black')), tickfont=dict(color='black')),  # Estilo do eixo X
        yaxis=dict(title=dict(font=dict(size=14, color='black')), tickfont=dict(color='black'))   # Estilo do eixo Y
    )

    if exibir == True:
        # Adicionar texto ao lado do gráfico
        fig.add_annotation(
            text=f'<b>Resultados</b><br> Desvio Padrão: {desvio_padrao}<br> Média: {media}<br> Mediana: {mediana}\
                  <br> Erro padrão médio: {erro}<br> Margin de erro: {margin_of_error.round(3)}<br> Intervalo de confiança: {confidence_interval}',
            xref='paper',  # Posicionamento em relação ao papel (gráfico)
            yref='paper',  # Posicionamento em relação ao papel (gráfico)
            x=1.25,  # Posição horizontal do texto
            y=0.85,   # Posição vertical do texto
            showarrow=False,  # Não exibir seta
            font=dict(size=14, color='black'),  # Tamanho da fonte do texto
            bgcolor='lightblue',  # Cor de fundo azul claro
            borderwidth=1,  # Largura da borda
            align='left',  # Justifica o texto à esquerda

        )

    return fig.show()

In [None]:

def relatorio(dados):
    # Verifica se o dado é um DataFrame
    if not isinstance(dados, pd.DataFrame):
        raise ValueError("O dado não é um DataFrame.")

    # Definindo o estilo das células do cabeçalho e das células
    cabecalho = {
        'selector': 'th',
        'props': 'font-family: Helvetica; color: #dddd55; background-color: #34495E; text-align: center;'
    }

    celulas = {
        'selector': 'td',
        'props': 'font-family: Helvetica; color: white; background-color: #34495E; text-align: left;'
    }

    # Formatando os dados e aplicando os estilos
    estilo_01 = dados.style.format('{:.2f}')
    return estilo_01.set_table_styles([cabecalho, celulas])


In [None]:
# curva ROC
def curva_roc(fpr,tpr,acuracia):
   fig = px.area(
              x=fpr,  # Índice do DataFrame como eixo x
              y=tpr,  # Colunas do DataFrame como eixo y
              color_discrete_sequence=px.colors.qualitative.Dark24,  # Sequência de cores
              labels={'x': 'Índice', 'y': 'Valor'},  # Rótulos dos eixos
              title='<b>Curva ROC</b>',)


    # Adicionar a linha diagonal de referência
   fig.add_shape(
      type='line',
      x0=0,
      y0=0,
      x1=1,
      y1=1,
      line=dict(color='black', dash='dash'),)

       # Adicionar a linha da curva ROC
   fig.add_scatter(
        x=fpr,
        y=tpr,
        mode='lines',
        name=f'ROC curve (área = {acuracia:.2f})',  # Incluindo a AUC na legenda
        line=dict(color='darkorange', width=2)
    )

   # Atualizar o layout do gráfico
   fig.update_layout(
      xaxis_title='Taxa de Falso Positivo (FPR)<br>(ou 1 — Especificidade)',  # Título do eixo x
      yaxis_title='Taxa de Verdadeiros Positivos<br>(TPR) (ou Sensibilidade/Recall)',  # Título do eixo y
      legend_title= acuracia,  # Título da legenda
      margin=dict(l=50, r=200, t=50, b=20),  # Define as margens
      yaxis=dict(showgrid=True, zeroline=False),  # Exibir grade no eixo y
      width=900,  # Largura do gráfico
      height=500  # Altura do gráfico
      )

   # Mostrar o gráfico
   fig.show()

In [None]:
def curva_precision_recall(precisao, revocacao, acuracia):
    fig = px.area(
        x=revocacao,  # Valores da taxa de revocação
        y=precisao,   # Valores da precisão
        color_discrete_sequence=px.colors.qualitative.Dark24,  # Sequência de cores
        labels={'x': 'Revocação', 'y': 'Precisão'},  # Rótulos dos eixos
        title='<b>Curva Precision-Recall</b>'  # Título do gráfico
    )

    # Adicionar a linha da Curva Precision-Recall
    fig.add_scatter(
        x=revocacao,
        y=precisao,
        mode='lines',
        name=f'Precision-Recall curve (área = {acuracia:.2f})',  # Incluindo a AUC na legenda
        line=dict(color='darkorange', width=2)
    )

    # Atualizar o layout do gráfico
    fig.update_layout(
        xaxis_title='Revocação (Recall)',  # Título do eixo x
        yaxis_title='Precisão',  # Título do eixo y
        legend_title=f'{acuracia}',  # Título da legenda
        margin=dict(l=50, r=50, t=50, b=50),  # Definindo as margens
        yaxis=dict(showgrid=True, zeroline=False),  # Exibir grade no eixo y
        width=900,  # Largura do gráfico
        height=500  # Altura do gráfico
    )

    # Mostrar o gráfico
    fig.show()

# **TREINANDO O MODELO MÁQUINAS DE VETORES SUPORTE**

# **RandomizedSearchCV e Pipeline**

In [None]:
%%time
# Definir o pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVC(kernel='rbf'))  # Kernel RBF como solicitado
])

# Definir os valores de C e gamma
C_values = [2**i for i in range(-5, 16, 2)] # Valores de C: 2^(-5), 2^(-3), ..., 2^15
gamma_values = [2**i for i in range(-15, 4, 2)] # Valores de gamma: 2^(-15), ..., 2^3

# Parametros para RandomizedSearchCV
param_distributions = {
    'svm__C': C_values,
    'svm__gamma': gamma_values
}

# RandomizedSearchCV com 20 combinações
random_search = RandomizedSearchCV(pipeline, param_distributions,n_iter=20,  cv=5, scoring='accuracy', random_state=42)
random_search.fit(xtreino, ytreino)

# Melhores parâmetros encontrados pelo RandomizedSearchCV
best_params = random_search.best_params_
print("Melhores parâmetros encontrados pelo RandomizedSearchCV:", best_params)


Melhores parâmetros encontrados pelo RandomizedSearchCV: {'svm__gamma': 0.125, 'svm__C': 32}
CPU times: user 9.24 s, sys: 14 ms, total: 9.25 s
Wall time: 9.27 s


# **GridSearchCV e Pipeline**

In [None]:
%%time

# Definir o pipeline
pipeline = Pipeline([
     ('scaler', 'passthrough'),  # Placeholder para a escolha do scaler ou seja vai dizer qual melhor normalização
    ('svm', SVC())
])



# Definir a grade de parâmetros
param_grid = {
    'scaler': [StandardScaler(), MinMaxScaler()],  # Escolher o melhor scaler ou nenhum
    #'scaler': ['passthrough', StandardScaler(), MinMaxScaler()],  # Escolher o melhor scaler ou nenhum
    'svm__kernel': ['linear', 'rbf'],
    'svm__C': [best_params['svm__C'] * 0.5, best_params['svm__C'], best_params['svm__C'] * 2], # escolhendo três hipeparamtros proximos para comparar os resultados
    'svm__gamma': [best_params['svm__gamma'] * 0.5, best_params['svm__gamma'], best_params['svm__gamma'] * 2] # escolhendo três hipeparamtros proximos para comparar os resultados
    #'svm__C': [best_params['svm__C'], best_params['svm__C'] * 2],  # Reduzir o número de valores
    #'svm__gamma': [best_params['svm__gamma'], best_params['svm__gamma'] * 2]
}

# validações cruzadas em 10 folds
# Inicializando o GridSearchCV com a métrica F1-score
grid_search = GridSearchCV(pipeline, param_grid, cv=10, scoring=['accuracy','f1_macro'], refit='accuracy')

# Treinando o modelo
grid_search.fit(xtreino, ytreino)


# Obter os resultados completos
cv_results = pd.DataFrame(grid_search.cv_results_)


# Resultados
print("Melhores parâmetros: ", grid_search.best_params_)
print("Melhor Scaler:", grid_search.best_params_['scaler'])
print("Melhor C:", grid_search.best_params_['svm__C'])
print("Melhor Gamma:", grid_search.best_params_['svm__gamma'])
print("Melhor Acurácia:", grid_search.best_score_)


metrics = ['mean_test_accuracy', 'mean_test_f1_macro', 'std_test_accuracy', 'std_test_f1_macro']

# Exibir apenas essas colunas
# print(cv_results[metrics])

Melhores parâmetros:  {'scaler': StandardScaler(), 'svm__C': 16.0, 'svm__gamma': 0.25, 'svm__kernel': 'rbf'}
Melhor Scaler: StandardScaler()
Melhor C: 16.0
Melhor Gamma: 0.25
Melhor Acurácia: 0.8518749999999999
CPU times: user 31.8 s, sys: 12 ms, total: 31.8 s
Wall time: 31.8 s


In [None]:
relatorio(cv_results[metrics])

Unnamed: 0,mean_test_accuracy,mean_test_f1_macro,std_test_accuracy,std_test_f1_macro
0,0.83,0.83,0.03,0.03
1,0.85,0.85,0.02,0.02
2,0.83,0.83,0.03,0.03
3,0.85,0.85,0.03,0.03
4,0.83,0.83,0.03,0.03
5,0.85,0.85,0.02,0.02
6,0.83,0.83,0.03,0.03
7,0.85,0.85,0.03,0.03
8,0.83,0.83,0.03,0.03
9,0.85,0.85,0.02,0.02


In [None]:
grafico_linha(f'MÁQUINAS DE VETORES SUPORTE {cv_results[metrics]["mean_test_accuracy"].name}', pd.Series(cv_results[metrics]["mean_test_accuracy"]).index.tolist(), pd.Series(cv_results[metrics]['mean_test_accuracy']), exibir=True)

# **Aplicando os melhores resultados no modelo SVM**

In [None]:
# Utilizando o modelo com os melhores parâmetros e hipeparâmetros


normalizacao = lambda x : (x - np.mean(x, axis = 0)) / np.std(x, axis = 0) # normalização  StandardScaler()

# normalizando o x_treino
x_norm_treino = normalizacao(xtreino)

# normalizando o x_teste
x_norm_teste = normalizacao(xteste)


best_gamma =  grid_search.best_params_['svm__gamma']
best_C = grid_search.best_params_['svm__C']

# Instanciando o modelo SVM com kernel RBF e os hiperparâmetros ajustados
model = SVC(kernel='rbf', C= best_C, gamma=best_gamma, probability=True)

# Agora, você pode treinar o modelo com seus dados de treino
model.fit(x_norm_treino, ytreino)

# Prever os resultados nos dados de teste
y_pred = model.predict(x_norm_teste)

# ___________________________________________________________
# Para gerar a curva roc e a curva Precision-Recall

# Obter as probabilidades de previsão para o conjunto de teste
y_prob = model.predict_proba(x_norm_teste)


# Obter as verdadeiras classes e as probabilidades previstas
fpr, tpr, _ = roc_curve(yteste, y_prob[:, 1])
roc_auc = auc(fpr, tpr)

# Obter dados de probabilidades de precisão e a revocação
y_prob_prec_recall = model.predict_proba(x_norm_teste)[:, 1]  # Probabilidades da classe positiva


# Calcule a precisão e a revocação
precision_curv, revocacao_curv, _ = precision_recall_curve(yteste, y_prob_prec_recall)
pr_auc = average_precision_score(yteste, y_prob_prec_recall)

# ___________________________________________________________

# Avaliando o desempenho do modelo
accuracy = accuracy_score(yteste, y_pred)
recall = recall_score(yteste, y_pred)
f1 = f1_score(yteste, y_pred, average='macro')
precision = precision_score(yteste, y_pred)


colunas = ['accuracy','recall','f1_score','precision']
dados_metricas = [[accuracy, recall, f1, precision]]

df_metricas = pd.DataFrame(dados_metricas, columns=colunas)

relatorio(df_metricas)

Unnamed: 0,accuracy,recall,f1_score,precision
0,0.85,0.87,0.85,0.84


In [None]:
curva_roc(fpr,tpr,roc_auc)

In [None]:
curva_precision_recall(precision_curv, revocacao_curv, pr_auc)

# **TREINANDO O MODELO RANDOM FOREST**

# **RandomizedSearchCV e Pipeline**

In [None]:
%%time
# Definir o pipeline
# Definir o pipeline (se necessário, para incluir escalonamento)
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Escalonamento, opcional, pode ser removido se desnecessário
    ('rf', RandomForestClassifier(random_state=42))  # Random Forest
])

# Definir os valores de C e gamma
n_estimators =  list(range(10, 201, 10)) # Valores de n_estimators: 10, 20, ..., 200
max_depth =  [4, 6, 8, 10, None]  # Valores de max_depth: 4, 6, 8, 10, None

# Parametros para RandomizedSearchCV
param_distributions = {
    'rf__n_estimators': n_estimators,
    'rf__max_depth': max_depth
# }
}

# RandomizedSearchCV com 20 combinações
random_search = RandomizedSearchCV(pipeline, param_distributions,n_iter=20,  cv=5, scoring='accuracy', random_state=42,n_jobs=-1)
random_search.fit(xtreino, ytreino)

# Melhores parâmetros encontrados pelo RandomizedSearchCV
best_params = random_search.best_params_
print("Melhores parâmetros encontrados pelo RandomizedSearchCV:", best_params)

Melhores parâmetros encontrados pelo RandomizedSearchCV: {'rf__n_estimators': 170, 'rf__max_depth': 10}
CPU times: user 737 ms, sys: 82 ms, total: 819 ms
Wall time: 21.2 s


In [None]:
best_params['rf__n_estimators']
best_params['rf__max_depth']

10

# **GridSearchCV e Pipeline**

In [None]:
%%time

# Definir o pipeline
pipeline = Pipeline([
     ('scaler', 'passthrough'),  # Placeholder para a escolha do scaler ou seja vai dizer qual melhor normalização
    ('rf', RandomForestClassifier())
])



# Definir a grade de parâmetros
param_grid = {
    'scaler': [StandardScaler(), MinMaxScaler()],  # Escolher o melhor scaler ou nenhum
    #'scaler': ['passthrough', StandardScaler(), MinMaxScaler()],  # Escolher o melhor scaler ou nenhum
    #'rf__min_samples_split': [2, 5, 10],
    'rf__n_estimators': [max(1, int(best_params['rf__n_estimators'] - 10)),
                                int(best_params['rf__n_estimators']),
                                int(best_params['rf__n_estimators'] + 10)],  # Valores inteiros com diferença de 10
    'rf__max_depth': [max(1, int(best_params['rf__max_depth'] - 10)),
                             int(best_params['rf__max_depth']),
                             int(best_params['rf__max_depth'] + 10)]  # Valores inteiros com diferença de 10

}

# validações cruzadas em 10 folds
# Inicializando o GridSearchCV com a métrica F1-score
grid_search = GridSearchCV(pipeline, param_grid, cv=10, scoring=['accuracy','f1_macro'], refit='accuracy', n_jobs=-1)

# Treinando o modelo
grid_search.fit(xtreino, ytreino)


# Obter os resultados completos
cv_results = pd.DataFrame(grid_search.cv_results_)

# Resultados
print("Melhores parâmetros: ", grid_search.best_params_)
print("Melhor Scaler:", grid_search.best_params_['scaler'])
print("Melhor n_estimators:", grid_search.best_params_['rf__n_estimators'])
print("Melhor max_depth:", grid_search.best_params_['rf__max_depth'])
print("Melhor Acurácia:", grid_search.best_score_)

# Exibir as métricas de interesse
metrics = ['mean_test_accuracy', 'mean_test_f1_macro', 'std_test_accuracy', 'std_test_f1_macro']
#print(cv_results[metrics])

Melhores parâmetros:  {'rf__max_depth': 10, 'rf__n_estimators': 160, 'scaler': StandardScaler()}
Melhor Scaler: StandardScaler()
Melhor n_estimators: 160
Melhor max_depth: 10
Melhor Acurácia: 0.869375
CPU times: user 1.09 s, sys: 86.1 ms, total: 1.18 s
Wall time: 58 s


# **Aplicando os melhores resultados no modelo RANDOM FOREST**

In [None]:
# Utilizando o modelo com os melhores parâmetros e hipeparâmetros


normalizacao = lambda x : (x - np.mean(x, axis = 0)) / np.std(x, axis = 0) # normalização  StandardScaler()

# normalizando o x_treino
x_norm_treino = normalizacao(xtreino)

# normalizando o x_teste
x_norm_teste = normalizacao(xteste)

# Normalizar os dados de treino e teste
x_norm_treino = normalizacao(xtreino)
x_norm_teste = normalizacao(xteste)

# Melhor hiperparâmetro encontrados
n_estimators = grid_search.best_params_['rf__n_estimators']
max_depth = grid_search.best_params_['rf__max_depth']

# Instanciando o modelo RandomForestClassifier com os melhores hiperparâmetros
model = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth)

# Treinando o modelo
model.fit(x_norm_treino, ytreino)

# Fazendo previsões nos dados de teste
y_pred = model.predict(x_norm_teste)

# ___________________________________________________________
# Para gerar a curva roc e a curva Precision-Recall

# Obter as probabilidades de previsão para o conjunto de teste
y_prob = model.predict_proba(x_norm_teste)


# Obter as verdadeiras classes e as probabilidades previstas
fpr, tpr, _ = roc_curve(yteste, y_prob[:, 1])
roc_auc = auc(fpr, tpr)

# Obter dados de probabilidades de precisão e a revocação
y_prob_prec_recall = model.predict_proba(x_norm_teste)[:, 1]  # Probabilidades da classe positiva


# Calcule a precisão e a revocação
precision_curv, revocacao_curv, _ = precision_recall_curve(yteste, y_prob_prec_recall)
pr_auc = average_precision_score(yteste, y_prob_prec_recall)

# ___________________________________________________________


# Avaliando o desempenho do modelo
accuracy = accuracy_score(yteste, y_pred)
recall = recall_score(yteste, y_pred)
f1 = f1_score(yteste, y_pred, average='macro')
precision = precision_score(yteste, y_pred)


colunas = ['accuracy','recall','f1_score','precision']
dados_metricas = [[accuracy, recall, f1, precision]]

df_metricas = pd.DataFrame(dados_metricas, columns=colunas)

relatorio(df_metricas)

Unnamed: 0,accuracy,recall,f1_score,precision
0,0.88,0.87,0.87,0.88


In [None]:
grafico_linha(f'RANDOM FOREST {cv_results[metrics]["mean_test_accuracy"].name}', pd.Series(cv_results[metrics]["mean_test_accuracy"]).index.tolist(), pd.Series(cv_results[metrics]['mean_test_accuracy']), exibir=True)

In [None]:
relatorio(cv_results[metrics])

Unnamed: 0,mean_test_accuracy,mean_test_f1_macro,std_test_accuracy,std_test_f1_macro
0,0.76,0.75,0.03,0.03
1,0.76,0.76,0.03,0.03
2,0.75,0.75,0.03,0.03
3,0.75,0.75,0.03,0.03
4,0.76,0.76,0.04,0.04
5,0.75,0.75,0.03,0.03
6,0.87,0.87,0.02,0.02
7,0.86,0.86,0.02,0.02
8,0.86,0.86,0.03,0.03
9,0.86,0.86,0.02,0.02


In [None]:
curva_roc(fpr,tpr,roc_auc)

In [None]:
curva_precision_recall(precision_curv, revocacao_curv, pr_auc)