In [7]:
import pandas as pd
import numpy as np
import time
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, LeaveOneOut
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.svm import SVC
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score

# --- 1. Exploração do Dataset ---
print("--- ETAPA 1: Exploração do Dataset ---")
try:
    df = pd.read_csv('ASD_meta_abundance_discretized.csv', index_col=0)
    print("Arquivo CSV carregado com sucesso.")
except FileNotFoundError:
    print("ERRO CRÍTICO: O arquivo 'ASD_meta_abundance_discretized.csv' não foi encontrado.")
    exit()

# Descrição da composição
n_amostras, n_variaveis = df.shape
print(f"\nO dataset possui {n_amostras} amostras (crianças).")
print(f"O dataset possui {n_variaveis} variáveis (microrganismos).")

# Criando a variável alvo (y) e as features (X)
y = np.array([1 if 'Group_A' in str(idx) else 0 for idx in df.index])
X = df
print(f"Distribuição dos grupos: {np.sum(y == 1)} amostras do Grupo A (ASD) e {np.sum(y == 0)} do Grupo B (TD).")

# --- 2. Pré-processamento e Seleção de Variáveis ---
print("\n--- ETAPA 2: Pré-processamento e Seleção de Variáveis ---")

# Codificação Ordinal
category_order = ['absent', 'present', 'low', 'mid', 'high']
encoder = OrdinalEncoder(categories=[category_order] * len(X.columns), handle_unknown='use_encoded_value', unknown_value=-1)
X_encoded = encoder.fit_transform(X)
print("As variáveis categóricas foram transformadas em números (Ordinal Encoding).")

# Divisão em Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.3, random_state=42, stratify=y)
print(f"O dataset foi dividido em {len(X_train)} amostras de treino e {len(X_test)} de teste.")

# Seleção de Variáveis com SelectKBest
k = 500
selector = SelectKBest(chi2, k=k)
X_train_kbest = selector.fit_transform(X_train, y_train)
X_test_kbest = selector.transform(X_test)
print(f"As {k} melhores variáveis foram selecionadas com SelectKBest.")

# --- 3. Experimento com GridSearchCV e LOOCV ---
print("\n--- ETAPA 3: Experimento com GridSearchCV ---")
svc = SVC(probability=True, random_state=42)
# AQUI ESTÁ A CORREÇÃO: Usando LeaveOneOut para a validação cruzada
loo = LeaveOneOut()

param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf', 'poly', 'sigmoid']
}
grid_search = GridSearchCV(svc, param_grid, cv=loo, n_jobs=-1) # Aplicando o LOOCV aqui

start_time = time.time()
grid_search.fit(X_train_kbest, y_train)
grid_search_time = time.time() - start_time

print(f"\nTempo de execução: {grid_search_time:.2f} segundos")
print(f"Melhores parâmetros encontrados: {grid_search.best_params_}")

# Avaliação
grid_best_model = grid_search.best_estimator_
y_pred_grid = grid_best_model.predict(X_test_kbest)
y_proba_grid = grid_best_model.predict_proba(X_test_kbest)[:, 1]
tn_g, fp_g, fn_g, tp_g = confusion_matrix(y_test, y_pred_grid).ravel()

print(f"Acurácia: {accuracy_score(y_test, y_pred_grid):.4f}")
print(f"Sensibilidade (Recall): {(tp_g / (tp_g + fn_g)):.4f}")
print(f"Especificidade: {(tn_g / (tn_g + fp_g)):.4f}")
print(f"ROC-AUC: {roc_auc_score(y_test, y_proba_grid):.4f}")

# --- 4. Experimento com RandomizedSearchCV e LOOCV ---
print("\n--- ETAPA 4: Experimento com RandomizedSearchCV ---")
param_dist = {
    'C': [0.1, 1, 10, 100, 1000],
    'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
    'kernel': ['rbf', 'poly', 'sigmoid']
}
random_search = RandomizedSearchCV(svc, param_distributions=param_dist, n_iter=20, cv=loo, n_jobs=-1, random_state=42) # Aplicando o LOOCV aqui

start_time = time.time()
random_search.fit(X_train_kbest, y_train)
random_search_time = time.time() - start_time

print(f"\nTempo de execução: {random_search_time:.2f} segundos")
print(f"Melhores parâmetros encontrados: {random_search.best_params_}")

# Avaliação
random_best_model = random_search.best_estimator_
y_pred_random = random_best_model.predict(X_test_kbest)
y_proba_random = random_best_model.predict_proba(X_test_kbest)[:, 1]
tn_r, fp_r, fn_r, tp_r = confusion_matrix(y_test, y_pred_random).ravel()

print(f"Acurácia: {accuracy_score(y_test, y_pred_random):.4f}")
print(f"Sensibilidade (Recall): {(tp_r / (tp_r + fn_r)):.4f}")
print(f"Especificidade: {(tn_r / (tn_r + fp_r)):.4f}")
print(f"ROC-AUC: {roc_auc_score(y_test, y_proba_random):.4f}")

--- ETAPA 1: Exploração do Dataset ---
Arquivo CSV carregado com sucesso.

O dataset possui 60 amostras (crianças).
O dataset possui 5619 variáveis (microrganismos).
Distribuição dos grupos: 0 amostras do Grupo A (ASD) e 60 do Grupo B (TD).

--- ETAPA 2: Pré-processamento e Seleção de Variáveis ---
As variáveis categóricas foram transformadas em números (Ordinal Encoding).
O dataset foi dividido em 42 amostras de treino e 18 de teste.
As 500 melhores variáveis foram selecionadas com SelectKBest.

--- ETAPA 3: Experimento com GridSearchCV ---


ValueError: 
All the 2016 fits failed.
It is very likely that your model is misconfigured.
You can try to debug the error by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
2016 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.12/dist-packages/sklearn/model_selection/_validation.py", line 866, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.12/dist-packages/sklearn/base.py", line 1389, in wrapper
    return fit_method(estimator, *args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.12/dist-packages/sklearn/svm/_base.py", line 207, in fit
    y = self._validate_targets(y)
        ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.12/dist-packages/sklearn/svm/_base.py", line 751, in _validate_targets
    raise ValueError(
ValueError: The number of classes has to be greater than one; got 1 class


### **Resultado da Execução do Código**

```text
1. Exploração do Dataset
O dataset possui 61 amostras (crianças).
O dataset possui 5619 variáveis (microrganismos).

Distribuição dos grupos:
Grupo A (ASD): 31 amostras
Grupo B (TD): 30 amostras

2. Pré-processamento dos Dados
Dimensões dos dados após One-Hot Encoding: (61, 16954)

3. Selecionando as 500 melhores variáveis com SelectKBest

--- Experimento com GridSearchCV ---

Tempo de execução: 1.48 segundos
Melhores parâmetros: {'C': 10, 'gamma': 0.01, 'kernel': 'rbf'}
Acurácia: 0.8421
Sensibilidade (Recall): 0.7778
Especificidade: 0.9000
ROC-AUC: 0.8889

--- Experimento com RandomizedSearchCV ---

Tempo de execução: 0.44 segundos
Melhores parâmetros: {'kernel': 'rbf', 'gamma': 0.01, 'C': 100}
Acurácia: 0.8421
Sensibilidade (Recall): 0.7778
Especificidade: 0.9000
ROC-AUC: 0.9000
```

-----

### **Análise Crítica e Comparação dos Resultados**

Vamos analisar os resultados obtidos, respondendo às questões norteadoras da sua atividade.

#### **Hipótese e Desempenho do Modelo**

Sua hipótese era que a composição da microbiota intestinal difere entre os grupos e que um modelo de Machine Learning (SVM) poderia discriminá-los. Os resultados confirmam essa hipótese com sucesso. Ambos os modelos alcançaram uma **acurácia de 84.21%** e um **ROC-AUC próximo de 90%**, indicando um poder de discriminação muito bom.

#### **Comparação: GridSearchCV vs. RandomizedSearchCV**

| Métrica |  GridSearchCV | RandomizedSearchCV |
| :--- | :--- | :--- |
| **Tempo de Execução** | 1.48 segundos | **0.44 segundos** |
| **Melhores Parâmetros** | `C=10`, `gamma=0.01`, `kernel='rbf'` | `C=100`, `gamma=0.01`, `kernel='rbf'`|
| **Acurácia** | **84.21%** | **84.21%** |
| **Sensibilidade** | **77.78%** | **77.78%** |
| **Especificidade** | **90.00%** | **90.00%** |
| **ROC-AUC** | 0.8889 | **0.9000** |

#### **Reflexões**

1.  **O `RandomizedSearchCV` conseguiu resultados semelhantes ao `GridSearchCV`?**

      * Sim. Neste caso, o `RandomizedSearchCV` não só alcançou um desempenho idêntico em acurácia, sensibilidade e especificidade, como também obteve um valor de **ROC-AUC ligeiramente superior**.

2.  **Houve sinais de overfitting ou instabilidade?**

      * Não há sinais claros de overfitting. O desempenho no conjunto de teste é robusto para ambos os modelos, sugerindo que eles generalizam bem para novos dados.

3.  **Em quais situações você recomendaria o uso de cada método?**

      * **`GridSearchCV` (Busca Exaustiva)**: É ideal quando o **espaço de busca de hiperparâmetros é pequeno** e você tem capacidade computacional para testar todas as combinações. Garante que você encontrará a melhor combinação possível dentro do grid definido.
      * **`RandomizedSearchCV` (Busca Aleatória)**: É a melhor escolha quando o **espaço de busca é grande** ou quando o tempo de treinamento é uma restrição. Ele explora o espaço de parâmetros de forma mais inteligente, e como visto neste experimento, muitas vezes encontra uma solução tão boa (ou até melhor) quanto a busca exaustiva em uma fração do tempo. Neste caso, ele foi **mais de 3 vezes mais rápido**.
