# Laborat√≥rio 1 - Machine Learning

In [None]:
import pandas as pd
import numpy as np

pd.set_option('display.max_rows', None, 'display.max_columns', None)

## Parte 1 - Pr√©-processamento

### 1. Carregar dataset

In [None]:
dataset = pd.read_csv('dataset/02-15-2018.csv')

In [None]:
dataset[:10]

In [None]:
colunas_iniciais = dataset.columns
print(f"{len(colunas_iniciais)} colunas")

In [None]:
colunas_iniciais

In [None]:
dataset["Label"].value_counts()

### 2. Redimensionamento da coluna Target

In [None]:
target_classes = dataset["Label"].value_counts().to_dict()
classes = target_classes.keys()

for target in target_classes:
        value = 0 if target == "Benign"else 1
        dataset.replace(to_replace=target, value=value, inplace=True)

In [None]:
dataset["Label"].value_counts()

### 3. Tratamento de dados ruidosos

In [None]:
# Deleta a coluna Timestamp
dataset.drop(columns=['Timestamp'], inplace=True)
columns = dataset.columns

In [None]:
# Substitui valores infinitos por NaN (not a number)
dataset.replace([np.inf, -np.inf], np.nan, inplace=True)

# Deleta todas as linhas que possuem algum valor NaN
dataset.dropna(inplace=True)

### 4. Convers√£o de tipos incorretos
Verificar ser h√° alguma coluna com o tipo incorreto, como uma coluna num√©rica com o tipo object/string

In [None]:
dataset.dtypes

### 5. Particionamento estratificado dos dados


In [None]:
from sklearn.model_selection import train_test_split

dataset_train, dataset_test = train_test_split(
        dataset,
        train_size=0.2,
        test_size=0.05, 
        stratify=dataset['Label'], # Manter a propor√ß√£o de cada tipo nos dois datasets
        random_state=42 # Escolha aleat√≥ria que pode ser reproduzida posteriormente
    )

In [None]:
print(f"Dataset de treino: {len(dataset_train)} linhas")
print(f"Dataset de teste: {len(dataset_test)} linhas")

### 6. Demais etapas
Existem **outras etapas de pr√©-processamento** que devem ser aplicadas ao dataset, no entanto, **por motivos de tempo** iremos utilizar algumas fun√ß√µes de pr√©-processamento embutidas no pr√≥prio autoML **Pycaret**

Nesse sentido, as seguintes etapas ser√£o aplicadas pelo pr√≥prio **Pycaret**:
- Normaliza√ß√£o
- Remo√ß√£o de outlieers
- Sele√ß√£o de colunas

## Parte 2 - Treinamento

In [None]:
from pycaret.classification import setup, compare_models, pull, save_model, plot_model, predict_model
import pandas as pd


# Configura√ß√£o do ambiente do PyCaret
clf = setup(
    data=dataset_train,
    test_data=dataset_test,
    target='Label',
    
    # --- Pr√©-processamento desejado ---
    normalize=True,              # ativa normaliza√ß√£o
    normalize_method='minmax',   # m√©todo de normaliza√ß√£o min-max
    
    remove_outliers=False,        # Desativa remove_outliers por causa do grande consumo de RAM
    # remove_outliers=True,        # remove outliers
    # outliers_method='iforest',   # usa Isolation Forest
    
    pca=False,                    # Desativa PCA por causa do grande consumo de RAM
    # pca=True,                    # ativa PCA
    # pca_method='linear',         # PCA linear
    # pca_components=0.95,         # mant√©m 95% da vari√¢ncia (ajuste se quiser)
    
    # --- Desativar transforma√ß√µes autom√°ticas ---
    imputation_type=None,            # n√£o faz imputa√ß√£o
    categorical_features=None,       # n√£o faz encoding
    polynomial_features=False,
    low_variance_threshold=None,
    remove_multicollinearity=False,
    feature_selection=False,
    transformation=False,

    # --- Outras configura√ß√µes ---
    session_id=123,              # reprodutibilidade
    use_gpu=False,                # acelera se houver GPU dispon√≠vel
    html=False                   # evita renderiza√ß√£o interativa
)


In [None]:
['dt', ]

In [None]:
# Treina e compara modelos automaticamente
best_model = compare_models(include=['knn', 'dt','rf', 'lr', 'mlp'])

In [None]:
# Visualiza o ranking de modelos
results = pull()
results.to_csv('resultados_modelos.csv', index=False)
print(results)

In [None]:
results.to_pickle('output/resultados_modelos.pkl')


In [None]:
save_model(best_model, 'output/melhor_modelo')


## Parte 3 - Avalia√ß√£o

In [None]:
plot_model(best_model, plot='confusion_matrix')


## Parte 4 - Classifica√ß√£o

In [None]:
# üîπ Usa o melhor modelo encontrado para prever todo o dataset
predictions = predict_model(best_model, data=dataset)

In [None]:
# from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# # Gera a matriz
# cm = confusion_matrix(predictions['Label'], predictions['Label_predicted'])

# # Exibe a matriz com r√≥tulos
# disp = ConfusionMatrixDisplay(confusion_matrix=cm)
# disp.plot(cmap='Blues')
