In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import Pipeline
import joblib
from google.colab import drive

# Montar o Google Drive
drive.mount('/content/drive')

# Carregar o conjunto de dados
file_path = '/content/drive/MyDrive/Dataset Ransonware/ed0e3c43-8495-45d6-9fe1-c91f36b9c82b_desbalanceado.csv'
df = pd.read_csv(file_path, low_memory=False)

# Remover linhas com valores NaN
df.dropna(subset=[df.columns[0]], inplace=True)

# Separar características e rótulos
X = df.iloc[:, 2:]  # Características (todas as colunas, exceto as duas primeiras)
y = df.iloc[:, 1]   # Rótulo (segunda coluna)

# Verificar tipos de dados e garantir que são numéricos
X = X.select_dtypes(include=[float, int])
print(f"Número de amostras em X: {X.shape[0]}")
print(f"Número de amostras em y: {y.shape[0]}")

# Codificar a coluna de rótulo para números
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Salvar o LabelEncoder para uso posterior no Google Drive
label_encoder_path = '/content/drive/MyDrive/Modelos/label_encoder_decision_tree_desbalanceado.pkl'
joblib.dump(label_encoder, label_encoder_path)
print(f"Label encoder salvo em: {label_encoder_path}")

# Dividir o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Criar e treinar o modelo Decision Tree usando um pipeline
model_pipeline = Pipeline(steps=[
    ('classifier', DecisionTreeClassifier(random_state=42))
])

model_pipeline.fit(X_train, y_train)

# Avaliar a precisão do modelo
y_pred = model_pipeline.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

# Salvar o modelo treinado no Google Drive
model_path = '/content/drive/MyDrive/Modelos/decision_tree_model_desbalanceado.pkl'
joblib.dump(model_pipeline, model_path)
print(f"Modelo salvo em: {model_path}")

# Salvar o conjunto de teste em CSV com índice sequencial e rótulo verdadeiro
X_test_with_labels = X_test.copy()
X_test_with_labels['index'] = range(len(X_test_with_labels))  # Criar índice sequencial começando de 0
X_test_with_labels['true_label'] = label_encoder.inverse_transform(y_test)  # Adicionar os rótulos verdadeiros

# Salvar em CSV no Google Drive
csv_test_path = '/content/drive/MyDrive/Modelos/conjunto_teste_decision_tree_desbalanceado.csv'
X_test_with_labels.to_csv(csv_test_path, index=False)
print(f"Conjunto de teste salvo como: {csv_test_path}")
