In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
import os
import joblib

def load_data(file_path):
    """Carga el dataset desde un archivo CSV."""
    df = pd.read_csv(file_path)
    return df

def preprocess_data(df):
    """Preprocesa los datos y extrae características."""
    # Definir la variable objetivo y las características
    X = df.drop(columns=['status'])  # Eliminar la columna objetivo del conjunto de características
    X = X.drop(columns=['url'])  # Eliminar la columna URL del archivo
    y = df['status']  # Variable objetivo

    # Dividir el dataset en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=19)

    # Normalizar los datos 
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)
    
    return scaler, X_train, X_test, y_train, y_test

def train_model(X_train, y_train):
    """Entrena el modelo de Redes Neuronales."""
    model = MLPClassifier(hidden_layer_sizes=(100,50),# 2 capas de neuronas 
                          max_iter=1000, 
                          learning_rate_init=0.001,
                          alpha=0.0001,
                          activation='relu', 
                          random_state=19)
    model.fit(X_train, y_train)
    return model

def evaluate_model(model, X_test, y_test):
    """Evalúa el modelo y muestra resultados."""
    y_pred = model.predict(X_test)
    
    puntaje = accuracy_score(y_test, y_pred)
    confusion = confusion_matrix(y_test, y_pred)
    reporte = classification_report(y_test, y_pred)

    print(f'Puntaje: {puntaje:.2f}')
    print('Matriz de Confusión:')
    print(confusion)
    print('Reporte de Clasificación:')
    print(reporte)

def save_model(model, filename):
    """Guarda el modelo entrenado en un archivo .pkl."""
    joblib.dump(model, filename)

if __name__ == "__main__":
    # Ruta al archivo CSV
    file_path = os.path.join('data_reducidaRN_21id(-1).csv')  # Cambia esto a la ruta correcta si es necesario
    
    # Cargar datos
    df = load_data(file_path)

    # Preprocesar datos
    scaler, X_train, X_test, y_train, y_test = preprocess_data(df)

    # Entrenar modelo
    model = train_model(X_train, y_train)

    # Evaluar modelo
    evaluate_model(model, X_test, y_test)

    # Guardar modelo en formato .pkl
    save_model(model, 'modelo21(-1)_redes_neuronales_19_033.pkl')
    
#Puntaje: 0.95
#Matriz de Confusión:
#[[ 56360  11047]
# [  3520 240430]]
#Reporte de Clasificación:
#              precision    recall  f1-score   support
#
#          -1       0.94      0.84      0.89     67407
#           1       0.96      0.99      0.97    243950
#
#    accuracy                           0.95    311357
#   macro avg       0.95      0.91      0.93    311357
#weighted avg       0.95      0.95      0.95    311357

#Puntaje: 0.96
#Matriz de Confusión:
#[[ 64142   7774]
# [  4621 239379]]
#Reporte de Clasificación:
#              precision    recall  f1-score   support
#
#          -1       0.93      0.89      0.91     71916
#           1       0.97      0.98      0.97    244000
#
#    accuracy                           0.96    315916
#   macro avg       0.95      0.94      0.94    315916
#weighted avg       0.96      0.96      0.96    315916



Puntaje: 0.96
Matriz de Confusión:
[[ 64142   7774]
 [  4621 239379]]
Reporte de Clasificación:
              precision    recall  f1-score   support

          -1       0.93      0.89      0.91     71916
           1       0.97      0.98      0.97    244000

    accuracy                           0.96    315916
   macro avg       0.95      0.94      0.94    315916
weighted avg       0.96      0.96      0.96    315916

