# Cargar Librerías Necesarias
Importar las librerías requeridas como pandas, numpy, scikit-learn y cualquier otra librería necesaria.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report

# Descargar y Cargar Datos desde un CSV
Utilizar pandas para descargar un archivo CSV desde una URL y cargarlo en un DataFrame.

In [2]:
# Descargar datos desde una URL y cargarlos en un DataFrame
data_url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
data = pd.read_csv(data_url)
print("Datos cargados:")
print(data.head())

Datos cargados:
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


# Preprocesamiento de Datos
Realizar tareas de limpieza de datos, manejo de valores nulos, codificación de variables categóricas y escalado de características.

In [3]:
# Separar características y etiquetas
X = data.drop(columns=['species'])
y = data['species']

# Codificar etiquetas
encoder = OneHotEncoder()
y_encoded = encoder.fit_transform(y.values.reshape(-1, 1)).toarray()

# Escalar características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# División de Datos en Entrenamiento y Prueba
Dividir los datos en conjuntos de entrenamiento y prueba utilizando train_test_split de scikit-learn.

In [4]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_encoded, test_size=0.25, random_state=42)
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}")

Tamaño del conjunto de entrenamiento: (112, 4)
Tamaño del conjunto de prueba: (38, 4)


# Definir y Configurar el Pipeline
Crear un pipeline de scikit-learn que incluya pasos de preprocesamiento y el modelo (red neuronal o random forest).

In [5]:
# Configurar el pipeline con RandomForestClassifier
pipeline_rf = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(random_state=42))
])

# Configurar el pipeline con MLPClassifier
pipeline_mlp = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', MLPClassifier(random_state=42, max_iter=500))
])

# Entrenar el Modelo
Entrenar el modelo utilizando el pipeline con los datos de entrenamiento.

In [9]:
# Entrenar ambos modelos
pipeline_rf.fit(X_train, y_train)
pipeline_mlp.set_params(classifier__verbose=True).fit(X_train, y_train)

print("Entrenamiento completado para ambos modelos.")

Iteration 1, loss = 2.12641885
Iteration 2, loss = 2.10050551
Iteration 3, loss = 2.07494701
Iteration 4, loss = 2.04971960
Iteration 5, loss = 2.02488425
Iteration 6, loss = 2.00040726
Iteration 7, loss = 1.97631048
Iteration 8, loss = 1.95260356
Iteration 9, loss = 1.92926051
Iteration 10, loss = 1.90629619
Iteration 11, loss = 1.88371511
Iteration 12, loss = 1.86151084
Iteration 13, loss = 1.83966634
Iteration 14, loss = 1.81816375
Iteration 15, loss = 1.79699220
Iteration 16, loss = 1.77614879
Iteration 17, loss = 1.75565990
Iteration 18, loss = 1.73551116
Iteration 19, loss = 1.71570227
Iteration 20, loss = 1.69624614
Iteration 21, loss = 1.67711785
Iteration 22, loss = 1.65831241
Iteration 23, loss = 1.63984415
Iteration 24, loss = 1.62168047
Iteration 25, loss = 1.60383155
Iteration 26, loss = 1.58629099
Iteration 27, loss = 1.56905926
Iteration 28, loss = 1.55211703
Iteration 29, loss = 1.53547648
Iteration 30, loss = 1.51913977
Iteration 31, loss = 1.50307981
Iteration 32, los


Stochastic Optimizer: Maximum iterations (500) reached and the optimization hasn't converged yet.



# Evaluar el Modelo
Evaluar el rendimiento del modelo en los datos de prueba utilizando métricas como accuracy, precision, recall, etc.

In [10]:
# Evaluar ambos modelos
rf_preds = pipeline_rf.predict(X_test)
mlp_preds = pipeline_mlp.predict(X_test)

rf_accuracy = accuracy_score(y_test, rf_preds)
mlp_accuracy = accuracy_score(y_test, mlp_preds)

print(f"Random Forest Accuracy: {rf_accuracy:.2f}")
print(f"MLP Classifier Accuracy: {mlp_accuracy:.2f}")

Random Forest Accuracy: 1.00
MLP Classifier Accuracy: 1.00


# Visualizar Resultados
Graficar los resultados con Plotly para comparar el rendimiento de los modelos.

In [11]:
import plotly.graph_objects as go

# Crear gráfico de barras para comparar las precisiones
fig = go.Figure(data=[
    go.Bar(name='Random Forest', x=['Accuracy'], y=[rf_accuracy]),
    go.Bar(name='MLP Classifier', x=['Accuracy'], y=[mlp_accuracy])
])

# Actualizar diseño del gráfico
fig.update_layout(
    title='Comparación de Precisión entre Modelos',
    xaxis_title='Métrica',
    yaxis_title='Valor',
    barmode='group'
)

fig.show()

In [12]:
from sklearn.metrics import confusion_matrix
import plotly.figure_factory as ff

# Calcular matrices de confusión
rf_cm = confusion_matrix(y_test.argmax(axis=1), rf_preds.argmax(axis=1))
mlp_cm = confusion_matrix(y_test.argmax(axis=1), mlp_preds.argmax(axis=1))

# Crear gráficos de matrices de confusión
fig_rf = ff.create_annotated_heatmap(
    z=rf_cm,
    x=['Clase 0', 'Clase 1', 'Clase 2'],
    y=['Clase 0', 'Clase 1', 'Clase 2'],
    colorscale='Blues',
    showscale=True
)
fig_rf.update_layout(title='Matriz de Confusión - Random Forest')
fig_rf.show()

fig_mlp = ff.create_annotated_heatmap(
    z=mlp_cm,
    x=['Clase 0', 'Clase 1', 'Clase 2'],
    y=['Clase 0', 'Clase 1', 'Clase 2'],
    colorscale='Greens',
    showscale=True
)
fig_mlp.update_layout(title='Matriz de Confusión - MLP Classifier')
fig_mlp.show()