## Random Forest Parametros Iniciales


In [43]:
# Importar las librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report

# Leer el archivo CSV con los datos y eliminar filas vacías
df = pd.read_csv("Amazon_Unlocked_Mobile.csv")
df.dropna(inplace=True)

# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
df["Positividad"] = df["Rating"].map(lambda x: 1 if x >= 4 else 0)

# Convertir el texto de las reseñas a números 
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["Reviews"].astype(str))
y = df["Positividad"]

# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar un modelo de Random Forest con 100 árboles y profundidad máxima de 4(Parametros Iniciales)
rf = RandomForestClassifier(n_estimators=100, max_depth=4)
rf.fit(ent_X, ent_y)

# Imprimir resultados
print("Random Forest ")
print(classification_report(prueba_y, rf.predict(prueba_X)))


Random Forest 
              precision    recall  f1-score   support

           0       1.00      0.00      0.01     20835
           1       0.69      1.00      0.82     46031

    accuracy                           0.69     66866
   macro avg       0.84      0.50      0.41     66866
weighted avg       0.79      0.69      0.56     66866



El modelo entrenado con Random Forest fue evaluado con datos de prueba.
Se obtuvo una precisión del 69%.Sin embargo, los resultados muestran que el modelo solo identificó bien la clase positiva, con un f1-score de 0.82, pero casi no detectó la clase negativa, con un f1-score muy bajo de 0.01.Esto significa que el modelo está desequilibrado

## Random Forest Ajustes Manuales

In [None]:
# Leer el archivo CSV con los datos y eliminar filas vacías
df = pd.read_csv("Amazon_Unlocked_Mobile.csv")
df.dropna(inplace=True)

# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
df["Positividad"] = df["Rating"].map(lambda x: 1 if x >= 4 else 0)


# Convertir el texto de las reseñas a números 
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["Reviews"].astype(str))
y = df["Positividad"]


# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar un modelo de Random Forest con 200 árboles y profundidad máxima de 20 (Parametros Ajustados 1)
rf = RandomForestClassifier(n_estimators=200, max_depth=20)
rf.fit(ent_X, ent_y)

# Imprimir resultados
print("Random Forest Ajustado 1")
print(classification_report(prueba_y, rf.predict(prueba_X)))


Random Forest Ajustado 1
              precision    recall  f1-score   support

           0       0.96      0.47      0.63     20835
           1       0.80      0.99      0.89     46031

    accuracy                           0.83     66866
   macro avg       0.88      0.73      0.76     66866
weighted avg       0.85      0.83      0.81     66866



Luego de ajustar manualmente el número de árboles a 200 y la profundidad máxima  a 20, el modelo mejoró considerablemente.

En el modelo inicial, solo sabía predecir correctamente las opiniones positivas, ignorando casi por completo las negativas.

Con los nuevos parámetros, el modelo reconoce mucho mejor ambas clases:

La clase negativa pasó de un f1-score de 0.01 a 0.63.

La clase positiva subió ligeramente de 0.82 a 0.89.

La precisión general aumentó de 0.69 a 0.83.

In [None]:
# Leer el archivo CSV con los datos y eliminar filas vacías
df = pd.read_csv("Amazon_Unlocked_Mobile.csv")
df.dropna(inplace=True)

# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
df["Positividad"] = df["Rating"].map(lambda x: 1 if x >= 4 else 0)


# Convertir el texto de las reseñas a números
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["Reviews"].astype(str))
y = df["Positividad"]

# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar un modelo de Random Forest con 300 árboles y profundidad máxima de 30 (Parametros Ajustados 2)
rf = RandomForestClassifier(n_estimators=300, max_depth=30)
rf.fit(ent_X, ent_y)

# Imprimir resultados
print("Random Forest Ajustado 2 ")
print(classification_report(prueba_y, rf.predict(prueba_X)))


Random Forest Ajustado 2 
              precision    recall  f1-score   support

           0       0.96      0.65      0.77     20835
           1       0.86      0.99      0.92     46031

    accuracy                           0.88     66866
   macro avg       0.91      0.82      0.85     66866
weighted avg       0.89      0.88      0.87     66866



A medida que se aumento el número de árboles y la profundidad, el modelo fue aprendiendo mejor.

El modelo inicial no detectaba casi ninguna reseña negativa (clase 0).

El primer ajuste (200, 20) mejoró notablemente la detección de ambas clases.

El segundo ajuste (300, 30) ofreció un mejor desempeño, con una precisión total del 88% y un f1-score balanceado muy alto (0.85).

Esto indica que el modelo con esos parámetros es el que ofrece la mejor calidad de predicción hasta el momento.

In [None]:
# Leer el archivo CSV con los datos y eliminar filas vacías
df = pd.read_csv("Amazon_Unlocked_Mobile.csv")
df.dropna(inplace=True)


# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
df["Positividad"] = df["Rating"].map(lambda x: 1 if x >= 4 else 0)

# Convertir el texto de las reseñas a números
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["Reviews"].astype(str))
y = df["Positividad"]

# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)


# Crear y entrenar un modelo de Random Forest con 400 árboles y profundidad máxima de 40 (Parametros Ajustados 3)
rf = RandomForestClassifier(n_estimators=400, max_depth=40)
rf.fit(ent_X, ent_y)

# Imprimir resultados
print("Random Forest Ajustado 3")
print(classification_report(prueba_y, rf.predict(prueba_X)))

Random Forest Ajustado 3
              precision    recall  f1-score   support

           0       0.96      0.74      0.83     20835
           1       0.89      0.98      0.94     46031

    accuracy                           0.91     66866
   macro avg       0.92      0.86      0.88     66866
weighted avg       0.91      0.91      0.90     66866



Este modelo mejora ligeramente respecto al anterior. La clase 0 obtiene un recall de 0.74 y un f1-score de 0.83, mientras que la clase 1 sigue muy fuerte con un f1-score de 0.94. La accuracy sube a 0.91, y el f1-score macro a 0.88. Esto indica que el modelo está logrando un equilibrio bastante bueno entre ambas clases.

In [None]:
# Leer el archivo CSV con los datos y eliminar filas vacías
df = pd.read_csv("Amazon_Unlocked_Mobile.csv")
df.dropna(inplace=True)


# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
df["Positividad"] = df["Rating"].map(lambda x: 1 if x >= 4 else 0)

# Convertir el texto de las reseñas a números
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["Reviews"].astype(str))
y = df["Positividad"]
# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)


# Crear y entrenar un modelo de Random Forest con 500 árboles y profundidad máxima de 50 (Parametros Ajustados 4)
rf = RandomForestClassifier(n_estimators=500, max_depth=50)
rf.fit(ent_X, ent_y)
# Imprimir resultados
print("Random Forest Ajustado 4")
print(classification_report(prueba_y, rf.predict(prueba_X)))

Random Forest Ajustado 4
              precision    recall  f1-score   support

           0       0.96      0.79      0.87     20835
           1       0.91      0.98      0.95     46031

    accuracy                           0.92     66866
   macro avg       0.94      0.89      0.91     66866
weighted avg       0.93      0.92      0.92     66866



Este es el mejor modelo hasta ahora. Logra un recall de 0.79 y f1-score de 0.87 en la clase 0, y 0.95 en la clase 1. La accuracy es 0.92, y el f1-score macro alcanza 0.91. Esta combinación de precisión y equilibrio entre clases muestra que el modelo con más árboles y profundidad más alta tiene la mayor capacidad predictiva.

In [None]:
from sklearn.model_selection import GridSearchCV

# Leer el archivo CSV con los datos y eliminar filas vacías
df = pd.read_csv("Amazon_Unlocked_Mobile.csv")
df.dropna(inplace=True)
# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
df["Positividad"] = df["Rating"].map(lambda x: 1 if x >= 4 else 0)

# Convertir el texto de las reseñas a números
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(df["Reviews"].astype(str))
y = df["Positividad"]
# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir modelo base
rf = RandomForestClassifier(random_state=42, n_jobs=-1)

# Parámetros para probar 
param_grid = {
    "n_estimators": [100, 200, 300],
    "max_depth": [10, 20, 30],
    "class_weight": [None, "balanced"]
}

# GridSearchCV
grid = GridSearchCV(
    rf,
    param_grid,
    cv=3,
    scoring="f1_macro",  
    verbose=2,
    n_jobs=-1
)

# Entrenar búsqueda
grid.fit(ent_X, ent_y)

# Imprimir resultados
print(" Mejor combinación de hiperparámetros:", grid.best_params_)
print(" Reporte en prueba:")
print(classification_report(prueba_y, grid.best_estimator_.predict(prueba_X)))


Fitting 3 folds for each of 18 candidates, totalling 54 fits
[CV] END ..class_weight=None, max_depth=10, n_estimators=100; total time=  16.1s
[CV] END ..class_weight=None, max_depth=10, n_estimators=100; total time=  16.1s
[CV] END ..class_weight=None, max_depth=10, n_estimators=100; total time=  16.2s
[CV] END ..class_weight=None, max_depth=10, n_estimators=200; total time=  30.1s
[CV] END ..class_weight=None, max_depth=10, n_estimators=200; total time=  30.4s
[CV] END ..class_weight=None, max_depth=10, n_estimators=200; total time=  30.5s
[CV] END ..class_weight=None, max_depth=10, n_estimators=300; total time=  43.9s
[CV] END ..class_weight=None, max_depth=10, n_estimators=300; total time=  44.1s
[CV] END ..class_weight=None, max_depth=20, n_estimators=100; total time=  39.1s
[CV] END ..class_weight=None, max_depth=20, n_estimators=100; total time=  40.1s
[CV] END ..class_weight=None, max_depth=10, n_estimators=300; total time=  41.8s
[CV] END ..class_weight=None, max_depth=20, n_es

En lugar de ajustar los hiperparámetros manualmente, ahora se aplicó GridSearchCV, una técnica de búsqueda exhaustiva que prueba todas las combinaciones posibles de los parámetros indicados. En este caso se probaron 18 combinaciones distintas de n_estimators, max_depth y class_weight. Esto dio como resultado 54 ejecuciones diferentes del modelo.
El modelo encontró que la mejor combinación fue n_estimators=300, max_depth=30 y class_weight=balanced. Este ajuste alcanzó una precisión del 90% y mejoró de manera equilibrada el desempeño para ambas clases (0.84 y 0.93). Comparado con el modelo ajustado manualmente con esos mismos parámetros (300, 30), GridSearch logró un rendimiento ligeramente superior, principalmente gracias a la inclusión del parámetro class_weight='balanced', que ayudó a compensar el desbalance entre clases. Por otra parte, si lo comparamos con el modelo manual más afinado (n_estimators=500, max_depth=50), que alcanzó una precisión del 92%, vemos que este último fue superior. Sin embargo, GridSearch no exploró combinaciones con árboles más profundos ni mayor cantidad de estimadores debido a limitaciones prácticas como el peso del dataset y el tiempo de cómputo elevado.



In [None]:

from sklearn.model_selection import train_test_split, RandomizedSearchCV

# Leer el archivo CSV con los datos y eliminar filas vacías
datos = pd.read_csv("Amazon_Unlocked_Mobile.csv")
datos.dropna(inplace=True)
# Crear una columna  binaria llamada "Positividad" donde:
# Las reseñas con puntuación >= 4 se marcan como 1 (positiva)
# Las demás como 0 (negativa)
datos["Positividad"] = datos["Rating"].apply(lambda x: 1 if x >= 4 else 0)

# Convertir el texto de las reseñas a números
vector = TfidfVectorizer(max_features=5000)
X = vector.fit_transform(datos["Reviews"].astype(str))
y = datos["Positividad"]

# Dividir los datos en entrenamiento (ent) y prueba (prueba)
ent_X, prueba_X, ent_y, prueba_y = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir modelo base
modelo = RandomForestClassifier(random_state=42, n_jobs=-1)

# Parámetros para probar aleatoriamente
parametros = {
    "n_estimators": [100, 200, 300, 400, 500],
    "max_depth": [10, 20, 30, 40,50, None],
    "class_weight": [None, "balanced"]
}

# Búsqueda aleatoria
busqueda = RandomizedSearchCV(
    modelo,
    param_distributions=parametros,
    n_iter=10,
    scoring='f1_macro',
    cv=3,
    verbose=2,
    n_jobs=-1,
    random_state=42
)

# Entrenar modelo
busqueda.fit(ent_X, ent_y)

# Evaluar mejor modelo
mejor_modelo = busqueda.best_estimator_
predicciones = mejor_modelo.predict(prueba_X)

# Imprimir resultados
print("Mejores parámetros encontrados:", busqueda.best_params_)
print(" Reporte de clasificación:")
print(classification_report(prueba_y, predicciones))


Fitting 3 folds for each of 10 candidates, totalling 30 fits
[CV] END ..class_weight=None, max_depth=10, n_estimators=100; total time=  15.6s
[CV] END ..class_weight=None, max_depth=10, n_estimators=100; total time=  15.9s
[CV] END ..class_weight=None, max_depth=10, n_estimators=100; total time=  16.1s
[CV] END ..class_weight=None, max_depth=20, n_estimators=100; total time=  41.5s
[CV] END ..class_weight=None, max_depth=20, n_estimators=100; total time=  41.5s
[CV] END ..class_weight=None, max_depth=20, n_estimators=100; total time=  41.8s
[CV] END class_weight=balanced, max_depth=20, n_estimators=200; total time= 3.6min
[CV] END class_weight=balanced, max_depth=20, n_estimators=200; total time= 3.6min
[CV] END class_weight=balanced, max_depth=20, n_estimators=200; total time= 3.7min
[CV] END class_weight=balanced, max_depth=40, n_estimators=100; total time= 7.4min
[CV] END class_weight=balanced, max_depth=40, n_estimators=100; total time= 7.5min
[CV] END class_weight=balanced, max_de

Este modelo utilizó una búsqueda aleatoria de hiperparámetros (RandomizedSearchCV) para encontrar una combinación óptima dentro de un rango más amplio de opciones, incluyendo hasta 500 árboles y profundidades de hasta 50. El mejor resultado obtenido fue con 300 árboles, profundidad indefinida (None) y class_weight='balanced', logrando una accuracy del 96%. Estos resultados superan tanto al GridSearch anterior como al mejor ajuste manual (500 árboles, profundidad 50). Esta mejora notable puede deberse a la exploración aleatoria en un espacio de búsqueda más amplio.

In [None]:


# Crear un DataFrame con los resultados de los diferentes modelos evaluados
resultados = pd.DataFrame({
    "Modelo": [
        "Inicial (100, 4)",
        "Ajustado 1 (200, 20)",
        "Ajustado 2 (300, 30)",
        "Ajustado 3 (400, 40)",
        "Ajustado 4 (500, 50)",
        "GridSearchCV (300, 30, balanced)",
        "RandomizedSearchCV (300, None, balanced)"
    ],
    "Accuracy": [0.69, 0.83, 0.88, 0.91, 0.92, 0.90, 0.96],
    "F1-score": [0.56, 0.81, 0.87, 0.90, 0.92, 0.90, 0.96],
    "Tiempo (min)": [0.175, 0.913, 2.587, 5.308, 8.717, 18.0, 80.0]
})

# Mostrar la tabla de resultados 
print("\nComparación de resultados entre modelos:\n")
print(resultados)




Comparación de resultados entre modelos:

                                     Modelo  Accuracy  F1-score  Tiempo (min)
0                          Inicial (100, 4)      0.69      0.56         0.175
1                      Ajustado 1 (200, 20)      0.83      0.81         0.913
2                      Ajustado 2 (300, 30)      0.88      0.87         2.587
3                      Ajustado 3 (400, 40)      0.91      0.90         5.308
4                      Ajustado 4 (500, 50)      0.92      0.92         8.717
5          GridSearchCV (300, 30, balanced)      0.90      0.90        18.000
6  RandomizedSearchCV (300, None, balanced)      0.96      0.96        80.000


In [None]:
import plotly.express as px
# Gráfico de barras para comparar la precisión (Accuracy) entre los modelos
# Este gráfico permite comparar qué tan preciso fue cada modelo al clasificar correctamente.
# Se puede observar la evolución del rendimiento conforme se ajustaron los parámetros manualmente
# y cómo se comportaron los modelos optimizados con GridSearch y RandomSearch.
fig_accuracy = px.bar(
    resultados, x="Modelo", y="Accuracy",
    title="Comparación de Precisión (Accuracy) por Modelo",
    text="Accuracy", color="Accuracy", color_continuous_scale="Blues"
)
fig_accuracy.update_layout(
    xaxis_title="Modelo",
    yaxis_title="Accuracy",
    title_x=0.5
)
fig_accuracy.update_traces(
    texttemplate='%{text:.2f}',
    textposition='outside'
)

La gráfica muestra una comparación de precisión (Accuracy) entre diferentes configuraciones de modelos. Se observa una mejora progresiva al ajustar manualmente los hiperparámetros, el modelo inicial con n_estimators=100 y max_depth=4 alcanza solo un 69% de precisión, mientras que los modelos ajustados manualmente incrementan este valor de forma sostenida, alcanzando un 92% en el ajuste 4 (n_estimators=500, max_depth=50). Por otro lado, el modelo optimizado mediante Grid Search obtiene una precisión de 90%, y el modelo con Randomized SearchCV supera a todos con una precisión del 96%, demostrando que la búsqueda automatizada de hiperparámetros puede ofrecer mejores resultados que el ajuste manual, aunque con un mayor costo computacional.

In [None]:
# Gráfico de barras para comparar el F1-score entre los modelos
# Este gráfico compara el F1-score de cada modelo.
# Ayuda a entender si el modelo está equilibrando bien precisión y recall, especialmente para clases minoritarias.
fig_f1 = px.bar(
    resultados, x="Modelo", y="F1-score",
    title="Comparación de F1-score por Modelo",
    text="F1-score", color="F1-score", color_continuous_scale="Greens"
)
fig_f1.update_layout(
    xaxis_title="Modelo",
    yaxis_title="F1-score",
    title_x=0.5
)
fig_f1.update_traces(
    texttemplate='%{text:.2f}',
    textposition='outside'
)

La gráfica presenta una comparación del F1-score. Se evidencia una mejora clara respecto al modelo inicial, que alcanza solo un 56% de F1-score, lo que indica un pobre equilibrio entre precisión y recall. A medida que se ajustan los hiperparámetros manualmente, el F1-score aumenta progresivamente.Los modelos optimizados con GridSearchCV y RandomizedSearchCV también muestran un excelente desempeño con F1-scores del 90% y 96% respectivamente. 

In [None]:
# Gráfico de barras para comparar el tiempo de entrenamiento de cada modelo
# Este gráfico muestra cuánto tardó en ejecutarse cada modelo.
# Es útil para contrastar el rendimiento frente al costo computacional, especialmente en modelos más pesados
fig_tiempo = px.bar(
    resultados, x="Modelo", y="Tiempo (min)",
    title="Comparación de Tiempos de Ejecución (minutos)",
    text="Tiempo (min)", color="Tiempo (min)", color_continuous_scale="Reds"
)
fig_tiempo.update_layout(
    xaxis_title="Modelo",
    yaxis_title="Tiempo (minutos)",
    title_x=0.5
)
fig_tiempo.update_traces(
    texttemplate='%{text:.2f}',
    textposition='outside'
)

Esta gráfica muestra la comparación del tiempo de ejecución en minutos requerido por cada modelo evaluado. Se puede observar que el modelo inicial (con 100 árboles y profundidad 4) es el más rápido, ejecutándose en tan solo 0.17 minutos. A medida que se incrementan los hiperparámetros manualmente, el tiempo también crece, el modelo ajustado 4 tarda alrededor de 8.7 minutos. Por otro lado, los métodos automáticos como GridSearchCV y RandomizedSearchCV requieren considerablemente más tiempo, con 18 y 80 minutos respectivamente. Por lo tanto, es fundamental evaluar la relación entre el rendimiento obtenido y el tiempo de ejecución, ya que un modelo más preciso podría no ser viable si el costo computacional es demasiado alto para el contexto del proyecto.








listo.