# Clasificación de Texto con Machine Learning
Este notebook aplica un modelo de clasificación supervisado a una serie de comentarios de texto, utilizando técnicas de NLP y aprendizaje automático.

In [2]:
import pandas as pd
import os
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, classification_report


In [3]:
# Cargar los datos
os.chdir("C:/Users/NoxiePC/Desktop/ARCHIVOS/")
df = pd.read_csv("comentarios.csv")
# Mostrar primeras filas
df.head()


Unnamed: 0,orden,comentario,tipo
0,1,"No les creo nada ,",malo
1,2,Está bonita la camioneta,bueno
2,3,Quiero más información,info
3,4,:( igual el crédito ha de ser muuuucho,malo
4,5,"Quisiera, más información, pero nadie me respo...",info


In [4]:
# Eliminar columna innecesaria
df = df.drop(columns=["orden"])

# Renombrar columnas
df = df.rename(columns={"comentario": "texto", "tipo": "target"})

# Ver clases
print(df["target"].value_counts())


target
malo     270
bueno    222
info     108
Name: count, dtype: int64


In [5]:
# Separar variables
X = df["texto"]
y = df["target"]

# Vectorización con TF-IDF
vectorizer = TfidfVectorizer()
X_vect = vectorizer.fit_transform(X)


In [6]:
X_train, X_test, y_train, y_test = train_test_split(X_vect, y, test_size=0.2, random_state=42)


In [7]:
# Entrenamiento con Random Forest
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Predicción
y_pred = model.predict(X_test)


In [8]:
# Métricas de desempeño
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average="macro")
recall = recall_score(y_test, y_pred, average="macro")

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("\nReporte completo:\n", classification_report(y_test, y_pred))


Accuracy: 1.0
Precision: 1.0
Recall: 1.0

Reporte completo:
               precision    recall  f1-score   support

       bueno       1.00      1.00      1.00        44
        info       1.00      1.00      1.00        20
        malo       1.00      1.00      1.00        56

    accuracy                           1.00       120
   macro avg       1.00      1.00      1.00       120
weighted avg       1.00      1.00      1.00       120



### Conclusiones

- Se aplicó un modelo **Random Forest Classifier** para resolver un problema de clasificación de texto multiclase.
- Los textos fueron vectorizados con **TF-IDF**, lo que permitió representar los datos como vectores numéricos.
- El modelo logró un desempeño razonable midiendo métricas como **accuracy**, **precision** y **recall**.
- Las clases pueden estar desbalanceadas, lo que impacta en el recall de algunas.
- Se sugiere probar con otros modelos (como Naive Bayes o Regresión Logística Multiclase) y ajustar hiperparámetros para mejorar el rendimiento.
