In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Leer archivo CSV
url = 'https://raw.githubusercontent.com/ElvisMan2/clasificacion_activos_pi/main/activos_pi.csv'
df = pd.read_csv(url)

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(df["descripcion"], df["categoria"], test_size=0.3, random_state=42)

# Vectorización con TF-IDF
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Modelo Random Forest
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train_tfidf, y_train)

# Predicciones
y_pred = clf.predict(X_test_tfidf)

# Resultados
print("=== Reporte de Clasificación ===")
print(classification_report(y_test, y_pred))


=== Reporte de Clasificación ===
                   precision    recall  f1-score   support

 Derecho de Autor       1.00      0.75      0.86         8
Diseño Industrial       1.00      1.00      1.00         7
            Marca       1.00      1.00      1.00         9
          Patente       0.75      1.00      0.86         6

         accuracy                           0.93        30
        macro avg       0.94      0.94      0.93        30
     weighted avg       0.95      0.93      0.93        30



In [10]:
# Nueva descripción para probar
nueva_descripcion = ["Sistema que permite almacenar energía eléctrica generada por paneles solares"]

# Vectorizar y predecir
nueva_tfidf = vectorizer.transform(nueva_descripcion)
prediccion = clf.predict(nueva_tfidf)[0]

print("Descripción:", nueva_descripcion[0])
print("Predicción de categoría:", prediccion)

Descripción: Sistema que permite almacenar energía eléctrica generada por paneles solares
Predicción de categoría: Patente


In [12]:
# Nueva descripción para probar
nueva_descripcion = ["marca para productos de aseo personal para identificar el producto"]

# Vectorizar y predecir
nueva_tfidf = vectorizer.transform(nueva_descripcion)
prediccion = clf.predict(nueva_tfidf)[0]

print("Descripción:", nueva_descripcion[0])
print("Predicción de categoría:", prediccion)

Descripción: marca para productos de aseo personal para identificar el producto
Predicción de categoría: Marca


In [13]:
# Nueva descripción para probar
nueva_descripcion = ["un libro de un autor peruano que habla sobre la historia de la literatura peruana"]

# Vectorizar y predecir
nueva_tfidf = vectorizer.transform(nueva_descripcion)
prediccion = clf.predict(nueva_tfidf)[0]

print("Descripción:", nueva_descripcion[0])
print("Predicción de categoría:", prediccion)

Descripción: un libro de un autor peruano que habla sobre la historia de la literatura peruana
Predicción de categoría: Derecho de Autor
