In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sentence_transformers import SentenceTransformer

# Leer archivo CSV
url = 'https://raw.githubusercontent.com/ElvisMan2/clasificacion_activos_pi/main/activos_pi.csv'
df = pd.read_csv(url, encoding='latin1')

# Dividir en entrenamiento y prueba con estratificación
X_train, X_test, y_train, y_test = train_test_split(
    df["descripcion"], df["categoria"], test_size=0.3, random_state=42, stratify=df["categoria"]
)

# Vectorización con BERT multilingüe
model = SentenceTransformer('distiluse-base-multilingual-cased-v2')
X_train_vec = model.encode(X_train.tolist(), convert_to_tensor=False)
X_test_vec = model.encode(X_test.tolist(), convert_to_tensor=False)

# Clasificador Random Forest
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train_vec, y_train)

# Predicciones
y_pred = clf.predict(X_test_vec)

# Resultados
print("=== Reporte de Clasificación con BERT ===")
print(classification_report(y_test, y_pred))


=== Reporte de Clasificación ===
                    precision    recall  f1-score   support

  Derecho de autor       1.00      1.00      1.00       150
           Patente       1.00      1.00      1.00       150
Signos distintivos       1.00      1.00      1.00       150

          accuracy                           1.00       450
         macro avg       1.00      1.00      1.00       450
      weighted avg       1.00      1.00      1.00       450



In [30]:
# Nueva descripción para probar
nueva_descripcion = ["Esta obra musical sinfónica explora conceptos innovadores, integrando elementos culturales, tecnológicos y artísticos. Fue creada con el objetivo de provocar reflexión y ofrecer una experiencia única al público. Utiliza técnicas contemporáneas y un enfoque interdisciplinario para destacar su originalidad y aporte creativo al ámbito intelectual."]

# Vectorizar y predecir
nueva_tfidf = vectorizer.transform(nueva_descripcion)
prediccion = clf.predict(nueva_tfidf)[0]

print("Descripción:", nueva_descripcion[0])
print("Predicción de categoría:", prediccion)

Descripción: Esta obra musical sinfónica explora conceptos innovadores, integrando elementos culturales, tecnológicos y artísticos. Fue creada con el objetivo de provocar reflexión y ofrecer una experiencia única al público. Utiliza técnicas contemporáneas y un enfoque interdisciplinario para destacar su originalidad y aporte creativo al ámbito intelectual.
Predicción de categoría: Derecho de autor


In [31]:
# Nueva descripción para probar
nueva_descripcion = ["UN TANQUE AISLADO TERMICAMENTE EN EL CUAL VA INSTALADO UNA PLANCHA COLECTORA QUE RECIBE LUZ SOLAR VIA UNA COBERTURA DE VIDRIO APOYADA EN RESPALDOS; b) UNA TUBERIA DE INGRESO DE AGUA CON DISPOSITIVO ROMPEDOR DE PRESION, VALVULA DE CORTE Y UNA BOYA DE NIVEL; Y c) UNA TUBERIA DE DESCARGA DE AGUA CALIENTE CON TUBERIA DE SUCCION FLEXIBLE, FLOTADOR Y VALVULA DE REGULACION. LAS TUBERIAS INGRESAN A UNA BOMBA JET QUE DESCARGA AGUA TEMPERADA, Y SUCCIONA EL AGUA CALIENTE ATMOSFERICA DEL TANQUE Y LA PRESURIZA EMPLEANDO LA ENERGIA DEL AGUA FRIA PRESURIZADA. ADEMAS, LAS VALVULAS DE REGULACION DE AGUA FRIA Y CALIENTE PUEDEN SER MANIPULADAS DE MANERA QUE LA PERDIDA DE PRESION A TRAVES DE LAS MISMAS CREE VARIACIONES EN LOS FLUJOS DE AGUA CALIENTE Y AGUA FRIA POR TANTO SE AFECTE LA RAZON DE LA MEZCLA EN LA BOMBA JET, Y COMO CONSECUENCIA LA TEMPERATURA DE DESCARGA"]

# Vectorizar y predecir
nueva_tfidf = vectorizer.transform(nueva_descripcion)
prediccion = clf.predict(nueva_tfidf)[0]

print("Descripción:", nueva_descripcion[0])
print("Predicción de categoría:", prediccion)

Descripción: UN TANQUE AISLADO TERMICAMENTE EN EL CUAL VA INSTALADO UNA PLANCHA COLECTORA QUE RECIBE LUZ SOLAR VIA UNA COBERTURA DE VIDRIO APOYADA EN RESPALDOS; b) UNA TUBERIA DE INGRESO DE AGUA CON DISPOSITIVO ROMPEDOR DE PRESION, VALVULA DE CORTE Y UNA BOYA DE NIVEL; Y c) UNA TUBERIA DE DESCARGA DE AGUA CALIENTE CON TUBERIA DE SUCCION FLEXIBLE, FLOTADOR Y VALVULA DE REGULACION. LAS TUBERIAS INGRESAN A UNA BOMBA JET QUE DESCARGA AGUA TEMPERADA, Y SUCCIONA EL AGUA CALIENTE ATMOSFERICA DEL TANQUE Y LA PRESURIZA EMPLEANDO LA ENERGIA DEL AGUA FRIA PRESURIZADA. ADEMAS, LAS VALVULAS DE REGULACION DE AGUA FRIA Y CALIENTE PUEDEN SER MANIPULADAS DE MANERA QUE LA PERDIDA DE PRESION A TRAVES DE LAS MISMAS CREE VARIACIONES EN LOS FLUJOS DE AGUA CALIENTE Y AGUA FRIA POR TANTO SE AFECTE LA RAZON DE LA MEZCLA EN LA BOMBA JET, Y COMO CONSECUENCIA LA TEMPERATURA DE DESCARGA
Predicción de categoría: Patente


In [29]:
# Nueva descripción para probar
nueva_descripcion = ["logotipo para identificar un producto o servicio"]

# Vectorizar y predecir
nueva_tfidf = vectorizer.transform(nueva_descripcion)
prediccion = clf.predict(nueva_tfidf)[0]

print("Descripción:", nueva_descripcion[0])
print("Predicción de categoría:", prediccion)

Descripción: logotipo para identificar un producto o servicio
Predicción de categoría: Patente
