In [None]:
import numpy as np
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download('omw-1.4')
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')

# Lee el archivo de Excel con dos columnas (texto y etiqueta)
df = pd.read_excel('Data.xlsx')

# Separa las columnas de datos y etiquetas
datos = df['Data'].tolist()
etiquetas = df['Etiqueta'].tolist()

# Preprocesamiento de datos
stop_words = set(stopwords.words('english'))
datos_procesados = []
lemmatizer = WordNetLemmatizer()
for texto in datos:
    if isinstance(texto, (int, np.integer, float, np.floating)):
        texto = str(texto)
    tokens = word_tokenize(texto.lower())
    tokens_filtrados = [token for token in tokens if token not in stop_words]
    tokens_lemmatized = [lemmatizer.lemmatize(token) for token in tokens_filtrados]
    datos_procesados.append(' '.join(tokens_lemmatized))

# Crea una nueva columna para los datos preprocesados
df['Columna_de_datos_procesados'] = datos_procesados

# Representación del texto con TF-IDF
stop_words = set(stopwords.words('english'))
vectorizer = TfidfVectorizer(stop_words=stop_words)
X = vectorizer.fit_transform(datos_procesados)

# Verifica la forma de la matriz de características
print(X.shape)

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Fankrit\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Fankrit\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Fankrit\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Fankrit\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [5]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from tqdm import tqdm

# Separa los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, etiquetas, test_size=0.2, random_state=42)

# Entrena un modelo de clasificación supervisado usando Regresión Logística
clf = LogisticRegression(random_state=42, max_iter=1000)

# Realiza el entrenamiento con una barra de progreso
for i in tqdm(range(10)):
    clf.fit(X_train, y_train)

# Realiza predicciones en el conjunto de prueba y calcula la precisión
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo: {:.2f}%".format(accuracy * 100))

100%|██████████| 10/10 [1:05:50<00:00, 395.04s/it]


Precisión del modelo: 25.95%


In [18]:
# Nueva respuesta
nueva_respuesta = "Instituto Tecnológico del Putumayo"

# Preprocesar la nueva respuesta
tokens = word_tokenize(nueva_respuesta.lower())
tokens_filtrados = [token for token in tokens if token not in stop_words]
tokens_lemmatized = [lemmatizer.lemmatize(token) for token in tokens_filtrados]
texto_procesado = ' '.join(tokens_lemmatized)

# Transformar la nueva respuesta en una representación vectorial
vector_nueva_respuesta = vectorizer.transform([texto_procesado])

# Hacer una predicción utilizando el modelo entrenado
prediccion = clf.predict(vector_nueva_respuesta)

# Imprimir la etiqueta predicha
print(prediccion)

['Higher Education']
