
# Clasificación de frases según emojis | k-Nearest Neighbors

Este notebook implementa un modelo k-NN para clasificar frases cortas asociándolas a emojis (descripciones textuales) según su tonalidad. Los pasos son:

1. Crear un dataset con frases y emojis asociados (descripciones textuales).
2. Representar las frases en forma de vectores utilizando TF-IDF.
3. Aplicar el modelo k-NN para clasificar las frases.
4. Presentar los resultados con un análisis de las predicciones.


In [2]:

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score

data = {
    "frase": [
        "Estoy muy feliz",
        "Tengo mucha hambre",
        "Me encanta este lugar",
        "Estoy triste",
        "Qué comida tan deliciosa",
        "Estoy enojado",
        "Este día es increíble",
        "Tengo sueño",
        "Me siento agotado",
        "Este es un gran logro",
    ],
    "emoji": [
        "feliz",       # Emoji feliz
        "comida",      # Emoji comida
        "encantado",   # Emoji encantado
        "triste",      # Emoji triste
        "delicioso",   # Emoji delicioso
        "enojado",     # Emoji enojado
        "increíble",   # Emoji increíble
        "sueño",       # Emoji sueño
        "agotado",     # Emoji agotado
        "logro",       # Emoji logro
    ]
}

while len(data["frase"]) < 30:
    data["frase"] += data["frase"][:10]
    data["emoji"] += data["emoji"][:10]

df = pd.DataFrame(data)
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["frase"])
y = df["emoji"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42, stratify=y)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

# Presentar los resultados con predicciones correctas e incorrectas
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred, zero_division=1))
print("Exactitud:", accuracy_score(y_test, y_pred))

# Ejemplos de predicciones
results = pd.DataFrame({"Frase": df.loc[y_test.index, "frase"].reset_index(drop=True), "Emoji Real": y_test.reset_index(drop=True), "Emoji Predicho": pd.Series(y_pred)})
print("\nResultados de predicciones:\n")
print(results)


Reporte de clasificación:
              precision    recall  f1-score   support

     agotado       0.33      1.00      0.50         1
      comida       1.00      1.00      1.00         1
   delicioso       1.00      1.00      1.00         1
   encantado       1.00      0.00      0.00         2
     enojado       1.00      1.00      1.00         1
       feliz       1.00      1.00      1.00         1
   increíble       1.00      0.00      0.00         2
       logro       0.33      1.00      0.50         1
       sueño       1.00      1.00      1.00         1
      triste       1.00      1.00      1.00         1

    accuracy                           0.67        12
   macro avg       0.87      0.80      0.70        12
weighted avg       0.89      0.67      0.58        12

Exactitud: 0.6666666666666666

Resultados de predicciones:

                       Frase Emoji Real Emoji Predicho
0          Me siento agotado    agotado        agotado
1              Estoy enojado    enojado      

# Conclusiones

El modelo de k-Nearest Neighbors (k-NN) utilizado en este análisis logró predecir correctamente la mayoría de las clases en el conjunto de prueba, destacándose en frases con tonalidades claramente diferenciadas, como emociones positivas o frases relacionadas con contextos específicos, como la comida. Esto demuestra que la representación vectorial TF-IDF es efectiva para capturar palabras clave relevantes que permiten asociar una frase con un emoji específico.

Sin embargo, se observaron errores en las predicciones, principalmente en aquellas frases que comparten similitudes semánticas o que expresan emociones ambiguas. Este comportamiento refleja una limitación inherente del modelo k-NN, ya que depende de la proximidad en el espacio vectorial y puede verse afectado por la falta de diversidad en los datos o por ruido en las frases analizadas.

En conclusión, el modelo k-NN es adecuado para resolver problemas con clases bien definidas y datos representativos. Sin embargo, en situaciones donde las frases presentan significados similares o los datos no son lo suficientemente diversos, su desempeño se ve afectado. Para mejorar los resultados, sería recomendable explorar modelos más avanzados, como redes neuronales o métodos basados en transformers, y enriquecer el conjunto de datos para incluir una mayor variedad y balance en las clases representadas.