# Ejercicio 2: Clasificación de frases según emojis | K-Nearest Neighbors (KNN)

## Descripción:

Asigna un emoji a frases cortas basandote en la tonalidad del texto (por ejemplo, "Estoy feliz" -> 😃, "Estoy triste" -> 😢, "Estoy enojado" -> 😠).

### Pasos:

In [37]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import cross_val_score

- Crea un dataset con frases y emojis asociados (puedes extraer frases de redes sociales o
generarlas).

In [38]:
frases = [
    ("Hoy me siento increíble, como si todo estuviera bien", "😊"),
    ("Este día ha sido el mejor de todos", "😊"),
    ("La felicidad está en las pequeñas cosas", "😊"),
    ("Hoy me encontré con un viejo amigo, ¡qué alegría!", "😊"),
    ("No puedo dejar de sonreír, todo está marchando bien", "😊"),
    ("Estoy muy emocionado por el fin de semana", "😊"),
    ("Hoy, por fin, logré lo que tanto quería", "😊"),
    ("Todo salió como esperaba, estoy feliz", "😊"),
    ("Hoy recibí buenas noticias y estoy muy contento", "😊"),
    ("Me siento súper bien, como si nada pudiera detenerme", "😊"),

    ("Estoy muy triste hoy, no tengo ganas de nada", "😢"),
    ("Siento que las cosas no van bien y me deprimo", "😢"),
    ("Es uno de esos días grises, me siento solo/a", "😢"),
    ("Hoy todo salió mal, no puedo evitar estar triste", "😢"),
    ("No encuentro consuelo, me siento vacío/a", "😢"),
    ("La tristeza me invade, hoy fue un día muy difícil", "😢"),
    ("Mis ánimos están por los suelos, nada parece mejorar", "😢"),
    ("Me siento tan solo/a hoy, nada parece tener sentido", "😢"),
    ("Algunas veces todo me parece tan complicado, hoy estoy triste", "😢"),
    ("No me gusta sentirme así, pero hoy solo quiero estar triste", "😢"),

    ("¡Qué rico! Hoy comeré una pizza de queso", "🍕"),
    ("Tengo un hambre voraz, unas papas fritas serían geniales", "🍕"),
    ("Hoy cenaré una pizza gigante, ya me está dando antojo", "🍕"),
    ("A veces no hay nada mejor que una pizza para la cena", "🍕"),
    ("¿Alguien más tiene antojo de pizza? ¡Yo sí!", "🍕"),
    ("Unas buenas hamburguesas son lo que más necesito", "🍕"),
    ("Mi comida favorita: pizza con todo", "🍕"),
    ("Las pizzas siempre son una buena opción", "🍕"),
    ("Hoy me di un gusto con una gran pizza", "🍕"),
    ("A veces lo único que quiero es comida rápida y deliciosa", "🍕"),

    ("Estar con esa persona me llena de felicidad", "❤️"),
    ("Hoy me siento tan afortunado/a de tener a alguien tan especial", "❤️"),
    ("No puedo dejar de pensar en lo increíble que es estar con él/ella", "❤️"),
    ("Cada momento con esa persona hace mi día mejor", "❤️"),
    ("Nada me hace más feliz que estar a su lado", "❤️"),
    ("El amor se siente tan intenso, estoy muy agradecido/a", "❤️"),
    ("Hoy siento que el amor está en el aire", "❤️"),
    ("Cuando estoy con él/ella, todo parece estar en su lugar", "❤️"),
    ("No hay mejor sensación que saber que alguien te quiere", "❤️"),
    ("Hoy recibí un mensaje tan bonito que me hizo sonreír", "❤️"),

    ("Estoy lleno de energía, hoy voy a entrenar sin parar", "🔥"),
    ("Nada me detiene hoy, me siento como un superhéroe", "🔥"),
    ("Hoy es uno de esos días en los que puedo hacer cualquier cosa", "🔥"),
    ("Hoy es el día para empezar un nuevo proyecto, ¡con mucha energía!", "🔥"),
    ("Tengo tantas ganas de hacer ejercicio hoy, no puedo esperar", "🔥"),
    ("Mi energía está por las nubes, voy con todo", "🔥"),
    ("Siento que hoy va a ser un gran día, ¡tengo toda la actitud!", "🔥"),
    ("No puedo parar, hoy todo lo que haga será increíble", "🔥"),
    ("Hoy estoy motivado/a, voy a hacer todo lo posible para mejorar", "🔥"),
    ("Hoy me siento con tanta energía que podría hacer cualquier cosa", "🔥"),
]

In [39]:
dataset = pd.DataFrame(frases, columns=["Frase", "Emoji"])

In [40]:
# Guardar el dataset en un archivo CSV
dataset_path = "./frases_emojis.csv"
dataset.to_csv(dataset_path, index=False, encoding="utf-8")

In [41]:
dataset

Unnamed: 0,Frase,Emoji
0,"Hoy me siento increíble, como si todo estuvier...",😊
1,Este día ha sido el mejor de todos,😊
2,La felicidad está en las pequeñas cosas,😊
3,"Hoy me encontré con un viejo amigo, ¡qué alegría!",😊
4,"No puedo dejar de sonreír, todo está marchando...",😊
5,Estoy muy emocionado por el fin de semana,😊
6,"Hoy, por fin, logré lo que tanto quería",😊
7,"Todo salió como esperaba, estoy feliz",😊
8,Hoy recibí buenas noticias y estoy muy contento,😊
9,"Me siento súper bien, como si nada pudiera det...",😊


- Representa las frases en forma de vectores utilizando TF-IDF o embeddings como Word2Vec.

In [42]:
df = pd.read_csv(dataset_path)

In [43]:
df['Frase'] = df['Frase'].str.lower()

In [44]:
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df['Frase'])
y = df['Emoji']

- Aplica k-NN para clasificar las frases según el emoji más probable y entrenar el modelo.

In [45]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [46]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

In [47]:
y_pred = knn.predict(X_test)

- Presenta los resultados con predicciones correctas e incorrectas con sus emojis y presenta tu analisis.

In [48]:
y_test

26     🍕
12     😢
41     🔥
36    ❤️
33    ❤️
19     😢
5      😊
44     🔥
9      😊
22     🍕
Name: Emoji, dtype: object

In [49]:
y_pred

array(['🍕', '🔥', '😊', '🔥', '❤️', '😢', '😊', '🔥', '😊', '🍕'], dtype=object)

In [50]:
predicciones_correctas = df.iloc[y_test.index][y_pred == y_test]
predicciones_incorrectas = df.iloc[y_test.index][y_pred != y_test]

In [51]:
predicciones_correctas

Unnamed: 0,Frase,Emoji
26,mi comida favorita: pizza con todo,🍕
33,cada momento con esa persona hace mi día mejor,❤️
19,"no me gusta sentirme así, pero hoy solo quiero...",😢
5,estoy muy emocionado por el fin de semana,😊
44,"tengo tantas ganas de hacer ejercicio hoy, no ...",🔥
9,"me siento súper bien, como si nada pudiera det...",😊
22,"hoy cenaré una pizza gigante, ya me está dando...",🍕


In [52]:
predicciones_incorrectas

Unnamed: 0,Frase,Emoji
12,"es uno de esos días grises, me siento solo/a",😢
41,"nada me detiene hoy, me siento como un superhéroe",🔥
36,hoy siento que el amor está en el aire,❤️


In [53]:
accuracy = accuracy_score(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred, zero_division=1)

In [54]:
print(f"\nAccuracy del modelo: {accuracy:.4f}")
print("\nReporte de clasificación:")
print(classification_rep)


Accuracy del modelo: 0.7000

Reporte de clasificación:
              precision    recall  f1-score   support

          ❤️       1.00      0.50      0.67         2
           🍕       1.00      1.00      1.00         2
           🔥       0.33      0.50      0.40         2
           😊       0.67      1.00      0.80         2
           😢       1.00      0.50      0.67         2

    accuracy                           0.70        10
   macro avg       0.80      0.70      0.71        10
weighted avg       0.80      0.70      0.71        10



In [55]:
cross_val_scores = cross_val_score(knn, X, y, cv=5)
print(f"Validación cruzada: {cross_val_scores.mean():.4f}")

Validación cruzada: 0.6800


El accuracy del modelo es 0.70, lo que indica que el modelo acertó el emoji correcto en el 70% de las veces sobre el conjunto de prueba.

Emoji ❤️:
- Precisión (Precision): 1.00 → El modelo predijo correctamente todas las veces que se encontraba un ❤️.
- Recall: 0.50 → De todas las instancias que realmente eran ❤️, el modelo solo identificó correctamente la mitad.
- F1-score: 0.67 → El equilibrio entre precisión y recall es moderado, ya que el modelo tiene una alta precisión pero una baja capacidad para detectar todas las instancias de ❤️.

Emoji 🍕:
- Precisión: 1.00 → El modelo predijo correctamente todas las veces que encontró 🍕.
- Recall: 1.00 → El modelo identificó correctamente todas las veces que 🍕 estuvo presente.
- F1-score: 1.00 → Este emoji fue perfectamente clasificado.

Emoji 🔥:
- Precisión: 0.33 → Solo un tercio de las veces que el modelo predijo 🔥, fue correcto.
- Recall: 0.50 → El modelo identificó correctamente la mitad de las instancias que eran 🔥, pero tuvo un rendimiento deficiente al predecirlo correctamente.
- F1-score: 0.40 → El rendimiento general para esta clase fue bajo.

Emoji 😊:
- Precisión: 0.67 → El modelo tuvo un rendimiento decente al predecir 😊 correctamente.
- Recall: 1.00 → El modelo identificó todas las instancias de 😊, aunque no todas las predicciones fueron precisas.
- F1-score: 0.80 → Buen rendimiento general.

Emoji 😢:
- Precisión: 1.00 → El modelo predijo correctamente todas las veces que encontró 😢.
- Recall: 0.50 → Al igual que con el emoji ❤️, el modelo no identificó correctamente todas las instancias de 😢.
- F1-score: 0.67 → El rendimiento fue moderado.

El modelo tuvo una validación cruzada con un promedio de 0.68, lo que indica que el modelo tiene una capacidad razonablemente buena para generalizar a nuevos datos, pero todavía se pueden hacer mejoras.

Posibles mejoras:

- Aumentar la cantidad de datos para entrenar el modelo.
-  Probar con diferentes valores de k en el modelo de k-NN podría mejorar la precisión. Por ejemplo, un valor más alto de k podría mejorar la estabilidad del modelo.
- Si las clases están desbalanceadas, podrías probar técnicas de balanceo de clases o ponderar las clases en el modelo para evitar que el modelo favorezca las clases más comunes.