In [1]:
import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier

dataframe = pd.read_csv("Frases_Emojis.csv")
dataframe

Unnamed: 0,Frase,emoji
0,Tengo hambre,üçî
1,Estoy muerto de hambre,üçî
2,No aguanto m√°s necesito comer,üçî
3,Mi est√≥mago est√° rugiendo,üçî
4,Podr√≠a comerme una vaca,üçî
...,...,...
168,No aguanto ese olor,ü§Æ
169,Que olor tan desagradable,ü§Æ
170,Esto est√° podrido,ü§Æ
171,Me dan escalofr√≠os,ü§Æ


Seleccionamos las frases para transformarlas a vector con TF-IDF

In [2]:
#dataframe["Frase"]
tfidf_vectorizer = TfidfVectorizer()
x_train = tfidf_vectorizer.fit_transform(dataframe["Frase"]) 

Entrena el modelo knn 

In [3]:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x_train, dataframe["emoji"])

Primero hice una prueba unitaria para ver que funcionara con una frase muy "obvia"

In [4]:
nuevo_dato = ["Eso suena delicioso"]
nuevo_dato_vect = tfidf_vectorizer.transform(nuevo_dato)

predict = knn.predict(nuevo_dato_vect)
print(predict[0])

üòã


Ahora hice una prueba con diferentes frases y los resultados fueron muy curiosos

In [5]:
prueba = ["Qu√© hambre", "Me duele el est√≥mago", "Podr√≠a comerme un banquete entero", "Hoy todo me fue incre√≠ble", "Que d√≠a tan incre√≠ble", "Hoy todo fue genial", "Eso suena como un manjar", "Estoy salivando de imaginarlo", "Estoy enamorado", "Te quiero demasiado", "Te mando un gran beso", "Jajaja no puedo parar de re√≠r", "Jajajajajaja", "Como si me lo fuera a creer", "Eso suena s√∫per falso", "Eso es m√°s aburrido que nada", "Que sencillo", "En serio pas√≥ de verdad?", "No puede ser", "Suena incre√≠ble", "Siempre lo que hago sale bien", "No dudes de m√≠, mira y aprende", "Me tienes muy molesto", "Me sacaste de quicio", "Qued√© como payaso", "Tierra, tr√°game y no me devuelvas jam√°s", "Las manos me sudan", "Esto me pone tenso", "Ni idea", "No me quita el sue√±o", "No lo s√© ni me importa", "No podr√≠a importarme menos", "Esto me da demasiado asco", "Eso fue s√∫per desagradable"]
prueba_vect = tfidf_vectorizer.transform(prueba)

for i in range (len(prueba)):
    prueba_predict = knn.predict(prueba_vect[i])
    print(f"{i}: {prueba[i]} -> {prueba_predict}")

0: Qu√© hambre -> ['üçî']
1: Me duele el est√≥mago -> ['üçî']
2: Podr√≠a comerme un banquete entero -> ['üçî']
3: Hoy todo me fue incre√≠ble -> ['üòÑ']
4: Que d√≠a tan incre√≠ble -> ['üòÑ']
5: Hoy todo fue genial -> ['üòé']
6: Eso suena como un manjar -> ['üòã']
7: Estoy salivando de imaginarlo -> ['üçî']
8: Estoy enamorado -> ['üòÑ']
9: Te quiero demasiado -> ['ü§°']
10: Te mando un gran beso -> ['üòã']
11: Jajaja no puedo parar de re√≠r -> ['ü§£']
12: Jajajajajaja -> ['üçî']
13: Como si me lo fuera a creer -> ['üòÆ']
14: Eso suena s√∫per falso -> ['üòã']
15: Eso es m√°s aburrido que nada -> ['üôÑ']
16: Que sencillo -> ['üò¨']
17: En serio pas√≥ de verdad? -> ['üòÆ']
18: No puede ser -> ['üòÆ']
19: Suena incre√≠ble -> ['üòã']
20: Siempre lo que hago sale bien -> ['üòë']
21: No dudes de m√≠, mira y aprende -> ['üçî']
22: Me tienes muy molesto -> ['üò¨']
23: Me sacaste de quicio -> ['üçî']
24: Qued√© como payaso -> ['üçî']
25: Tierra, tr√°game y no me devuelvas 

Vemos que la üçî que deber√≠a simbolizar el hambre fue interpretado en muchas frases que no tiene nada que ver, podr√≠a deberse a la variedad de palabras que tiene el dataset. 

Vemos que algunas frases tienen un emoji relacionado a algo que no encuentro el sentido, los mostrar√© a continuaci√≥n y en algunos casos escribir√© al final la palabra que creo hizo que creyera que se trataba de ese emoji, lo cual se debi√≥ a alg√∫n sesgo por las "pocas" frases que tiene el dataset de entrenamiento:

* Estoy enamorado -> ['üòÑ'] 
* Te quiero demasiado -> ['ü§°'] (Esta me di√≥ mucha risa)
* Te mando un gran beso -> ['üòã'] - Gran
* Jajajajajaja -> ['üçî']
* Eso suena s√∫per falso -> ['üòã'] - suena
* Que sencillo -> ['üò¨'] 
* Suena incre√≠ble -> ['üòã'] - suena
* No dudes de m√≠, mira y aprende -> ['üçî']
* Me tienes muy molesto -> ['üò¨']
* Me sacaste de quicio -> ['üçî']
* Las manos me sudan -> ['üòÑ'] (tambi√©n podr√≠a quedar bien seg√∫n el contexto)
* Eso fue s√∫per desagradable -> ['üòã'] (Eso?)

Hubieron otras que dieron un resultado diferente al esperado, pero que a√∫n as√≠ ten√≠an cierto sentido:
* Hoy todo fue genial -> ['üòé'] - Original: üòÑ. Probablemente fue por contener la palabra genial
* Siempre lo que hago sale bien -> ['üòë'] - Original:üòé. Lo curioso es que queda bien si fuera en un sentido ir√≥nico
* Esto me pone tenso -> ['ü§Æ'] - Original:üò¨. Igualmente muestra una emoci√≥n de desagrado
* No me quita el sue√±o -> ['üòé'] - Original:ü§∑‚Äç‚ôÇÔ∏è. Era para indiferencia pero muestra seguridad a pesar de cierta situaci√≥n
* Esto me da demasiado asco -> ['üòë']. Original:ü§Æ

Veo que no logr√≥ reconocer de ninguno de los siguientes emojis: .
Por lo que intentar√© forzarlos con otra prueba que busque su aparici√≥n: ü•∞, üò°. 

In [9]:
prueba = ["Eres un amor", "Me gustas mucho", "Te amo mucho", "Eres mi gran amor", "Que coraje", "Me est√°s hartando", "Me tienes harto", "Me est√°s sacando de quicio"]
prueba_vect = tfidf_vectorizer.transform(prueba)

for i in range (len(prueba)):
    prueba_predict = knn.predict(prueba_vect[i])
    print(f"{i}: {prueba[i]} -> {prueba_predict}")

0: Eres un amor -> ['ü•∞']
1: Me gustas mucho -> ['üôÑ']
2: Te amo mucho -> ['ü•∞']
3: Eres mi gran amor -> ['ü•∞']
4: Que coraje -> ['üò°']
5: Me est√°s hartando -> ['üò°']
6: Me tienes harto -> ['üôÑ']
7: Me est√°s sacando de quicio -> ['üò°']
