# Extracción de características

En este notebook se realizará la extración de características a través de word2vec y k-means

In [372]:
import pandas as pd
import warnings

warnings.filterwarnings("ignore")

Se carga el archivo Excel que contiene los tweets en memoria

In [373]:
df = pd.read_csv("tweets_preprocessed.csv", encoding = "utf-8")

In [374]:
df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,total satisfech x q resolv mi consult y x q la...
1,la atencion fue rapida y clara,positivo,la atencion fue rap y clar
2,me atendieron bien,positivo,me atend bien
3,fue muy rapido la atencion,positivo,fue muy rap la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atend muy amabl con buen actitud en...


Se obtiene un dataframe solo con la información del texto de los tweets

In [375]:
import numpy as np

df2 = pd.DataFrame(df["text"].values)

In [376]:
df2.head()

Unnamed: 0,0
0,total satisfech x q resolv mi consult y x q la...
1,la atencion fue rap y clar
2,me atend bien
3,fue muy rap la atencion
4,por que me atend muy amabl con buen actitud en...


Se guarda el texto de los tweets en una hoja de texto

In [377]:
np.savetxt("tweets.txt", df2, fmt = "%s", encoding = "utf-8")

Se carga carga el archivo de texto de los tweets a través de la clase word2vec

In [378]:
from gensim.models import word2vec

tweets = word2vec.Text8Corpus("tweets.txt")

Se genera el modelo word2vec.
Parametros:
    * sentences = tweets
    * size = dimensionalidad de los vectores de palabras
    * min_count = ignora las palabras que tengan menor cantidad de caracteres que esto

In [379]:
size = 100

In [380]:
w2v_model = word2vec.Word2Vec(sentences = tweets, size = size, min_count = 3)

Funcion para obtener los vectores de caracteristicas de determinado tweet

In [381]:
def GetFVs(tweet):
    words = str(tweet).split()
    vectors = []
    for w in words:
        if w in w2v_model.wv.vocab:
            vectors.append(w2v_model[w].tolist())
    
    return vectors

In [382]:
y = df["class"]

Se obtiene todos los vectores característicos de las palabras en los textos de los tweets

In [383]:
tweets_fvs = []
for tweet in df["text"]:
    fvs = GetFVs(tweet)
    tweets_fvs.append(fvs)

Se recorre la lista de tweets, se recorre la lista de palabras por tweet. Por cada palabra del tweet se halla a qué centroide de los clusters se encuentra más cerca dependiendo de la distancia coseno y luego se aumenta el 1 el valor del nuevo vector de características del tweet en la posición del cluster más cercano.

In [384]:
new_tweet_fvs = []

for tweet_fvs in tweets_fvs:
    new_tweet_fv = np.zeros(size)
    
    k = 0
    for tweet_fs in tweet_fvs:
        new_tweet_fv =  new_tweet_fv + tweet_fs
        k = k + 1
        
    if k > 0:
        new_tweet_fvs.append(new_tweet_fv / k)
    else:
        new_tweet_fvs.append(new_tweet_fv)

Se guarda los vectores característicos de los tweets en un Excel

In [385]:
column_names = ["f" + str(i) for i in range(1, size + 1)]
column_names.append("class")

x = new_tweet_fvs
df = pd.DataFrame(x) 
df["class"] = y
df.columns = column_names

In [386]:
df.head()

Unnamed: 0,f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,...,f92,f93,f94,f95,f96,f97,f98,f99,f100,class
0,-0.185263,-0.126442,0.687119,-0.110711,-0.115368,-0.382538,0.177452,0.319352,0.41437,0.906571,...,-0.06524,-0.096958,-0.332892,-0.002203,0.488303,0.204036,-0.002951,0.283848,0.113339,positivo
1,-0.623082,-0.271673,1.00097,0.00867,-0.036696,-0.473044,0.546534,0.174511,0.489129,1.187792,...,-0.156622,-0.499596,-0.379724,0.104167,0.715333,0.232296,-0.278074,0.229985,-0.180596,positivo
2,-0.657994,-0.780325,0.999145,0.198315,0.05362,-0.494484,0.285496,0.32096,0.3713,1.08135,...,0.032576,0.075115,-0.187369,0.372731,0.648799,0.4583,-0.082725,0.435323,0.333019,positivo
3,-0.830661,-0.3382,1.131208,0.00791,0.039084,-0.531723,0.678928,0.09881,0.553012,1.354421,...,-0.186377,-0.6619,-0.428507,0.161155,0.830715,0.277351,-0.370832,0.256122,-0.219536,positivo
4,-0.351396,-0.39434,0.774259,-0.005173,0.01089,-0.29029,0.307829,0.23842,0.25853,0.89345,...,-0.041784,-0.14321,-0.350679,0.139063,0.584188,0.264411,-0.176282,0.150352,-0.062272,positivo


In [387]:
df.to_csv("tweets_feature_extracion.csv", encoding = "utf-8", index = False)