## Liberias y word embedding

In [1]:
import pandas as pd 
import numpy as np
import nltk
from string import punctuation 
import re
from sklearn import svm
from sklearn.metrics import classification_report 
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics
from gensim.models import KeyedVectors
from numpy.linalg import norm # para normalizar datos
from nltk.tokenize import word_tokenize

In [2]:
representacionVectorial = KeyedVectors.load_word2vec_format('archivos/fasttext-sbwc.3.6.e20.vec', limit=100000)

## Tokenize 

In [3]:
def Tokenize(text):
        tokens = nltk.word_tokenize(text,  language='spanish')
        stems = []
        for item in tokens:
            stems.append(nltk.PorterStemmer().stem(item))
        return stems

## Limpiar Corpus

In [4]:
def LimpiarCorpus(X_frases):
    non_words = list(punctuation) 
    non_words.extend(['¿', '¡'])
    for i in range(len(X_frases)):
        if X_frases[i].lower() not in non_words:
            X_frases[i] = re.sub("[^a-zA-Z]", " ", X_frases[i].lower())
            X_frases[i] = ' '.join(X_frases[i].split())
    return X_frases

## Vectorizar Frase con word embeding 

In [5]:
def VectorizarWordEmbedding(frases):
    X_frases = []
    for frase in frases:
        tokens = Tokenize(frase)
        vec = np.zeros(300)
        palabrasEncontradas = 0
        for palabra in tokens:
            if palabra in representacionVectorial:
                palabrasEncontradas +=1
                vec += representacionVectorial[palabra]
        if palabrasEncontradas != 0:
            X_frases.append(vec / norm(vec))
        else:
            X_frases.append(vec)
    return np.asarray(X_frases)

## Entrenar y medir modelos ML

In [6]:
def EntrenarMedirML(X_train, X_test, Y_train, Y_test,algoritmo):
    # MODELO
    if(algoritmo=="SVM"):
        modelo = svm.SVC(kernel='linear') 
        modelo.fit(X=X_train,y=Y_train)
        # PREDICCIÓN
        prediccion = modelo.predict(X_test)
    if(algoritmo=="Random Forest"):
        modelo=RandomForestClassifier(n_estimators=10)
        modelo.fit(X=X_train,y=Y_train)
        # PREDICCIÓN
        prediccion = modelo.predict(X_test)
    if(algoritmo=="Naive Bayes"):
        modelo = GaussianNB()
        modelo.fit(X=X_train,y=Y_train)
        # PREDICCIÓN
        prediccion = modelo.predict(X_test)
    # METRICAS
    #reporteMetricas= classification_report(Y_test, prediccion)
    return metrics.accuracy_score(Y_test, prediccion),modelo

## Clasificar palabra usando vector word Embedding como representacion

In [7]:
def ClasificarPolaridadWE(corpus,algoritmo):
    X_frases = np.asarray(corpus[['A']])
    X_frases = X_frases.ravel()
    Y_sentimiento = np.asarray(corpus[['B']])
    Y_sentimiento = Y_sentimiento.ravel()
    X_frases = LimpiarCorpus(X_frases)
    X_frases = VectorizarWordEmbedding(X_frases)
    # PARTIR CORPUS PARA ENTRENAR
    X_train, X_test, Y_train, Y_test = train_test_split(X_frases, Y_sentimiento, test_size=0.30)
    return EntrenarMedirML(X_train, X_test, Y_train, Y_test,algoritmo)

# MAIN

## Clasificación de aspecto

In [8]:
accuracyPromedio = 0
algoritmo = "SVM"
numeroEjecuciones = 100
for i in range(numeroEjecuciones):
    corpus = pd.read_csv('archivos/aspectos.csv')
    accuracy, modelo = ClasificarPolaridadWE(corpus,algoritmo)
    accuracyPromedio += accuracy
accuracyPromedio/numeroEjecuciones

0.8261338289962822

## Clasificación de polaridad

In [10]:
accuracyPromedio = 0
algoritmo = "SVM"
numeroEjecuciones = 100
for i in range(numeroEjecuciones):
    corpus = pd.read_csv('archivos/sentimientos.csv')
    accuracy, modelo = ClasificarPolaridadWE(corpus,algoritmo)
    accuracyPromedio += accuracy
accuracyPromedio/numeroEjecuciones

0.7719112627986349