# NLP & Sentiment Analysis.

En esta etapa del proyecto manejaremos diferentes modelos pre-entrenados (librerías) y trataremos de evaluar cuál es el que nos ofrece mejores resultados.

Evidentemente, sería conveniente desarrollar un modelo propio ad-hoc según las necesidades particulares del proyecto, lo cual probablemente nos permita alcanzar resultados más precisos. Sin embargo, no debemos olvidar que por el momento pretendemos construir las bases del proyecto y obtener un mínimo producto viable que demuestre su potencial. Disponemos de muy poco tiempo como para desarrollar y entrenar nuestro propio modelo y es por eso que se opta por la utilización de modelos pre-entrenados de NLP a la hora de analizar el sentimiento de los tweets y, por tanto, la percepción del usuario respecto de las marcas.

Los análisis de sentimiento se ejecutarán a través de funciones previamente definidas en 'src/nlp_functions.py

In [4]:
from src.nlp_functions import *

### TextBlob (spaCy)

In [3]:
'''INTRO!!!'''

# Esplicación breve.

# Catarse bien de cómo funciona.
# Ojo instalaciones (lo he metido en todos laos).


'INTRO!!!'

### VADER.

VADER (Valence Aware Dictionary and sEntiment Reasoner) es una librería utilizada para el análisis del sentimiento que se enfoca en los textos de social media. Así, pone énfases en las rules que captan la esencia del texto que normalmente se ve en las redes sociales. Algo interesante de VADER es que está pensado para poder actuar sobre texto sobre el que se ha hecho un limpieza muy básica (conservando emojis, signos de exclamación, etc.). Nosotros lo probaremos sobre los datos ya limpios ya que confiamos en que ofrecerán un mejor resultado (aunque no se presenta el proceso, se ha probado con los datos originales en bruto, pero no consique analizar los sentimientos correctamente y la gran mayoría de scores para negatividad, neutralidad y positivadad son 0). No obstante, lo ideal sería evaluar la precisión del análisis sobre tweets con diferentes niveles de limpieza (desde el más básico, al más detallista) y comparar los modelos para identificar el que ofrece un mayor rendimiento (incluyendo también los análisis desarrollados mediante otros modelos diferentes a VADER).

https://towardsdatascience.com/fine-grained-sentiment-analysis-in-python-part-1-2697bb111ed4

In [38]:
import pandas as pd

brands_tweets = pd.read_pickle('data/brands_tokens.pkl')

In [39]:
brands_tweets.head()

Unnamed: 0,text,hashtags,brand_attribute,brand,token
0,nobody cares about nike in russia russia is al...,[],quality,nike,"[care, nike, russia, russia, adidas]"
1,ye green nike hoodie waala two weeks pehle put...,[],quality,nike,"[ye, green, nike, hoodie, waala, week, pehle, ..."
2,nike okundaye also knowns nike twins seven sev...,"[#womengiant, #Documentwomen]",quality,nike,"[nike, okundaye, knowns, nike, twin, seven, se..."
3,day four of maxmadness air max month nike air ...,"[#maxmadness, #AirMaxMonth, #airmaxgang, #kotd...",quality,nike,"[day, maxmadness, air, max, month, nike, air, ..."
4,thank you sir,[],quality,nike,"[thank, sir]"


In [44]:
brands_tweets['vader_scores'] = brands_tweets.token.apply(vader_scoring)

In [50]:
brands_tweets.sample(10)

Unnamed: 0,text,hashtags,brand_attribute,brand,token,vader_scores
23862,it has been so long since the last game of the...,[],quality,nike,"[long, game, mlb, season, legit, forgot, brave...","{'neg': 0.059, 'neu': 0.815, 'pos': 0.126, 'co..."
18222,nike joyride size three six three seven three ...,[#0715065688],quality,adidas,"[nike, joyride, size, seven, zero, ksh, zero, ...","{'neg': 0.0, 'neu': 0.662, 'pos': 0.338, 'comp..."
8283,adidas gt gt gt gt gt gt gt gt gt gt nike,[],quality,nike,"[adidas, gt, gt, gt, gt, gt, gt, gt, gt, gt, g...","{'neg': 0.0, 'neu': 0.087, 'pos': 0.913, 'comp..."
25311,stack nike mnlths they unrevealed ones will al...,[],quality,adidas,"[stack, nike, mnlths, unrevealed, one, stay, u...","{'neg': 0.0, 'neu': 0.777, 'pos': 0.223, 'comp..."
2823,so good i had to share check out all the items...,"[#poshmark, #fashion, #style, #shopmycloset, #...",quality,adidas,"[good, share, check, item, loving, poshmark, f...","{'neg': 0.0, 'neu': 0.5, 'pos': 0.5, 'compound..."
4308,change the team name to nike and he has to pla...,[],quality,adidas,"[change, team, nike, play, rule]","{'neg': 0.0, 'neu': 0.625, 'pos': 0.375, 'comp..."
21848,queue up via snipesusa wmns nike dunk low blac...,[#AD],quality,adidas,"[queue, snipesusa, wmns, nike, dunk, low, blac...","{'neg': 0.076, 'neu': 0.652, 'pos': 0.272, 'co..."
24626,so good i had to share check out all the items...,"[#poshmark, #fashion, #style, #shopmycloset, #...",quality,adidas,"[good, share, check, item, loving, poshmark, f...","{'neg': 0.0, 'neu': 0.5, 'pos': 0.5, 'compound..."
11719,one zero zero ug sneakers collection was produ...,"[#9🔥1/1, #NFT, #NFTs, #NFTcollection, #nftcoll...",quality,adidas,"[zero, zero, ug, sneaker, collection, produced...","{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound..."
26503,so good i had to share check out all the items...,"[#poshmark, #fashion, #style, #shopmycloset, #...",quality,adidas,"[good, share, check, item, loving, poshmark, f...","{'neg': 0.0, 'neu': 0.471, 'pos': 0.529, 'comp..."


# PRUEBAS

In [10]:
import spacy

from nltk.corpus import stopwords
from spacy.lang.en.stop_words import STOP_WORDS

from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

In [22]:
lemmatizer.lemmatize('are')

'are'

In [28]:
from textblob import Word

a = Word('are')
a.lemmatize('v')

'be'

In [23]:
nlp = spacy.load('en_core_web_sm')

In [24]:
sent = 'Gus is helping organize a developer'

for token in nlp(sent):
    print (token, token.lemma_)

Gus Gus
is be
helping helping
organize organize
a a
developer developer


In [26]:
from spacy import displacy

doc = nlp(sent)

displacy.render(doc, style='dep', jupyter=True)