In [1]:
import re
import json
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
from nltk import word_tokenize, pos_tag
from nltk.corpus import stopwords, wordnet

In [2]:
#Leer el archivo 'salida_tweets.txt'. Extraer tweet de cada línea. Agregarlo al tweet_data. 
tweets_data = []
tweets_data_path = 'salida_tweets.txt'
tweets_file = open(tweets_data_path, "r")
for line in tweets_file:
    try:
        tweet = json.loads(line)
        tweets_data.append(tweet)
    except:
        continue

In [3]:
#limpiar tweets

def clean(text):
    """ Limpiar texto y devolver texto limpio. """

    # poner el texto en minúsculas 
    text = text.lower()
    
    # quitar las @menciones
    text = re.sub('@[A-Za-z0-9]+', '', text)
    
     # quitar rt
    text = re.sub('rt', '', text)
    
    # quitar URLs
    text = re.sub('https?://[A-Za-z0-9./]+', '', text)
    
    # quitar HTML encoding
    text = BeautifulSoup(text, 'lxml').get_text()
    
    # quitar puntuación, números, símibolos y hashtag 
    text = re.sub("[^a-zA-Z]", ' ', text)
    
    # quitar los espacios en blanco entre palabras
    text = re.sub(r'\s+', ' ', text).strip()
    
    
    return text

In [4]:
#separar cada tweet en palabras

def tokenize(text):
    """ Tokenize text into words and remove stopwords, return filtered tokens list. """

    tokens = word_tokenize(text)
    # remove stopwords from tokens
    filtered = [w for w in tokens if not w in stopwords.words('english')]
    return filtered
    

In [11]:
# convetir JSON tweets en DataFrame y aplicar funciones clean y tokenize
tweets = pd.DataFrame()
tweets['text'] = [tweet.get('text','') for tweet in tweets_data]
tweets['lang'] = [tweet.get('lang','') for tweet in tweets_data]
tweets['text'] = tweets['text'].apply(lambda x: clean(x))
tweets['text'] = tweets['text'].apply(lambda x: tokenize(x))
tweets = tweets[tweets['lang']=='en'] #solo los tweets que están en inglés

tweets

Unnamed: 0,text,lang
1,"[whale, slap, fin, tell, one, last, time, go, ...",en
15,"[love, much, going, good]",en
27,"[danielsx, mean, cuz, ugly, ya]",en
28,"[better, believe, beautiful]",en
29,"[wait, playing, london, soccerdome, sunday, th...",en
34,"[vince, staples, cold]",en
42,"[happy, bihday, one, best, friends, wait, till...",en
43,"[liked, video, top, rated, players, fifa, mess...",en
44,"[cat, bag, giving, scotland, powers, votes, go...",en
45,"[roiling, flows, lava, holuhraun, lava, field,...",en


In [6]:
# convertir 'Sentimientos.txt' en diccionario

Sentimientos = open('Sentimientos.txt')
scores = {} # crear un diccionario nuevo
for line in Sentimientos:
  term, score  = line.split("\t")  
  scores[term] = int(score)  # convertir el score en integer.

print (scores.items()) # Imprimir cada par(term, score) en el diccionario



In [7]:
#marcar si están en el diccionario
def checkKey(dict, key): 
      
    if key in dict: 
        return 1
    else: 
        return 0

In [8]:
#EJERCICIO 1: Calcular el rating de cada tweet como suma de las palabras que coindidan con las diccionario

rating=0
ratings = []

for index, row in tweets.iterrows():
    
    #saca el array de palabras de cada fila en la tabla
    words_tweet = getattr(row, "text")
    
    #itera el array de palabras y va añadiendo el rating de cada palabra que va encontrando del diccionario
    for word in words_tweet:
        if(checkKey(scores,word)==1):
            rating=rating+int(float(scores[word]))
          
    #save rating in "ratings"
    ratings.append(rating)
    rating=0
    
tweets['ratings'] = ratings

tweets

Unnamed: 0,text,lang,ratings
1,"[whale, slap, fin, tell, one, last, time, go, ...",en,0
15,"[love, much, going, good]",en,6
27,"[danielsx, mean, cuz, ugly, ya]",en,-3
28,"[better, believe, beautiful]",en,5
29,"[wait, playing, london, soccerdome, sunday, th...",en,0
34,"[vince, staples, cold]",en,0
42,"[happy, bihday, one, best, friends, wait, till...",en,9
43,"[liked, video, top, rated, players, fifa, mess...",en,4
44,"[cat, bag, giving, scotland, powers, votes, go...",en,0
45,"[roiling, flows, lava, holuhraun, lava, field,...",en,0


In [9]:
#EJERCICIO 2: Nuevo rating teniendo en cuenta las palabras que no están en mi diccionario

rating=0
rating_frase_completa = 0
ratings = []
ratings_tweet =[]
tweet_nr = 0

for index, row in tweets.iterrows():
    tweet_nr += 1
    print("Tweet número: ", tweet_nr)
    #Saca el rating del tweet
    
    #saca el array de palabras de cada fila en la tabla
    words_tweet = getattr(row, "text")
    #itera el array de palabras y va añadiendo el rating de cada palabra que va encontrando del diccionario
    for word in words_tweet:
        if(checkKey(scores,word)==1):
                rating=rating+int(float(scores[word]))
                print(scores[word])
            
    #guarda rating en "ratings"
    ratings.append(rating)
    

    #ahora que tenemos el rating de cada tweet, podemos calcular el rating para el resto de palabras en la frase
    for word in words_tweet:
        #chequea cada palabra del tweet
        if(checkKey(scores,word)==0):
            #si la palabra no está en el diccionario, valorala con el rating del ejercicio anterior
            rating_frase_completa = rating_frase_completa+rating
            print(word + ": " + str(rating) + "\n")
        else:
            print(word + ": ya estaba en el diccionario" + "\n")
                
    
    
    ratings_tweet.append(rating_frase_completa)
    rating = 0
    rating_frase_completa = 0

Tweet número:  1
whale: 0

slap: 0

fin: 0

tell: 0

one: 0

last: 0

time: 0

go: 0

awhale: 0

Tweet número:  2
3
3
love: ya estaba en el diccionario

much: 6

going: 6

good: ya estaba en el diccionario

Tweet número:  3
-3
danielsx: -3

mean: -3

cuz: -3

ugly: ya estaba en el diccionario

ya: -3

Tweet número:  4
2
3
better: ya estaba en el diccionario

believe: 5

beautiful: ya estaba en el diccionario

Tweet número:  5
wait: 0

playing: 0

london: 0

soccerdome: 0

sunday: 0

th: 0

october: 0

tickets: 0

selling: 0

fast: 0

Tweet número:  6
vince: 0

staples: 0

cold: 0

Tweet número:  7
3
3
3
happy: ya estaba en el diccionario

bihday: 9

one: 9

best: ya estaba en el diccionario

friends: 9

wait: 9

till: 9

la: 9

good: ya estaba en el diccionario

one: 9

Tweet número:  8
2
2
liked: ya estaba en el diccionario

video: 4

top: ya estaba en el diccionario

rated: 4

players: 4

fifa: 4

messi: 4

ronaldo: 4

ibra: 4

Tweet número:  9
cat: 0

bag: 0

giving: 0

scotland: 0


In [10]:
tweets['rating2'] = ratings_tweet

tweets

Unnamed: 0,text,lang,ratings,rating2
1,"[whale, slap, fin, tell, one, last, time, go, ...",en,0,0
15,"[love, much, going, good]",en,6,12
27,"[danielsx, mean, cuz, ugly, ya]",en,-3,-12
28,"[better, believe, beautiful]",en,5,5
29,"[wait, playing, london, soccerdome, sunday, th...",en,0,0
34,"[vince, staples, cold]",en,0,0
42,"[happy, bihday, one, best, friends, wait, till...",en,9,63
43,"[liked, video, top, rated, players, fifa, mess...",en,4,28
44,"[cat, bag, giving, scotland, powers, votes, go...",en,0,0
45,"[roiling, flows, lava, holuhraun, lava, field,...",en,0,0
