In [1]:
from nltk import TweetTokenizer
import re
import numpy as np
from collections import Counter


# Funciones

* `remove_mentions()`: Cambia las menciones por un token gen√©rico (@usuario)
* `twitter_url_re`: REGEX para URLs

In [2]:
def remove_mentions(text):
    """
    Remove Twitter username handles from text.
    """
    pattern = re.compile(r"(?<![A-Za-z0-9_!@#\$%&*])@(([A-Za-z0-9_]){20}(?!@))|(?<![A-Za-z0-9_!@#\$%&*])@(([A-Za-z0-9_]){1,19})(?![A-Za-z0-9_]*@)")
    # Substitute hadnles with '@USUARIO' to ensure that text on either side of removed handles are tokenized correctly
    return pattern.sub('@usuario', text)
"""
Regex para URLs
"""
twitter_url_re = re.compile(r'http[s]?://(?:[a-z]|[0-9]|[$-_@.&amp;+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+')

# Testings

In [4]:
"""
Testings
"""
tweet_ficticio = 'RT @marcobonzanini: just an Axampleeeeeeee! :D http://example.com #NLP' 

tweet_ficticio = remove_mentions(tweet_ficticio) 


"""
preserve_false: cambia todo a min√∫sculas
reduce_len: Elimina caracteres que est√©n repetidos m√°s de 3 veces
"""
tknzr = TweetTokenizer(reduce_len=True,preserve_case=False) 


tweet_tokenized = tknzr.tokenize(tweet_ficticio)

for i in range(len(tweet_tokenized)):
    if re.match(twitter_url_re,tweet_tokenized[i]):
        tweet_tokenized[i] = 'url' # Cambia una direcci√≥n URL por un token gen√©rico

print(tweet_ficticio)  # Tweet original
print(tweet_tokenized) # Tweet tokenizado
        



RT @usuario: just an Axampleeeeeeee! :D http://example.com #NLP
['rt', '@usuario', ':', 'just', 'an', 'axampleee', '!', ':D', 'url', '#nlp']


In [5]:
"""
Bandera para indicar que el corpus ya se preproces√≥
"""
FLAG1 = True

# Preprocesamiento de tweets
* Se tokenizan los tweets y se cambian algunos tokens seg√∫n la lista `stopwords`.
* Se contabilizan los tokens. 
* Se escriben los tweets preprocesados en un nuevos archivo.
* Se contabilizan las frecuencias de los tokens en un diccionario por √≥rden ascendente de aparaci√≥n.

In [6]:
if not FLAG1:
    """
    Archivos
    """
    tmp_corpus = 'tmp_corpus.txt'
    tweets_corpus = 'solo_espanol.txt'


    """
    preserve_false: Cambia todo a min√∫sculas
    reduce_len: Elimina caracteres que est√©n repetidos m√°s de 3 veces
    """
    tknzr = TweetTokenizer(reduce_len=True,preserve_case=False)


    """
    _types: diccionario para almacenar los tipos del corpus
    _tokens: lista para almacenar los tokens del corpus
    """
    _types,_tokens={},[]
    new_tmp = 'new_tmp_corpus.txt'

    new_corpus = open(new_tmp,'w+',encoding='utf-8')


    """
    Stopwords
    """
    stop_list = ["caracterdesaltodel√≠nea",".","..","...",
                 "?","¬ø",",","(",")","'","!","¬°",'"',";",
                 ":","->","/","-","--->","‚Ä¶"]

    """
    Leer y preprocesar corpus
    """


    with open(tweets_corpus,'r',encoding='utf-8') as corpus:

        # Cada l√≠nea del corpus es un tweet
        for line in corpus:

            line = remove_mentions(line) # Sustituir menci√≥n de usuario por un token gen√©rico        
            tweet = tknzr.tokenize(line)[:-1] # Quitar etiqueta 'es' de cada tweet
            tweet = [_ for _  in tweet if _ not in stop_list] # Eliminar Tokens 'innecesarios'

            for token in range(len(tweet)):

                # Compara si el token es una URL
                if re.match(twitter_url_re,tweet[token]):

                    tweet[token] = 'url' # Sustituir direcci√≥n url por token URL
                    _tokens.append(tweet[token])

                # Cambia n√∫meros por token gen√©rico    
                if tweet[token].replace(".", "", 1).isdigit():
                    tweet[token] = '_number'
                    _tokens.append(tweet[token])

                _tokens.append(tweet[token])

            #print(tweet)
            new_corpus.write(" ".join(tweet))
            new_corpus.write("\n")
            #print(' '.join(tweet),end="\n")

    new_corpus.close()
    
    """
    Obtener las frecuencias de los tweets
    """
    _types = dict(Counter(_tokens))
    n_tokens, n_types = len(_tokens), len(_types) # N√∫mero de types y tokens
    
    types = sorted(_types.items(), key=lambda x: x[1],reverse=True) # Ordenar types por frecuencia



# Guardar types en un archivo
Guardar types y ordenar por frecuencia de aparici√≥n

In [7]:
if not FLAG1:
    file_types = open("file_types.txt","w+",encoding="utf-8")

    for i in types:
        file_types.write(str(i[0])+ " " + str(i[1]))
        file_types.write("\n")    
    file_types.close()

In [8]:
word_of_interest = 'excelente'


with open("new_tmp_corpus.txt",'r', encoding='utf-8') as file:
    for line in file:
        tweet = tknzr.tokenize(line)
        
        if word_of_interest in tweet:
            print(tweet[tweet.index(word_of_interest) - 1:tweet.index(word_of_interest) + 2])

[]
['un', 'excelente', 'inicio']
['@usuario', 'excelente', 'inicio']
['y', 'excelente', 'semana']
['y', 'excelente', 'informacion']
['bellisima', 'excelente', 'infornacion']
['servirle', 'excelente', 'd√≠a']
['estrella', 'excelente', 'lunes']
['@usuario', 'excelente', 'intervenci√≥n']
[]
['tmb', 'excelente', 'intervenci√≥n']
['un', 'excelente', 'comienzo']
['d√≠as', 'excelente', 'lunes']
['una', 'excelente', 'semana']
['d√≠as', 'excelente', 'inicio']
['un', 'excelente', 'y']
['retos', 'excelente', 'inicio']
['@usuario', 'excelente', 'semana']
['dijo', 'excelente', 've']
['retos', 'excelente', 'inicio']
['d√≠as', 'excelente', 'lunes']
['con', 'excelente', 'infor']
['un', 'excelente', 'munes']
['un', 'excelente', 'inicio']
['una', 'excelente', 'semana']
['un', 'excelente', 'inicio']
['d√≠as', 'excelente', 'inicio']
['un', 'excelente', 'd√≠a']
['igualmente', 'excelente', 'inicio']
['una', 'excelente', 'noticia']
['un', 'excelente', 'inicio']
['un', 'excelente', 'inicio']
[]
['une', 'excel