<a href="https://colab.research.google.com/github/chavamoon/MachineLearningExamples/blob/main/NLP_Intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Procesamiento previo del texto

In [1]:
!pip uninstall scikit-learn -y
!pip install scikit-learn==0.23.2

Found existing installation: scikit-learn 0.23.2
Uninstalling scikit-learn-0.23.2:
  Successfully uninstalled scikit-learn-0.23.2
Collecting scikit-learn==0.23.2
  Using cached scikit_learn-0.23.2-cp37-cp37m-manylinux1_x86_64.whl (6.8 MB)
Installing collected packages: scikit-learn
Successfully installed scikit-learn-0.23.2


In [2]:
!pip install pycaret==2.2.0

Collecting pycaret==2.2.0
  Downloading pycaret-2.2-py3-none-any.whl (248 kB)
[?25l[K     |█▎                              | 10 kB 26.2 MB/s eta 0:00:01[K     |██▋                             | 20 kB 30.6 MB/s eta 0:00:01[K     |████                            | 30 kB 30.9 MB/s eta 0:00:01[K     |█████▎                          | 40 kB 21.5 MB/s eta 0:00:01[K     |██████▋                         | 51 kB 18.7 MB/s eta 0:00:01[K     |████████                        | 61 kB 15.0 MB/s eta 0:00:01[K     |█████████▎                      | 71 kB 14.4 MB/s eta 0:00:01[K     |██████████▋                     | 81 kB 15.8 MB/s eta 0:00:01[K     |███████████▉                    | 92 kB 16.2 MB/s eta 0:00:01[K     |█████████████▏                  | 102 kB 14.5 MB/s eta 0:00:01[K     |██████████████▌                 | 112 kB 14.5 MB/s eta 0:00:01[K     |███████████████▉                | 122 kB 14.5 MB/s eta 0:00:01[K     |█████████████████▏              | 133 kB 14.5 MB/s 

In [3]:
from pycaret.utils import version
version()

'2.2.0'

In [4]:
# Importación de las librerías necesarias
import nltk
import pycaret

## Tokenization

El proceso de tokenización (tokenization) consiste en dividir el texto en tokens, ya sea parrafos, oraciones o palabras completas. Esto con el fn de separar el texto en unidades más sencillas de analizar.

A continuación se muestra el ejemplo de tokenización utilizando la librería nltk.

In [5]:
# Importar las librerías necesarias
from nltk.tokenize import sent_tokenize, word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [6]:
example_text = ''' El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del
palenque de paja. El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el
saxofón detrás del palenque de paja. 
Aki ezcribimos con herrores ortografikos '''

print(example_text)
print('-------------Tokenización a nivel de oración----------------')
print(sent_tokenize(example_text))

print('-------------Tokenización a nivel de palabra----------------')
texto = word_tokenize(example_text)
print(texto)


 El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del
palenque de paja. El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el
saxofón detrás del palenque de paja. 
Aki ezcribimos con herrores ortografikos 
-------------Tokenización a nivel de oración----------------
[' El veloz murciélago hindú comía feliz cardillo y kiwi.', 'La cigüeña tocaba el saxofón detrás del\npalenque de paja.', 'El veloz murciélago hindú comía feliz cardillo y kiwi.', 'La cigüeña tocaba el\nsaxofón detrás del palenque de paja.', 'Aki ezcribimos con herrores ortografikos']
-------------Tokenización a nivel de palabra----------------
['El', 'veloz', 'murciélago', 'hindú', 'comía', 'feliz', 'cardillo', 'y', 'kiwi', '.', 'La', 'cigüeña', 'tocaba', 'el', 'saxofón', 'detrás', 'del', 'palenque', 'de', 'paja', '.', 'El', 'veloz', 'murciélago', 'hindú', 'comía', 'feliz', 'cardillo', 'y', 'kiwi', '.', 'La', 'cigüeña', 'tocaba', 'el', 'saxofón', 'detrás', 'de

## Spell check

In [7]:
!pip install autocorrect



In [8]:
# Importación de paquetes para corrección de ortografía
from autocorrect import Speller

In [9]:
#spell con lenguaje en español (Para que corrija errores gramaticale en español)
spell = Speller(lang='es')

In [10]:
corrected_text = [spell(w) for w in texto]
corrected_text

['El',
 'veloz',
 'murciélago',
 'hindú',
 'comía',
 'feliz',
 'caudillo',
 'y',
 'kiwi',
 '.',
 'La',
 'cigüeña',
 'tocaba',
 'el',
 'saxofón',
 'detrás',
 'del',
 'palenque',
 'de',
 'paja',
 '.',
 'El',
 'veloz',
 'murciélago',
 'hindú',
 'comía',
 'feliz',
 'caudillo',
 'y',
 'kiwi',
 '.',
 'La',
 'cigüeña',
 'tocaba',
 'el',
 'saxofón',
 'detrás',
 'del',
 'palenque',
 'de',
 'paja',
 '.',
 'Aki',
 'escribimos',
 'con',
 'errores',
 'ortográficos']

La corrección de Autocorrect no es perfecta, pero es suficiente para continuar el análisis.

## Stopwords

Son un conjunto de palabras que aportan pocoa nuestro análisis, pues son usadas comunmente por todos. Incluyen artículos, conectores, pronombres, etc.

Estas palabras varían de lenguaje a lenguaje. Son palabras elegidas por consenso de la comunidad y experiencia

In [11]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

* stopwords del lenguaje inglés

In [12]:
stopwords_en = stopwords.words('english')

counter = 0
for w in stopwords_en:
  print(w, end=', ')
  counter += 1
  if (counter%10)== 0:
    print()

i, me, my, myself, we, our, ours, ourselves, you, you're, 
you've, you'll, you'd, your, yours, yourself, yourselves, he, him, his, 
himself, she, she's, her, hers, herself, it, it's, its, itself, 
they, them, their, theirs, themselves, what, which, who, whom, this, 
that, that'll, these, those, am, is, are, was, were, be, 
been, being, have, has, had, having, do, does, did, doing, 
a, an, the, and, but, if, or, because, as, until, 
while, of, at, by, for, with, about, against, between, into, 
through, during, before, after, above, below, to, from, up, down, 
in, out, on, off, over, under, again, further, then, once, 
here, there, when, where, why, how, all, any, both, each, 
few, more, most, other, some, such, no, nor, not, only, 
own, same, so, than, too, very, s, t, can, will, 
just, don, don't, should, should've, now, d, ll, m, o, 
re, ve, y, ain, aren, aren't, couldn, couldn't, didn, didn't, 
doesn, doesn't, hadn, hadn't, hasn, hasn't, haven, haven't, isn, isn't, 
ma, mightn, might

* stopwords del lenguaje español

In [13]:
stopwords_es = stopwords.words('spanish')

counter = 0
for w in stopwords_es:
  print(w, end=', ')
  counter += 1
  if (counter%10)== 0:
    print()


de, la, que, el, en, y, a, los, del, se, 
las, por, un, para, con, no, una, su, al, lo, 
como, más, pero, sus, le, ya, o, este, sí, porque, 
esta, entre, cuando, muy, sin, sobre, también, me, hasta, hay, 
donde, quien, desde, todo, nos, durante, todos, uno, les, ni, 
contra, otros, ese, eso, ante, ellos, e, esto, mí, antes, 
algunos, qué, unos, yo, otro, otras, otra, él, tanto, esa, 
estos, mucho, quienes, nada, muchos, cual, poco, ella, estar, estas, 
algunas, algo, nosotros, mi, mis, tú, te, ti, tu, tus, 
ellas, nosotras, vosotros, vosotras, os, mío, mía, míos, mías, tuyo, 
tuya, tuyos, tuyas, suyo, suya, suyos, suyas, nuestro, nuestra, nuestros, 
nuestras, vuestro, vuestra, vuestros, vuestras, esos, esas, estoy, estás, está, 
estamos, estáis, están, esté, estés, estemos, estéis, estén, estaré, estarás, 
estará, estaremos, estaréis, estarán, estaría, estarías, estaríamos, estaríais, estarían, estaba, 
estabas, estábamos, estabais, estaban, estuve, estuviste, estuvo, estuvimos, estuvi

In [14]:
#función auxiliar para imprimir texto con un separador dado y de n en n palabras (default 10)
def print_text(texx = [], module=10, sep=' '):
  counter = 0
  for w in texx:
    print(w, end=sep)
    counter += 1
    if (counter % module)== 0:
      print()
  print('\n ------- Tamano del texto: ', len(texx))
  print()

In [15]:
#Remover stopwords del texto
print('\n Texto:')
print_text(corrected_text, module=11)

short_text = [w for w in corrected_text if w not in stopwords_es]
print('\n Texto sin stopwords:')
print_text(short_text, module=11)


 Texto:
El veloz murciélago hindú comía feliz caudillo y kiwi . La 
cigüeña tocaba el saxofón detrás del palenque de paja . El 
veloz murciélago hindú comía feliz caudillo y kiwi . La cigüeña 
tocaba el saxofón detrás del palenque de paja . Aki escribimos 
con errores ortográficos 
 ------- Tamano del texto:  47


 Texto sin stopwords:
El veloz murciélago hindú comía feliz caudillo kiwi . La cigüeña 
tocaba saxofón detrás palenque paja . El veloz murciélago hindú comía 
feliz caudillo kiwi . La cigüeña tocaba saxofón detrás palenque paja 
. Aki escribimos errores ortográficos 
 ------- Tamano del texto:  38



## Stemmer

Consiste en reducir una palabra a sus raíces u orígener ortográficos.
No es equivalente a cortar arbitrariamente la palabra, sino que toma en cuenta su significado.

In [16]:
# librería stemmer
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

In [17]:
# Ejemplo de como trabaja el stemmer
[stemmer.stem(i) for i in ['corriendo', 'correr', 'corremos',
                           'corriamos','corrian', 
                           'correlacion', 'correlacionado']]

['corr', 'corr', 'corr', 'corri', 'corri', 'correlacion', 'correlacion']

In [18]:
# aplicar stemmer a nuestro texto
stemmed_text = [stemmer.stem(i) for i in corrected_text]
print_text(stemmed_text, module=11)

el veloz murcielag hindu com feliz caudill y kiwi . la 
cigüeñ toc el saxofon detras del palenqu de paj . el 
veloz murcielag hindu com feliz caudill y kiwi . la cigüeñ 
toc el saxofon detras del palenqu de paj . aki escrib 
con error ortograf 
 ------- Tamano del texto:  47



## Lemmatizing

La idea es reducir las palabras usando un análisis morfológico, implica que estamos tratando de regresar la palabra base o representación en el diccionario.
Como nuestro texto está en español, es necesario buscar una función diseñada para nuestra lengua.
* spacy: https://spacy.io/usage
* spanish lemmatizer: https://spacy.io/models/es#es_core_news_sm

In [19]:
!python3 -m spacy download es_core_news_sm

Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 13.3 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')


In [20]:
#lemmatizer está en spacy
import spacy
import es_core_news_sm
nlp = es_core_news_sm.load()

In [21]:
# Ejemplo de uso de lemmatizer
ex_lem = "Hola estoy aprendiendo a utilizar inteligencia artificial. \n"
print(ex_lem)
ex_lem = word_tokenize(ex_lem)
for w in ex_lem:
  doc = nlp(w)
  for word in doc:
    print(word.text, "=>", word.lemma_)

Hola estoy aprendiendo a utilizar inteligencia artificial. 

Hola => Hola
estoy => estar
aprendiendo => aprender
a => a
utilizar => utilizar
inteligencia => inteligencia
artificial => artificial
. => .


In [22]:
# Función que aplica lemmatizing a 
def lemm_es(txx=[]):
  '''
  txx is a list or tokenized text
  retunrs: lemmatized words.
  '''
  lemm_text = []
  for w in txx:
    lemm_text.append(nlp(w)[0].lemma_)
  return lemm_text

In [23]:
lemm_text = lemm_es(short_text)

print_text(short_text, module=11)
print_text(lemm_text, module=11)

El veloz murciélago hindú comía feliz caudillo kiwi . La cigüeña 
tocaba saxofón detrás palenque paja . El veloz murciélago hindú comía 
feliz caudillo kiwi . La cigüeña tocaba saxofón detrás palenque paja 
. Aki escribimos errores ortográficos 
 ------- Tamano del texto:  38

El veloz murciélago hindú comer feliz caudillo kiwi . La cigüeña 
tocar saxofón detrás palenque paja . El veloz murciélago hindú comer 
feliz caudillo kiwi . La cigüeña tocar saxofón detrás palenque paja 
. Aki escribir error ortográfico 
 ------- Tamano del texto:  38



## Tag

La idea es poner una etiqueta a cada palabra del texto. Por ejemplo: verbo, pronombre, artículo, etc.

Puede servir para entender la estructura gramatical del texto

In [24]:
#Función auxiliar para tagging
def pos_es(txx=[]):
  '''
  txx is a list or tokenized text
  retunrs: lemmatized words.
  '''
  pos_text = []
  for w in txx:
    pos_text.append(nlp(w)[0].pos_)
  return pos_text

In [25]:
pos_text = pos_es(short_text)

print_text(short_text, module=11)
print_text(pos_text, module=11)

El veloz murciélago hindú comía feliz caudillo kiwi . La cigüeña 
tocaba saxofón detrás palenque paja . El veloz murciélago hindú comía 
feliz caudillo kiwi . La cigüeña tocaba saxofón detrás palenque paja 
. Aki escribimos errores ortográficos 
 ------- Tamano del texto:  38

DET PROPN NOUN NOUN VERB ADJ PROPN PROPN PUNCT DET PROPN 
VERB PROPN ADV PROPN PROPN PUNCT DET PROPN NOUN NOUN VERB 
ADJ PROPN PROPN PUNCT DET PROPN VERB PROPN ADV PROPN PROPN 
PUNCT PROPN VERB NOUN ADJ 
 ------- Tamano del texto:  38



# Bag of words 

El modelo "bolsa de palabras" (del inglés, Bag of Words) es un método que se utiliza en el procesado del lenguaje para representar documentos ignorando el orden de las palabras. En este modelo, cada documento parece una bolsa que contiene algunas palabras. Por lo tanto, este método permite un modelado de las palabras basado en diccionarios, donde cada bolsa contiene unas cuantas palabras del diccionario. 

Se realizará un análisis de sentimientos de twitter para clasificar si un twitt expresa sentimientos positivos o negativos.

## Desde nlkt

### Procesamiento de datos

#### Importar la base de datos de twitter (base de datos de muestra de nltk)

In [26]:
# Importemos los datos
from nltk.corpus import twitter_samples
nltk.download('twitter_samples')

positive_tweets_ = twitter_samples.strings('positive_tweets.json')
negative_tweets_ = twitter_samples.strings('negative_tweets.json')
print('\n primeros 5 twitts positivos')
print(positive_tweets_[:5])
print('\n primeros 5 twitts negativos')
print(negative_tweets_[:5])

[nltk_data] Downloading package twitter_samples to /root/nltk_data...
[nltk_data]   Package twitter_samples is already up-to-date!

 primeros 5 twitts positivos
['#FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)', '@Lamb2ja Hey James! How odd :/ Please call our Contact Centre on 02392441234 and we will be able to assist you :) Many thanks!', '@DespiteOfficial we had a listen last night :) As You Bleed is an amazing track. When are you in Scotland?!', '@97sides CONGRATS :)', 'yeaaaah yippppy!!!  my accnt verified rqst has succeed got a blue tick mark on my fb profile :) in 15 days']

 primeros 5 twitts negativos
['hopeless for tmr :(', "Everything in the kids section of IKEA is so cute. Shame I'm nearly 19 in 2 months :(", '@Hegelbon That heart sliding into the waste basket. :(', '“@ketchBurning: I hate Japanese call him "bani" :( :(”\n\nMe too', 'Dang starting next week I have "work" :(']


#### Tokenización de los twitts

In [27]:
# twitts tokenizados

positive_tweets = twitter_samples.tokenized('positive_tweets.json')
negative_tweets = twitter_samples.tokenized('negative_tweets.json')

print('\nPrimer twitt positivo tokenizado')
print(positive_tweets[0])
print('\nPrimer twitt negativo normalizado')
print(negative_tweets[0])


Primer twitt positivo tokenizado
['#FollowFriday', '@France_Inte', '@PKuchly57', '@Milipol_Paris', 'for', 'being', 'top', 'engaged', 'members', 'in', 'my', 'community', 'this', 'week', ':)']

Primer twitt negativo normalizado
['hopeless', 'for', 'tmr', ':(']


#### Lemmatizing y normalización

nltk contiene funciones de lemmatizing en inglés, en este caso no es necesario usar spacy.

En nltk la lematización se hace a trav´´es de la función wordnet en conjunto de averaged_perceptron_tagger que ayuda a mejorar el lemmatizing pues toma en cuenta el tag que se asigna dentro de la otración

In [28]:
# librerías necesarias

import nltk
# Lemmatizer
nltk.download('wordnet')
# Tagger
nltk.download('averaged_perceptron_tagger')
from nltk.tag import pos_tag

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Creemos una funcion para lemmatizar usando los dos algoritmos que acabamos de importar. Dado que los tags producidos por el algoritmo pos_tag son diferentes a los que usa wordnet, es necesario codificarlos.

| WordNet tag      | Treebank tag |
| ----------- | ----------- |
| n   | NN |
| a   | JJ |
| s   | JJ |
| r   | RB |
| v   | VB |

In [29]:
from nltk.tag import pos_tag
from nltk.stem.wordnet import WordNetLemmatizer

def lemmatize_tok_sentence(tw):
    lemmatizer = WordNetLemmatizer()
    lemmatized_sen = []
    for word, tag in pos_tag(tw):
        if tag.startswith('NN'):
            pos = 'n'
        elif tag.startswith('VB'):
            pos = 'v'
        elif tag.startswith('J'):
            pos = 'a'
        else:
            pos = 'r'
        lemmatized_sen.append(lemmatizer.lemmatize(word, pos))
    return lemmatized_sen

In [30]:
print(positive_tweets_[0])
lemmatize_tok_sentence(positive_tweets[0])

#FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)


['#FollowFriday',
 '@France_Inte',
 '@PKuchly57',
 '@Milipol_Paris',
 'for',
 'be',
 'top',
 'engage',
 'member',
 'in',
 'my',
 'community',
 'this',
 'week',
 ':)']

#### Limpieza de caracteres basura

Despues de revisar los datos notamos 3 tipos de palabras que probablemnte no nos sean de mucha ayuda.  
  + "handles" que twitter utiliza para contestar. Estos comienzan con @ seguidos de una palbra sin espacios ->
        "(@[A-Za-z0-9_]+)"
  + links a otras paginas web (puede que nos sirvan)
         "http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+#]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
  + Puntuacion, pero no los smilies. La puntuacion puede ser removida como stopword o puntuacion. Hay que tener cuidado especial, pues los smilies son formados por puntuacion 
          [  :), :(  ]  

In [31]:
import re, string
from nltk.corpus import stopwords
stop_words = stopwords.words('english')

# Nota como pasamos las stopwords sugeridas por nltk
def clean_lemmatize(tweet_tokens, stop_words = stopwords.words('english')):

    cleaned_tokens = []
    for token, tag in pos_tag(tweet_tokens):
        # Limpiar url
        token = re.sub('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+#]'\
        '|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+',"", token)
        # Limpiar handle
        token = re.sub('(@[A-Za-z0-9_]+)',"", token)

        # Tag for lemmatizer
        if tag.startswith('NN'):
            pos = 'n'
        elif tag.startswith('VB'):
            pos = 'v'
        elif tag.startswith('J'):
            pos = 'a'
        else:
            pos = 'r'
        lemmatizer = WordNetLemmatizer()
        token = lemmatizer.lemmatize(token, pos)

        # Eliminar puntuacion o espacios
        if len(token) > 0 and token not in string.punctuation and \
        token.lower() not in stop_words:
            cleaned_tokens.append(token.lower())
    return cleaned_tokens

In [32]:
print(positive_tweets_[0])
clean_lemmatize(positive_tweets[0])

#FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)


['#followfriday', 'top', 'engage', 'member', 'community', 'week', ':)']

Limpieza de twitts

In [33]:
pos_clean_tweets = list(map(clean_lemmatize, positive_tweets))
neg_clean_tweets = list(map(clean_lemmatize, negative_tweets))

#### Conteo de palabras

In [34]:
# función para extraer palabras, utiliza yield para eficientar el uso de la memoria, pues en lugar de guardar toda la lista de palabras 
# en una lista en memoria yield devuelve un generador.
# Un generador se comporta parecido a una lista, en el sentido que puede ser recorrida con un iterador - la diferencia es que los valores no están almacenados en una colección, sino que se generan "on the fly".
def extract_words(cleaned_tokens_list):
    tokens = []
    for tokens in cleaned_tokens_list:
        for token in tokens:
            yield token

In [35]:
pos_clean_words = extract_words(pos_clean_tweets)
neg_clean_words = extract_words(neg_clean_tweets)

In [36]:
from nltk import FreqDist
pos_distribution = FreqDist(pos_clean_words)
neg_distribution = FreqDist(neg_clean_words)
print('15 palabras positivas más comunes')
print(pos_distribution.most_common(15))
print('15 palabras negativas más comunes')
print(neg_distribution.most_common(15))

15 palabras positivas más comunes
[(':)', 3691), (':-)', 701), (':d', 658), ('thanks', 388), ('follow', 357), ('love', 333), ('...', 290), ('get', 263), ('good', 261), ('thank', 253), ('u', 245), ('day', 242), ('like', 229), ('see', 195), ('happy', 192)]
15 palabras negativas más comunes
[(':(', 4585), (':-(', 501), ("i'm", 343), ('...', 332), ('get', 325), ('miss', 291), ('go', 275), ('please', 275), ('want', 246), ('like', 218), ('♛', 210), ('》', 210), ('u', 193), ("can't", 180), ('time', 160)]


#### Creación del dataset

neg: Tweet Negativo

pos: Tweet Positivo

In [37]:
# función para extraer palabras y pasarlas a un diccionario para eficientar su manipulación
def get_tweets_for_model(cleaned_tokens_list):
    for tweet_tokens in cleaned_tokens_list:
        yield dict([token, True] for token in tweet_tokens)

In [38]:
#Visualizamos lo que retorna la función
pos_tok_model_ = get_tweets_for_model(pos_clean_tweets[0:2])
print([x for x in pos_tok_model_])

[{'#followfriday': True, 'top': True, 'engage': True, 'member': True, 'community': True, 'week': True, ':)': True}, {'hey': True, 'james': True, 'odd': True, ':/': True, 'please': True, 'call': True, 'contact': True, 'centre': True, '02392441234': True, 'able': True, 'assist': True, ':)': True, 'many': True, 'thanks': True}]


In [39]:
pos_tok_model = get_tweets_for_model(pos_clean_tweets)
neg_tok_model = get_tweets_for_model(neg_clean_tweets)

In [40]:
#creación de set de entrenamiento y pruebas
import random

pos_df = [(dict_, 'pos')
          for dict_ in pos_tok_model]

neg_df = [(dict_, 'neg')
          for dict_ in neg_tok_model]

df_tweet = pos_df + neg_df

random.shuffle(df_tweet)

n_train = 8000
train = df_tweet[:n_train]
test = df_tweet[n_train:]

In [41]:
random.shuffle(df_tweet)

### Modelo: Naive Bayes

El siguiente bloque de codigo entrena un Naive Bayes, que es un modelo de clasificación utilizado amplamente en análisis de sentimientos.

El apartado de "Most Informative features" te muestra los tokens mas importantes, y el porcentaje o proporcion de aparicion. Ejemplo:


                      :( = True              neg : pos    =   2338.6 : 1.0


Implica que el caracter ":(" aparece 2338 veces mas en tweets negativos.

In [42]:
from nltk import classify
from nltk import NaiveBayesClassifier

classifier = NaiveBayesClassifier.train(train)

print("Accuracy in test is:", classify.accuracy(classifier, test))
print(classifier.show_most_informative_features(15))

Accuracy in test is: 0.9945
Most Informative Features
                      :( = True              neg : pos    =   2366.5 : 1.0
                      :) = True              pos : neg    =   1130.9 : 1.0
                follower = True              pos : neg    =     25.4 : 1.0
                     bam = True              pos : neg    =     23.6 : 1.0
                     x15 = True              neg : pos    =     21.0 : 1.0
                     sad = True              neg : pos    =     19.7 : 1.0
                followed = True              neg : pos    =     17.8 : 1.0
               community = True              pos : neg    =     15.6 : 1.0
                     ugh = True              neg : pos    =     14.4 : 1.0
              appreciate = True              pos : neg    =     14.3 : 1.0
                    glad = True              pos : neg    =     14.2 : 1.0
                    sick = True              neg : pos    =     13.8 : 1.0
                     idk = True              n

## Desde Pycaret

In [43]:
from pycaret.utils import enable_colab
enable_colab()

Colab mode enabled.


### Procesamiento de datos

#### Importar db de twitts

In [44]:
# Importemos los datos
from nltk.corpus import twitter_samples
nltk.download('twitter_samples')

positive_tweets_ = twitter_samples.strings('positive_tweets.json')
negative_tweets_ = twitter_samples.strings('negative_tweets.json')
print('\n Primeros cinco twitts positivos:')
positive_tweets_[0:5]
print('\n Primeros cinco twitts negativos:')
negative_tweets_[0:5]

[nltk_data] Downloading package twitter_samples to /root/nltk_data...
[nltk_data]   Package twitter_samples is already up-to-date!

 Primeros cinco twitts positivos:

 Primeros cinco twitts negativos:


['hopeless for tmr :(',
 "Everything in the kids section of IKEA is so cute. Shame I'm nearly 19 in 2 months :(",
 '@Hegelbon That heart sliding into the waste basket. :(',
 '“@ketchBurning: I hate Japanese call him "bani" :( :(”\n\nMe too',
 'Dang starting next week I have "work" :(']

Datos a pandas

In [45]:
import pandas as pd

In [46]:
df_pycaret_pos = pd.DataFrame.from_dict({
    'twit':positive_tweets_, 'sentimiento':'pos'
})

df_pycaret_neg = pd.DataFrame.from_dict({
    'twit':negative_tweets_, 'sentimiento':'neg'
})

df_pycaret = pd.concat([df_pycaret_pos, df_pycaret_neg], ignore_index=True)
df_pycaret = df_pycaret.sample(frac=1).reset_index(drop=True)
df_pycaret

Unnamed: 0,twit,sentimiento
0,@malikm0ney sorka no :((,neg
1,@myabumygod @ianadritaranbir Maine Abhi tak Ye...,pos
2,Can I just call into work :(,neg
3,"In this last 9 hours, our channel has got 51 V...",pos
4,I Need You :)\nMy #TeenChoice for #ChoiceInter...,pos
...,...,...
9995,I wish I had my own Baymax :(,neg
9996,kill :) me :) http://t.co/5kon9Txmf6,pos
9997,@KanchuDarling @VidyutJammwal hey babe i just ...,neg
9998,@izzy_sainz but too tired to eat :(,neg


### Procesamiento

In [47]:
from pycaret.nlp import *
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
text_list = list(df_pycaret['twit'])
caret_set = setup(data = df_pycaret, target='twit',
                  custom_stopwords=stop_words)

Description,Value
session_id,3682
Documents,10000
Vocab Size,7559
Custom Stopwords,True


### Modelo LDA

Wikipedia: https://es.wikipedia.org/wiki/Latent_Dirichlet_Allocation

In [48]:
lda = create_model('lda', multi_core = True)
print(lda)

LdaModel(num_terms=7559, num_topics=4, decay=0.5, chunksize=100)


In [49]:
lda_results = assign_model(lda)
lda_results.head()

Unnamed: 0,twit,sentimiento,Topic_0,Topic_1,Topic_2,Topic_3,Dominant_Topic,Perc_Dominant_Topic
0,,neg,0.25,0.25,0.25,0.25,Topic 0,0.25
1,movie know good movie date,pos,0.041975,0.041668,0.041945,0.874412,Topic 3,0.87
2,call work,neg,0.086435,0.084426,0.087327,0.741812,Topic 3,0.74
3,last hour get view incredible thank much,pos,0.031253,0.45623,0.48015,0.032366,Topic 2,0.48
4,need,pos,0.125001,0.125001,0.125001,0.624997,Topic 3,0.62


In [50]:
df_lda = lda_results.drop(['twit', 'Dominant_Topic', 'Perc_Dominant_Topic'],axis=1)
df_lda.head()

Unnamed: 0,sentimiento,Topic_0,Topic_1,Topic_2,Topic_3
0,neg,0.25,0.25,0.25,0.25
1,pos,0.041975,0.041668,0.041945,0.874412
2,neg,0.086435,0.084426,0.087327,0.741812
3,pos,0.031253,0.45623,0.48015,0.032366
4,pos,0.125001,0.125001,0.125001,0.624997


In [54]:
#Pycaret permite comparar diversos modelos de clasificación de palabras
from pycaret.classification import *
pce_1 = setup(data = df_lda, target = 'sentimiento', session_id = 13, train_size=.8)

compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
xgboost,Extreme Gradient Boosting,0.57,0.5974,0.5702,0.5717,0.5679,0.1404,0.1418,6.089
lightgbm,Light Gradient Boosting Machine,0.5675,0.5952,0.5677,0.5693,0.5651,0.1354,0.137,0.151
catboost,CatBoost Classifier,0.5664,0.5929,0.5667,0.5689,0.563,0.1332,0.1355,4.166
rf,Random Forest Classifier,0.5661,0.5933,0.5663,0.5675,0.5642,0.1326,0.1338,1.637
gbc,Gradient Boosting Classifier,0.5614,0.5974,0.5618,0.5656,0.5553,0.1234,0.1272,0.798
et,Extra Trees Classifier,0.5614,0.5887,0.5616,0.5628,0.5593,0.1231,0.1243,0.912
knn,K Neighbors Classifier,0.5562,0.5794,0.5562,0.5572,0.5544,0.1125,0.1134,0.141
dt,Decision Tree Classifier,0.5559,0.5478,0.5561,0.5567,0.5545,0.1121,0.1128,0.055
ada,Ada Boost Classifier,0.551,0.5758,0.5514,0.5546,0.5444,0.1027,0.1059,0.304
nb,Naive Bayes,0.5484,0.5561,0.5488,0.5512,0.5429,0.0974,0.0998,0.021


XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
              gamma=0, gpu_id=-1, importance_type=None,
              interaction_constraints='', learning_rate=0.300000012,
              max_delta_step=0, max_depth=6, min_child_weight=1, missing=nan,
              monotone_constraints='()', n_estimators=100, n_jobs=-1,
              num_parallel_tree=1, objective='binary:logistic',
              predictor='auto', random_state=13, reg_alpha=0, reg_lambda=1,
              scale_pos_weight=1, subsample=1, tree_method='auto',
              use_label_encoder=True, validate_parameters=1, verbosity=0)