# Cargar datos

In [1]:
import pandas as pd
import random

In [2]:
df_clean = pd.read_pickle('../../data/preprocessed/stemm_lemm_text_nanook.pkl')

In [3]:
df_clean.columns

Index(['Page Name', 'Facebook Id', 'Likes at Posting', 'Post Created', 'Type',
       'Total Interactions', 'Likes', 'Comments', 'Shares', 'Love', 'Wow',
       'Haha', 'Sad', 'Angry', 'Care', 'Message', 'Image Text', 'Link Text',
       'Description',
       'Overperforming Score (weighted  —  Likes 1x Shares 1x Comments 1x Love 1x Wow 1x Haha 1x Sad 1x Angry 1x Care 1x )',
       'messageChar_length', 'messageWords_length', 'Message_clean',
       'Message_clean_stemm', 'Message_clean_lemm'],
      dtype='object')

In [4]:
df_clean[['Page Name', 'Message', 'Message_clean', 'Message_clean_stemm', 'Message_clean_lemm']].head()

Unnamed: 0,Page Name,Message,Message_clean,Message_clean_stemm,Message_clean_lemm
0,AgroForestales C.A.,Mitigar el cambio climático con los pies en la...,mitigar el cambio climatico con los pies en la...,mitig el cambi climat con los pies en la tierr,mitigar el cambio climatico con el pie en el t...
1,El Sol de San Juan del Río,#México 🇲🇽 | La Ciudad de México es la primera...,mexico la ciudad de mexico es la primera urb...,mexic la ciud de mexic es la primer urbe en la...,mexico el ciudad de mexico ser el primero u...
2,Víctor Quintana Silveyra,Para este 2018 que comienza les deseo de coraz...,para este 2018 que comienza les deseo de coraz...,par este 2018 que comienz les dese de corazon ...,para este 2018 que comenzar él desear de coraz...
3,Webguerrillera Internacional,La ONU lanza alerta roja para 2018 por armas n...,la onu lanza alerta roja para 2018 por armas n...,la onu lanz alert roj par 2018 por armas nucle...,el onu lanzar alerta rojo para 2018 por arma n...
4,Libertad y Pensamiento,Novedoso proyecto busca instalar paneles solar...,novedoso proyecto busca instalar paneles solar...,noved proyect busc instal panel solar en la lu...,novedoso proyecto buscar instalar panel solar ...


In [5]:
df_clean.shape

(87422, 25)

In [6]:
len(set(df_clean['Facebook Id']))

20415

El set de datos consta de $87,422$ posts de Facebook realizados por $20,415$ usuarios.

Dado que se han procesado los posts, a continuación se muestran los posts:
- Originales
- Limpios (sin *stop words*)
- *Lematizados*
- *Stemmizados*

In [7]:
print('ORIGINAL MESSAGE')
for i, text in enumerate(df_clean['Message']):
    print(f"Post {i + 1}: {text}")
    #display(Markdown(f"Post {i + 1}: {text}"))
    if i == 4:
        break
print("\n")

print('CLEAN MESSAGE')
for i, text in enumerate(df_clean['Message_clean']):
    print(f"Post {i + 1}: {text}")
    if i == 4:
        break
print("\n")

print('LEMMED MESSAGE')
for i, text in enumerate(df_clean['Message_clean_lemm']):
    print(f"Post {i + 1}: {text}")
    if i == 4:
        break
print("\n")

print('STEMMED MESSAGE')
for i, text in enumerate(df_clean['Message_clean_stemm']):
    print(f"Post {i + 1}: {text}")
    if i == 4:
        break
print("\n")

ORIGINAL MESSAGE
Post 1: Mitigar el cambio climático con los pies en la tierra. http://regenerationinternational.org/2017/12/27/agricultura-regenerativa-tierra-cambio-climatico/:=:https://regenerationinternational.org/2017/12/27/agricultura-regenerativa-tierra-cambio-climatico/
Post 2: #México 🇲🇽 | La Ciudad de México es la primera urbe en Latinoamérica que busca a la siguiente generación de mujeres líderes.
Post 3: Para este 2018 que comienza les deseo de corazón que hagan todo lo que disfruten, pero, más aún, que disfruten todo lo que hagan. Que repartan amor por todos lados: A los seres humanos y a toda la comunidad de los seres vivos. Porque el terrible calentamiento global Y el aún más serio calentamiento social, de violencias, odios, muertes y exclusiones, sólo los podemos anular si hacemos mucho más densa la “amorósfera”: La gran energía del amor presente, actuante y en continua expansión. Con esa solidaridad, con ese amor universal haremos presente la esperanza este 2018. Con m

Guardar todos los posts en un archivo de texto plano (`facebook_posts.txt`) para procesarlos posteriormente con `spaCy`.

In [8]:
CLEAN_FACEBOOK_POSTS_PATH_FILE = "../../data/preprocessed/clean_posts.txt"

In [9]:
if 1 == 0:
    with open(CLEAN_FACEBOOK_POSTS_PATH_FILE, "w") as f:
        for i, post in enumerate(df_clean['Message_clean'].values.tolist()):
            f.write(post + "\n\n")
    print('Se escribireron {:,} posts de facebook en el archivo de texto plano {:}.'.format(i, CLEAN_FACEBOOK_POSTS_PATH_FILE.split('/')[-1]))

# `spaCy`

`spaCy` es una librería de Python utilizada para proyectos de **Procesamiento del Lenguaje Natural** (NLP) poniendo a la disposición del programador varias técnicas utilizadas en un pipeline de NLP:
- Tokenization
- Normalización del texto (eliminar mayúsculas, stemming, lemmatization)
- Part-Of-Speech tagging
- Named Entity Recognition (NER)

Para instalar `spaCy` y dependencias:
```
pip install spacy

pip install es-core-news-sm

python -m spacy download es_core_news_lg
```

In [10]:
import codecs
import itertools as it
import spacy

In [11]:
#nlp = spacy.load('es_core_news_sm')
nlp = spacy.load('es_core_news_lg')

Mostremos un posts de facebook.

In [12]:
with codecs.open(CLEAN_FACEBOOK_POSTS_PATH_FILE, encoding='utf_8') as f:
    sample_review = list(it.islice(f, 4, 5))[0]
    sample_review = sample_review.replace('\\n', '\n')
        
print(sample_review)

para este 2018 que comienza les deseo de corazon que hagan todo lo que disfruten pero mas aun que disfruten todo lo que hagan que repartan amor por todos lados a los seres humanos y a toda la comunidad de los seres vivos porque el terrible calentamiento global y el aun mas serio calentamiento social de violencias odios muertes y exclusiones solo los podemos anular si hacemos mucho mas densa la amorosfera la gran energia del amor presente actuante y en continua expansion con esa solidaridad con ese amor universal haremos presente la esperanza este 2018 con mucho carino victor quintana



Ahora trabajemos con `spaCy`

In [13]:
parsed_review = nlp(sample_review)

In [14]:
print(parsed_review)

para este 2018 que comienza les deseo de corazon que hagan todo lo que disfruten pero mas aun que disfruten todo lo que hagan que repartan amor por todos lados a los seres humanos y a toda la comunidad de los seres vivos porque el terrible calentamiento global y el aun mas serio calentamiento social de violencias odios muertes y exclusiones solo los podemos anular si hacemos mucho mas densa la amorosfera la gran energia del amor presente actuante y en continua expansion con esa solidaridad con ese amor universal haremos presente la esperanza este 2018 con mucho carino victor quintana



Luce idéntico a la cadena sin utilizar `spaCy`, ¿cuál es la diferencia?

Gracias a `spaCy` es fácil obtener la tarea de preprocesamiento (realizada con anterioridad), así como más herramientas útiles en **NLP**:
- Part-of-Speech (POS)
- Lemmatization
- Stop words
- Named Entity Recognition (adjetivos, sustantivos, pronombres, ...)

In [15]:
token_text = [token.orth_ for token in parsed_review]
token_pos = [token.pos_ for token in parsed_review]

pd.DataFrame(zip(token_text, token_pos),
             columns=['token_text', 'part_of_speech'])

Unnamed: 0,token_text,part_of_speech
0,para,ADP
1,este,DET
2,2018,NOUN
3,que,PRON
4,comienza,VERB
...,...,...
97,mucho,DET
98,carino,NOUN
99,victor,PROPN
100,quintana,PROPN


In [16]:
for num, entity in enumerate(parsed_review.ents):
    print('Entity {}:'.format(num + 1), entity, '-', entity.label_)
    print('')

Entity 1: carino victor quintana - PER



In [17]:
token_lemma = [token.lemma_ for token in parsed_review]
token_shape = [token.shape_ for token in parsed_review]

pd.DataFrame(zip(token_text, token_lemma, token_shape),
             columns=['token_text', 'token_lemma', 'token_shape'])

Unnamed: 0,token_text,token_lemma,token_shape
0,para,para,xxxx
1,este,este,xxxx
2,2018,2018,dddd
3,que,que,xxx
4,comienza,comenzar,xxxx
...,...,...,...
97,mucho,mucho,xxxx
98,carino,carino,xxxx
99,victor,victor,xxxx
100,quintana,quintana,xxxx


In [18]:
for num, sentence in enumerate(parsed_review.sents):
    print('Sentence {}:'.format(num + 1))
    print(sentence)
    print('')

Sentence 1:
para este 2018 que comienza les deseo de corazon que hagan todo lo que disfruten pero mas aun que disfruten todo lo que hagan que repartan amor por todos lados a los seres humanos y a toda la comunidad de los seres vivos porque el terrible calentamiento global y el aun mas serio calentamiento social de violencias odios muertes y exclusiones solo los podemos anular si hacemos mucho mas densa la amorosfera la gran energia del amor presente actuante y en continua expansion con esa solidaridad con ese amor universal haremos presente la esperanza este 2018 con mucho carino victor quintana




In [19]:
token_entity_type = [token.ent_type_ for token in parsed_review]
token_entity_iob = [token.ent_iob_ for token in parsed_review]

pd.DataFrame(zip(token_text, token_entity_type, token_entity_iob),
             columns=['token_text', 'entity_type', 'inside_outside_begin'])

Unnamed: 0,token_text,entity_type,inside_outside_begin
0,para,,O
1,este,,O
2,2018,,O
3,que,,O
4,comienza,,O
...,...,...,...
97,mucho,,O
98,carino,PER,B
99,victor,PER,I
100,quintana,PER,I


¡Una de las ventajas de trabajar con `spaCy` es que podemos preprocesar los datos **más rápido**! Nos pudimos ahorrar el trabajo de procesamiento de texto utilizando los modelos precargados de `spaCy`.

In [20]:
token_attributes = [(token.orth_,
                     token.is_stop,
                     token.is_punct,
                     token.is_space,
                     token.like_num)
                    for token in parsed_review]

df = pd.DataFrame(token_attributes,
                  columns=['text',
                           'stop?',
                           'punctuation?',
                           'whitespace?',
                           'number?',
                           ])

df.loc[:, 'stop?':'number?'] = df.loc[:, 'stop?':'number?'].map(lambda x: 'Yes' if x else '')
df

 'Yes' 'Yes' 'Yes' 'Yes' '' 'Yes' 'Yes' 'Yes' '' 'Yes' '' '' 'Yes' 'Yes'
 '' 'Yes' 'Yes' '' '' 'Yes' 'Yes' 'Yes' 'Yes' '' 'Yes' 'Yes' '' '' 'Yes'
 'Yes' '' '' '' 'Yes' 'Yes' 'Yes' 'Yes' '' '' '' 'Yes' '' '' '' 'Yes' ''
 'Yes' 'Yes' 'Yes' '' 'Yes' 'Yes' 'Yes' 'Yes' '' 'Yes' '' 'Yes' 'Yes' ''
 'Yes' '' '' '' 'Yes' 'Yes' '' '' 'Yes' 'Yes' '' 'Yes' 'Yes' '' '' '' ''
 'Yes' '' 'Yes' '' 'Yes' 'Yes' '' '' '' '']' has dtype incompatible with bool, please explicitly cast to a compatible dtype first.
  df.loc[:, 'stop?':'number?'] = df.loc[:, 'stop?':'number?'].map(lambda x: 'Yes' if x else '')
 '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' ''
 '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' ''
 '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' ''
 '' '' '' '' '' '']' has dtype incompatible with bool, please explicitly cast to a compatible dtype first.
  df.loc[:, 'stop?':'number?'] = df.loc[:, 'stop?':'number?'].map(lambda x: 'Yes' 

Unnamed: 0,text,stop?,punctuation?,whitespace?,number?
0,para,Yes,,,
1,este,Yes,,,
2,2018,,,,Yes
3,que,Yes,,,
4,comienza,,,,
...,...,...,...,...,...
97,mucho,Yes,,,
98,carino,,,,
99,victor,,,,
100,quintana,,,,
