# Procesamiento de Lenguaje natural en español

 - Las principales librerías están entrenadas con corpus en inglés, algunas aproximaciones sugieren realizar una traducción de los textos al inglés antes de procesarlos, pero todos sabemos lo que sucede cuando se traduce.
 - Otra aproximación es encontrar un corpus en español y entrenar un modelo usando una librería, eso haremos hoy con Spacy

¿Dónde obtener un Corpus en español?
Veamos el trabajo de los amigos de la Sociedad Española de Procesamiento del Lenguaje Natural y su TASS [Taller de Análisis Semántico en la SEPLN](http://tass.sepln.org)

Este código ha sido adaptado al español del [NLP Tutorial 8 - Sentiment Classification using SpaCy for IMDB and Amazon Review Dataset](https://www.youtube.com/watch?v=cd51nXNpiiU) creado por [Aarya Tadvalkar](https://kgptalkie.com/author/aarya/)

Para que lo sigan con más facilidad está disponible en el repo de GitHb https://github.com/WomenWhoCode/WWCodeBogota/tree/master/Python

In [1]:
# Instalar librerías
# pip3 install scikit-learn
# pip3 install -U spacy
# python3 -m spacy download es
# python3 -m spacy download es_core_news_sm

In [2]:
import spacy
from spacy import displacy

In [3]:
nlp = spacy.load('es_core_news_sm')

In [4]:
text = "Hay un perro en la primera frase. Y en esta es otra una Naranja. Aquí está la frase del tercer lugar"

In [5]:
doc = nlp(text)

In [6]:
doc

Hay un perro en la primera frase. Y en esta es otra una Naranja. Aquí está la frase del tercer lugar

In [7]:
for token in doc:
    print(token)

Hay
un
perro
en
la
primera
frase
.
Y
en
esta
es
otra
una
Naranja
.
Aquí
está
la
frase
del
tercer
lugar


In [8]:
orac = nlp.create_pipe('sentencizer')

In [9]:
nlp.add_pipe(orac, before='parser')

In [10]:
doc = nlp(text)

In [11]:
for orac in doc.sents:
    print(orac)

Hay un perro en la primera frase.
Y en esta es otra una Naranja.
Aquí está la frase del tercer lugar


In [12]:
#Stop Words de es_core_news_sm
from spacy.lang.es.stop_words import STOP_WORDS
stopwords_spacy = list(STOP_WORDS)
print(stopwords_spacy)
len(stopwords_spacy)

['todo', 'sabe', 'soyos', 'grandes', 'sino', 'parte', 'trabajar', 'cuanto', 'posible', 'estoy', 'hacerlo', 'breve', 'se', 'puedo', 'toda', 'tiempo', 'todavia', 'esta', 'ciertos', 'igual', 'siendo', 'le', 'podria', 'realizó', 'saben', 'tal', 'cuantos', 'propia', 'suyas', 'unas', 'sigue', 'ha', 'ultimo', 'tú', 'podría', 'general', 'como', 'aquello', 'eres', 'tambien', 'sabeis', 'alli', 'claro', 'aún', 'tenga', 'sabemos', 'dado', 'dio', 'vaya', 'es', 'mas', 'peor', 'saber', 'llevar', 'sola', 'cómo', 'encuentra', 'añadió', 'mía', 'ir', 'lleva', 'aqui', 'deben', 'aquéllos', 'cuál', 'me', 'nosotros', 'uso', 'dos', 'quienes', 'parece', 'mi', 'otra', 'dice', 'quizá', 'buen', 'usan', 'pues', 'cuando', 'quedó', 'usas', 'aproximadamente', 'vosotras', 'trabajan', 'dijeron', 'cuales', 'tuya', 'eso', 'emplean', 'afirmó', 'en', 'si', 'trabajamos', 'el', 'tercera', 'mias', 'habia', 'fui', 'pueda', 'tiene', 'del', 'queremos', 'poder', 'hablan', 'estar', 'vuestras', 'nuestro', 'temprano', 'estos', 'tene

551

In [13]:
#Stop Words de nltk
import nltk
from nltk.corpus import stopwords
stop_words_sp = set(stopwords.words('spanish'))
print(stop_words_sp)
len(stop_words_sp)

{'todo', 'seáis', 'estada', 'estoy', 'se', 'habrás', 'hubierais', 'hubiésemos', 'esta', 'le', 'habidos', 'estuviesen', 'has', 'suyas', 'ha', 'tú', 'tuviese', 'como', 'eres', 'tenga', 'habíais', 'hubiese', 'sentida', 'fuerais', 'es', 'seré', 'mía', 'tengan', 'me', 'nosotros', 'quienes', 'mi', 'otra', 'estarán', 'hubieseis', 'cuando', 'fueran', 'seamos', 'vosotras', 'o', 'tuya', 'eso', 'fuésemos', 'en', 'siente', 'tendrían', 'hayan', 'el', 'tendrás', 'fui', 'tiene', 'habiendo', 'del', 'habríais', 'estar', 'vuestras', 'nuestro', 'serías', 'estos', 'hayáis', 'seremos', 'tenemos', 'ellas', 'tuvierais', 'teníamos', 'mías', 'una', 'nada', 'habré', 'tu', 'sus', 'hube', 'no', 'estuvieron', 'y', 'estabas', 'fueses', 'sean', 'tendríamos', 'vuestra', 'esto', 'habrán', 'tengo', 'poco', 'tenidas', 'estadas', 'tenida', 'estuve', 'otro', 'míos', 'tuyas', 'al', 'otras', 'muchos', 'estarían', 'estéis', 'sí', 'estuvieras', 'te', 'tuvieran', 'estaremos', 'algo', 'nosotras', 'habéis', 'seríais', 'suyo', 'h

313

In [14]:
for token in doc:
    if token.is_stop == False:
        print(token)

perro
frase
.
Y
Naranja
.
frase
tercer


# Lemmatización

In [15]:
doc = nlp('corro correr corriendo corredor')

In [16]:
for lem in doc:
    print(lem.text, lem.lemma_)

corro correr
correr correr
corriendo correr
corredor corredor


# POS (Part of Speech Tagging)

Pueden ver el significado de las etiquetas en https://spacy.io/usage/linguistic-features

In [17]:
doc = nlp('En tu final todo es bueno!')

In [18]:
for token in doc:
    print(token.text, token.pos_)

En ADP
tu DET
final NOUN
todo PRON
es AUX
bueno ADJ
! PUNCT


In [19]:
displacy.render(doc, style="dep")

# Detección de identidades

In [36]:
doc = nlp("El censo nacional de población y vivienda es la operación estadística de mayor envergadura y relevancia que una institución oficial de estadística pueda llevar a cabo, de allí que el actual director del Departamento Administrativo Nacional de Estadística-DANE, Dr. Juan Daniel Oviedo, haya conformado un comité de expertos en censos y demografía para evaluar el proceso y las cifras censales producidas en el Censo Nacional de Población y Vivienda para Colombia en 2018. Este comité está conformado por expertos nacionales e internacionales afiliados a instituciones académicas, consultores independientes, expertos del CELADE-División de Población de la CEPAL, UNFPA- LACRO, UNFPA Oficina de Colombia y de la Oficina de Colombia del Banco Mundial. El presente Resumen Ejecutivo destaca los principales resultados de esta evaluación realizada desde noviembre 1 de 2018 hasta junio 30 de 2019. Durante este tiempo, se mantuvo una conversación directa entre funcionarios del DANE y el comité, y en el último mes la institución compartió varias de las cifras básicas de las bases de información conformadas en la manufactura del Censo Nacional de Población y Vivienda para Colombia en 2018-CNPV. Como miembros del Comité de expertos agradecemos la generosidad del director y de todos los técnicos del DANE por compartir sus experiencias y conocimiento al respecto y sobre todo por abrir las puertas de la institución a nosotros en calidad de expertos para debatir sus resultados, de tanto interés para el país. Este escrito sigue el mismo orden de presentación de temas del informe final y cada párrafo termina con la sugerencia del Comité.")

In [37]:
doc

El censo nacional de población y vivienda es la operación estadística de mayor envergadura y relevancia que una institución oficial de estadística pueda llevar a cabo, de allí que el actual director del Departamento Administrativo Nacional de Estadística-DANE, Dr. Juan Daniel Oviedo, haya conformado un comité de expertos en censos y demografía para evaluar el proceso y las cifras censales producidas en el Censo Nacional de Población y Vivienda para Colombia en 2018. Este comité está conformado por expertos nacionales e internacionales afiliados a instituciones académicas, consultores independientes, expertos del CELADE-División de Población de la CEPAL, UNFPA- LACRO, UNFPA Oficina de Colombia y de la Oficina de Colombia del Banco Mundial. El presente Resumen Ejecutivo destaca los principales resultados de esta evaluación realizada desde noviembre 1 de 2018 hasta junio 30 de 2019. Durante este tiempo, se mantuvo una conversación directa entre funcionarios del DANE y el comité, y en el ú

In [38]:
displacy.render(doc, style = 'ent')

# Clasificación de texto

In [39]:
#Importar las librerías necesarias para leer los archivos de TASS
import xmltodict
import json
import pandas as pd
import re

In [40]:
#Traer el archivo xml original xml y convertirlo en un diccionario, escogimos el de Costa rica
with open("TASS2019_country_CR_train.xml") as xml_file:
    data_dict = xmltodict.parse(xml_file.read())
xml_file.close()

In [41]:
#Convertir a json el diccionario
json_data = json.dumps(data_dict)

In [42]:
#Escribir en un archivo el resultado en json
with open("TASS2019_country_CR_train.json", "w") as json_file:
    json_file.write(json_data)
json_file.close()

In [43]:
#Limpieza de datos en la fuente
#Original en json
fin = open("TASS2019_country_CR_train.json", "rt")
#Archivo resultante en json
fout = open("TASS2019_country_CR_train-sintilde.json", "wt")
#Procesamiento de lìneas del archivo
for line in fin:
	#Reemplazar los caracteres unicode, no se dejaron tildes porque causan error
    strtmp1 = line.replace('\\u00f1', 'ñ')
    strtmp1 = strtmp1.replace('\\u00e1', 'a')
    strtmp1 = strtmp1.replace('\\u00e9', 'e')
    strtmp1 = strtmp1.replace('\\u00ed', 'i')
    strtmp1 = strtmp1.replace('\\u00f3', 'o')
    strtmp1 = strtmp1.replace('\\u00fa', 'u')
    strtmp1 = strtmp1.replace('\\u00bf', '¿')
    strtmp1 = strtmp1.replace('\\u00a1', '¡')
    strtmp1 = strtmp1.replace('\\u00d1', 'Ñ')
    strtmp1 = strtmp1.replace('\\u00c1', 'A')
    strtmp1 = strtmp1.replace('\\u00c9', 'E')
    strtmp1 = strtmp1.replace('\\u00cd', 'I')
    strtmp1 = strtmp1.replace('\\u00d3', 'O')
    strtmp1 = strtmp1.replace('\\u00da', 'U')
    strtmp1 = strtmp1.replace('\\u00fc', 'ü')
    strtmp1 = strtmp1.replace('\\u00b0', '')
    #Quitar el inicio y el fin del json para dejar solo los tweets
    strtmp1 = strtmp1.replace('{"tweets": {"tweet": ', '')
    strtmp1 = strtmp1.replace(']}}', ']')
    #Quitar el diccionario que contiene la polaridad y dejarla solo con su valor de sentimiento
    strtmp1 = strtmp1.replace('"sentiment": {"polarity": {"value": ', '"sentiment": ')
    strtmp1 = strtmp1.replace('"NONE"}}', '"NONE"')
    #Asignamos al sentimiento positivo el valor de 1
    strtmp1 = strtmp1.replace('"P"}}', '1')
    strtmp1 = strtmp1.replace('"NEU"}}', '"NEU"')
    #Asignamos al sentimiento negativo el valor de 0
    strtmp1 = strtmp1.replace('"N"}}', '0')
    #eliminación de puntuaciones
    strtmp1 = re.sub('[¡!#$).;¿?&°]', '', strtmp1.lower())
    fout.write(strtmp1)
#cerrar archivos
fin.close()
fout.close()

In [48]:
#tomar los datos del archivo creado en un dataframe
train_df = pd.read_json('TASS2019_country_CR_train-sintilde.json')
train_df

Unnamed: 0,content,date,lang,sentiment,tweetid,user
0,@noilymv yo soy totalmente puntual,2016-08-23 23:16:23,es,none,768225400254111744,14628107
1,@sandracauffman hola sandrita no le habia dese...,2016-08-29 01:54:14,es,1,770077064833671168,713600676
2,si andan haciendo eso mejor se quedaran callad...,2016-09-01 04:46:19,es,0,771207534342320128,120940293
3,que pereza quiero choco banano,2016-09-03 02:40:58,es,0,771900763987513344,2827444381
4,"@robertobrenes bueno, no es tanto lo mayor com...",2016-09-04 21:43:01,es,0,772550560998301696,60878511
5,pase todo el dia buscando mi baby lips y lo ac...,2016-09-05 00:38:50,es,neu,772594807357124608,761015519646363648
6,@doriamdiaz el de halfon de germinal se ve mor...,2016-09-04 02:45:38,es,1,772264329433509888,373097882
7,ahorita me van a cambiar las ligas de los brak...,2016-09-01 00:20:02,es,none,771140523562143744,105199059
8,"el amor es paciente, es bondadoso, no es envid...",2016-09-07 14:18:05,es,1,773525753082187776,763016797
9,"el amanecer respirando o2 puro, es mas que un ...",2016-09-10 13:10:48,es,1,774595982600253440,1411112113


In [46]:
#Función para eliminar las menciones a otros usuarios de twitter
def filter_reply(content):
    temp = content
    while temp.find("@") > -1:
        temp = temp[:temp.find("@")] + temp[(temp.find(" ",temp.find("@"))):]
    return temp

In [49]:
#Quitar menciones del texto
train_df['content'] = train_df['content'].apply(filter_reply)
#Quitar columnas sin clasificación de sentimiento 
indexNames = train_df[(train_df['sentiment'] == 'none') | (train_df['sentiment'] == 'neu')].index
train_df.drop(indexNames , inplace=True)
train_df

Unnamed: 0,content,date,lang,sentiment,tweetid,user
1,hola sandrita no le habia deseado un feliz di...,2016-08-29 01:54:14,es,1,770077064833671168,713600676
2,si andan haciendo eso mejor se quedaran callad...,2016-09-01 04:46:19,es,0,771207534342320128,120940293
3,que pereza quiero choco banano,2016-09-03 02:40:58,es,0,771900763987513344,2827444381
4,"bueno, no es tanto lo mayor como cuanto de ca...",2016-09-04 21:43:01,es,0,772550560998301696,60878511
6,el de halfon de germinal se ve mortal y los d...,2016-09-04 02:45:38,es,1,772264329433509888,373097882
8,"el amor es paciente, es bondadoso, no es envid...",2016-09-07 14:18:05,es,1,773525753082187776,763016797
9,"el amanecer respirando o2 puro, es mas que un ...",2016-09-10 13:10:48,es,1,774595982600253440,1411112113
10,acabo de ver una chamaca con un piercing de mo...,2016-09-10 21:37:34,es,0,774723515995914240,353322123
12,acabo de ver a una excompañera de trabajo y me...,2016-09-09 14:43:19,es,0,774256876787671040,50489263
14,"buenas noches papus, que descansen",2016-09-11 06:09:56,es,1,774852457209880576,763016797


In [50]:
#Importar librerías de aprendizaje
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [51]:
#Verificar frecuencias de cada categoría
train_df['sentiment'].value_counts()

0    310
1    221
Name: sentiment, dtype: int64

In [52]:
#Verificar si hay datos nulos
train_df.isnull().sum()

content      0
date         0
lang         0
sentiment    0
tweetid      0
user         0
dtype: int64

# Tokenización

In [53]:
#Constante de signos de puntuación (para referencia pues se eliminaron en el archivo fuente)
import string
puntua = string.punctuation + '¡¿'
puntua

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¡¿'

In [54]:
#Función para limpieza de datos
def text_data_cleaning(sentence):
    doc = nlp(sentence)
    
    tokens = []
    for token in doc:
        if token.lemma_ != "-PRON-":
            temp = token.lemma_.strip()
        else:
            temp = token
        tokens.append(temp)
    
    clean_tokens = []
    for token in tokens:
        if token not in stopwords_spacy and token not in puntua:
            clean_tokens.append(token)
    
    return clean_tokens

In [56]:
text_data_cleaning("¡Hola cómo estás!. ¿Te gusta el meetup?")

['Hola', 'Te', 'gustar', 'meetup']

# Vectorization Feature Engineering (TF-IDF)

In [57]:
#importar librería de vectorización
from sklearn.svm import LinearSVC

In [58]:
#Definir la función de tokenizado y crear el clasificador
tfidf = TfidfVectorizer(tokenizer = text_data_cleaning)
classifier = LinearSVC()

In [59]:
#Crear los vectores de datos
X = train_df['content']
y = train_df['sentiment']

In [60]:
#Crear el vector de entrenamiento como una porción de los datos y dejar el resto para pruebas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((424,), (107,), (424,), (107,))

In [62]:
X_train.head()

595    nunca dejen el snapchat abierto en el celular ...
771     no se si a todos les funcione pero nosotros s...
255    apoyen a la network   esta network tiene futur...
533                 pues es un buen momento para hacerlo
98      y son 3030 años de acompañarnos,30 es mi edad...
Name: content, dtype: object

In [63]:
#Crear un pipeline
clf = Pipeline([('tfidf', tfidf), ('clf', classifier)])

In [64]:
#evitar que el formato se tome como unknown
y_train = y_train.astype('int')
y_test = y_test.astype('int')

In [65]:
#Entrenar el clasificador
clf.fit(X_train, y_train)

Pipeline(memory=None,
     steps=[('tfidf', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,...ax_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0))])

In [66]:
#Crear el vectos de valores predichos a partir del clasificador
y_pred = clf.predict(X_test)

In [67]:
#Ver la precisión obtenida
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.81      0.84      0.83        68
           1       0.70      0.67      0.68        39

   micro avg       0.78      0.78      0.78       107
   macro avg       0.76      0.75      0.76       107
weighted avg       0.77      0.78      0.77       107



In [68]:
#Crear la matriz de confusión
confusion_matrix(y_test, y_pred)

array([[57, 11],
       [13, 26]])

In [69]:
#Predecir algunas frases de prueba
clf.predict(['Realmente me gustó mucho este ejercicio'])

array([1])

In [70]:
#Una negativa
clf.predict(['La verdad esto apesta'])

array([0])

In [71]:
#El sarcasmo en twitter es difícil de predecir
clf.predict(['Gracias por su interés señor, sea tan amable largarse y que tenga un buen día'])

array([1])

In [72]:
#Probemos con un tweet sin sarcasmo
clf.predict(['Esta gente estaría buena para escribir novelas de ficción. Desgraciados. Me siento indignada.'])

array([0])

In [73]:
#¿Qué dice el clasificador del Meetup de hoy?
clf.predict(['Vale la pena haber asistido'])

array([1])