Procesamiento de lenguaje natural para textos de Juan Rulfo: analizando sentimentos 

In [3]:
import spacy 
from spacy import displacy


In [4]:
nlp1 = spacy.load("es_core_news_sm")
#nlp2 = spacy.load("es_dep_news_trf")

In [5]:
text = "De los cerros altos del sur, el de Luvina es el más alto y el más pedregoso. Está plagado de esa piedra gris con la que hacen la cal, pero en Luvina no hacen cal con ella ni le sacan ningún provecho."

In [6]:
doc = nlp1(text)

In [8]:
#extrayendo las frases
#identifica los componentes gramaticales y crea una oracion
nlp1.add_pipe("sentencizer", before="parser")

<spacy.pipeline.sentencizer.Sentencizer at 0x1c11542f280>

In [9]:
#cambia la forma para identificar las oraciones
doc = nlp1(text)

In [10]:
for orac in doc.sents: 
    print(orac)

De los cerros altos del sur, el de Luvina es el más alto y el más pedregoso.
Está plagado de esa piedra gris con la que hacen la cal, pero en Luvina no hacen cal con ella ni le sacan ningún provecho.


In [11]:
#eliminando las stop words
import nltk
from spacy.lang.es.stop_words import STOP_WORDS

stopwords_spacy = list(STOP_WORDS)
print(stopwords_spacy, end=",")
len(stopwords_spacy)

['vuestros', 'su', 'cuantos', 'dado', 'u', 'primero', 'vuestras', 'explicó', 'dias', 'ver', 'cuándo', 'suya', 'dijo', 'haces', 'partir', 'informo', 'ultimo', 'mía', 'será', 'cierta', 'conmigo', 'estos', 'podria', 'consigues', 'menos', 'está', 'existe', 'lo', 'más', 'tuvo', 'todavía', 'ocho', 'del', 'sé', 'aun', 'otro', 'cuenta', 'cuál', 'poder', 'podriamos', 'largo', 'sea', 'tras', 'aquélla', 'incluso', 'última', 'nuestras', 'diez', 'solamente', 'embargo', 'ese', 'todavia', 'uno', 'este', 'estuvo', 'ninguna', 'ninguno', 'eramos', 'otros', 'bajo', 'contra', 'despacio', 'últimas', 'ustedes', 'cómo', 'ésta', 'propias', 'a', 'cada', 'sus', 'saben', 'dentro', 'mucha', 'tiene', 'ése', 'he', 'aquéllas', 'aquél', 'soy', 'menudo', 'ningunos', 'verdadera', 'cuánta', 'debajo', 'hubo', 'mis', 'o', 'y', 'nunca', 'tenía', 'llevar', 'pueden', 'hacen', 'podrían', 'realizó', 'sois', 'ésos', 'conseguimos', 'ser', 'temprano', 'dia', 'nuevos', 'propio', 'tengo', 'entre', 'tenido', 'delante', 'son', 'estas

521

In [12]:
for token in doc: 
    if token.is_stop == False: 
        print(token)

cerros
altos
sur
,
Luvina
alto
pedregoso
.
plagado
piedra
gris
cal
,
Luvina
cal
sacan
provecho
.


In [13]:
#lematizacion (elimina conjugaciones de la misma palabra)
for lem in doc: 
    print(lem.text, lem.lemma_)


De de
los el
cerros cerros
altos alto
del del
sur sur
, ,
el el
de de
Luvina Luvina
es ser
el el
más más
alto alto
y y
el el
más más
pedregoso pedregoso
. .
Está estar
plagado plagado
de de
esa ese
piedra piedra
gris gris
con con
la el
que que
hacen hacer
la el
cal cal
, ,
pero pero
en en
Luvina Luvina
no no
hacen hacer
cal cal
con con
ella él
ni ni
le él
sacan sacar
ningún ninguno
provecho provecho
. .


In [14]:
#pos (part o speech tagging) que funcion cumple una palabra dentro de una frase

doc = nlp1("De los cerros altos del sur, el de Luvina es el más alto y el más pedregoso. Está plagado de esa piedra gris con la que hacen la cal, pero en Luvina no hacen cal con ella ni le sacan ningún provecho.")

In [15]:
for token in doc: 
    print(token.text, token.pos_)

De ADP
los DET
cerros NOUN
altos ADJ
del ADP
sur NOUN
, PUNCT
el DET
de ADP
Luvina PROPN
es AUX
el DET
más ADV
alto ADJ
y CCONJ
el DET
más ADV
pedregoso ADJ
. PUNCT
Está AUX
plagado ADJ
de ADP
esa DET
piedra NOUN
gris ADJ
con ADP
la DET
que PRON
hacen VERB
la DET
cal NOUN
, PUNCT
pero CCONJ
en ADP
Luvina PROPN
no ADV
hacen VERB
cal NOUN
con ADP
ella PRON
ni CCONJ
le PRON
sacan VERB
ningún DET
provecho NOUN
. PUNCT


In [16]:
displacy.render(doc, style="dep")

In [17]:
#detencion de identidades (lugares, fechas etc)
displacy.render(doc, style="ent")

In [18]:
import xmltodict  
import json 
import pandas as pd
import re

In [19]:
with open("TASS2019_country_CR_train.xml", encoding="utf8") as xml_file:
    data_dict = xmltodict.parse(xml_file.read())
xml_file.close()

In [20]:
#abriendo un json

json_data = json.dumps(data_dict)
with open ("TASS2019_country_CR_train.json", "w") as json_file:
    json_file.write(json_data)
json_file.close()

In [21]:
#limpieza de datos 
fin = open("TASS2019_country_CR_train.json", "rt")

In [22]:
fout = open("TASS2019_country_CR_train-sintilde.json", "wt")
#Procesamiento de lìneas del archivo
for line in fin:
	#Reemplazar los caracteres unicode, no se dejaron tildes porque causan error
    strtmp1 = line.replace('\\u00f1', 'ñ')
    strtmp1 = strtmp1.replace('\\u00e1', 'a')
    strtmp1 = strtmp1.replace('\\u00e9', 'e')
    strtmp1 = strtmp1.replace('\\u00ed', 'i')
    strtmp1 = strtmp1.replace('\\u00f3', 'o')
    strtmp1 = strtmp1.replace('\\u00fa', 'u')
    strtmp1 = strtmp1.replace('\\u00bf', '¿')
    strtmp1 = strtmp1.replace('\\u00a1', '¡')
    strtmp1 = strtmp1.replace('\\u00d1', 'Ñ')
    strtmp1 = strtmp1.replace('\\u00c1', 'A')
    strtmp1 = strtmp1.replace('\\u00c9', 'E')
    strtmp1 = strtmp1.replace('\\u00cd', 'I')
    strtmp1 = strtmp1.replace('\\u00d3', 'O')
    strtmp1 = strtmp1.replace('\\u00da', 'U')
    strtmp1 = strtmp1.replace('\\u00fc', 'ü')
    strtmp1 = strtmp1.replace('\\u00b0', '')
    #Quitar el inicio y el fin del json para dejar solo los tweets
    strtmp1 = strtmp1.replace('{"tweets": {"tweet": ', '')
    strtmp1 = strtmp1.replace(']}}', ']')
    #Quitar el diccionario que contiene la polaridad y dejarla solo con su valor de sentimiento
    strtmp1 = strtmp1.replace('"sentiment": {"polarity": {"value": ', '"sentiment": ')
    strtmp1 = strtmp1.replace('"NONE"}}', '"NONE"')
    #Asignamos al sentimiento positivo el valor de 1
    strtmp1 = strtmp1.replace('"P"}}', '1')
    strtmp1 = strtmp1.replace('"NEU"}}', '"NEU"')
    #Asignamos al sentimiento negativo el valor de 0
    strtmp1 = strtmp1.replace('"N"}}', '-1')
    #eliminación de puntuaciones
    strtmp1 = re.sub('[¡!#$).;¿?&°]', '', strtmp1.lower())
    fout.write(strtmp1)
#cerrar archivos
fin.close()
fout.close()

In [23]:
train_df = pd.read_json("TASS2019_country_CR_train-sintilde.json", encoding="latin1")
train_df.head()

Unnamed: 0,tweetid,user,content,date,lang,sentiment
0,768225400254111744,14628107,@noilymv yo soy totalmente puntual,2016-08-23 23:16:23+00:00,es,none
1,770077064833671168,713600676,@sandracauffman hola sandrita no le habia dese...,2016-08-29 01:54:14+00:00,es,1
2,771207534342320128,120940293,si andan haciendo eso mejor se quedaran callad...,2016-09-01 04:46:19+00:00,es,-1
3,771900763987513344,2827444381,que pereza quiero choco banano,2016-09-03 02:40:58+00:00,es,-1
4,772550560998301696,60878511,"@robertobrenes bueno, no es tanto lo mayor com...",2016-09-04 21:43:01+00:00,es,-1


In [24]:
lista = []
for usuario in train_df["content"]:
    
    lista.append(usuario)

print (lista)


['@noilymv yo soy totalmente puntual', '@sandracauffman hola sandrita no le habia deseado un feliz dia de la madre, tarde pero seguro sabe usted si juno ha tomado mas fotos ', 'si andan haciendo eso mejor se quedaran calladitas jaja pero asi se estan quemando ellas mismas e insinuando que son unas metidas', 'que pereza quiero choco banano', '@robertobrenes bueno, no es tanto lo mayor como cuanto de campo sea usted sos cartaguito en cada aspecto de tu vida, por lo visto', 'pase todo el dia buscando mi baby lips y lo acabo de encontrar estaba en la mesita de noche de fijo lo puse ahi dormida', '@doriamdiaz el de halfon de germinal se ve mortal y los de mary jo bang se fueron volando, pero todavia quedan en duluoz hay de salcedo', 'ahorita me van a cambiar las ligas de los brakets, tengo alfajores argentinos en mi bulto, tengo hambre , que hago no puedo esperar mas', 'el amor es paciente, es bondadoso, no es envidioso ni orgulloso, no es egoista, no guarda rencor 1 corintios 13:4-5 buen d

In [25]:
#eliminar las funciones de usurari 

def filter_reply(content): 
    temp = content
    while temp.find("@") > -1:
        temp = temp[:temp.find("@")] + temp[(temp.find(" ", temp.find("@"))):]
    return temp

In [28]:
train_df["content"] = train_df["content"].apply(filter_reply)


In [30]:
train_df.head()

Unnamed: 0,tweetid,user,content,date,lang,sentiment
0,768225400254111744,14628107,yo soy totalmente puntual,2016-08-23 23:16:23+00:00,es,none
1,770077064833671168,713600676,hola sandrita no le habia deseado un feliz di...,2016-08-29 01:54:14+00:00,es,1
2,771207534342320128,120940293,si andan haciendo eso mejor se quedaran callad...,2016-09-01 04:46:19+00:00,es,-1
3,771900763987513344,2827444381,que pereza quiero choco banano,2016-09-03 02:40:58+00:00,es,-1
4,772550560998301696,60878511,"bueno, no es tanto lo mayor como cuanto de ca...",2016-09-04 21:43:01+00:00,es,-1


In [31]:
indexNames = train_df[(train_df["sentiment"]== "none") | (train_df ["sentiment"]=="neu")].index

In [32]:
train_df.drop(indexNames, inplace=True)

In [34]:
#Datos clasificados con sentimientos
train_df.head()

<class 'pandas.core.indexes.numeric.Int64Index'>


Unnamed: 0,tweetid,user,content,date,lang,sentiment
1,770077064833671168,713600676,hola sandrita no le habia deseado un feliz di...,2016-08-29 01:54:14+00:00,es,1
2,771207534342320128,120940293,si andan haciendo eso mejor se quedaran callad...,2016-09-01 04:46:19+00:00,es,-1
3,771900763987513344,2827444381,que pereza quiero choco banano,2016-09-03 02:40:58+00:00,es,-1
4,772550560998301696,60878511,"bueno, no es tanto lo mayor como cuanto de ca...",2016-09-04 21:43:01+00:00,es,-1
6,772264329433509888,373097882,el de halfon de germinal se ve mortal y los d...,2016-09-04 02:45:38+00:00,es,1


In [36]:
#analisis te texto

#tomando los datos del corpus de SE

from sklearn.feature_extraction.text import TfidfTransformer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [37]:
train_df["sentiment"].value_counts()

-1    310
 1    221
Name: sentiment, dtype: int64

In [40]:
#conteo de datos nulos 
train_df.isnull().sum()

tweetid      0
user         0
content      0
date         0
lang         0
sentiment    0
dtype: int64

In [43]:
# Tokenizacion 
# funcion de puntuacion con string 
import string
puntua = string.punctuation + "¡¿" #agregando los de español
puntua

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¡¿'

In [64]:
#quitando los pronombres, limpieza de datos
#Función para limpieza de datos
def text_data_cleaning(sentence):
    doc = nlp1(sentence)
    
    tokens = []
    for token in doc:
        if token.lemma_ != "-PRON-":
            temp = token.lemma_.strip()
        else:
            temp = token
        tokens.append(temp)
    
    clean_tokens = []
    for token in tokens:
        if token not in stopwords_spacy and token not in puntua:
            clean_tokens.append(token)
    
    return clean_tokens

In [65]:
# aplicando a los los tweis de content
#vectorizacion feature Engineering (TF-IDF)
from sklearn.svm import LinearSVC


In [66]:

tfidf = TfidfVectorizer(tokenizer=text_data_cleaning)
classifier = LinearSVC()

In [67]:
#creando los vectores
x = train_df["content"]
y = train_df["sentiment"]

In [68]:
#tomar los vectores y tomar el set de prueba

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


In [69]:
#pipeline usando el clasificador y el TF-IDF

clf = Pipeline([("tfidf", tfidf), ("clf", classifier)])

In [70]:
#el formato por defecto es no determinado, se pasa a formato conocido para evitar erres 
y_train = y_train.astype("int")
y_test = y_test.astype("int")


In [71]:
#tomar el clasificador con el vector de entrenamiento 

clf.fit(x_train, y_train)



In [72]:
#tamano de los datos 

x_train.shape, x_test.shape

((424,), (107,))

In [73]:
#prediccion con el clasificador 

y_pred = clf.predict(x_test)



In [74]:
y_pred.shape

(107,)

In [75]:
#que tan parecido quedo la infirmacion en cuanto a la original

print (classification_report(y_test, y_pred))


              precision    recall  f1-score   support

          -1       0.78      0.76      0.77        68
           1       0.60      0.62      0.61        39

    accuracy                           0.71       107
   macro avg       0.69      0.69      0.69       107
weighted avg       0.71      0.71      0.71       107



In [76]:
confusion_matrix(y_test, y_pred)

array([[52, 16],
       [15, 24]], dtype=int64)

In [81]:
#hacer preducciones con otro texto 
clf.predict([""])

array([-1])