In [1]:
#bibliotecas
import unidecode
from pyspark.sql.functions import udf,col,concat_ws, explode,length,abs, lower,lit
from pyspark.sql.types import StringType, IntegerType

#bibliotecas ML
from pyspark.ml.feature import OneHotEncoder, StringIndexer, VectorAssembler,RegexTokenizer, StopWordsRemover, CountVectorizer, NGram
from pyspark.ml.classification import NaiveBayes,RandomForestClassifier,LogisticRegression
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml import Pipeline,PipelineModel

#variables generales del notebook
stopWordsCustomizados = ["amlo","felipe calderon","EPN","calderon"] + StopWordsRemover.loadDefaultStopWords("spanish")
minTokenSize = 2
cantidadNGrams = 1

In [2]:
tweetData = spark.read.csv('dbfs:/mnt/jglake/tweetsSentiment.csv',sep=";",header="True")
tweetData.createOrReplaceTempView("tweetData")
display(tweetData)

usuario,texto,categoria
joselsanchez54,"AristeguiOnline @alvaro_delgado @paezvarela ¿Uds le darían alguna atención a un borrachín con delirium , apenas y puede pensar",negativo
benito06168625,No te preocupes mi felipon de todos modos la poli federal va para atr�s as� como el agrupamiento de granaderos de CDM as� lo dispone amlo y as� mismamente ser� el asunto es desaparecer lo que no ha funcionado,negativo
leticia15257127,"Eso si es apoyo a amlo, gracias",positivo
Fafhoo,Esta es la mano negra a la que se refería AMLO.La Policía Federal pide que Felipe Calderón sea su líder.Aho…,negativo
EarvDezeta,"AMLO es como el niño raro de la escuela que ahora está causando un tiroteo, los demás alumnos somos todos los mexicanos.",negativo
LorenzoMota64,"""Qué Pasa Aquí??! #AMLO #CUARTATRANSFORMACIÓN Cobran Boleto para Entrar a las Mañaneras??""""… """"""",informativo
azulMaruaLu,"¿Amlo sigue manejando que las protestas de la policia del gobierno neoliberal (PF), son un compló? 😬",informativo
consapm,"bueno que amlo no tiene ni la mas minima intencion de ir a algun foro, cumbre, lo que quieran ptm ya quiero ver cuando toque ir a la unga",negativo
feliztwit,"soy muy feliz, me gusta que amlo este cambiando al apis, gracias por todo , te amo cabezita de algod�n",positivo
LIBREDPENSAR,@luisghernan @lopezobrador_ @FelipeCalderon Y LOS MUERTOS DE AMLO ??????? YA SON MAS QUE LOS DE CALDERON EH. EN PRO…,negativo


In [3]:
%sql 
select categoria, count(*) as cantidad from tweetData group by categoria

categoria,cantidad
informativo,114
negativo,107
positivo,38


In [4]:
#Quitamos acentos y convertimos a minusculas
def remove_accents(input_str):
  return unidecode.unidecode(input_str).lower()

remove_accents_udf = udf(remove_accents, StringType())
tweetData = tweetData.withColumn('textoSinAcentos',remove_accents_udf(tweetData.texto))

#Tokenizamos
regexTokenizer = RegexTokenizer(inputCol="textoSinAcentos", outputCol="words", pattern="\\W")
#Establecemos token minimo
regexTokenizer.setMinTokenLength(minTokenSize)
#Quitamos stop words
stopwordsRemover = StopWordsRemover(inputCol="words", outputCol="filtered").setStopWords(stopWordsCustomizados)
#Convertimos a ngramas
ngram = NGram(n=cantidadNGrams, inputCol="filtered", outputCol="ngrams")
#Convertimos categoria de texto a numerica
label_stringIdx = StringIndexer(inputCol = "categoria", outputCol = "label")
#Vectorizamos
countVectors = CountVectorizer(inputCol="ngrams", outputCol="features", vocabSize=150, minDF=5)

#Ejecutamos el pipeline completo
pipeline = Pipeline(stages=[regexTokenizer, stopwordsRemover, ngram,countVectors,label_stringIdx])

pipelineFit = pipeline.fit(tweetData)
dfTweets = pipelineFit.transform(tweetData)
display(dfTweets)

usuario,texto,categoria,textoSinAcentos,words,filtered,ngrams,features,label
joselsanchez54,"AristeguiOnline @alvaro_delgado @paezvarela ¿Uds le darían alguna atención a un borrachín con delirium , apenas y puede pensar",negativo,"aristeguionline @alvaro_delgado @paezvarela ?uds le darian alguna atencion a un borrachin con delirium , apenas y puede pensar","List(aristeguionline, alvaro_delgado, paezvarela, uds, le, darian, alguna, atencion, un, borrachin, con, delirium, apenas, puede, pensar)","List(aristeguionline, alvaro_delgado, paezvarela, uds, darian, alguna, atencion, borrachin, delirium, apenas, puede, pensar)","List(aristeguionline, alvaro_delgado, paezvarela, uds, darian, alguna, atencion, borrachin, delirium, apenas, puede, pensar)","List(0, 50, List(32), List(1.0))",1.0
benito06168625,No te preocupes mi felipon de todos modos la poli federal va para atr�s as� como el agrupamiento de granaderos de CDM as� lo dispone amlo y as� mismamente ser� el asunto es desaparecer lo que no ha funcionado,negativo,no te preocupes mi felipon de todos modos la poli federal va para atrs as como el agrupamiento de granaderos de cdm as lo dispone amlo y as mismamente ser el asunto es desaparecer lo que no ha funcionado,"List(no, te, preocupes, mi, felipon, de, todos, modos, la, poli, federal, va, para, atrs, as, como, el, agrupamiento, de, granaderos, de, cdm, as, lo, dispone, amlo, as, mismamente, ser, el, asunto, es, desaparecer, lo, que, no, ha, funcionado)","List(preocupes, felipon, modos, poli, federal, va, atrs, as, agrupamiento, granaderos, cdm, as, dispone, as, mismamente, ser, asunto, desaparecer, funcionado)","List(preocupes, felipon, modos, poli, federal, va, atrs, as, agrupamiento, granaderos, cdm, as, dispone, as, mismamente, ser, asunto, desaparecer, funcionado)","List(0, 50, List(4, 25, 28), List(1.0, 1.0, 1.0))",1.0
leticia15257127,"Eso si es apoyo a amlo, gracias",positivo,"eso si es apoyo a amlo, gracias","List(eso, si, es, apoyo, amlo, gracias)","List(si, apoyo, gracias)","List(si, apoyo, gracias)","List(0, 50, List(1, 10), List(1.0, 1.0))",2.0
Fafhoo,Esta es la mano negra a la que se refería AMLO.La Policía Federal pide que Felipe Calderón sea su líder.Aho…,negativo,esta es la mano negra a la que se referia amlo.la policia federal pide que felipe calderon sea su lider.aho...,"List(esta, es, la, mano, negra, la, que, se, referia, amlo, la, policia, federal, pide, que, felipe, calderon, sea, su, lider, aho)","List(mano, negra, referia, policia, federal, pide, felipe, lider, aho)","List(mano, negra, referia, policia, federal, pide, felipe, lider, aho)","List(0, 50, List(4, 5, 22), List(1.0, 1.0, 1.0))",1.0
EarvDezeta,"AMLO es como el niño raro de la escuela que ahora está causando un tiroteo, los demás alumnos somos todos los mexicanos.",negativo,"amlo es como el nino raro de la escuela que ahora esta causando un tiroteo, los demas alumnos somos todos los mexicanos.","List(amlo, es, como, el, nino, raro, de, la, escuela, que, ahora, esta, causando, un, tiroteo, los, demas, alumnos, somos, todos, los, mexicanos)","List(nino, raro, escuela, ahora, causando, tiroteo, demas, alumnos, mexicanos)","List(nino, raro, escuela, ahora, causando, tiroteo, demas, alumnos, mexicanos)","List(0, 50, List(17), List(1.0))",1.0
LorenzoMota64,"""Qué Pasa Aquí??! #AMLO #CUARTATRANSFORMACIÓN Cobran Boleto para Entrar a las Mañaneras??""""… """"""",informativo,"""que pasa aqui??! #amlo #cuartatransformacion cobran boleto para entrar a las mananeras??""""... """"""","List(que, pasa, aqui, amlo, cuartatransformacion, cobran, boleto, para, entrar, las, mananeras)","List(pasa, aqui, cuartatransformacion, cobran, boleto, entrar, mananeras)","List(pasa, aqui, cuartatransformacion, cobran, boleto, entrar, mananeras)","List(0, 50, List(), List())",0.0
azulMaruaLu,"¿Amlo sigue manejando que las protestas de la policia del gobierno neoliberal (PF), son un compló? 😬",informativo,"?amlo sigue manejando que las protestas de la policia del gobierno neoliberal (pf), son un complo?","List(amlo, sigue, manejando, que, las, protestas, de, la, policia, del, gobierno, neoliberal, pf, son, un, complo)","List(sigue, manejando, protestas, policia, gobierno, neoliberal, pf, complo)","List(sigue, manejando, protestas, policia, gobierno, neoliberal, pf, complo)","List(0, 50, List(5, 9, 13, 18), List(1.0, 1.0, 1.0, 1.0))",0.0
consapm,"bueno que amlo no tiene ni la mas minima intencion de ir a algun foro, cumbre, lo que quieran ptm ya quiero ver cuando toque ir a la unga",negativo,"bueno que amlo no tiene ni la mas minima intencion de ir a algun foro, cumbre, lo que quieran ptm ya quiero ver cuando toque ir a la unga","List(bueno, que, amlo, no, tiene, ni, la, mas, minima, intencion, de, ir, algun, foro, cumbre, lo, que, quieran, ptm, ya, quiero, ver, cuando, toque, ir, la, unga)","List(bueno, mas, minima, intencion, ir, algun, foro, cumbre, quieran, ptm, quiero, ver, toque, ir, unga)","List(bueno, mas, minima, intencion, ir, algun, foro, cumbre, quieran, ptm, quiero, ver, toque, ir, unga)","List(0, 50, List(7, 19), List(1.0, 1.0))",1.0
feliztwit,"soy muy feliz, me gusta que amlo este cambiando al apis, gracias por todo , te amo cabezita de algod�n",positivo,"soy muy feliz, me gusta que amlo este cambiando al apis, gracias por todo , te amo cabezita de algodn","List(soy, muy, feliz, me, gusta, que, amlo, este, cambiando, al, apis, gracias, por, todo, te, amo, cabezita, de, algodn)","List(feliz, gusta, cambiando, apis, gracias, amo, cabezita, algodn)","List(feliz, gusta, cambiando, apis, gracias, amo, cabezita, algodn)","List(0, 50, List(10), List(1.0))",2.0
LIBREDPENSAR,@luisghernan @lopezobrador_ @FelipeCalderon Y LOS MUERTOS DE AMLO ??????? YA SON MAS QUE LOS DE CALDERON EH. EN PRO…,negativo,@luisghernan @lopezobrador_ @felipecalderon y los muertos de amlo ??????? ya son mas que los de calderon eh. en pro...,"List(luisghernan, lopezobrador_, felipecalderon, los, muertos, de, amlo, ya, son, mas, que, los, de, calderon, eh, en, pro)","List(luisghernan, lopezobrador_, felipecalderon, muertos, mas, eh, pro)","List(luisghernan, lopezobrador_, felipecalderon, muertos, mas, eh, pro)","List(0, 50, List(0, 2, 7), List(1.0, 1.0, 1.0))",1.0


In [5]:
# Dividiendo datos de entrenamiento y de prueba
(trainingData, testData) = dfTweets.randomSplit([0.7, 0.3], seed = 100)
print("Training Dataset Count: " + str(trainingData.count()))
print("Test Dataset Count: " + str(testData.count()))

#algoritmo naive bayes
nb = NaiveBayes(smoothing=1)
#entrenamiento
modelNB = nb.fit(trainingData)
#generar predicciones
predictions = modelNB.transform(testData)
predictions.select("texto","categoria","probability","label","prediction") \
    .orderBy("probability", ascending=False) \
    .show(n = 20, truncate = 20)

#evaluando el modelo
evaluator = MulticlassClassificationEvaluator(predictionCol="prediction")
precision = evaluator.evaluate(predictions)
print("Precisión del modelo: "+ str(precision))

In [6]:
#usando random forest
rf = RandomForestClassifier(labelCol="label", \
                            featuresCol="features", \
                            numTrees = 100, \
                            maxDepth = 4, \
                            maxBins = 32)
# Train model with Training Data
rfModel = rf.fit(trainingData)
predictions = rfModel.transform(testData)
predictions.select("texto","categoria","probability","label","prediction") \
    .orderBy("probability", ascending=False) \
    .show(n = 20, truncate = 30)

evaluator = MulticlassClassificationEvaluator(predictionCol="prediction")
precision = evaluator.evaluate(predictions)
print("Precisión del modelo: "+ str(precision))


In [7]:
#usando Logistic Regression using Count Vector Features
lr = LogisticRegression(maxIter=20, regParam=0.3, elasticNetParam=0)
lrModel = lr.fit(trainingData)
predictions = lrModel.transform(testData)
predictions.select("texto","categoria","probability","label","prediction") \
    .orderBy("probability", ascending=False) \
    .show(n = 20, truncate = 20)

evaluator = MulticlassClassificationEvaluator(predictionCol="prediction")
precision = evaluator.evaluate(predictions)
print("Precisión del modelo: "+ str(precision))