In [1]:
t#bibliotecas
import unidecode
import os
from pyspark.sql.functions import udf,col,concat_ws, explode,length,abs, lower,lit
from pyspark.sql.types import StringType, IntegerType

#bibliotecas ML
from pyspark.ml.feature import OneHotEncoder, StringIndexer, VectorAssembler,RegexTokenizer, StopWordsRemover, CountVectorizer, NGram
from pyspark.ml.classification import NaiveBayes,RandomForestClassifier,LogisticRegression
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml import Pipeline,PipelineModel
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

#MLFlow
import mlflow
import mlflow.azureml
import mlflow.spark
import mlflow.mleap
import mlflow.pyfunc

#variables generales del notebook
pathBronce = 'dbfs:/mnt/lake/bronce/'
stopWordsCustomizados = ["amlo"] + StopWordsRemover.loadDefaultStopWords("spanish")
minTokenSize = 3
cantidadNGrams = 1

#establecemos el experimento de MlFlow
experimentName = '/Users/jugordon@microsoft.com/AI/clasificadorTwitter'
mlflow.set_experiment(experimentName)

In [2]:
tweetData = spark.read.csv(pathBronce+'twitterTraining/tweetsSentiment.csv',sep=";",header="True",encoding="ISO-8859-1")
#crear tabla temporal
tweetData.createOrReplaceTempView("tweetData")
display(tweetData)

usuario,texto,categoria
OMNIANOTICIAS,NACIONAL AMLO y Arturo Zaldívar firman iniciativa de reforma judicial,informativo
Mitzinas_cov,Hasta dónde nos va a llevar ElCacas Pues hasta donde nosotros lo permitamos pilas en 2021 La nota deja descubiertos algunos fraudes,negativo
maxalexanderr,AMLO EL SEGUNDO MEJOR PRESIDENTE DEL CONTINENTE lopezobrador_ fue calificado por encima de Justin Trudeau Cana,positivo
RAbujder,"Sería bueno conocer su diagnostico con respecto a Evo Morales , que lo expliquen bien",informativo
epigmenioibarra,"De arriba para abajo,como dice AMLO que hay que barrer con la corrupción,así hay que terminar con la impunidad: Ya cayó Emilio Lozoya falta Peña Nieto Ya cayo García Luna falta Felipe Calderón Siguen Fox y los suyos, gracias !",positivo
XmachoXx,Amoooooo AMLO Estaremos siempre contigo Te vamos a reelegir en el 2024 Conferencia Presidente,positivo
gemmcal,"No quiero que los feminicidios opaquen la rifa AMLO , como ven las tonterias de este señor",negativo
ExpresionCdna,zuritacarpio Por eso se la vive ladrando contra AMLO Es increíble que casí nadié vea el interés general antes que el individual,negativo
renesuarez26,lopezobrador_ Todo mi apoyo a nuestro presidente AMLO Dios le de larga vida y Salud Tenemos un gran Presidente Honesto,positivo
IsaiasLaraG,"AlexanAndretti Un panistas cuando le dices que AMLO es el mejor presidente del mundo , arriba amlo",positivo


In [3]:
%sql 
select categoria, count(*) as cantidad from tweetData group by categoria

categoria,cantidad
informativo,115
negativo,133
positivo,67


-sandbox

<div><img src="http://csablog.azurewebsites.net/wp-content/uploads/2019/05/procesoClasificadorTextos.jpg" style="height: 100px; margin: 20px"/></div>

In [5]:
#Quitamos acentos y convertimos a minusculas
def remove_accents(input_str):
  return unidecode.unidecode(input_str).lower()

remove_accents_udf = udf(remove_accents, StringType())
tweetData = tweetData.withColumn('textoSinAcentos',remove_accents_udf(tweetData.texto))

#Tokenización
regexTokenizer = RegexTokenizer(inputCol="textoSinAcentos", outputCol="words", pattern="\\W")
  #Establecemos token minimo
regexTokenizer.setMinTokenLength(minTokenSize)
#3. Quitar stop words
stopwordsRemover = StopWordsRemover(inputCol="words", outputCol="filtered").setStopWords(stopWordsCustomizados)
#4. Convertimos a ngramas
ngram = NGram(n=cantidadNGrams, inputCol="filtered", outputCol="ngrams")
#5. Convertimos categoria de texto a numerica
label_stringIdx = StringIndexer(inputCol = "categoria", outputCol = "label")
#6 Vectorizar textos
countVectors = CountVectorizer(inputCol="ngrams", outputCol="features", vocabSize=200, minDF=2)

#Ejecutamos el pipeline completo
pipelineFeatures = Pipeline(stages=[regexTokenizer, stopwordsRemover, ngram,countVectors,label_stringIdx])

pipelineFeaturesFit = pipelineFeatures.fit(tweetData)
dfTweets = pipelineFeaturesFit.transform(tweetData)
display(dfTweets.limit(20))

usuario,texto,categoria,textoSinAcentos,words,filtered,ngrams,features,label
OMNIANOTICIAS,NACIONAL AMLO y Arturo Zaldívar firman iniciativa de reforma judicial,informativo,nacional amlo y arturo zaldivar firman iniciativa de reforma judicial,"List(nacional, amlo, arturo, zaldivar, firman, iniciativa, reforma, judicial)","List(nacional, arturo, zaldivar, firman, iniciativa, reforma, judicial)","List(nacional, arturo, zaldivar, firman, iniciativa, reforma, judicial)","List(0, 200, List(48, 157, 196), List(1.0, 1.0, 1.0))",1.0
Mitzinas_cov,Hasta dónde nos va a llevar ElCacas Pues hasta donde nosotros lo permitamos pilas en 2021 La nota deja descubiertos algunos fraudes,negativo,hasta donde nos va a llevar elcacas pues hasta donde nosotros lo permitamos pilas en 2021 la nota deja descubiertos algunos fraudes,"List(hasta, donde, nos, llevar, elcacas, pues, hasta, donde, nosotros, permitamos, pilas, 2021, nota, deja, descubiertos, algunos, fraudes)","List(llevar, elcacas, pues, permitamos, pilas, 2021, nota, deja, descubiertos, fraudes)","List(llevar, elcacas, pues, permitamos, pilas, 2021, nota, deja, descubiertos, fraudes)","List(0, 200, List(129), List(1.0))",0.0
maxalexanderr,AMLO EL SEGUNDO MEJOR PRESIDENTE DEL CONTINENTE lopezobrador_ fue calificado por encima de Justin Trudeau Cana,positivo,amlo el segundo mejor presidente del continente lopezobrador_ fue calificado por encima de justin trudeau cana,"List(amlo, segundo, mejor, presidente, del, continente, lopezobrador_, fue, calificado, por, encima, justin, trudeau, cana)","List(segundo, mejor, presidente, continente, lopezobrador_, calificado, encima, justin, trudeau, cana)","List(segundo, mejor, presidente, continente, lopezobrador_, calificado, encima, justin, trudeau, cana)","List(0, 200, List(0, 1, 5, 171, 183), List(1.0, 1.0, 1.0, 1.0, 1.0))",2.0
RAbujder,"Sería bueno conocer su diagnostico con respecto a Evo Morales , que lo expliquen bien",informativo,"seria bueno conocer su diagnostico con respecto a evo morales , que lo expliquen bien","List(seria, bueno, conocer, diagnostico, con, respecto, evo, morales, que, expliquen, bien)","List(seria, bueno, conocer, diagnostico, respecto, evo, morales, expliquen, bien)","List(seria, bueno, conocer, diagnostico, respecto, evo, morales, expliquen, bien)","List(0, 200, List(25, 59), List(1.0, 1.0))",1.0
epigmenioibarra,"De arriba para abajo,como dice AMLO que hay que barrer con la corrupción,así hay que terminar con la impunidad: Ya cayó Emilio Lozoya falta Peña Nieto Ya cayo García Luna falta Felipe Calderón Siguen Fox y los suyos, gracias !",positivo,"de arriba para abajo,como dice amlo que hay que barrer con la corrupcion,asi hay que terminar con la impunidad: ya cayo emilio lozoya falta pena nieto ya cayo garcia luna falta felipe calderon siguen fox y los suyos, gracias !","List(arriba, para, abajo, como, dice, amlo, que, hay, que, barrer, con, corrupcion, asi, hay, que, terminar, con, impunidad, cayo, emilio, lozoya, falta, pena, nieto, cayo, garcia, luna, falta, felipe, calderon, siguen, fox, los, suyos, gracias)","List(arriba, abajo, dice, barrer, corrupcion, asi, terminar, impunidad, cayo, emilio, lozoya, falta, pena, nieto, cayo, garcia, luna, falta, felipe, calderon, siguen, fox, gracias)","List(arriba, abajo, dice, barrer, corrupcion, asi, terminar, impunidad, cayo, emilio, lozoya, falta, pena, nieto, cayo, garcia, luna, falta, felipe, calderon, siguen, fox, gracias)","List(0, 200, List(3, 4, 18, 23, 35, 82, 98, 108, 122, 172, 176), List(1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 1.0))",2.0
XmachoXx,Amoooooo AMLO Estaremos siempre contigo Te vamos a reelegir en el 2024 Conferencia Presidente,positivo,amoooooo amlo estaremos siempre contigo te vamos a reelegir en el 2024 conferencia presidente,"List(amoooooo, amlo, estaremos, siempre, contigo, vamos, reelegir, 2024, conferencia, presidente)","List(amoooooo, siempre, contigo, vamos, reelegir, 2024, conferencia, presidente)","List(amoooooo, siempre, contigo, vamos, reelegir, 2024, conferencia, presidente)","List(0, 200, List(0, 54, 126), List(1.0, 1.0, 1.0))",2.0
gemmcal,"No quiero que los feminicidios opaquen la rifa AMLO , como ven las tonterias de este señor",negativo,"no quiero que los feminicidios opaquen la rifa amlo , como ven las tonterias de este senor","List(quiero, que, los, feminicidios, opaquen, rifa, amlo, como, ven, las, tonterias, este, senor)","List(quiero, feminicidios, opaquen, rifa, ven, tonterias, senor)","List(quiero, feminicidios, opaquen, rifa, ven, tonterias, senor)","List(0, 200, List(17, 94, 159), List(1.0, 1.0, 1.0))",0.0
ExpresionCdna,zuritacarpio Por eso se la vive ladrando contra AMLO Es increíble que casí nadié vea el interés general antes que el individual,negativo,zuritacarpio por eso se la vive ladrando contra amlo es increible que casi nadie vea el interes general antes que el individual,"List(zuritacarpio, por, eso, vive, ladrando, contra, amlo, increible, que, casi, nadie, vea, interes, general, antes, que, individual)","List(zuritacarpio, vive, ladrando, increible, casi, nadie, vea, interes, general, individual)","List(zuritacarpio, vive, ladrando, increible, casi, nadie, vea, interes, general, individual)","List(0, 200, List(26, 130, 151), List(1.0, 1.0, 1.0))",0.0
renesuarez26,lopezobrador_ Todo mi apoyo a nuestro presidente AMLO Dios le de larga vida y Salud Tenemos un gran Presidente Honesto,positivo,lopezobrador_ todo mi apoyo a nuestro presidente amlo dios le de larga vida y salud tenemos un gran presidente honesto,"List(lopezobrador_, todo, apoyo, nuestro, presidente, amlo, dios, larga, vida, salud, tenemos, gran, presidente, honesto)","List(lopezobrador_, apoyo, presidente, dios, larga, vida, salud, gran, presidente, honesto)","List(lopezobrador_, apoyo, presidente, dios, larga, vida, salud, gran, presidente, honesto)","List(0, 200, List(0, 1, 12, 29, 46, 53, 178), List(2.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0))",2.0
IsaiasLaraG,"AlexanAndretti Un panistas cuando le dices que AMLO es el mejor presidente del mundo , arriba amlo",positivo,"alexanandretti un panistas cuando le dices que amlo es el mejor presidente del mundo , arriba amlo","List(alexanandretti, panistas, cuando, dices, que, amlo, mejor, presidente, del, mundo, arriba, amlo)","List(alexanandretti, panistas, dices, mejor, presidente, mundo, arriba)","List(alexanandretti, panistas, dices, mejor, presidente, mundo, arriba)","List(0, 200, List(0, 5, 24, 176), List(1.0, 1.0, 1.0, 1.0))",2.0


In [6]:
print(stopWordsCustomizados)

In [7]:
# Dividiendo datos de entrenamiento y de prueba
(trainingData, testData) = tweetData.randomSplit([0.7, 0.3], seed = 100)
print("Training Dataset Count: " + str(trainingData.count()))
print("Test Dataset Count: " + str(testData.count()))

In [8]:
#algoritmo naive bayes
naiveBayesModel = NaiveBayes(smoothing=1.0)

#Pipeline completo
pipelineModel = Pipeline(stages=[regexTokenizer, stopwordsRemover, ngram,countVectors,label_stringIdx,naiveBayesModel])

#entrenamiento
modelNB = pipelineModel.fit(trainingData)
#generar predicciones
predictions = modelNB.transform(testData)
predictions.select("texto","categoria","probability","label","prediction") \
    .orderBy("probability", ascending=False) \
    .show(n = 20, truncate = 20)

#evaluando el modelo
evaluator = MulticlassClassificationEvaluator(predictionCol="prediction")
precision = evaluator.evaluate(predictions)
print("Precisión del modelo: "+ str(precision))



In [9]:
#usando random forest
randomForestModel = RandomForestClassifier(labelCol="label", \
                            featuresCol="features", \
                            numTrees = 50, \
                            maxDepth = 10, \
                            maxBins = 32)

pipelineRandomForestModel = Pipeline(stages=[regexTokenizer, stopwordsRemover, ngram,countVectors,label_stringIdx,randomForestModel])

# Train model with Training Data
rfModel = pipelineRandomForestModel.fit(trainingData)
predictions = rfModel.transform(testData)
predictions.select("texto","categoria","probability","label","prediction") \
    .orderBy("probability", ascending=False) \
    .show(n = 20, truncate = 30)

evaluator = MulticlassClassificationEvaluator(predictionCol="prediction")
precision = evaluator.evaluate(predictions)
print("Precisión del modelo: "+ str(precision))


In [10]:
with mlflow.start_run(run_name="Clasificador NaiveBayes cross validator") as run:

  #algoritmo naive bayes
  naiveBayesModel = NaiveBayes()

  #Pipeline completo
  pipelineNaiveBayes = Pipeline(stages=[regexTokenizer, stopwordsRemover, ngram,countVectors,label_stringIdx,naiveBayesModel])
  
  # Create ParamGrid for Cross Validation
  paramGrid = ParamGridBuilder().addGrid(naiveBayesModel.smoothing, [0.2, 0.4, 0.6, 0.8, 1.0,1.5]).build()
  
  # Create 5-fold CrossValidator
  cvEvaluator = MulticlassClassificationEvaluator(predictionCol="prediction",metricName="weightedPrecision")

  cv_nb = CrossValidator(estimator=pipelineNaiveBayes, estimatorParamMaps=paramGrid, evaluator=cvEvaluator,numFolds=3)

  nbModel = cv_nb.fit(trainingData)
  #mlflow.spark.log_model(nbModel,"modeloNB")
  
  # Evaluate best model
  predictions = nbModel.transform(testData)
  test_metric  = evaluator.evaluate(predictions)
  
  #Resgistro de metricas en MlFlow 
  mlflow.log_metric('test_nb_' + evaluator.getMetricName(), test_metric) # Logs additional metrics
  
  #Registro de modelo
  #mlflow.mleap.log_model(spark_model=nbModel.bestModel, sample_input=testData, artifact_path='best-modelNB',registered_model_name="Clasificador NaiveBayes Twitter")
  

In [11]:
with mlflow.start_run(run_name="Clasificador Random Forest cross validator") as run:

  randomForestModel = RandomForestClassifier()

  pipelineRandomForestModel = Pipeline(stages=[regexTokenizer, stopwordsRemover, ngram,countVectors,label_stringIdx,randomForestModel])

  
  # Create ParamGrid for Cross Validation
  paramGrid = (ParamGridBuilder()
               .addGrid(randomForestModel.numTrees, [10, 100, 200]) # numTrees
               .addGrid(randomForestModel.maxDepth, [5, 10, 15, 20]) # maxDepth
               .addGrid(randomForestModel.maxBins, [16, 32]) #Number of maxBins
               .build())
  # Create 5-fold CrossValidator
  evaluator = MulticlassClassificationEvaluator(predictionCol="prediction",metricName="weightedPrecision")
  evaluatorMSE = MulticlassClassificationEvaluator(predictionCol="prediction",metricName="mse")

  cv = CrossValidator(estimator=pipelineRandomForestModel, estimatorParamMaps=paramGrid, evaluator=evaluator, numFolds=5)

  cvModel = cv.fit(trainingData)
  
  # Evaluate best model
  #bestModelRF = cvModel.bestModel
  predictions = cvModel.transform(testData)
  test_metric  = evaluator.evaluate(predictions)
  
  #Resgistro de metricas en MlFlow 
  mlflow.log_metric('test_' + evaluator.getMetricName(), test_metric) # Logs additional metrics
  mlflow.mleap.log_model(spark_model=cvModel.bestModel, sample_input=testData, artifact_path='best-model') # 
  
  #Registro de modelo
  mlflow.mleap.log_model(spark_model=nbModel.bestModel, sample_input=testData, artifact_path='best-modelNB',registered_model_name="Clasificador RandomForest Twitter")

In [12]:

model_name = "twitterSentimentClassificator.mml" # 
#model_name_dbfs = os.path.join("/dbfs", model_name)
model_name_dbfs = "dbfs:/mnt/models/" + model_name

cvModel.bestModel.write().overwrite().save(model_name)

print("copy model from dbfs to local")
model_local = "file:" + os.getcwd() + "/" + model_name
dbutils.fs.cp(model_name, model_local, True)