# Análise de Sentimento simples com a blibioteca TextBlob e Spark Streaming


##  Leitura por meio de socket

###  Seção de Conexão

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split

spark = (
    SparkSession
    .builder
    .appName("StructureNetworkWordCount")
    .getOrCreate()
    )

## Bibliotecas para a analise e contagem

In [2]:
from textblob import TextBlob
from googletrans import Translator
from unidecode import unidecode

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType, FloatType


In [3]:
#Dataframe que irá ler cada linha recebida pelo localhost e definição da fonte de dados
twitters = \
    (
        spark
        .readStream
        .format("socket")
        .option("host","localhost")
        .option("port", 9995)
        .load()
    )

## Função para traduzir para o inglês

In [4]:
def translate_udf(col):
    translate_obj = Translator().translate(col)
    return translate_obj.text

## Função para traduzir para realizar a análise de sentimento


In [5]:
def sentiment_udf(col):
    sentiment_text = TextBlob(col)
    return sentiment_text.polarity()

## Difinição das Funções como User-Defined-Function

In [6]:
unicode_udf_string = udf(lambda z: unidecode(z), StringType())
group_by_sentiment = udf(lambda x: 'negativo' if x < -0.1 else 'positivo' if x > 0.1 else 'neutro', StringType()) #classifica o sentimento
translate_udf_string = udf(translate_udf, StringType()) #define função de tradução
sentiment_udf_float = udf(sentiment_udf, FloatType()) #define função de contagem

### teste com texto local

In [7]:
teste = "Eu  ♥ eu cachorro, ele é meu melhor amigo"
decode=unidecode(teste)
print(decode)
decodeEN = Translator().translate(decode)
print(decodeEN.text)
a = str(decodeEN)
sentiment = TextBlob(a)
print(sentiment.polarity)

Eu   eu cachorro, ele e meu melhor amigo
Me I dog, he is my best friend
1.0


## Aplicação das funções udf para a seleção de colunas


In [8]:
twitters_unicode = twitters.select( "value", unicode_udf_string(twitters.value). alias("unicoded")) #decodifica
twitters_uni_trans = twitters_unicode.select("value", "unicoded"
                                             , translate_udf_string(col("unicoded")).alias("twitter_EN")) #traduz
twitters_uni_trans_sent = twitters_uni_trans.select("value", "unicoded", "twitter_EN"
                                                    ,sentiment_udf_float(col("twitter_EN")).alias("analise")) #análise de sentimento
t_sent_label = twitters_uni_trans_sent.select("value", "unicoded", "twitter_EN", "analise"
                                              ,group_by_sentiment(col("analise")).alias("classificacao"))

In [9]:
t_sent_count = t_sent_label.groupBy("classificacao").count()

## Definição da querie e como deve ser realizada a saída(sink) para o stram criado

In [10]:
query =t_sent_count \
    .writeStream\
    .outputMode("update")\
    .format("console")\
    .start()

query.awaitTermination()

StreamingQueryException: Connection refused: connect
=== Streaming Query ===
Identifier: [id = acf914d1-8b19-4ad3-9b58-111f377f8c3f, runId = 44866486-e08c-45cf-97ac-175f3a8260f6]
Current Committed Offsets: {}
Current Available Offsets: {TextSocketV2[host: localhost, port: 9995]: -1}

Current State: ACTIVE
Thread State: RUNNABLE

Logical Plan:
WriteToMicroBatchDataSource ConsoleWriter[numRows=20, truncate=true]
+- Aggregate [classificacao#18], [classificacao#18, count(1) AS count#30L]
   +- Project [value#0, unicoded#3, twitter_EN#7, analise#12, <lambda>(analise#12) AS classificacao#18]
      +- Project [value#0, unicoded#3, twitter_EN#7, sentiment_udf(twitter_EN#7) AS analise#12]
         +- Project [value#0, unicoded#3, translate_udf(unicoded#3) AS twitter_EN#7]
            +- Project [value#0, <lambda>(value#0) AS unicoded#3]
               +- StreamingDataSourceV2Relation [value#0], org.apache.spark.sql.execution.streaming.sources.TextSocketTable$$anon$1@50e461e7, TextSocketV2[host: localhost, port: 9995]
