## Carregando dados de um arquivo JSON

 * Vamos analisar dados dentro de um arquivo JSON, dados mensagens sobre análise de sentimentos:
 
 1. Carregar o arquivo de dados JSON
 2. Entender o Schema gerado pelo arquivo
 3. Separá-lo em fragmentos
 4. Criar uma visão com os dados para analisar dentro do SPARK SQL
 5. Mostrar as frases com sentimentos negativos
 
 

In [1]:
import findspark

findspark.init()

from pyspark.sql import SparkSession

# Cria uma instância de SparkSession, que é a entrada para usar o Spark
spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Iniciando com Spark") \
    .getOrCreate()
    
spark

In [2]:
#criando um objeto sparksession object e um appName 
sparkSession=SparkSession.builder.appName("sentimento").getOrCreate()

In [3]:
# Carregando os dados arquivo JSON
path = r"C:\Users\Kaue\Documents\Cursos\Databricks e PySpark\PySpark\json\sentimento.json"
sentimentoDF = sparkSession.read.json(path,multiLine = "true")

In [4]:
#Exibindo os dados arquivo JSON
sentimentoDF.show()

+--------------------+--------------------+
|             context|                 qas|
+--------------------+--------------------+
|spent the entire ...|[{[{55, my boss w...|
| oh! good idea ab...|[{[{5, good}], 25...|
|says good (or sho...|[{[{0, says good ...|
| i dont think you...|[{[{1, i dont thi...|
| haha better drun...|[{[{6, better}], ...|
|headache  wanna s...|[{[{0, headache}]...|
|had an awsome sal...|[{[{0, had an aws...|
| fine! going to d...|[{[{1, fine!}], a...|
| thank a yoou  ho...|[{[{1, thank}], a...|
|why don't adobe r...|[{[{0, why don't ...|
|prd take a long t...|[{[{0, prd take a...|
|_2008 well, havin...|[{[{1, 2008 well,...|
|    miss you my dear|[{[{1, miss you m...|
|have just bought ...|[{[{0, have just ...|
| ya mine too but ...|[{[{1, ya mine to...|
|today dan bought ...|[{[{107, , my tum...|
| oo noo thats not...|[{[{12, s not goo...|
|misses her phone....|[{[{20, having no...|
|so i have like no...|[{[{15, no more f...|
|i have perused th...|[{[{0, i h

In [5]:
#Exibindo o schema arquivo JSON
sentimentoDF.printSchema()

root
 |-- context: string (nullable = true)
 |-- qas: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- answers: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- answer_start: long (nullable = true)
 |    |    |    |    |-- text: string (nullable = true)
 |    |    |-- id: string (nullable = true)
 |    |    |-- is_impossible: boolean (nullable = true)
 |    |    |-- question: string (nullable = true)



In [6]:
# Especificando quais campos deseja trabalhar
sent2DF = sentimentoDF.select("context","qas.id", "qas.is_impossible","qas.question")
sent2DF.printSchema()

root
 |-- context: string (nullable = true)
 |-- id: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- is_impossible: array (nullable = true)
 |    |-- element: boolean (containsNull = true)
 |-- question: array (nullable = true)
 |    |-- element: string (containsNull = true)



In [7]:
# Exibindo os registros
sent2DF.show(10, False)

+------------------------------------------------------------------------------------------------------------------------------------+------------+-------------+----------+
|context                                                                                                                             |id          |is_impossible|question  |
+------------------------------------------------------------------------------------------------------------------------------------+------------+-------------+----------+
|spent the entire morning in a meeting w/ a vendor, and my boss was not happy w/ them. lots of fun.  i had other plans for my morning|[a3d0a7d5ad]|[false]      |[neutral] |
| oh! good idea about putting them on ice cream                                                                                      |[251b6a6766]|[false]      |[positive]|
|says good (or should i say bad?) afternoon!  http://plurk.com/p/wxpdj                                                               |[

In [8]:
# Separando em apenas 2 campos para uso no SQL
sent3DF = sentimentoDF.select("context", "qas.question")
sent3DF.show()

+--------------------+----------+
|             context|  question|
+--------------------+----------+
|spent the entire ...| [neutral]|
| oh! good idea ab...|[positive]|
|says good (or sho...| [neutral]|
| i dont think you...|[negative]|
| haha better drun...|[positive]|
|headache  wanna s...|[negative]|
|had an awsome sal...|[positive]|
| fine! going to d...|[positive]|
| thank a yoou  ho...|[positive]|
|why don't adobe r...| [neutral]|
|prd take a long t...| [neutral]|
|_2008 well, havin...| [neutral]|
|    miss you my dear|[negative]|
|have just bought ...|[positive]|
| ya mine too but ...| [neutral]|
|today dan bought ...|[negative]|
| oo noo thats not...|[negative]|
|misses her phone....|[negative]|
|so i have like no...|[negative]|
|i have perused th...| [neutral]|
+--------------------+----------+
only showing top 20 rows



In [9]:
# Criando uma visão com os dados
sent3DF.createOrReplaceTempView("sentimentos")

In [10]:
#Pesquisando dentre os dados todos que possuem a palavra HOPE
sparkSession.sql("select context from sentimentos where context like '%hope%'").show()

+--------------------+
|             context|
+--------------------+
|get into me not g...|
| sorry to hear ab...|
| aww im sorry im ...|
|  hope you have a...|
|  is there going ...|
| you can find mor...|
|is predicting a h...|
| soon i hope... r...|
| aww hope uve had...|
| good evening ter...|
|just woke up, hop...|
| well sure hope t...|
|  that's no bueno...|
| i hope you had f...|
| i hope it's some...|
| oh no! hope you ...|
|yeha i broke thei...|
|back from brunch....|
|not feeling too g...|
| i hope you feel ...|
+--------------------+
only showing top 20 rows



In [11]:
# Convertendo os dados de array para string com a função concat_ws
# 'concat_ws' é uma função do Spark SQL que concatena os elementos de um array em uma única string,
# utilizando um delimitador específico (neste caso, a vírgula ',') entre os elementos.

# Cria um DataFrame 'sent4DF' utilizando uma consulta SQL na sessão Spark
sent4DF = sparkSession.sql(
    "select context, question, concat_ws(',', question) as tps from sentimentos"
)

# Explicação:
# - 'select context, question': Seleciona as colunas 'context' e 'question' da tabela 'sentimentos'.
# - 'concat_ws(',', question) as tps': Concatena os elementos da coluna 'question', 
#    assumindo que 'question' é um array de strings. Os elementos do array são unidos em uma única string, 
#    separados por vírgulas. O resultado é nomeado como 'tps'.
# - 'from sentimentos': Indica que os dados estão sendo extraídos da tabela 'sentimentos'.

# Resumindo:
# Este código cria um novo DataFrame onde, além de manter as colunas 'context' e 'question',
# ele cria uma nova coluna chamada 'tps', que contém os valores da coluna 'question' convertidos de array 
# para uma única string, com os elementos separados por vírgulas.


In [12]:
# Criando uma visão com os dados
sent4DF.createOrReplaceTempView("tipo_sentimento")

In [13]:
#Pesquisando dentre os dados todos que possuem o tipo de sentimento negativo
sparkSession.sql("select context, question from tipo_sentimento where tps = 'negative'").show()

+--------------------+----------+
|             context|  question|
+--------------------+----------+
| i dont think you...|[negative]|
|headache  wanna s...|[negative]|
|    miss you my dear|[negative]|
|today dan bought ...|[negative]|
| oo noo thats not...|[negative]|
|misses her phone....|[negative]|
|so i have like no...|[negative]|
|also i popped the...|[negative]|
|               uh oh|[negative]|
| what brody how d...|[negative]|
|i feel useless i ...|[negative]|
|kate is leaving m...|[negative]|
|i lost a follower...|[negative]|
| saying goodbye t...|[negative]|
|just got back in,...|[negative]|
|   my dog ran awayyy|[negative]|
|is missing someon...|[negative]|
| s'ok, trying to ...|[negative]|
|hot ****, i'm at ...|[negative]|
|just figured out ...|[negative]|
+--------------------+----------+
only showing top 20 rows



In [14]:
#Contagem dos tipos de sentimento
sparkSession.sql("select tps, count(*) from tipo_sentimento group by tps").show()

+--------+--------+
|     tps|count(1)|
+--------+--------+
|positive|    8582|
| neutral|   11117|
|negative|    7786|
+--------+--------+

