##PROYECTO MIN: Hecho por Javier Verde Marín
#ANÁLISIS SOBRE EL COVID-19 MEDIANTE TWITTER

La finalidad de este trabajo es observar los problemas o limitaciones que pueden surgir a la hora de intentar hacer un análisis utilizando los datos de Twitter como herramienta, mientras que se elabora un estudio centrado en el Covid-19.

Este proyecto se divide en dos partes:
- La primera primera será un análisis de los datos que se pueden extraer de los json de Twitter aplicados al Covid-19.
- La segunda parte será un sentiment analysis de los tweets relacionados con el Covid-19.

Los datos han sido recopilados cargando tweets a modo de stream y luego almacenándolos para su futuro uso y evaluación, por lo que el uso de los comandos de borrado y cargado de tweets producirá el borrado de los datos (en formato json) usados para el análisis siendo reemplazados por los nuevos datos. Esto podría resultar en que los nuevos datos recopilados puedan no coincidir con los comentarios realizados a lo largo de este proyecto.

En el curso del proyecto se extraerán 1000 tweets, que utilizaremos para analizar y sacar las conclusiones de la mayoría de las pruebas y otros 1000 tweets exclusivamente en inglés para poder realizar correctamente el sentiment analysis, ya que no clasifica los textos de otros idiomas correctamente y el proceso de traducción es demasiado costoso. Todos los tweets que se utilizarán como prueba tratarán sobre algún tema relacionado al Covid-19 pues pasarán por un filtro para no salirnos del estudio.

Para extraer la información de los tweets se usarán los campos del formato json en el que Twitter los almacena. Cada campo hace referencia a algún metadato o parte que compone el tweet, como la fecha, el idioma, el texto, etc. 
El propio texto del tweet será de especial importancia en la segunda parte del proyecto, porque es el mensaje a transmitir lo que queremos clasificar en positivo o negativo para su sentiment analysis.

Las herramientas que se van a utilizar son:
- **Tweepy** (para extraer los tweets a través de la API de Twitter).
- **Textblob** (analizador por defecto y analizador Naive Bayes para realizar el sentiment analysis).

Finalmente se redactarán las conclusiones a las que se ha llegado tras el análisis y estudio del caso.

##Parte 1: Análisis y extracción de los datos de Twitter sobre el Covid-19

En esta parte vamos a ver cómo podemos utilizar los distintos tipos de datos que Twitter nos proporciona en cada tweet para extraer información relacionada al Covid-19 y comprobar si esta es suficiente para llegar a conclusiones concretas.

Primero vamos a instalar tweepy (https://www.tweepy.org/) y otras bibliotecas para poder interactuar con la API de Twitter:

In [0]:
%pip install tweepy
%pip install -U textblob

In [0]:
import tweepy 
from tweepy import OAuthHandler
from tweepy import Stream 
from tweepy.streaming import StreamListener
import socket 
import json 

Introducimos los datos de la API de Twitter (Los copiamos del panel de Twitter Developer al crear la app).

In [0]:
access_token = "*****"
access_token_secret = "******"
API_key = "*******"
API_secret_key = "*********"

Necesitamos poder enviar y filtrar los datos.
* Guardamos la autenticación (las claves de la API) : https://docs.tweepy.org/en/latest/auth_tutorial.html

In [0]:
auth = OAuthHandler(API_key, API_secret_key)
auth.set_access_token(access_token, access_token_secret)

Necesitamos crear un listener que pueda recibir los tweets
* Los tweets se tratarán a modo de un json: https://docs.tweepy.org/en/latest/streaming_how_to.html (Paso 1)

* Si la app de Twitter está enviando demasiadas peticiones y se produce error, paramos el streaming: https://developer.twitter.com/ja/docs/basics/response-codes

* Guardamos cada tweet en un archivo, cuyo número de identificación se va incrementando.

In [0]:
class MyStreamListener(tweepy.StreamListener):
    def __init__(self,api=None):
        super(MyStreamListener,self).__init__()
        self.num_tweets=0
    def on_status(self,status):
        tweet= status._json
        aux = json.dumps(tweet)
        print(aux)
        dbutils.fs.put("/FileStore/tables/tweets/tweet-"+str(self.num_tweets)+".json", aux)
        self.num_tweets+=1;
        if self.num_tweets<1000 :
            return True
        else:
            return False
    def on_error(self, status):
        print(status)
        if status == 420: return False
        return True

En caso de que necesitemos eliminar los tweets almacenados, por ejemplo para otro muestreo usaremos este comando:

**No activarlo** si se desea mantener las mismas muestras pues eso borrará los datos.

In [0]:
dbutils.fs.rm('/FileStore/tables/tweets/', True)

**Activarlo solo** si se desean muestras nuevas tras borrar las muestras previas.

Creamos el stream y filtramos:
* Creamos el stream para poder recibir los tweets: https://docs.tweepy.org/en/latest/streaming_how_to.html (Paso 2)
* Introducimos las condiciones de filtrado (en nuestro caso que contengan los distintos referentes del covid). (Paso 3)
* Se irán guardando a modo de ficheros en el directorio /tweets.

In [0]:
stream = Stream(auth, MyStreamListener())
stream.filter(track=['covid','covid-19','covid19','coronavirus'])

Comprobamos que se hayan guardado los tweets:

In [0]:
%fs ls /FileStore/tables/tweets/

path,name,size
dbfs:/FileStore/tables/tweets/tweet-0.json,tweet-0.json,5324
dbfs:/FileStore/tables/tweets/tweet-1.json,tweet-1.json,4842
dbfs:/FileStore/tables/tweets/tweet-10.json,tweet-10.json,5385
dbfs:/FileStore/tables/tweets/tweet-100.json,tweet-100.json,5494
dbfs:/FileStore/tables/tweets/tweet-101.json,tweet-101.json,6004
dbfs:/FileStore/tables/tweets/tweet-102.json,tweet-102.json,5399
dbfs:/FileStore/tables/tweets/tweet-103.json,tweet-103.json,4919
dbfs:/FileStore/tables/tweets/tweet-104.json,tweet-104.json,2926
dbfs:/FileStore/tables/tweets/tweet-105.json,tweet-105.json,6014
dbfs:/FileStore/tables/tweets/tweet-106.json,tweet-106.json,5242


Es importante conocer el formato del json de Twitter y sus componentes para poder saber de dónde y cómo extraer los datos:
  * Data dictionary de Twitter: https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/overview

Definimos el dataframe que representará al json (importante tener la opción **multiline** activa):

In [0]:
tweetInputDF = (
  spark
    .read
    .option("multiline", True)
    .json("/FileStore/tables/tweets/")
)

Podemos observar el contenido de los tweets mediante collect():

Van a ser necesarios el **texto** del tweet (se utilizará más adelante en la parte 2), el **idioma** detectado y los **json anidados** que más nos interesan, como: **place** (información de geolocalización), **user** (información de la cuenta que publica el tweet, incluyendo lugar introducido por el usuario) y **entities** (que contiene datos como los hashtags).

In [0]:
tweetCountsDF = (
  tweetInputDF
    .groupBy(
       tweetInputDF.lang,
       tweetInputDF.text,
       tweetInputDF.place,
       tweetInputDF.user,
       tweetInputDF.entities
    )
    .count()
)
tweetCountsDF.cache()


Creamos una tabla para poder realizar las siguients consultas SQL:
* Calcular los tweets relacionados por región usando geolocalización.
* Calcular los tweets relacionados por región usando el lugar introducido por el usuario.
* Calcular los tweets relacionados dividiendo los tweets en idiomas.
* Contar el número de apariciones de los hashtags utilizados en estos tweets.

In [0]:
tweetCountsDF.createOrReplaceTempView("tweets19")

#####Calcular los tweets relacionados por región usando geolocalización

In [0]:
%sql select place.country_code, sum(count) as total_count from tweets19 group by place.country_code

country_code,total_count
,993
US,3
ES,1
BR,1
AR,1
GB,1


En este caso se puede observar que apenas hay valores más allá de **null** en el campo de place (json anidado dentro del json del tweet):
* Place solo tiene contenido si el usuario tiene activada la geolocalización.
* Por defecto la geolocalización del tweet no está activada.
* Más sobre el json place: https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/object-model/geo

De esta forma podemos deducir que los datos de región provenientes de la geolocalización de Twitter son demasiado escasos y no se puede sacar una deducción concreta mediante estos.

* Con los resultados obtenidos, se podría llegar a la conclusión de que es posible que haya un mayor número de tweets relacionados procedentes de los países que están sufriendo una peor situación debido al Covid-19, en comparación con otros. 
* Los valores no nulos representan a Estados Unidos, España, Reino Unido, Brasil y Argentina (países muy afectados según Statista):
https://es.statista.com/estadisticas/1091192/paises-afectados-por-el-coronavirus-de-wuhan-segun-los-casos-confirmados/

No obstante, solo sería una deducción ya que tal escasez de datos (993 valores nulos de 1000 muestras) no sería concluyente.

#####Calcular los tweets relacionados por región usando el lugar introducido por el usuario

In [0]:
%sql select user.location, sum(count) as total_count from tweets19 group by user.location

location,total_count
Some Where Over the rainbow🌈,1
,396
"Montréal, Québec",3
Hyderabad,1
NANAIMO BC CANADA,1
"Durango, México",1
Lothlórien - Terra Média,1
"Ontario, Canada",2
"الرياض, المملكة العربية السعود",2
"Cumaná, Edo. Sucre - Venezuela",2


Por otro lado, si lo que usamos es el valor location que se encuentra en el json de user, recibimos una gran cantidad de datos en comparación con el caso anterior.

Sin embargo, vuelven a surgir problemas:
* Las personas pueden introducir el lugar que quieran: Internet, Pokemon, Some Where Over the rainbow🌈...por nombrar algunos ejemplos.
* No hay una uniformidad de criterio, se puede introducir tanto países como códigos de país, calles, ciudades....

Es por esto que no se puede confiar en los datos proporcionados, pues muchos son lugares inventados.
En el resto de casos sí podría existir la localización que los usuarios indiquen, pero darse el caso de que el dato sea falso. Además, si lo que el usuario ha introducido es una ciudad o una dirección, no se reconocerá el lugar como parte de un país, sino que permanecerá como una nueva localización.

#####Calcular los tweets relacionados dividiendo los tweets en idiomas

In [0]:
%sql select lang, sum(count) as total_count from tweets19 group by lang

lang,total_count
en,393
pt,185
es,290
th,4
ar,3
zh,4
tl,3
und,39
fr,29
ja,2


Debido a la falta de información (o al menos información útil) en los dos casos anteriores, en vez de analizar por gelocalización y localización, vamos a analizar los tweets mediante los idiomas empleados.
Twitter identifica el idioma evaluando los tweets, el cuál podemos obtener en el campo **lang** del json.
Más sobre cómo Twitter evalúa los tweets para identificar el idioma: https://blog.twitter.com/engineering/en_us/a/2015/evaluating-language-identification-performance.html

Se devuelve un código de idioma que sigue las normas de la ISO-639-1: https://www.andiamo.co.uk/resources/iso-language-codes/ (un poco atrasado ya que en la actualidad se usa la ISO-639-5 que se basa en códigos de 3 letras.)

En caso de que el tweet solo contenga símbolos, nombres, canciones, etc, no será información suficiente y por tanto se considerará como **und** (indefinido/no catalogado). En este caso, de 1000 tweets, solo se han encontrado 39 indefinidos; lo cuál contrasta con los 993 nulls del análisis mediante geolocalización.

Se puede observar que los idiomas más utilizados han sido:
* Inglés **(39%)**
* Español **(29%)**
* Portugués **(19%)**

Debido a que ahora la cantidad de datos contretos en la muestra es considerable, podemos encontrar que efectivamente hay una correlación al menos entre los idiomas en los que los tweets están escritos y las zonas más afectadas.
- USA y Reino Unido siguen en el ranking de países con más casos.
- Muchos países hispanohablantes has sido afectados gravemente por la pandemia.
- En Brasil se habla portugués, y es también de los países más afectados.

El único problema es que no podemos saber cuál es la región concreta de la que provienen los tweets, pero aporta sin lugar a dudas mucha más información que las consultas previas. Además nos puede mostrar qué comunidades presentan más preocupaciones o se expresan más con respecto al Covid-19.

#####Contar el número de apariciones de los hashtags utilizados en estos tweets

El json de los tweets además contiene otro json anidado llamado **entities**, que proporciona datos como los hashtags, urls, símbolos utilizados, etc...
Para más información: https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/object-model/entities

Por tanto, ésto nos puede ser útil a la hora de buscar los hashtags más populares (teniendo en cuenta que partimos de las muestras) y otra información variada.

En este caso vamos a probar su uso calculando las veces que se repite cada hashtag en los tweets tomados como muestra, que nos puede ayudar a aportar un pensamiento general de los usuarios acerca del tema.

Vamos a aprovecharnos de las utilizades de los RDD, para extraer los diferentes hashtags de los tweets e irlos almacenando en un map para poder contarlos.
Luego podemos convertir el RDD en un DF para poder transformarlo fácilmente en una tabla y usar las consultas SQL.

**Se parasarán todos los hashtags a minúscula ya que el mensaje a transmitir es el mismo.**

In [0]:
hashtagRDD =(tweetCountsDF.rdd
              .flatMap(lambda tweet: [hashtag['text'].lower() for hashtag in tweet['entities']['hashtags']])
              .map(lambda ht: ("#"+ht, 1))
              .reduceByKey(lambda a, b: a + b)
            )
hashtagDF = spark.createDataFrame(hashtagRDD).toDF("Hashtag", "count")
hashtagDF.createOrReplaceTempView("hashtags19")

In [0]:
%sql select Hashtag, count from hashtags19 order by count desc

Hashtag,count
#covid19,60
#6abr,20
#cuidémonosdelvirus,15
#coronavirus,6
#urgente,5
#cuba,5
#covid,5
#apure,4
#maduroguerralive,4
#longcovid,3


Podemos observar que estos datos son mucho más descriptivos, variados y abundan más que las dos primeras pruebas. 
No solo están los hashtags esperados como covid, كورون (corona), coronavirus o covid19, también encontramos hashtags que muestran la preocupación de la gente acerca de este tema:
  * cuidémonosdelvirus
  * elcovidnoesunjuegocuidate
  * zerocovid
  * ivermectina (medicamento que se está desaconsejando usar para tratar la enfermedad) y イベルメクチン用量 (
Dosis de ivermectina)
  * vaccine
  * cancelboardexams2021 (se está pidiendo que cierren debido al auge del virus)
  * cubaporlasalud
  * entre otros
 
  
Esta información puede resultar muy valiosa pues resume las distintas opiniones, puntos de vista y preocupaciones de los usuarios además de ser mucho más tangible al igual que el análisis que utiliza lang, en comparación con los otros datos que hemos probado antes (en parte por las medidas de privacidad que Twitter deja a tu disposición como por ejemplo: tener activada o no la geolocalización).
- En caso de que se desee echar un vistazo:
    * https://twitter.com/en/privacy
    * https://help.twitter.com/en/safety-and-security#ads-and-data-privacy
      
No obstante, si de algún lugar podemos extraer la mayor cantidad de información, es en el campo **texto** (que no está en ningún json anidado) ya que es lo que contiene el mensaje, es decir, lo que el usuario desea transmitir. Por ello, pasaremos a la segunda parte de este proyecto.

##Parte 2: Twitter Sentiment Analysis orientado al Covid-19

En esta parte del proyecto, vamos a analizar los sentimientos de los usuarios a partir de los tweets, utilizando el campo text del json, que es el que contiene el texto del tweet. De esta manera, obtendremos una interesante cantidad de información que nos ayudará a comprender las opiniones y sentimientos y hacia dónde se inclina la balanza al hablar del Covid-19.

Ya se ha instalado con anterioridad textblob (https://textblob.readthedocs.io/en/dev/) para poder procesar **lenguaje natural (NLP)**

In [0]:
import textblob
from textblob import TextBlob
from textblob import Blobber

#####Twitter Sentiment Analysis utilizando la opción por defecto

Esta opción usa una biblioteca de patrones: https://github.com/clips/pattern/blob/d25511f9ca7ed9356b801d8663b8b5168464e68f/pattern/text/en/wordnet/__init__.py#L490)

Vamos a convertir el dataframe utilizado anteriormente para las estadísticas previas en un RDD para poder aprovechar de nuevo sus utilidades. Se crea un map que contiene el tweet, la polaridad (el sentimiento negativo o positivo) y la subjetividad (si se cierne a opiniones o hechos).

**Se presenta un problema importante:** los tweets que no están en inglés cuentan como polaridad y subjetividad 0 pero traducirlos mientras se procesan es demasiado costoso.

**Solución empleada:** los tweets que tengan una polaridad/subjetividad de 0 tendrán un peso de 0.25 y los demás tendrán un peso de 1.

A la hora de calcular la media de la poladidad y subjetividad se usará una media ponderada basada en esos pesos asignados.
Al implementar esa solución crearemos dos columnas más para almacenar los pesos de la polaridad y la subjetividad.

In [0]:
sentimentDF = spark.createDataFrame(tweetCountsDF.rdd.map(lambda tweet:(tweet['text'], TextBlob(tweet['text']).polarity, TextBlob(tweet['text']).subjectivity, 1.0 if TextBlob(tweet['text']).polarity != 0 else 0.25, 1.0 if TextBlob(tweet['text']).subjectivity!= 0 else 0.25))).toDF("Tweet","Polarity","Subjectivity","WeightPolarity","WeightSubjectivity")

Creamos una tabla para poder hacer las consultas SQL.

In [0]:
sentimentDF.createOrReplaceTempView("sentiment19")

######Media de la polaridad de los tweets recogidos como json

El valor de la polaridad fluctúa entre -1 y 1  (de -1 a 0 es negativo, 0 es neutro y de 0 a 1 es positivo).

In [0]:
%sql select sum(Polarity)/ sum(WeightPolarity) as average_polarity from sentiment19

average_polarity
0.0560235258653067


Se puede observar que la media de las polaridades roza  la neutralidad incluso tras haber reducido el peso de las polaridades de 0 causadas por los posibles textos en otros idiomas. 

Esto quiere decir que las opiniones sobre el tema están muy reñidas y hay cantidades similares de sentimientos negativos y positivos. Por otro lado, encontramos otro problema a la hora de analizar texto: **la ironía**.

Este modo de sentiment analysis le otorga puntuaciones a ciertas palabras que se encuentran dentro de un diccionario, y luego estas se multiplican dentro de la frase que forma un patrón para generar el resultado final: https://github.com/sloria/TextBlob/blob/dev/textblob/_text.py

Es decir, que si hay varias palabras positivas, es posible que revele un resultado positivo siendo la intención de la persona lo contrario.

######Media de la subjetividad de los tweets recogidos como json

El valor de la subjetividad fluctúa entre 0 (hecho) y 1 (opinión)

In [0]:
%sql select sum(Subjectivity)/sum(WeightSubjectivity) as average_subjectivity from sentiment19

average_subjectivity
0.3472802721305087


En cuanto a la subjetividad, esta se mide contemplando la intensidad del texto, que se resume en el uso de modificadores como adjetivos, etc. Si se usa "Muy mal", "Odioso", "Genial" ....se tomará como una opinión que se aleja de los hechos.

En este caso, ya que no se encuentra tan reñido como el caso anterior se puede decir que se tiende más a los hechos: esto se debe a la temática del análisis plenamente, ya que en muchos casos los tweets son usuarios comentando lo que está pasando en su zona o region, o en general, el mundo como la llegada de las vacunas, datos de contagio etc.
A continuación, veremos algunos tweets que servirán como ejemplo:
* New campaign urges public to get tested twice a week
* Corona Info for #India: New Cases: 131893 Today Recovery: 61836 Today Deaths: 802 Total Active Cases: 979519
* A new Danish study finds no connection between the degree of shutdowns and mortality in European countries evaluated

Podemos observar que apenas usan modificadores y eso afecta en gran medida al resultado del cálculo de la subjetividad.

#####Twitter Sentiment Analysis utilizando Naive Bayes

Se utilizará **Naive Bayes Multinomial** ya que su premisa es bastante buena en comparación con otros modelos en cuanto a clasificación de texto. Se ha consultado el siguiente vídeo sobre Naive Bayes Multinomial y su forma de clasificar texto: https://www.youtube.com/watch?v=O2L2Uv9pdDA.

Al ser naive pasará por alto la interconexión que pueda haber entre las palabras, es decir, todas las palabras tendrán el mismo valor.

Para poder analizarlo correctamente se elimina el ruido y posteriormente se procede a hacer lo siguiente:
el analizador calculará la probabilidad de que sea positivo y la de que sea negativo, partiendo de la probabilidad de que sea negativo/positivo dada por el dataset con el que se ha entrenado el modelo y multiplicado por la probabilidad de que aparezca cada palabra sabiendo que es negativo o positivo.

Es decir, dado:

* N = negativo

* P = positivo

* X1......Xm = las palabras del tweet

Puntuación negativa = p(N) x p(X1/N) .... x p(Xm/N))

Puntuación positiva = p(P) x P(X1/P) .... x P(Xm/P))

La suma de las puntuaciones debe ser 1 y si la puntuación negativa es mayor que la positiva, el sentimiento será negativo y viceversa.

Primero importaremos **nltk (Natural Language Toolkit)** y el dataset que contiene reseñas de películas que se utilizarán para entrenar el modelo.
También importamos el analizador de Naive Bayes: https://textblob.readthedocs.io/en/dev/_modules/textblob/en/sentiments.html

In [0]:
import nltk
nltk.download('movie_reviews')
nltk.download('punkt')
from textblob.sentiments import NaiveBayesAnalyzer

Redefinimos el listener de nuevo para asegurarnos de que todos los tweets están en inglés y guardarlos en una carpeta nueva ya que deseamos utilizarlos para un fin distinto.

In [0]:
class MyStreamListener(tweepy.StreamListener):
    def __init__(self,api=None):
        super(MyStreamListener,self).__init__()
        self.num_tweets=0
    def on_status(self,status):
      if status.lang == 'en':
          tweet= status._json
          aux = json.dumps(tweet)
          print(aux)
          dbutils.fs.put("/FileStore/tables/sentiment/sentiment-"+str(self.num_tweets)+".json", aux)
          self.num_tweets+=1;
          if self.num_tweets<1000 :
              return True
          else:
              return False
    def on_error(self, status):
        print(status)
        if status == 420: return False
        return True

Al igual que se ha visto en la parte 1, si queremos utilizar otra muestra usamos los siguientes comandos:
* Borrado de la carpeta.
* Creación e inicio del stream que obtiene y guarda los json de los tweets.

 **No activarlos** si se desea mantener las mismas muestras pues eso borrará los datos y cargará otros nuevos.

In [0]:
dbutils.fs.rm('/FileStore/tables/sentiment/', True)

In [0]:
stream = Stream(auth, MyStreamListener())
stream.filter(track=['covid','covid-19','covid19','coronavirus'])

Creamos el dataframe que representará al json (importante tener la opción **multiline** activa) al igual que en la parte 1:

In [0]:
sentimentInputDF = (
  spark
    .read
    .option("multiline", True)
    .json("/FileStore/tables/sentiment/")
)

Usaremos la clase blobber para generar un solo modelo que se pueda usar en todos los tweets: https://textblob.readthedocs.io/en/dev/advanced_usage.html#sentiment-analyzers (Blobber: A TextBlob Factory)

Si utilizáramos directamente el analyzer, se entrenaría y generaría un modelo por cada tweet, llegando a tomar más de una hora de procesamiento para calcular las estadísticas.

Convertiremos el dataframe en un RDD para hacer un map y guardar el texto junto con el resultado del sentiment analysis pasado por el modelo.

Se volverá a convertir en un dataframe de dos columnas (el texto y el análisis).

In [0]:
NBanalyzer = Blobber(analyzer=NaiveBayesAnalyzer())
sentimentNBrdd = sentimentInputDF.rdd.map(lambda tweet:(tweet['text'], NBanalyzer(tweet['text']).sentiment))

sentimentNBDF = spark.createDataFrame(sentimentNBrdd).toDF("tweet","sentiment")

sentimentNBCountsDF = (
  sentimentNBDF
    .groupBy(
       sentimentNBDF.sentiment
    )
    .count()
)
sentimentNBCountsDF.cache()

Podemos mostrar los tweets con sus respectivos análisis de sentimento para futuras referencias si usamos collect()

Volvemos a crear otra tabla para poder hacer consultas SQL.

In [0]:
sentimentNBCountsDF.createOrReplaceTempView("NBsentiment19")

El resultado del análisis mediante Naive Bayes se devuelve a modo de un struct que contiene:
* classification: sentimiento del texto (positivo o negativo)
* p_pos: valor de la positividad del texto
* p_neg: valor de la negatividad del texto

La suma de p_pos y p_neg debe ser 1.

Si p_pos es mayor, classification será positivo (pos). Por otro lado, si p_neg es mayor, classification será negativo (neg).

Utilizaremos el valor de classification pues es la que te devuelve el resultado concreto del análisis. De esta forma observaremos el número de tweets positivos y negativos en la muestra:

In [0]:
%sql select sentiment.classification, sum(count) as total_count from NBsentiment19 group by sentiment.classification

classification,total_count
pos,691
neg,309


En este último análisis se puede observar que la cantidad de Tweets con sentimiento positivo es más del doble en comparación con los sentimientos negativos.

Hay que tener en cuenta que el gran problema de analizar utilizando el método de Naive Bayes Multinomial es que trata todas las palabras por igual, lo cuál es diferente a cómo nos comunicamos en realidad ya que añadimos distintos énfasis a las palabras o formamos significados alternativos al unirlas con otras.

Algunos ejemplos de posibles fallas:
* 'Hello, I'm a 21 year old trans woman who is currently struggling financially a lot due to not being able to attend work…", sentiment=Row(classification='pos', p_pos=0.6300678104352279, p_neg=0.36993218956477125)) : La clasificación es positiva, pero no poder trabajar y tener problemas financieros no se podría considerar un sentimiento positivo.

* 'Jim died while biking a few hours after posting this. Every death caused by car-centric infrastructure  is heartbreaking. Ev…', sentiment=Row(classification='pos', p_pos=0.5609517954248001, p_neg=0.43904820457520133)): De nuevo, la clasificación es positiva aunque sea por poco.

* 'Variants now account for 70 percent of COVID-19 cases in the city, according to a new report with maps showing wher…', sentiment=Row(classification='pos', p_pos=0.8125299960311315, p_neg=0.1874700039688667)): En este caso también toma que el hecho de que el 70% de los casos de Covid-19 en una ciudad sean variantes como un sentimiento positivo.

En resumen, aunque el modelo es bueno clasificando palabras, no se puede negar que tiene fallas y, aunque una palabra apareza más veces en frases positivas o negativas, ésta puede cambiar de significado totalmente dependiendo de cómo la uses junto a otras. Sirve como una estimación/aproximación bastante buena, pero imperfecta. Por último, hay que mencionar que tampoco es capaz de detectar casos en los que se usa la ironía o el humor.

##Conclusiones

En conclusión, la herramienta de Twitter como medio de análisis en relación con el Covid-19 no llega a tener el potencial esperado. No se ha podido extraer toda la información que se había planeado debido a las políticas de privacidad de Twitter que, por ejemplo, autorizaban las desactivación de la geolocalización.

Por otro lado, se ha podido observar la eficiencia que tiene Twitter a la hora de detectar los idiomas dentro de los tweets, lo cuál nos ha sido de utilidad para poder clasificar los tweets en idiomas y poder así ver cuáles son las comunidades de hablantes qué más parte toman a la hora de publicar acerca del virus. El análisis de los hashtags también ha mostrado la preocupación referente a temas ligados con el Covid-19 como las dosis de ivermectina para paliar la enfermedad o los exámenes de acceso a la universidad presenciales.

Respecto al análisis de sentimiento, se ha comprobado que en ambos casos ha resultado positivo. En mi opinión, parece que el método de clasificación de Naive Bayes es algo más exacto pues tiene reviews reales que han servido para entrenar el modelo en vez de puntuaciones por palabras y frases. No obstante, los dos poseen ciertas fallas, clasificando erróneamente los tweets y demostrando que todavía falta camino por recorrer hasta que se pueda analizar completamente y con precisión el lenguaje natural con su complejidad y todos sus dobles sentidos.

Por último, aunque la herramienta de Twitter no ha sido totalmente conclusiva con respecto al análisis del Covid-19, esta podría servir para otros análisis y usos como estudios de mercado, tendencias u otros que no dependan de las restricciones de los servicios de protección de privacidad de la red social.