# **Caso de Analítica - NLP Twitter**

## Introducción

En este Caso 3 debes realizar un análisis sentimental, sintáctico y gramatical de comentarios Twitter. La base de datos la puedes descargar desde eStudy (Caso 3 dataset), la cual contiene un CSV de mensajes enviados a Twitter con las siguientes columnas:

1. Puntuación sentimental o polaridad (-5 = negativa ... 0 = neutral ... 5 = positiva) (por calcular)
2. Id del tweet
3. Fecha del tweet (Sat May 16 23:58:44 UTC 2009)
4. Búsqueda. Si no hay búsqueda, el valor es NO_QUERY
5. Usuario que ha tweeteado
6. Texto del tweet

Con estos datos se os propone que apliquéis técnicas analíticas y de visualización para responder a las siguientes preguntas. No hay restricciones acerca de las técnicas ni tecnologías a utilizar siempre y cuando los resultados sean reproducibles y estén debidamente justificados. No obstante, las siguientes librerías y códigos de ejemplo os pueden ser muy útiles para responderlas:

> **_Librería NLTK:_** [https://www.nltk.org/install.html]()
>  
> **Propósito**: 
> Trabajar con datos en lenguaje humano.

> **_Librería texstat:_** [https://pypi.org/project/textstat]()
>  
> **Propósito**: 
> Calcular estadística a partir de datos en lenguaje humano.

---

### Unsupervised-Text-Clustering using Natural Language Processing (NLP)

Para realizar un conglomerado analítico de un corpus documental/textos se acostumbra a seguir los siguientes pasos genéricos. La técnica consiste en crear un vector cuantitativo a partir de los textos, previa limpieza y transformación, para aplicar técnicas de conglomerado:

1. Eliminar caracteres de puntuación, espacios adicionales, dígitos u otros caracteres que puedan entorpecer el análisis textual
2. Tokenizar y eliminar Stopwords. Se requiere un diccionario de palabras para quitar aquellas que puedan entorpecer el análisis textual. Por ejemplo, se puede utilizar **“from nltk.corpus import stopwords”. Ejemplo: NLTK stop words - Python Tutorial (pythonspot.com)**
3. Encontrar la raíz de las palabras aplicando **lemmatization o stemming**.
4. Aplicar vectorizado del tokenizado para calcular apariciones de los tokens y cuantificar los tweets. Se pueden usar distintos cálculos, por ejemplo **Bag-of-Words, Word2Vec, o TFIDF** con **“from
sklearn.feature_extraction.text import TfidfVectorizer”**
5. Aplicar clustering con técnicas adecuadas. Por ejemplo, Kmeans previo cálculo del número de clusters con técnicas como Elbow.

---

### Análisis de sentimientos en Python - Transformers
Huggingface pone a disposición una manera muy asequible de realizar análisis sentimentales con modelos pre-entrenados. 

Sigue estos dos enlaces para poder realizar las preguntas extras del caso:
1. [Getting Started with Sentiment Analysis using Python](https://huggingface.co/blog/sentiment-analysis-python) 
2. [Pipelines](https://huggingface.co/docs/transformers/main_classes/pipelines)

---


In [None]:
# Librerías
import pandas as pd

from caso02.descomprimir_dataset import unzip_dataset


In [None]:
# Carga de datos
# Cargar dataset y descomprimir en /datos
csv_dataset_path = unzip_dataset()
print(csv_dataset_path)
tweets_df = pd.read_csv(csv_dataset_path)
tweets_df.describe()

# Procesamiento del dataframe


In [None]:
# Otros Códigos

resultado = df_Twitter['Busqueda'].unique()
 
print(resultado)

---

## Análisis

### 1. ¿Cuál es la distribución de las polaridades y complejidad de lectura/escritura de los tweets en el dataset?

#### 1.a. ¿Hay una mayor cantidad de tweets positivos, negativos o neutrales?

#### 1.b. ¿Cómo se relacionan las distintas polaridades según la complejidad de lectura/escritura de los tweets?

In [None]:
# Respuesta
print("Respuestas")

### 2. ¿Existen patrones gramaticales o sintácticos comunes en los tweets con polaridad positiva o negativa? Por ejemplo, puede que los tweets positivos tiendan a utilizar más palabras de agradecimiento o elogios, mientras que los tweets negativos utilizan más palabras de crítica o enojo.

In [None]:
# Respuesta
print("Respuestas")

### 3.  ¿Qué usuarios tienden a generar tweets con una polaridad más positiva o negativa? ¿Hay alguna relación entre la polaridad de los tweets y el número de seguidores de un usuario?

In [None]:
# Respuesta
print("Respuestas")

### 4. ¿Hay alguna palabra o conjunto de palabras específicas que estén asociadas con tweets de polaridad extrema?

#### 4.a. ¿Estas palabras son más comunes en tweets sobre un tema en particular o están distribuidas en todo el dataset?

#### 4.b. Escoge un tema y clusteriza los usuarios según polaridades.

In [None]:
# Respuesta
print("Respuestas")

### 5. ¿Hay alguna correlación entre la polaridad de un tweet y la fecha en que se publicó?

#### 5.a. ¿Los tweets publicados durante ciertos períodos de tiempo tienden a ser más positivos o negativos que otros?

In [None]:
# Respuesta
print("Respuestas")

### 6. Identifica los "Top 10 Trolls" y los "Top 10 Influencers". Justifica las características de un usuario Troll e Influencer.

In [None]:
# Respuesta
print("Respuestas")

### 7. Extra: Utiliza Transformers con el pipeline de Huggingface para calcular la polaridad de los tweets y comparar los resultados de la pregunta 1.

In [None]:
# Respuesta
print("Respuestas")

---

## Visualización

### 1. ¿Cómo se distribuyen los tweets según su polaridad a lo largo del tiempo?

In [None]:
# Respuesta
print("Respuestas")

### 2. Visualiza el análisis sintáctico (número de palabras, frase, verbos, nombres...) de los top 10 Trolls e Influencers.

In [None]:
# Respuesta
print("Respuestas")

### 3. ¿Existe alguna correlación entre el número de seguidores de un usuario y la polaridad de sus tweets? Representa visualmente esta relación.

In [None]:
# Respuesta
print("Respuestas")

### 4. Crea una nube de palabras para cada polaridad.

In [None]:
# Respuesta
print("Respuestas")

### 5. ¿Cómo se distribuyen los tweets según su polaridad en función de la hora del día o el día de la semana?

In [None]:
# Respuesta
print("Respuestas")