# Proyecto de análisis de sentimientos con Python


Curso 2022/2023:
    Juan López Quirós
    Jose Ignacio Castro Vázquez

 Lo primero que hay que hacer es escoger o recopilar una primera versión de los datos necesarios que utilizarmos 
 para entrenar a nuestros modelos de Aprendizaje automático. 
 Tras haber estudiado los varios problemas con la API de twitter y las alternativas propuestas, nos decidimos por 
 buscar un dataset ya recopilado de tweets reales de la página web kaggle. En concreto nos decidimos por un dataset
 ya enfocado al análisis de sentimientos con más de 1.6 millones de tweets recopilados directamente de la API de twitter
 por lo que se ajusta perfectamente al proyecto.

 url : https://www.kaggle.com/datasets/kazanova/sentiment140

 Luego, tenemos que limpiar el dataset escogido para este proyecto.
 A nosotros solo nos interesa una columna en particular de todo el dataset y ese es la columna de texto, que contiene
 el contenido de los tweets en sí. 

In [2]:
import pandas as pd

In [3]:
def create_cleaned_csv(original_filename, target_filename):
    data = pd.read_csv(original_filename, encoding="latin1", header=None)
    print("ORIGINAL: \n")
    print(data)

    #We give the columns a name
    column_names = ["target", "id", "date", "flag", "user", "text"]
    data.columns = column_names
    print("GIVE COLUMN NAMES: \n")
    print(data)

    #We eliminate innecessary columns
    data.drop(columns=["target", "id", "date", "flag", "user"], inplace=True)

    #We put the cleaned data into a new csv file
    data_cleaned = target_filename
    data.to_csv(data_cleaned, index=False)
    print("FINAL RESULT: \n")
    print(data)

In [4]:
create_cleaned_csv("tweet_data.csv", "tweet_cleaned_data.csv")

ORIGINAL: 

         0           1                             2         3  \
0        0  1467810369  Mon Apr 06 22:19:45 PDT 2009  NO_QUERY   
1        0  1467810672  Mon Apr 06 22:19:49 PDT 2009  NO_QUERY   
2        0  1467810917  Mon Apr 06 22:19:53 PDT 2009  NO_QUERY   
3        0  1467811184  Mon Apr 06 22:19:57 PDT 2009  NO_QUERY   
4        0  1467811193  Mon Apr 06 22:19:57 PDT 2009  NO_QUERY   
...     ..         ...                           ...       ...   
1599995  4  2193601966  Tue Jun 16 08:40:49 PDT 2009  NO_QUERY   
1599996  4  2193601969  Tue Jun 16 08:40:49 PDT 2009  NO_QUERY   
1599997  4  2193601991  Tue Jun 16 08:40:49 PDT 2009  NO_QUERY   
1599998  4  2193602064  Tue Jun 16 08:40:49 PDT 2009  NO_QUERY   
1599999  4  2193602129  Tue Jun 16 08:40:50 PDT 2009  NO_QUERY   

                       4                                                  5  
0        _TheSpecialOne_  @switchfoot http://twitpic.com/2y1zl - Awww, t...  
1          scotthamilton  is upset that

A continuación, utilizamos la libreria NLTK para excluir aquellas palabras que no nos aportan ninguna información.
Para esto, descargamos los recursos necesarios para trabajar con la librería nltk.

In [23]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\juanq\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\juanq\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

Para asegurarnos de que el recurso se descargó correctamente los mostramos por pantalla

In [4]:
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
print(stop_words)

{'but', 'did', "don't", 'of', 'those', "should've", 'herself', "doesn't", 'to', 'further', 'any', 's', 'hasn', 'shouldn', 'am', 'will', 'he', 'some', 'have', 'each', 'themselves', 'hers', 'during', 'under', 'than', 'don', 've', 'mustn', 'ma', "mightn't", 'had', 'as', 'against', 'itself', 'an', 'between', 'having', 'into', 'me', 'own', 'we', 'after', 'not', "needn't", 'at', 'won', 'shan', 'weren', 'who', 'these', 'haven', "wouldn't", 'which', 'theirs', 'doesn', "mustn't", 'doing', 'on', "couldn't", 'yourselves', 'and', 'ours', 'with', 'now', 'from', 'him', 'my', "you've", "you'll", 'can', 'very', 'the', 'its', 'ain', 'll', 'through', 'her', 'i', 'how', 're', "won't", "aren't", 'are', "shan't", 'so', 'once', 'you', 'couldn', 'it', 'only', 'isn', 'does', 'she', 'over', 'wasn', 'himself', "it's", 'hadn', 'myself', 'm', 'whom', 'here', 'our', 'other', 'y', 'your', 'no', 'd', "wasn't", 'ourselves', 'for', 'all', 'in', 'was', 'when', 'being', 'then', "shouldn't", "that'll", "she's", 'if', 'ag

In [6]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

data = pd.read_csv('tweet_cleaned_data.csv', encoding="latin1")
stop_words = set(stopwords.words('english'))

for i, row in data.iterrows():
    # word_tokenize tokeniza las palabras y los caracteres especiales para su fácil procesamiento, por ejemplo:
    # "Hello, Awesome User" -> ['Hello', ',', 'Awesome', 'User']
    tweet = data.iloc[i]["text"]
    tokenized_tweet = word_tokenize(tweet)
    filtered_tweet = [w for w in tokenized_tweet if w.lower() not in stop_words]
    data.loc[i,['text']] = ''.join(str(token) for token in filtered_tweet)


KeyboardInterrupt: 