In [1]:
import gensim #pip install gensim
import pprint
from gensim import corpora, models
from nltk.tokenize import word_tokenize
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#1. Creazione del TF-IDF (Term Frequency - Inverse Document Frequency), assegnamo un peso ad ogni parola
#  - TF: frequenza del termine nel documento: num. occorrenze / num. totale di parole nel documento
#  - IDF: inverso della frequenza del termine nei documenti: log_e(num. totale di documenti / num. documenti che contengono il termine)
#  - TF-IDF: prodotto delle due precedenti (risulta elevato quando la parola è molto presente nel documento e poco presente negli altri documenti)

source = './doc/cleaned.csv'
df = pd.read_csv(source)

#Tokenizzazione
tweets = df['lemmatized_text'].apply(lambda text: word_tokenize(text))

# Create a dictionary
dictionary = corpora.Dictionary(tweets)

# Create a corpus
corpus = [dictionary.doc2bow(doc) for doc in tweets]

# Train the TF-IDF model
tfidf = models.TfidfModel(corpus)

# Transform the corpus into TF-IDF vectors
tfidf_corpus = tfidf[corpus]

In [3]:
# Show some results
for i, doc in enumerate(tfidf_corpus):
    if i > 5:
        break
    print(f"TF-IDF values for document {i}:")
    for token_id, tfidf_value in doc:
        word = dictionary[token_id]  # Get the word corresponding to the token_id
        print(f"Token ID: {token_id}, Word: {word}, TF-IDF Value: {tfidf_value}")
    print("\n")

TF-IDF values for document 0:
Token ID: 0, Word: abuse, TF-IDF Value: 0.08351972565693129
Token ID: 1, Word: abused, TF-IDF Value: 0.10561463665339407
Token ID: 2, Word: action, TF-IDF Value: 0.05909593110836793
Token ID: 3, Word: agency, TF-IDF Value: 0.3698914715979529
Token ID: 4, Word: along, TF-IDF Value: 0.07650986140193991
Token ID: 5, Word: call, TF-IDF Value: 0.11628774127377883
Token ID: 6, Word: came, TF-IDF Value: 0.07522756557898667
Token ID: 7, Word: can, TF-IDF Value: 0.10543304589762349
Token ID: 8, Word: clearly, TF-IDF Value: 0.08667131008946559
Token ID: 9, Word: comment, TF-IDF Value: 0.08179051475953035
Token ID: 10, Word: commission, TF-IDF Value: 0.09571524670882778
Token ID: 11, Word: comprehensive, TF-IDF Value: 0.09356122424444609
Token ID: 12, Word: either, TF-IDF Value: 0.07937580029708532
Token ID: 13, Word: elon, TF-IDF Value: 0.0884529890869541
Token ID: 14, Word: estimate, TF-IDF Value: 0.10184207648270188
Token ID: 15, Word: forcing, TF-IDF Value: 0.095