In [10]:
import pickle
import pandas as pd
from scipy import sparse

# === Caricamento oggetti salvati ===

# Carica il vettorizzatore TF-IDF
with open("../models/tfidf_vectorizer.pkl", "rb") as f:
    vectorizer = pickle.load(f)

# Carica la matrice vettoriale
X_tfidf = sparse.load_npz("../sentiment_data/X_tfidf.npz")

# Carica le etichette
y = pd.read_csv("../sentiment_data/y.csv")["label"]

# === Ispezione ===

print("=== INFO VETTORIZZATORE TF-IDF ===")
print("Numero di feature (parole):", len(vectorizer.get_feature_names_out()))
print("Prime 50 parole nel vocabolario del vettorizzatore:", list(vectorizer.get_feature_names_out())[:50])


print("=== INFO MATRICE TF-IDF ===")
print("Forma della matrice:", X_tfidf.shape)
print("Densità media dei vettori:", X_tfidf.nnz / X_tfidf.shape[0])
print()

print("=== ESEMPI ===")
for i in range(3):
    print(f"Frase {i+1} (label: {y[i]}):")
    print(X_tfidf[i].todense())
    print()
# Prendi la prima frase preprocessata (o quella su cui hai fatto fit)




=== INFO VETTORIZZATORE TF-IDF ===
Numero di feature (parole): 2399
Prime 50 parole nel vocabolario del vettorizzatore: ['_land', 'ab', 'abl', 'abp', 'abp hel', 'abroad', 'ac', 'ac drive', 'access', 'accessori', 'accord', 'accord ceo', 'accord compani', 'accord finnish', 'account', 'account period', 'achiev', 'acquir', 'acquir entir', 'acquir share', 'acquisit', 'act', 'action', 'activ', 'actual', 'actual situat', 'ad', 'add', 'addit', 'address', 'adjust', 'administr', 'adp', 'adp news', 'adpnew', 'advanc', 'advantag', 'advertis', 'advisori', 'affect', 'affecto', 'africa', 'afternoon', 'afx', 'ag', 'ago', 'agre', 'agre buy', 'agre sell', 'agreement']
=== INFO MATRICE TF-IDF ===
Forma della matrice: (4816, 2399)
Densità media dei vettori: 10.925456810631228

=== ESEMPI ===
Frase 1 (label: neutral):
[[0. 0. 0. ... 0. 0. 0.]]

Frase 2 (label: neutral):
[[0. 0. 0. ... 0. 0. 0.]]

Frase 3 (label: negative):
[[0. 0. 0. ... 0. 0. 0.]]



# Verifica del vettorizzatore TF-IDF:
 L'output conferma che il TF-IDF è stato applicato correttamente.
 - Il vocabolario contiene 2399 termini unici (basandosi su max_features=5000 ma filtrati da min_df=5 e stop_words="english").

 - La matrice TF-IDF ha dimensione (4816, 2399), quindi ogni frase è rappresentata come un vettore sparso di 2531 dimensioni.(4816 frasi rappresentate da 2399 feature/parole.)
 - La densità media indica che, in media, ogni frase attiva circa 10 feature/parole diverse presenti nel vocabolario.
