In [60]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import pandas as pd
from preprocess_speech import preprocess_speech
from scipy.sparse.linalg import svds

In [37]:
# Load only the first 1000 lines of the data.csv file with the speeches
df = pd.read_csv('processed_data.csv', nrows=1000)

df.head(-1)


Unnamed: 0,member_name,sitting_date,political_party,speech,id
0,αργυρης ιωαννη ευαγγελος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,κυρι συναδελφ ηθελ αρχ ευχ καλ χρον υγει δημιο...,841327
1,αργυρης ιωαννη ευαγγελος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,κυρι συναδελφ εισερχ ημερησ διαταξ τησνομοθετι...,841329
2,σαλαγιαννης βασιλειου νικολαος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,προεδρ κυρι συναδελφ αρχ ηθελ σειρ δωσ εγκαρδι...,841330
3,αργυρης ιωαννη ευαγγελος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,ευχαριστ σαλαγιαννη κοινοβουλευτικ εκπροσωπ κο...,841331
4,βλαχος θεοδωρου γεωργιος,10/01/2012,νεα δημοκρατια,ευχαριστ προεδρ ευχ χρον καλ χρονιακυρι συναδε...,841332
...,...,...,...,...,...
994,δριτσας παναγιωτη θεοδωρος,16/01/2012,συνασπισμος ριζοσπαστικης αριστερας,προβοκατσ απαντ,842408
995,νικολαιδου αρισταρχου βαρβαρα (βερα),16/01/2012,κομμουνιστικο κομμα ελλαδας,υπουργ περιοριστ θεμ χρον,842409
996,σηφουνακης οδυσσεα νικολαος,16/01/2012,πανελληνιο σοσιαλιστικο κινημα,απειλ βουλ εισαστ διν μαθημ δημοκρατι μπορ τρο...,842410
997,δριτσας παναγιωτη θεοδωρος,16/01/2012,συνασπισμος ριζοσπαστικης αριστερας,απαντατ εμ απαντ κοινωνικ φορ,842411


In [49]:
# Create a TfidfVectorizer
vectorizer = TfidfVectorizer()
vectorizer.fit(df['speech'])

# Fit the vectorizer to the speeches
X = vectorizer.transform(df['speech'])

print("Size of TF-IDF matrix: ", X.shape)
print("Sparsity of the TF_IDF matrix: ", 1 - X.size / (X.shape[0] * X.shape[1]))

Size of TF-IDF matrix:  (1000, 9172)
Sparsity of the TF_IDF matrix:  0.9941846925425207


In [50]:
df.head(-1)

Unnamed: 0,member_name,sitting_date,political_party,speech,id
0,αργυρης ιωαννη ευαγγελος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,κυρι συναδελφ ηθελ αρχ ευχ καλ χρον υγει δημιο...,841327
1,αργυρης ιωαννη ευαγγελος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,κυρι συναδελφ εισερχ ημερησ διαταξ τησνομοθετι...,841329
2,σαλαγιαννης βασιλειου νικολαος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,προεδρ κυρι συναδελφ αρχ ηθελ σειρ δωσ εγκαρδι...,841330
3,αργυρης ιωαννη ευαγγελος,10/01/2012,πανελληνιο σοσιαλιστικο κινημα,ευχαριστ σαλαγιαννη κοινοβουλευτικ εκπροσωπ κο...,841331
4,βλαχος θεοδωρου γεωργιος,10/01/2012,νεα δημοκρατια,ευχαριστ προεδρ ευχ χρον καλ χρονιακυρι συναδε...,841332
...,...,...,...,...,...
994,δριτσας παναγιωτη θεοδωρος,16/01/2012,συνασπισμος ριζοσπαστικης αριστερας,προβοκατσ απαντ,842408
995,νικολαιδου αρισταρχου βαρβαρα (βερα),16/01/2012,κομμουνιστικο κομμα ελλαδας,υπουργ περιοριστ θεμ χρον,842409
996,σηφουνακης οδυσσεα νικολαος,16/01/2012,πανελληνιο σοσιαλιστικο κινημα,απειλ βουλ εισαστ διν μαθημ δημοκρατι μπορ τρο...,842410
997,δριτσας παναγιωτη θεοδωρος,16/01/2012,συνασπισμος ριζοσπαστικης αριστερας,απαντατ εμ απαντ κοινωνικ φορ,842411


In [43]:
U, S, V = svds(X, k=200)   
X_app = np.linalg.multi_dot([U, np.diag(S)])  # Approximation of speeches in k dimensions

In [59]:
print(U.shape, S.shape, V.shape)
print(S)

(1000, 200) (200,) (200, 9172)
[1.07969206 1.08112056 1.08232884 1.08426638 1.08569421 1.08809588
 1.09073707 1.09122076 1.09263383 1.09355449 1.09675693 1.09927395
 1.10277424 1.10533033 1.10679259 1.10816557 1.10990746 1.11113518
 1.11743776 1.11923075 1.12050439 1.12141821 1.12647934 1.12764163
 1.12886157 1.13141648 1.13530614 1.13709706 1.13956774 1.14044006
 1.14130528 1.14271103 1.14437995 1.14957501 1.15203217 1.15241359
 1.15631023 1.15983481 1.16220482 1.16395397 1.16786347 1.16933572
 1.17199293 1.1750655  1.17661991 1.17895332 1.18340954 1.18424811
 1.18515629 1.19001248 1.19230941 1.19486531 1.19787799 1.19981361
 1.20232949 1.20522433 1.20901412 1.21205249 1.21677545 1.21893725
 1.22206397 1.22526505 1.2270631  1.22846014 1.23219059 1.23309945
 1.23715931 1.24418427 1.24612572 1.24746084 1.25039581 1.25277115
 1.26009189 1.26194626 1.26392021 1.26596662 1.27264988 1.27462077
 1.27760051 1.28041262 1.28312797 1.28568901 1.28729936 1.28980526
 1.29220178 1.29586625 1.299598

In [None]:
# Μπορώ οποιαδήποτε ομιλία να χρησιμοποιησω τον ετοιμο vectorizer και να τη φερω στις 200 διαστασεις πολλαπλασιάζοντας με V transposed - ΤΕΣΤ (ΕΠΙΤΥΧΕΣ)
test_speech = "Καλησπέρα σας. Είμαι ο Γιώργος"
test_speech = preprocess_speech(test_speech)
test_speech_vector = vectorizer.transform([test_speech])
print(test_speech_vector.shape)
test_speech_vector = np.dot(test_speech_vector.toarray(), V.T)
print(test_speech_vector.shape)

(1, 9172)
(1, 200)


In [58]:
X_app.shape

(1000, 200)