In [1]:
import json

# Open the JSON file
with open('./../Poems_And_Outputs/Poems_Unparsed.JSON', 'r', encoding='utf-8') as f:
    data = json.load(f)

datasongs = []
datalabels = []
eval_data = []
eval_names = []

for song in data:
  if not song['year'] == "":
    datasongs.append(song['content'])
    if int(song['year']) < 1900:
      datalabels.append(0)
    elif int(song['year']) < 1909:
      datalabels.append(1)
    else:
      datalabels.append(2)
      
  elif song["published"]=="no":
    eval_data.append(song['content'])
    eval_names.append(song['poem'])

print (len(eval_data))

60


In [2]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Global hyperparameters
TEST_SIZE = 0.2
RANDOM_STATE = 50
MAX_ITER = 1000

def train_classifier(songs, labels):
    # Splitting the data into train and test sets
    X_train, X_test, y_train, y_test = train_test_split(songs, labels, test_size=TEST_SIZE, random_state=RANDOM_STATE)

    # Vectorizing the text data
    vectorizer = CountVectorizer()
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)

    # Creating and training the classifier
    classifier = LogisticRegression(max_iter=MAX_ITER)
    classifier.fit(X_train_vec, y_train)

    return classifier, vectorizer, X_test_vec, y_test

def evaluate_classifier(classifier, X_test_vec, y_test):
    # Making predictions
    predictions = classifier.predict(X_test_vec)

    # Evaluating the model
    accuracy = accuracy_score(y_test, predictions)
    print("Accuracy:", accuracy)
    return accuracy

# Sample data
songs = datasongs
labels = datalabels

# Train the classifier
classifier, vectorizer, X_test_vec, y_test = train_classifier(songs, labels)

# Evaluate the classifier
accuracy = evaluate_classifier(classifier, X_test_vec, y_test)

# Print accuracy
print("Final Accuracy:", accuracy)


Accuracy: 0.9090909090909091
Final Accuracy: 0.9090909090909091


In [3]:
def labels_to_years(labels):
    res = []
    for label in labels:
        if label == 0:
            res.append("-1900")
        elif label == 1:
            res.append("1900-1909")
        else:
            res.append("1910+")
    return res

In [4]:
predictions = labels_to_years(classifier.predict(vectorizer.transform(eval_data)))
out = list(zip(eval_names, predictions))

In [6]:
out[:30]

[('אל האגדה', '-1900'),
 ('באהל התורה', '-1900'),
 ('אכילת אשם', '-1900'),
 ('אל המשורר', '1900-1909'),
 ('(נוסח ראשון של אל האגדה שפורסם)האגדה', '-1900'),
 ('ארץ שחולה כפנינים', '-1900'),
 ('אל הצפור (כתב יד)', '-1900'),
 ('המלאך העף', '1900-1909'),
 ('תענית צבור לעצירת הצדיק', '1900-1909'),
 ('חלום חזיון אביב', '-1900'),
 ('לכי דודה', '-1900'),
 ('מלכת שבא א', '-1900'),
 ('מלכת שבא ב', '-1900'),
 ('חלום בתוך חלום', '1900-1909'),
 ('עלי ערש רעננה', '1900-1909'),
 ('חושו רופאים', '-1900'),
 ('יעקב ועשו א', '-1900'),
 ('יעקב ועשו ב', '-1900'),
 ('יעקב ועשו ג', '-1900'),
 ('יעקב ועשו ד', '1900-1909'),
 ('על קבר אבות', '-1900'),
 ('הקיץ', '-1900'),
 ("יש שיתגעגע הלב (ע'פ היינה)", '1900-1909'),
 ('תאמי יונים', '-1900'),
 ('לא מגדות ירדן', '1900-1909'),
 ('בליל הרעש', '-1900'),
 ('עסק בנסתרות', '-1900'),
 ('הדעה החיטית', '-1900'),
 ('אשריך צעיר רודם', '1900-1909'),
 ('והיה ביום ההוא', '-1900')]

In [7]:
out[30:]

[("בכרכי ים (חלק ב' של השיר “ילדות”)", '1900-1909'),
 ('מחוץ לעיר', '1900-1909'),
 ('אוי מלב בוקעת', '1900-1909'),
 ('אחים לצרה', '-1900'),
 ('חזק ואמץ', '1900-1909'),
 ('עומד ומפשפש', '1900-1909'),
 ('האופה והקטף', '1900-1909'),
 ('עבר הקיץ', '-1900'),
 ('אל תראו', '1900-1909'),
 (" קטעים של 'שירי עם' א", '1900-1909'),
 ("קטעים של 'שירי עם' ב", '1900-1909'),
 ("קטעים של 'שירי עם' ג", '1900-1909'),
 ('למי אוצרות קורח', '1900-1909'),
 ('התעוני חרבוני צהרים', '1900-1909'),
 ('משירי עם  1', '1900-1909'),
 ('משירי עם 2', '1900-1909'),
 ('משירי עם 3', '1900-1909'),
 ('משירי עם 4', '1900-1909'),
 ('משירי עם 5', '1900-1909'),
 ('אברם אברם', '1900-1909'),
 ('למנצח על הנגינות', '1900-1909'),
 ('דבורת הזהב', '1900-1909'),
 ('רסיסים א', '1900-1909'),
 ('רסיסים ב', '1900-1909'),
 ('רסיסים ג', '1900-1909'),
 ('רסיסים ד', '1900-1909'),
 ('רסיסים ה', '1900-1909'),
 ('רסיסים ו', '1900-1909'),
 ('רסיסים ז', '1900-1909'),
 ('אהה, לו ידעתי איך אשכם', '1900-1909')]