In [None]:
# Εισαγωγή βιβλιοθηκών
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

# Φόρτωση Δεδομένων
newsgroups = fetch_20newsgroups(subset='all', shuffle=True, random_state=42)

# Προεπεξεργασία Δεδομένων
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.2, random_state=42)

# Διανομή Λέξεων
vectorizer = CountVectorizer()
X_train_counts = vectorizer.fit_transform(X_train)

# Κατασκευή Μοντέλου
clf = MultinomialNB()

# Εκπαίδευση Μοντέλου
clf.fit(X_train_counts, y_train)

# Βήμα 6: Αξιολόγηση Μοντέλου
X_test_counts = vectorizer.transform(X_test)
y_pred = clf.predict(X_test_counts)

# Ακρίβεια
accuracy = metrics.accuracy_score(y_test, y_pred)
print(f'Ακρίβεια: {accuracy}')

# Αναφορά Κατηγοριοποίησης
classification_report = metrics.classification_report(y_test, y_pred, target_names=newsgroups.target_names)
print(f'Αναφορά Κατηγοριοποίησης:\n{classification_report}')



# ΕΠΟΜΕΝΗ ΑΣΚΗΣΗ #

# Εισαγωγή βιβλιοθηκών
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

# Φόρτωση Δεδομένων
newsgroups = fetch_20newsgroups(subset='all', shuffle=True, random_state=42)

# Προεπεξεργασία Δεδομένων
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.2, random_state=42)

# Κατασκευή Μοντέλων
models = {
    'Multinomial Naive Bayes': MultinomialNB(),
    'Support Vector Machine': SVC(),
    'Random Forest': RandomForestClassifier()
}

# Εκπαίδευση  Μοντέλων
for name, model in models.items():
    vectorizer = TfidfVectorizer()
    X_train_tfidf = vectorizer.fit_transform(X_train)
    model.fit(X_train_tfidf, y_train)

# Αξιολόγηση  Μοντέλων
for name, model in models.items():
    X_test_tfidf = vectorizer.transform(X_test)
    y_pred = model.predict(X_test_tfidf)

    # Ακρίβεια
    accuracy = metrics.accuracy_score(y_test, y_pred)
    print(f'{name} - Ακρίβεια: {accuracy}')

    # Αναφορά Κατηγοριοποίησης
    classification_report = metrics.classification_report(y_test, y_pred, target_names=newsgroups.target_names)
    print(f'{name} - Αναφορά Κατηγοριοποίησης:\n{classification_report}\n')

# Σύγκριση Αλγορίθμων
best_accuracy = 0
best_model = None

for name, model in models.items():
    X_test_tfidf = vectorizer.transform(X_test)
    y_pred = model.predict(X_test_tfidf)

    # Αξιολόγηση μοντέλου
    accuracy = metrics.accuracy_score(y_test, y_pred)
    print(f'{name} - Ακρίβεια: {accuracy}')

    # Έλεγχος για το αν το τρέχον μοντέλο έχει καλύτερη απόδοση
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = name

    # Αναφορά Κατηγοριοποίησης
    classification_report = metrics.classification_report(y_test, y_pred, target_names=newsgroups.target_names)
    print(f'{name} - Αναφορά Κατηγοριοποίησης:\n{classification_report}\n')

# Εκτύπωση του καλύτερου μοντέλου
print(f'Ο αλγόριθμος με την υψηλότερη ακρίβεια είναι ο {best_model} με ακρίβεια: {best_accuracy}')




# ΕΠΟΜΕΝΗ ΑΣΚΗΣΗ #

# Εισαγωγή βιβλιοθηκών
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
from sklearn import metrics

# Φόρτωση Δεδομένων
newsgroups = fetch_20newsgroups(subset='all', shuffle=True, random_state=42)

# Προεπεξεργασία Δεδομένων
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.2, random_state=42)

vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Κατασκευή Μοντέλου
model = Sequential()
model.add(Dense(512, input_shape=(X_train_tfidf.shape[1],), activation='relu'))
model.add(Dense(20, activation='softmax'))

# Εκπαίδευση Μοντέλου
model.compile(loss='sparse_categorical_crossentropy', optimizer=Adam(), metrics=['accuracy'])
model.fit(X_train_tfidf, y_train, epochs=5, batch_size=64, validation_split=0.2)

# Αξιολόγηση Μοντέλου
y_pred = model.predict_classes(X_test_tfidf)
accuracy = metrics.accuracy_score(y_test, y_pred)
print(f'Ακρίβεια (accuracy): {accuracy}')
