In [31]:
from sklearn import datasets
import os


In [37]:
# wczytywanie danych

# dir_path = os.path.dirname(os.path.realpath(__file__))
training_set = datasets.load_files("training_set", encoding="utf-8", random_state=420) 
# random_state miesza dane, wartość to seed

In [38]:
# przydatne atrybuty

# training_set.filenames
# training_set.data
# training_set.target_names
# training_set.target
# training_set.target_names[training_set.target[3]]
training_set.data[0]

'niedbal wyspa ogorzały ręka trzymać lejka i odwracać twarz wieźć przez kobieta odpowiadać wesoły zapytanie i przycinek czas męski śmiech swój łączyć ezyt chór cienki piskliwy śmiech dziewczę'

In [39]:
# tokenizacja
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
train_count_vectors = count_vect.fit_transform(training_set.data)
train_count_vectors.shape

(1094, 3583)

In [41]:
# count_vect.vocabulary_.get('koń') # liczba wystąpień słowa w całym zbiorze
# print(train_count_vectors[1])

  (0, 3061)	1
  (0, 494)	1
  (0, 2376)	1
  (0, 2156)	1
  (0, 2487)	1
  (0, 3422)	1
  (0, 1186)	1
  (0, 2378)	1
  (0, 3525)	1
  (0, 1673)	1
  (0, 3180)	1
  (0, 2591)	1
  (0, 714)	1
  (0, 2806)	1
  (0, 349)	1
  (0, 2776)	1
  (0, 1170)	1
  (0, 2738)	1


In [44]:
# tf–idf - “Term Frequency times Inverse Document Frequency”
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()
#fit our estimator to the data and transform our count-matrix to a tf-idf representation
train_tfidf = tfidf_transformer.fit_transform(train_count_vectors) 


<1x3583 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [45]:
# Training a classifier
from sklearn.naive_bayes import MultinomialNB

classifier = MultinomialNB().fit(train_tfidf, training_set.target)

In [48]:
# takie sobie testy zdań
test_data = ['Dlaczego z gorącego snu pierwszej młodości obudziła się nie tylko samotna i smutna, ale zarazem obrażona i z niewyschłą dotąd kroplą goryczy w sercu?', 
             'Pod złotawym, a potem już siwiejącym wąsem zawsze purpurowe, zmysłowe jego usta układały się w wyraz lubości, ilekroć zobaczył jakąkolwiek ładną twarzyczkę lub zgrabną kibić niewieścią.',
            'Przed sobą, o kroków kilkanaście, zobaczyła wznoszącą się nad zbożem, rozłożystą i całą w słońcu stojącą gruszę polną; pień, gałęzie i wszystkie liście tego drzewa były złote',
            'Był to wraz z brzegiem rzeki zginający się nieco w półkole sznur siedlisk ludzkich, większych i mniejszych, wychylających ciemne swe profile z większych i mniejszych ogrodów.']
X_new_counts = count_vect.transform(test_data)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = classifier.predict(X_new_tfidf)

for doc, category in zip(test_data, predicted):
     print('%r => %s' % (doc, training_set.target_names[category]))

'Dlaczego z gorącego snu pierwszej młodości obudziła się nie tylko samotna i smutna, ale zarazem obrażona i z niewyschłą dotąd kroplą goryczy w sercu?' => P
'Pod złotawym, a potem już siwiejącym wąsem zawsze purpurowe, zmysłowe jego usta układały się w wyraz lubości, ilekroć zobaczył jakąkolwiek ładną twarzyczkę lub zgrabną kibić niewieścią.' => P
'Przed sobą, o kroków kilkanaście, zobaczyła wznoszącą się nad zbożem, rozłożystą i całą w słońcu stojącą gruszę polną; pień, gałęzie i wszystkie liście tego drzewa były złote' => P
'Był to wraz z brzegiem rzeki zginający się nieco w półkole sznur siedlisk ludzkich, większych i mniejszych, wychylających ciemne swe profile z większych i mniejszych ogrodów.' => P


In [56]:
# Tworzenie Naive Bayes Clf w pipeline i trenowanie

from sklearn.pipeline import Pipeline
import numpy as np

clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', MultinomialNB()),
])

training_set = datasets.load_files("training_set", encoding="utf-8", random_state=420) 
clf.fit(training_set.data, training_set.target)

# NotFittedError: CountVectorizer - Vocabulary wasn't fitted. - nwm co jest nie tak
test_set = training_set.data
predicted = clf.predict(test_set)
print(np.mean(predicted == training_set.target))

0.8226691042047533


In [52]:
# import numpy as np

# test_set = training_set.data
# X_new_counts = count_vect.transform(test_set)
# X_new_tfidf = tfidf_transformer.transform(X_new_counts)

# predicted = classifier.predict(X_new_tfidf)
# print(np.mean(predicted == training_set.target))

0.8226691042047533


In [57]:
from sklearn import metrics
print(metrics.classification_report(training_set.target, predicted, target_names=training_set.target_names))

              precision    recall  f1-score   support

           N       0.00      0.00      0.00        34
           O       1.00      0.05      0.10       169
           P       0.82      1.00      0.90       891

   micro avg       0.82      0.82      0.82      1094
   macro avg       0.61      0.35      0.33      1094
weighted avg       0.82      0.82      0.75      1094



  'precision', 'predicted', average, warn_for)


In [59]:
# # Tworzenie SVM Clf w pipeline i trenowanie
from sklearn.linear_model import SGDClassifier

svm_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier(loss='hinge', penalty='l2',
                          alpha=1e-3, random_state=42,
                          max_iter=5, tol=None)),
])

svm_clf.fit(training_set.data, training_set.target)

test_set = training_set.data
predicted = svm_clf.predict(test_set)
print(np.mean(predicted == training_set.target))

0.9570383912248629




In [60]:
from sklearn import metrics
print(metrics.classification_report(training_set.target, predicted, target_names=training_set.target_names))

              precision    recall  f1-score   support

           N       1.00      0.82      0.90        34
           O       1.00      0.76      0.86       169
           P       0.95      1.00      0.97       891

   micro avg       0.96      0.96      0.96      1094
   macro avg       0.98      0.86      0.91      1094
weighted avg       0.96      0.96      0.95      1094



In [None]:
# Grid search dls SVM
from sklearn.model_selection import GridSearchCV

parameters = {
    # parametry CountVectorizer
    """...CountVectorizer(*, input='content', encoding='utf-8', decode_error='strict', 
    strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', 
    ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, 
    dtype=<class 'numpy.int64'>)"""
    'vect__decode_error': ['strict', 'ignore', 'replace'],
    'vect__ngram_range': [(1, 1), (1, 2), (2, 2), (2, 3), (3, 3)], # pewnie trzeba będzie zmniejszyć liczbę opcji
    'vect__max_df': [1.0, 0.95, 0.90, 0.85, 0.80, 0.75, 0.70], # pewnie trzeba będzie zmniejszyć liczbę opcji
    'vect__min_df': [0.05, 0.10, 0.15, 0.20, 0.25, 0.30] # pewnie trzeba będzie zmniejszyć liczbę opcji
    # parametry TfidfTransformer
    """...TfidfTransformer(*, norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)"""
    'tfidf__use_idf': (True, False),
    # parametry SGDClassifier (SVM)
    """SGDClassifier(loss='hinge', *, penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, 
    tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', eta0=0.0, 
    power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, 
    average=False)"""
    'clf__alpha': (1e-2, 1e-3),
}