In [1]:
from sklearn import datasets
import os


In [2]:
# wczytywanie danych

# dir_path = os.path.dirname(os.path.realpath(__file__))
training_set = datasets.load_files("training_set", encoding="utf-8", random_state=420) 
# random_state miesza dane, wartość to seed

In [8]:
# przydatne atrybuty

# training_set.filenames
# training_set.data
# training_set.target_names
# training_set.target
# training_set.target_names[training_set.target[3]]
training_set.data[0]

'niedbal wyspa ogorzały ręka trzymać lejka i odwracać twarz wieźć przez kobieta odpowiadać wesoły zapytanie i przycinek czas męski śmiech swój łączyć ezyt chór cienki piskliwy śmiech dziewczę'

In [9]:
# tokenizacja
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
train_count_vectors = count_vect.fit_transform(training_set.data)
train_count_vectors.shape

(1094, 3583)

In [10]:
# count_vect.vocabulary_.get('koń') # liczba wystąpień słowa w całym zbiorze
# print(train_count_vectors[1])

In [32]:
# tf–idf - “Term Frequency times Inverse Document Frequency”
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()
#fit our estimator to the data and transform our count-matrix to a tf-idf representation
train_tfidf = tfidf_transformer.fit_transform(train_count_vectors) 


In [12]:
# Training a classifier
from sklearn.naive_bayes import MultinomialNB

classifier = MultinomialNB().fit(train_tfidf, training_set.target)

In [13]:
# takie sobie testy zdań
test_data = ['Dlaczego z gorącego snu pierwszej młodości obudziła się nie tylko samotna i smutna, ale zarazem obrażona i z niewyschłą dotąd kroplą goryczy w sercu?', 
             'Pod złotawym, a potem już siwiejącym wąsem zawsze purpurowe, zmysłowe jego usta układały się w wyraz lubości, ilekroć zobaczył jakąkolwiek ładną twarzyczkę lub zgrabną kibić niewieścią.',
            'Przed sobą, o kroków kilkanaście, zobaczyła wznoszącą się nad zbożem, rozłożystą i całą w słońcu stojącą gruszę polną; pień, gałęzie i wszystkie liście tego drzewa były złote',
            'Był to wraz z brzegiem rzeki zginający się nieco w półkole sznur siedlisk ludzkich, większych i mniejszych, wychylających ciemne swe profile z większych i mniejszych ogrodów.']
X_new_counts = count_vect.transform(test_data)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = classifier.predict(X_new_tfidf)

for doc, category in zip(test_data, predicted):
     print('%r => %s' % (doc, training_set.target_names[category]))

'Dlaczego z gorącego snu pierwszej młodości obudziła się nie tylko samotna i smutna, ale zarazem obrażona i z niewyschłą dotąd kroplą goryczy w sercu?' => P
'Pod złotawym, a potem już siwiejącym wąsem zawsze purpurowe, zmysłowe jego usta układały się w wyraz lubości, ilekroć zobaczył jakąkolwiek ładną twarzyczkę lub zgrabną kibić niewieścią.' => P
'Przed sobą, o kroków kilkanaście, zobaczyła wznoszącą się nad zbożem, rozłożystą i całą w słońcu stojącą gruszę polną; pień, gałęzie i wszystkie liście tego drzewa były złote' => P
'Był to wraz z brzegiem rzeki zginający się nieco w półkole sznur siedlisk ludzkich, większych i mniejszych, wychylających ciemne swe profile z większych i mniejszych ogrodów.' => P


In [14]:
# Tworzenie Naive Bayes Clf w pipeline i trenowanie

from sklearn.pipeline import Pipeline
import numpy as np

clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', MultinomialNB()),
])

training_set = datasets.load_files("training_set", encoding="utf-8", random_state=420) 
clf.fit(training_set.data, training_set.target)

# NotFittedError: CountVectorizer - Vocabulary wasn't fitted. - nwm co jest nie tak
test_set = training_set.data
predicted = clf.predict(test_set)
print(np.mean(predicted == training_set.target))

0.8226691042047533


In [15]:
# import numpy as np

# test_set = training_set.data
# X_new_counts = count_vect.transform(test_set)
# X_new_tfidf = tfidf_transformer.transform(X_new_counts)

# predicted = classifier.predict(X_new_tfidf)
# print(np.mean(predicted == training_set.target))

In [16]:
from sklearn import metrics
print(metrics.classification_report(training_set.target, predicted, target_names=training_set.target_names))

              precision    recall  f1-score   support

           N       0.00      0.00      0.00        34
           O       1.00      0.05      0.10       169
           P       0.82      1.00      0.90       891

    accuracy                           0.82      1094
   macro avg       0.61      0.35      0.33      1094
weighted avg       0.82      0.82      0.75      1094



  _warn_prf(average, modifier, msg_start, len(result))


In [17]:
# # Tworzenie SVM Clf w pipeline i trenowanie
from sklearn import datasets
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
import numpy as np

svm_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier(loss='hinge', penalty='l2',
                          alpha=1e-3, random_state=42,
                          max_iter=5, tol=None)),
])

training_set = datasets.load_files("training_set", encoding="utf-8", random_state=420)
svm_clf.fit(training_set.data, training_set.target)

test_set = training_set.data
predicted = svm_clf.predict(test_set)
print(np.mean(predicted == training_set.target))

0.9515539305301646


In [18]:
from sklearn import metrics
print(metrics.classification_report(training_set.target, predicted, target_names=training_set.target_names))

              precision    recall  f1-score   support

           N       1.00      0.79      0.89        34
           O       1.00      0.73      0.84       169
           P       0.94      1.00      0.97       891

    accuracy                           0.95      1094
   macro avg       0.98      0.84      0.90      1094
weighted avg       0.95      0.95      0.95      1094



In [19]:
svm_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier(loss='hinge', penalty='l2',
                          alpha=1e-3, random_state=42,
                          max_iter=5, tol=None)),
])

In [20]:
# Grid search dls SVM
from sklearn.model_selection import GridSearchCV


# parameters = {
#     # parametry CountVectorizer
#     """...CountVectorizer(*, input='content', encoding='utf-8', decode_error='strict', 
#     strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', 
#     ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, 
#     dtype=<class 'numpy.int64'>)"""
#     'vect__decode_error': ('strict', 'ignore', 'replace'),
#     'vect__ngram_range': [(1, 1), (1, 2), (2, 2)], # (1, 1), (1, 2), (2, 2), (2, 3), (3, 3) 
#     'vect__max_df': [1.0, 0.90, 0.80, 0.70], # 1.0, 0.95, 0.90, 0.85, 0.80, 0.75, 0.70
#     'vect__min_df': [1, 0.10, 0.20, 0.30] # 0.05, 0.10, 0.15, 0.20, 0.25, 0.30
    
#     # parametry TfidfTransformer
#     """...TfidfTransformer(*, norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)"""
#     #można coś jeszcze dodać niby, ale to chyba takie szczegóły, że nie ma sensu
#     'tfidf__use_idf': (True, False),
    
#     # parametry SGDClassifier (SVM)
#     """SGDClassifier(loss='hinge', *, penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, 
#     tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', eta0=0.0, 
#     power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, 
#     average=False)"""
#     """'clf__loss': The possible options are ‘hinge’, ‘log’, ‘modified_huber’, ‘squared_hinge’, ‘perceptron’, or a 
#     regression loss: ‘squared_loss’, ‘huber’, ‘epsilon_insensitive’, or ‘squared_epsilon_insensitive’.
#     Trochę dużo tego """
#     'clf__alpha': (1e-2, 1e-3, 1e-4),
#     'clf__shuffle': (True, False),
#     'clf__class_weight': (None, 'balanced')     
# }


parameters = {
    'vect__decode_error': ('strict', 'ignore', 'replace'), #'strict'
    'vect__ngram_range': [(1, 1), (1, 2), (2, 2), (1, 3), (2, 3), (3, 3)], # (1, 1), (1, 2), (2, 2), (2, 3), (3, 3) 
    'vect__max_df': [1.0, 0.95, 0.90, 0.85], # 1.0, 0.95, 0.90, 0.85, 0.80, 0.75, 0.70
    'vect__min_df': [1, 0], # 0.05, 0.10, 0.15, 0.20, 0.25, 0.30 
    'vect__binary': (False,True),
    'tfidf__use_idf': (True,), # (True, False)
    # można dodać jeszcze kilka parametrów tfidf niby, ale to chyba takie szczegóły, że nie ma sensu
    'clf__alpha': (1e-2, 1e-3, 1e-4),
    'clf__shuffle': (True,), # (True, False)
    'clf__class_weight': (None, 'balanced'),
}

grid_search_clf = GridSearchCV(svm_clf, parameters, cv=5, n_jobs=3) # !!! n_jobs - LICZBA UŻYWANYCH RDZENI !!!

In [21]:
grid_search_clf = grid_search_clf.fit(training_set.data, training_set.target)

In [22]:
print(grid_search_clf.best_score_)
for param_name in sorted(parameters.keys()):
    print("%s: %r" % (param_name, grid_search_clf.best_params_[param_name]))
    
"""
0.8510054844606947
clf__alpha: 0.0001
clf__class_weight: None
clf__shuffle: True
tfidf__use_idf: True
vect__decode_error: 'strict'
vect__max_df: 1.0
vect__ngram_range: (1, 2)
"""

0.8537807381341377
clf__alpha: 0.001
clf__class_weight: 'balanced'
clf__shuffle: True
tfidf__use_idf: True
vect__binary: True
vect__decode_error: 'strict'
vect__max_df: 1.0
vect__min_df: 1
vect__ngram_range: (1, 2)


"\n0.8510054844606947\nclf__alpha: 0.0001\nclf__class_weight: None\nclf__shuffle: True\ntfidf__use_idf: True\nvect__decode_error: 'strict'\nvect__max_df: 1.0\nvect__ngram_range: (1, 2)\n"

In [31]:
print(grid_search_clf.best_score_)
for param_name in sorted(parameters.keys()):
    print("%s: %r" % (param_name, grid_search_clf.best_params_[param_name]))

0.8510054844606947
clf__alpha: 0.0001
clf__class_weight: None
clf__shuffle: True
tfidf__use_idf: True
vect__decode_error: 'strict'
vect__max_df: 1.0
vect__min_df: 1
vect__ngram_range: (1, 2)


In [None]:
svm_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier(loss='hinge', penalty='l2',
                          alpha=0.0001, class_weight=None random_state=42,
                          max_iter=5, tol=None)),
])

In [None]:
# takie sobie testy zdań
test_data = ['Dlaczego z gorącego snu pierwszej młodości obudziła się nie tylko samotna i smutna, ale zarazem obrażona i z niewyschłą dotąd kroplą goryczy w sercu?', 
             'Pod złotawym, a potem już siwiejącym wąsem zawsze purpurowe, zmysłowe jego usta układały się w wyraz lubości, ilekroć zobaczył jakąkolwiek ładną twarzyczkę lub zgrabną kibić niewieścią.',
            'Przed sobą, o kroków kilkanaście, zobaczyła wznoszącą się nad zbożem, rozłożystą i całą w słońcu stojącą gruszę polną; pień, gałęzie i wszystkie liście tego drzewa były złote',
            'Był to wraz z brzegiem rzeki zginający się nieco w półkole sznur siedlisk ludzkich, większych i mniejszych, wychylających ciemne swe profile z większych i mniejszych ogrodów.']
X_new_counts = count_vect.transform(test_data)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = svm_pipeline.predict(X_new_tfidf)

for doc, category in zip(test_data, predicted):
     print('%r => %s' % (doc, training_set.target_names[category]))

In [23]:
from sklearn.svm import SVC

In [25]:
svm_pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SVC(kernel="rbf"))
])

In [26]:
parameters = {'clf__gamma':[0.1, 1, 10], 'clf__C':[1, 10]}

In [27]:
gs = GridSearchCV(svm_pipeline, param_grid=parameters, scoring="accuracy", verbose=2, cv=3)

In [29]:
gs.fit(training_set.data, training_set.target)

Fitting 3 folds for each of 6 candidates, totalling 18 fits
[CV] clf__C=1, clf__gamma=0.1 ........................................
[CV] ......................... clf__C=1, clf__gamma=0.1, total=   0.1s
[CV] clf__C=1, clf__gamma=0.1 ........................................


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


[CV] ......................... clf__C=1, clf__gamma=0.1, total=   0.1s
[CV] clf__C=1, clf__gamma=0.1 ........................................
[CV] ......................... clf__C=1, clf__gamma=0.1, total=   0.1s
[CV] clf__C=1, clf__gamma=1 ..........................................
[CV] ........................... clf__C=1, clf__gamma=1, total=   0.1s
[CV] clf__C=1, clf__gamma=1 ..........................................
[CV] ........................... clf__C=1, clf__gamma=1, total=   0.1s
[CV] clf__C=1, clf__gamma=1 ..........................................
[CV] ........................... clf__C=1, clf__gamma=1, total=   0.1s
[CV] clf__C=1, clf__gamma=10 .........................................
[CV] .......................... clf__C=1, clf__gamma=10, total=   0.1s
[CV] clf__C=1, clf__gamma=10 .........................................
[CV] .......................... clf__C=1, clf__gamma=10, total=   0.1s
[CV] clf__C=1, clf__gamma=10 .........................................
[CV] .

[Parallel(n_jobs=1)]: Done  18 out of  18 | elapsed:    2.0s finished


GridSearchCV(cv=3, error_score=nan,
             estimator=Pipeline(memory=None,
                                steps=[('vect',
                                        CountVectorizer(analyzer='word',
                                                        binary=False,
                                                        decode_error='strict',
                                                        dtype=<class 'numpy.int64'>,
                                                        encoding='utf-8',
                                                        input='content',
                                                        lowercase=True,
                                                        max_df=1.0,
                                                        max_features=None,
                                                        min_df=1,
                                                        ngram_range=(1, 1),
                                                        prep

In [30]:
grid_search_clf.best_score_

0.8537807381341377

In [31]:
gs.best_params_

{'clf__C': 10, 'clf__gamma': 0.1}

In [47]:
svm_pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SVC(kernel="rbf", gamma = 0.1, C = 10))
])

In [48]:
svm_pipeline.fit(training_set.data, training_set.target)

Pipeline(memory=None,
         steps=[('vect',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, vocabulary=None)),
                ('tfidf',
                 TfidfTransformer(norm='l2', smooth_idf=True,
                                  sublinear_tf=False, use_idf=True)),
                ('clf',
                 SVC(C=10, break_ties=False, cache_size=200, class_weight=None,
                     coef0=0.0, decision_function_shape='ovr', degree=3,


In [49]:
# takie sobie testy zdań
test_data = ['Dlaczego z gorącego snu pierwszej młodości obudziła się nie tylko samotna i smutna, ale zarazem obrażona i z niewyschłą dotąd kroplą goryczy w sercu?', 
             'Pod złotawym, a potem już siwiejącym wąsem zawsze purpurowe, zmysłowe jego usta układały się w wyraz lubości, ilekroć zobaczył jakąkolwiek ładną twarzyczkę lub zgrabną kibić niewieścią.',
            'Przed sobą, o kroków kilkanaście, zobaczyła wznoszącą się nad zbożem, rozłożystą i całą w słońcu stojącą gruszę polną; pień, gałęzie i wszystkie liście tego drzewa były złote',
            'Był to wraz z brzegiem rzeki zginający się nieco w półkole sznur siedlisk ludzkich, większych i mniejszych, wychylających ciemne swe profile z większych i mniejszych ogrodów.']
X_new_counts = count_vect.transform(test_data)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = svm_pipeline.predict(X_new_tfidf)

for doc, category in zip(test_data, predicted):
     print('%r => %s' % (doc, training_set.target_names[category]))

AttributeError: lower not found