In [77]:
from __future__ import print_function, division

In [78]:
import pandas as pd
df = pd.read_csv('data.csv', sep=';')
df.head()

Unnamed: 0,TV,Description
0,M,kohout kulový plnoprůtokový nikl ovládání páč...
1,M,8/8 DÍRY KOLENO PATNÍ PŘÍRUBOVÉ 80 - 8/8 DÍRY
2,M,"ABSOLUT - souprava distančních prvků, světlý p..."
3,M,"ABSOLUT - souprava distančních prvků, světlý p..."
4,M,"ABSOLUT - souprava napojení horních dvířek, sv..."


In [79]:
data = df['Description']
target = df['TV'].replace('K', 0).replace('M', 1)
names = ['K', 'M']
print(data[:5])
print(target[:5])

0     kohout kulový plnoprůtokový nikl ovládání páč...
1        8/8 DÍRY KOLENO PATNÍ PŘÍRUBOVÉ 80 - 8/8 DÍRY
2    ABSOLUT - souprava distančních prvků, světlý p...
3    ABSOLUT - souprava distančních prvků, světlý p...
4    ABSOLUT - souprava napojení horních dvířek, sv...
Name: Description, dtype: object
0    1
1    1
2    1
3    1
4    1
Name: TV, dtype: int64


In [80]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
print('Train size: {}'.format(len(X_train)))
print('Test size: {}'.format(len(X_test)))

Train size: 104924
Test size: 26232


In [81]:
from nltk.tokenize.casual import casual_tokenize

item = data[4]
print(item)

tokenizer = lambda text: casual_tokenize(text, preserve_case=False)

print(tokenizer(item))

ABSOLUT - souprava napojení horních dvířek, světlý průřez 12 cm
['absolut', '-', 'souprava', 'napojení', 'horních', 'dvířek', ',', 'světlý', 'průřez', '12', 'cm']


In [82]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()

stem_tokenizer = lambda text: [stemmer.stem(w) for w in tokenizer(text)]

print (stem_tokenizer(item))

['absolut', '-', 'souprava', 'napojení', 'horních', 'dvířek', ',', 'světlý', 'průřez', '12', 'cm']


In [83]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(tokenizer=stem_tokenizer)
vectorizer.fit(X_train)
print (vectorizer.transform([item]))

  (0, 9)	1
  (0, 10)	1
  (0, 1530)	1
  (0, 10410)	1
  (0, 11747)	1
  (0, 12954)	1
  (0, 14222)	1
  (0, 18264)	1
  (0, 22700)	1
  (0, 25639)	1
  (0, 26723)	1


In [84]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()
tfidf_transformer.fit(vectorizer.transform(X_train))
print(tfidf_transformer.transform(vectorizer.transform([item])))

  (0, 26723)	0.2756081473596844
  (0, 25639)	0.35135197593427214
  (0, 22700)	0.2946400000279615
  (0, 18264)	0.33708929056532083
  (0, 14222)	0.38073262802006186
  (0, 12954)	0.4183918987035239
  (0, 11747)	0.18276475284071328
  (0, 10410)	0.37740387131175657
  (0, 1530)	0.2530602033418761
  (0, 10)	0.17968201476388998
  (0, 9)	0.08932622145184095


In [85]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.ensemble import GradientBoostingClassifier

clf_pipeline = Pipeline([('vec', vectorizer),
                         ('tfidf', tfidf_transformer),
                         #('lr', LogisticRegression())
                         #('gbc', GradientBoostingClassifier(n_estimators=100, max_depth=4))
                         ('svm', svm.SVC(kernel='linear'))
                        ])
clf_pipeline.fit(X_train, y_train)

Pipeline(memory=None,
     steps=[('vec', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_...,
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

In [86]:
from sklearn import metrics
from sklearn.metrics import accuracy_score

y_pred = clf_pipeline.predict(X_test)

print ("Test accuracy: {:.2f}".format(accuracy_score(y_test, y_pred)))
print ()
print(metrics.classification_report(y_test, y_pred, digits=4))

Test accuracy: 1.00

             precision    recall  f1-score   support

          0     0.9984    0.9962    0.9973     17553
          1     0.9924    0.9968    0.9946      8679

avg / total     0.9964    0.9964    0.9964     26232



In [87]:
y_pred = clf_pipeline.predict(X_train)

print ("Train accuracy: {:.2f}".format(accuracy_score(y_train, y_pred)))
print ()
print(metrics.classification_report(y_train, y_pred, digits=4))
print(y_train[:50])
print(y_pred[:50])

Train accuracy: 1.00

             precision    recall  f1-score   support

          0     0.9997    0.9991    0.9994     70176
          1     0.9981    0.9993    0.9987     34748

avg / total     0.9991    0.9991    0.9991    104924

89546     0
74422     1
75398     1
36337     0
84917     1
78264     0
28343     1
81867     0
114627    0
38697     0
81291     1
29920     0
92497     1
81438     0
36040     0
69598     0
41416     0
862       0
122677    0
20647     1
11817     0
41863     0
27357     1
54480     0
43513     0
105502    1
54955     0
116693    0
77365     0
4836      1
121713    0
39505     0
52849     0
12358     1
57598     0
95634     1
44044     0
89570     0
46522     0
96640     1
87478     0
117494    0
75884     1
54438     0
98570     1
94207     1
49963     0
69484     0
72843     0
40742     0
Name: TV, dtype: int64
[0 1 1 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 1 0
 0 0 1 0 0 1 0 1 1 0 0 0 0]


In [88]:
print(X_test[:5])
print(y_pred[:5])

122321                    Wavin TS kanal SDR11 160x14,6 12m
18947     Hloubení rýh vedle kolejí šířky přes 600 do 2 ...
103780                          šrouby rychlořezné 3,9x19mm
103605    šroubení přímé s plochým těsněním a s vnitřním...
24136     Klenbové pásy z betonu železového (bez výztuže...
Name: Description, dtype: object
[0 1 1 0 1]


In [89]:
text = ["Žlaby šachet z cihel z kyselinovzdorné kameniny PKZ normálek N 65 průměru do 500 mm",
       "žlaby z taveného čediče čtvrtinové l 500mm tl 20mm D 303mm",
       "Obklady schodišť přírodním litým teracem  stupňů tl. do 25 mm se zábradlím profilovaných",
       "Oblouk 45° PE100 RC SDR17 110",
       "Oblouk 47° PE255 RC",
       "Oblozeni sten z cementotriskovych desek sroubovanych"]

res = list(map(lambda x: "K" if x == 0 else "M", clf_pipeline.predict(text)))

print(res)

['K', 'M', 'K', 'M', 'M', 'K']


In [96]:
testing = pd.read_csv('testing.csv', sep=';')
testingData = testing['Description']
testingResult = testing['TV']

testPredictPlain = clf_pipeline.predict(testingData)
testPrediction = list(map(lambda x: "K" if x == 0 else "M", testPredictPlain))

print(len(testingData))

for index, item in enumerate(testPrediction):
    print (item + "->" + testingResult[index] + 3*" " + testingData[index])

131
K->K   Asfaltový beton vrstva obrusná ACO 11 (ABS)  s rozprostřením a se zhutněním z modifikovaného asfaltu v pruhu šířky přes 3 m tl. 50 mm
K->K   Bednění mostních pilířů a sloupů konstantního průřezu ze systémového bednění  zřízení pro stativa a příčníky
K->K   Bourání plotových sloupků a vzpěr železobetonových výšky do 2,5 m s betonovou patkou
K->K   Čerpadla teplovodní závitová mokroběžná oběhová pro teplovodní vytápění (elektronicky řízená) PN 10, do 110°C DN přípojky/dopravní výška H (m) - čerpací výkon Q (m3/h) DN 25 / do 6,0 m / 7,0 m3/h
K->K   Demolice hal průmyslových, zemědělských nebo občanské výstavby  těžkými mechanizačními prostředky z cihel, tvárnic, kamene, zdiva smíšeného nebo hrázděného na maltu vápennou nebo vápenocementovou s podílem konstrukcí do 10 %
K->K   Demontáž lešení prostorového modulového těžkého pracovního nebo podpěrného bez podlah  s provozním zatížením tř. 6 přes 450 do 600 kg/m2, výšky do 10 m
K->K   Demontáž ocelového potrubí do šrotu hmotnosti 

In [98]:
testResultVec = list(map(lambda x: 0 if x == "K" else 1, testingResult))
print ("Train accuracy: {:.2f}".format(accuracy_score(testResultVec, testPredictPlain)))

Train accuracy: 0.99
