In [1]:
import pandas as pd
import pickle
from ast import literal_eval
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, cohen_kappa_score, f1_score , confusion_matrix
from nltk.corpus import stopwords
from sklearn.svm import LinearSVC , NuSVC
from germeval import *
from utils import subtask_A_evaluation ,subtask_A_confusion_matrix , subtask_A_classification_report

In [2]:
from bpemb import BPEmb
bpemb_de = BPEmb(lang="de", vs=25000, dim=300)

def bpemb_tokenize(sentence):
    return [i.replace("▁","") for i in bpemb_de.encode(sentence)]


In [3]:
mlb =  pickle.load(open("tl_mlb_author_year_without_num.pickle",'rb'))
year_lb = pickle.load(open("tl_lb_author_year_without_num.pickle",'rb'))
vectorizer =  pickle.load(open("tl_train_author_vectorizer_without_num.pickle",'rb'))

X_train = pickle.load(open("tl_train_author_X_train_without_num.pickle", "rb"))
X_test = pickle.load(open("tl_train_author_X_test_without_num.pickle", "rb"))
y_train = pickle.load( open("tl_train_author_y_train_without_num.pickle", "rb"))
y_test = pickle.load(open("tl_train_author_y_test_without_num.pickle", "rb"))
le_mapping = pickle.load(open("tl_train_author_le_mapping.pickle", "rb")) # LabelEncoder Mapping

In [4]:
def build_model(clf, X_train,y_train):
    clf.fit(X_train, y_train)
    return clf

## Linear SVC

In [5]:
X_train.shape

(16929, 557737)

In [6]:
X_test.shape

(4233, 557737)

In [7]:
%%time
X_full = np.concatenate((X_train.toarray(),X_test.toarray()))
Y_full = np.concatenate((y_train,y_test))

CPU times: user 21.2 s, sys: 59.3 s, total: 1min 20s
Wall time: 1min 20s


In [8]:
X_full.shape

(21162, 557737)

In [9]:
y_train.value_counts()

Literatur & Unterhaltung      7305
Kinderbuch & Jugendbuch       3142
Sachbuch                      2646
Ratgeber                      2017
Ganzheitliches Bewusstsein     848
Glaube & Ethik                 687
Architektur & Garten           165
Künste                         119
Name: toplevel, dtype: int64

In [10]:
del X_test
del X_train
del y_train
del y_test
import gc
gc.collect()

98

In [11]:
# from sklearn.grid_search import GridSearchCV

# param_grid = {'C':[1,10,100,1000],'max_iter' : [1000,2000]}
# grid = GridSearchCV(LinearSVC(),param_grid,refit = True, verbose=2)
# grid.fit(X_train.toarray(),y_train)
Y_full

array(['Ratgeber', 'Glaube & Ethik', 'Sachbuch', ..., 'Ratgeber',
       'Kinderbuch & Jugendbuch', 'Literatur & Unterhaltung'],
      dtype=object)

In [12]:
# del X_full
# del Y_full
# gc.collect()
# weights = {'Kinderbuch & Jugendbuch': 1.8, 'Ratgeber': 3, 'Sachbuch': 2,'Glaube & Ethik' : 2 ,'Künste' : 6,'Architektur & Garten' : 6 }
weights = {'Kinderbuch & Jugendbuch': 1.8, 'Ratgeber': 3, 'Sachbuch': 2,'Glaube & Ethik' : 2 ,'Künste' : 20,'Architektur & Garten' : 20 }

In [13]:
%%time
# data = X_train.toarray(), X_test.toarray(), y_train, y_test
lsvcclf = LinearSVC(random_state=42,max_iter=3000,verbose=1,class_weight= weights)
clf = build_model(lsvcclf,X_full,Y_full)

[LibLinear]CPU times: user 1min 7s, sys: 3.04 s, total: 1min 10s
Wall time: 1min 10s


In [14]:
lsvcclf.get_params()

{'C': 1.0,
 'class_weight': {'Architektur & Garten': 20,
  'Glaube & Ethik': 2,
  'Kinderbuch & Jugendbuch': 1.8,
  'Künste': 20,
  'Ratgeber': 3,
  'Sachbuch': 2},
 'dual': True,
 'fit_intercept': True,
 'intercept_scaling': 1,
 'loss': 'squared_hinge',
 'max_iter': 3000,
 'multi_class': 'ovr',
 'penalty': 'l2',
 'random_state': 42,
 'tol': 0.0001,
 'verbose': 1}

### Run the predictions on valiation for submission

In [15]:
validation_data = pd.read_csv("../../data/labeled_validation_data.csv")

In [16]:
def combine_title_desc(row):
    """Combines the Title and Description fields in the given row
    and returns the combined result"""
    return str(row["title"]) + " " + str(row["description"])
    #return str(row["title"]) + " " + str(row["description"]) + " " + str(row["author"])

In [17]:
validation_tf_idf = vectorizer.transform(validation_data.apply(lambda row: combine_title_desc(row),axis=1))

  'stop_words.' % sorted(inconsistent))


In [18]:
validation_data["authors"] = validation_data["author"].apply(lambda x:[ i.strip() for i in str(x).split(",")])

In [19]:
validation_data["published_date_parsed"] = pd.to_datetime(validation_data["published_date"],infer_datetime_format=True)

In [20]:
validation_data["year"] = validation_data["published_date_parsed"].apply(lambda x: x.year)

In [21]:
validation_tf_idf.shape

(2079, 549048)

In [22]:
validation_data["authors"].values

array([list(['Hans-Martin Lübking']), list(['Cate Tiernan']),
       list(['Titus Müller']), ..., list(['Arthur C. Clarke']),
       list(['Paul Levine']), list(['Robert Greene'])], dtype=object)

In [23]:
len(validation_data)

2079

In [24]:
pickle.dump(validation_data["authors"], open("validation_authors", "wb"))

In [25]:
from scipy import sparse

validation_author = mlb.transform(validation_data["authors"].values)
validation_year = year_lb.transform(validation_data["year"].values)

validation_all = sparse.hstack((validation_tf_idf,
                    sparse.csr_matrix(validation_author)
                    ,sparse.csr_matrix(validation_year)))

In [26]:
validation_all

<2079x557737 sparse matrix of type '<class 'numpy.float64'>'
	with 291449 stored elements in COOrdinate format>

In [27]:
predictions = clf._predict_proba_lr(validation_all)

In [28]:
del X_full
del Y_full

In [29]:
import gc
gc.collect()

14

In [30]:
class_counts = pd.read_csv("class_count_predictions_from_svc_validation_set.csv",header=None)

In [31]:
def getClasses(class_probs,class_count):
    arr = np.array(class_probs)
    return arr.argsort()[-1 * class_count:][::-1]

In [32]:
y_prob_list = [i.tolist() for i in predictions]

In [33]:
validation_data["class_probs"] = y_prob_list

In [34]:
validation_data["class_count"] = class_counts.values

In [35]:
# validation_data["predictions"]  = 
validation_data["class_predictions_e"] = validation_data.apply(lambda x:getClasses(x["class_probs"],x["class_count"]),axis=1)

In [36]:
le_mapping_inv = {v: k for k, v in le_mapping.items()}

def reverseMap(number):
    return le_mapping_inv[number]

In [37]:
validation_data["class_predictions"] = validation_data["class_predictions_e"].apply(lambda x: [reverseMap(i) for i in x])

In [38]:
def formatOutput(isbn,class_predictions):
    classes = ["\t"+str(i) for i in class_predictions]
    return str(isbn) + "".join(classes) + "\n"

In [39]:
validation_data["class_predictions_top_level"] = validation_data["class_predictions"].apply(lambda cat_paths: [x.split(" > ")[0] for x in cat_paths])

In [40]:
validation_data["categories"] = validation_data["categories"].apply(lambda x : literal_eval(x))

In [41]:
validation_data["actual_toplevel"] = validation_data["categories"].apply(lambda x:list(set([i.split(" > ")[0] for i in x]))).values

In [42]:
validation_data.head(2)

Unnamed: 0.1,Unnamed: 0,title,description,categories,author,published_date,isbn,authors,published_date_parsed,year,class_probs,class_count,class_predictions_e,class_predictions,class_predictions_top_level,actual_toplevel
0,14548,Selbstständig werden im Glauben,Die Konfirmandenzeit wird für Jugendliche beso...,[Glaube & Ethik > Gemeindearbeit > Konfirmatio...,Hans-Martin Lübking,2013-07-22,9783579074030,[Hans-Martin Lübking],2013-07-22,2013,"[0.09751506993501706, 0.09792159042868111, 0.3...",1,[2],[Glaube & Ethik],[Glaube & Ethik],[Glaube & Ethik]
1,14549,Das Buch der Schatten - Schwarze Seelen,Als Morgan von einer prophetischen Vision heim...,"[Kinderbuch & Jugendbuch > Echtes Leben, Reali...",Cate Tiernan,2013-06-10,9783570380093,[Cate Tiernan],2013-06-10,2013,"[0.10211832175306117, 0.10370471720071815, 0.0...",1,[3],[Kinderbuch & Jugendbuch],[Kinderbuch & Jugendbuch],[Kinderbuch & Jugendbuch]


In [43]:
y_true = validation_data["actual_toplevel"].values
y_pred = validation_data["class_predictions_top_level"]
subtask_A_evaluation(y_true,y_pred)

[0.8228699551569507,
 0.8826358826358827,
 0.8517057321884429,
 0.8177008177008177]

In [44]:
validation_data[["isbn","class_predictions_top_level"]].to_csv("top_level_predictions_svm.csv",index=False)

In [45]:
max(validation_data.class_count.tolist())

1

In [46]:
y_true = validation_data["actual_toplevel"].values
y_pred = validation_data["class_predictions_top_level"]
subtask_A_confusion_matrix(y_true,y_pred)

array([[[2062,    0],
        [   5,   12]],

       [[1963,    4],
        [  40,   72]],

       [[1984,    5],
        [  32,   58]],

       [[1779,   12],
        [  76,  212]],

       [[2061,    0],
        [  10,    8]],

       [[ 844,  128],
        [  58, 1049]],

       [[1779,   40],
        [  70,  190]],

       [[1686,   55],
        [ 104,  234]]])

In [47]:
y_true = validation_data["actual_toplevel"].values
y_pred = validation_data["class_predictions_top_level"]
print(subtask_A_classification_report(y_true,y_pred))

                            precision    recall  f1-score   support

      Architektur & Garten       1.00      0.71      0.83        17
Ganzheitliches Bewusstsein       0.95      0.64      0.77       112
            Glaube & Ethik       0.92      0.64      0.76        90
   Kinderbuch & Jugendbuch       0.95      0.74      0.83       288
                    Künste       1.00      0.44      0.62        18
  Literatur & Unterhaltung       0.89      0.95      0.92      1107
                  Ratgeber       0.83      0.73      0.78       260
                  Sachbuch       0.81      0.69      0.75       338

                 micro avg       0.88      0.82      0.85      2230
                 macro avg       0.92      0.69      0.78      2230
              weighted avg       0.88      0.82      0.85      2230
               samples avg       0.88      0.85      0.86      2230



In [48]:
y_true

array([list(['Glaube & Ethik']), list(['Kinderbuch & Jugendbuch']),
       list(['Literatur & Unterhaltung']), ...,
       list(['Literatur & Unterhaltung']),
       list(['Literatur & Unterhaltung']),
       list(['Sachbuch', 'Ganzheitliches Bewusstsein', 'Ratgeber'])],
      dtype=object)

In [49]:
submissions = validation_data.apply(lambda x:formatOutput(x["isbn"],x["class_predictions_top_level"]),axis=1).values

In [50]:
submissions = np.insert(submissions,0,"subtask_a\n")

In [51]:
submission_format = "".join(submissions)

In [52]:
submission_file = open("../../data/answers_svm_with_class_unsampling_with_author_year_test_set.txt",'w')

In [53]:
submission_file.write(submission_format)

71893

## ELI5 Analysis of results

In [52]:
import eli5
eli5.explain_weights(lsvcclf)

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7
+1.899,x189130,,,,,,
+1.230,x551287,,,,,,
+1.229,x76318,,,,,,
+1.224,x58575,,,,,,
+1.205,x553184,,,,,,
+1.181,x217579,,,,,,
+1.129,x556228,,,,,,
+1.120,x550207,,,,,,
+1.113,x556941,,,,,,
+1.093,x556883,,,,,,

Weight?,Feature
+1.899,x189130
+1.230,x551287
+1.229,x76318
+1.224,x58575
+1.205,x553184
+1.181,x217579
+1.129,x556228
+1.120,x550207
+1.113,x556941
+1.093,x556883

Weight?,Feature
+1.528,x223680
+1.460,x223573
+1.424,x555133
+1.285,x551293
+1.186,x552397
+1.169,x421300
+1.168,x556099
+1.166,x334874
+1.124,x553912
+1.065,x223598

Weight?,Feature
+1.993,x288334
+1.468,x211256
+1.451,x91676
+1.291,x553484
+1.277,x288470
+1.247,x208977
+1.217,x462124
+1.155,x211428
+1.127,x553509
+1.114,x556996

Weight?,Feature
+1.969,x61
+1.623,x36037
+1.521,x334137
+1.513,x555840
+1.454,x555976
+1.426,x555752
+1.416,x555050
+1.386,x553213
+1.379,x181504
+1.368,x551473

Weight?,Feature
+1.886,x299715
+1.390,x342811
+1.203,x550042
+1.190,x302315
+1.040,x177499
+1.030,x554760
+1.030,x555271
+0.964,x556479
+0.919,x555943
+0.911,x552102

Weight?,Feature
+3.297,x23656
+3.074,x400246
+2.121,x178863
+1.373,x278903
+1.297,x319723
+1.252,x464288
+1.242,x160901
+1.231,x429562
… 237729 more positive …,… 237729 more positive …
… 258446 more negative …,… 258446 more negative …

Weight?,Feature
+2.227,x100425
+1.653,x520741
+1.619,x141931
+1.556,x390872
+1.482,x291322
+1.459,x157054
+1.453,x523269
+1.332,x261952
+1.292,x451023
+1.224,x390643

Weight?,Feature
+2.189,x123045
+2.094,x381386
+1.702,x122657
+1.601,x31934
+1.572,x160415
+1.437,x511366
+1.383,x503665
+1.329,x204388
+1.284,x26784
+1.272,x202522


In [58]:
dir(eli5)
# dir(eli5)

['__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_decision_path',
 '_feature_importances',
 '_feature_names',
 '_feature_weights',
 '_graphviz',
 'absolute_import',
 'base',
 'base_utils',
 'explain',
 'explain_prediction',
 'explain_prediction_df',
 'explain_prediction_dfs',
 'explain_prediction_lightgbm',
 'explain_prediction_sklearn',
 'explain_weights',
 'explain_weights_df',
 'explain_weights_dfs',
 'explain_weights_lightgbm',
 'explain_weights_sklearn',
 'format_as_dataframe',
 'format_as_dataframes',
 'format_as_dict',
 'format_as_html',
 'format_as_text',
 'format_html_styles',
 'formatters',
 'ipython',
 'lightgbm',
 'permutation_importance',
 'show_prediction',
 'show_weights',
 'sklearn',
 'transform',
 'transform_feature_names',
 'utils']

In [93]:
eli5.explain_prediction(lsvcclf,validation_csr[2021,])

Contribution?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0
Contribution?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Contribution?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Contribution?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3
Contribution?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4
Contribution?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5
Contribution?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6
Contribution?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7
+0.010,x42950,,,,,,
+0.008,x355097,,,,,,
+0.008,x245972,,,,,,
+0.007,x403897,,,,,,
+0.005,x380246,,,,,,
+0.003,x271438,,,,,,
+0.003,x120959,,,,,,
+0.003,x269348,,,,,,
+0.002,x440261,,,,,,
+0.002,x9116,,,,,,

Contribution?,Feature
0.01,x42950
0.008,x355097
0.008,x245972
0.007,x403897
0.005,x380246
0.003,x271438
0.003,x120959
0.003,x269348
0.002,x440261
0.002,x9116

Contribution?,Feature
0.019,x307650
0.017,x299507
0.015,x286064
0.014,x307659
0.012,x269348
0.01,x257994
0.009,x503665
0.009,x543384
0.009,x479623
0.008,x355461

Contribution?,Feature
0.85,x551971
0.116,x376153
0.073,x107626
0.066,x209103
0.053,x280658
0.034,x197072
0.02,x269348
0.016,x205246
0.015,x271438
0.014,x117970

Contribution?,Feature
0.131,x557733
0.035,x488056
0.028,x23656
0.027,x138756
0.025,x17729
0.018,x351738
0.016,x488058
0.016,x503665
0.014,x540115
0.014,x280658

Contribution?,Feature
0.153,x557733
0.011,x503665
0.011,x117963
0.011,x397928
0.009,x299507
0.009,x271438
0.008,x403897
0.008,x259343
0.006,x55729
0.006,x120959

Contribution?,Feature
0.087,x23656
0.083,x56105
0.069,x400155
0.065,x278903
0.051,x73605
0.043,<BIAS>
0.034,x16444
0.029,x77490
0.023,x503672
0.022,x257991

Contribution?,Feature
0.027,x532734
0.023,x286064
0.017,x355097
0.016,x42950
0.015,x99654
0.013,x557733
0.013,x491163
0.013,x120959
0.013,x397876
0.011,x397928

Contribution?,Feature
0.121,x557733
0.096,x4293
0.091,x503665
0.075,x160415
0.03,x103299
0.026,x18311
0.019,x299507
0.017,x328540
0.016,x491163
0.016,x269348


In [86]:
pd.set_option('display.max_colwidth', -1)

In [95]:
# import eli5
# from eli5.lime import TextExplainer

# te = TextExplainer(random_state=42)
# te.fit(validation_csr[2021,], lsvcclf._predict_proba_lr)
# te.show_prediction(target_names=le_mapping.keys())

In [238]:
validation_data[validation_data["actual_toplevel"].apply(lambda x: 'Literatur & Unterhaltung' in x)][["class_probs","class_predictions","actual_toplevel","class_count"]]

Unnamed: 0,class_probs,class_predictions,actual_toplevel,class_count
2,"[0.10176139047229471, 0.10034340459531735, 0.11899230127719931, 0.10083888902527291, 0.09877020308626638, 0.3011165363411506, 0.09302863035796799, 0.0851486448445308]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
4,"[0.09947411214055941, 0.1006119545634914, 0.0923209309685662, 0.15006827885317528, 0.09652199517300623, 0.2840845695015635, 0.0973861587902958, 0.07953200000934217]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
5,"[0.09996371035975586, 0.1106844950149916, 0.10459593733015032, 0.09692840089077716, 0.08916959397974776, 0.3198172036102407, 0.08457679177137276, 0.09426386704296395]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
6,"[0.10323601369757439, 0.09317998562485248, 0.09747528122418334, 0.09171074950832725, 0.10330877469997381, 0.22160307325039083, 0.09867801858414632, 0.19080810341055152]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
7,"[0.10658772857039993, 0.10485301150159572, 0.10645535954993907, 0.1500596736092641, 0.10249957803025704, 0.21776862814846806, 0.11002358299575948, 0.10175243759431665]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
8,"[0.09799650998229127, 0.11147832188999675, 0.09692099463720068, 0.09183477790644891, 0.09852775601664103, 0.30462124799735746, 0.09951388498268993, 0.0991065065873739]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
10,"[0.10917319929551024, 0.09500564783193124, 0.09339317813200317, 0.08933976544749977, 0.10740374628336767, 0.33396287362901667, 0.08548279798534676, 0.08623879139532446]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
11,"[0.10601157903302762, 0.10609657250427433, 0.09893003781532793, 0.12653785707612988, 0.09828008523691371, 0.2288076456026211, 0.11123063922882229, 0.12410558350288313]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
13,"[0.10490561757179506, 0.0932787635722231, 0.09453694002005113, 0.10748784483440875, 0.10100484228864909, 0.3058273969987852, 0.09126109157540943, 0.10169750313867815]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1
14,"[0.10080756154223681, 0.10805454098054262, 0.09586374170860981, 0.10861362836014954, 0.09751476646459303, 0.24122380733022245, 0.08943013513687055, 0.1584918184767751]",[Literatur & Unterhaltung],[Literatur & Unterhaltung],1


In [91]:
le_mapping

{'Architektur & Garten': 0,
 'Ganzheitliches Bewusstsein': 1,
 'Glaube & Ethik': 2,
 'Kinderbuch & Jugendbuch': 3,
 'Künste': 4,
 'Literatur & Unterhaltung': 5,
 'Ratgeber': 6,
 'Sachbuch': 7}

In [239]:
mis_match = validation_data[validation_data["actual_toplevel"].apply(lambda x: 'Literatur & Unterhaltung' in x)]

In [240]:
mis_match["actual_count"] = mis_match["actual_toplevel"].apply(lambda x:len(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [241]:
mis_match[mis_match["actual_count"] != mis_match["class_count"]]

Unnamed: 0.1,Unnamed: 0,title,description,categories,author,published_date,isbn,authors,published_date_parsed,year,class_probs,class_count,class_predictions_e,class_predictions,class_predictions_top_level,actual_toplevel,actual_count
15,14563,Ohne Liebe trauern die Sterne,"Sie ist eine der beliebtesten deutschen Schauspielerinnen: Hannelore Hoger. Als eigenwillige Kommissarin Bella Block wurde sie populär, doch das Spektrum ihrer zahlreichen Rollen in Film- und & Theaterproduktionen ist groß. Offen wie noch nie spricht sie über persönliche Vorlieben und Obsessionen, und erzählt ausführlich aus ihrem Leben: von Kindheit und Jugend in Hamburg, von ihren Anfängen und ersten Erfolgen als Schauspielerin, von der Zusammenarbeit mit Regisseuren wie Peter Zadek, Edgar Reitz und Alexander Kluge, die sie prägten, von Kollegen wie Ulrich Wildgruber, Götz George, Harald Juhnke – und ihrer Tochter Nina. „Hannelore Hoger ist eine unglaublich gute Schauspielerin, die einen Regisseur permanent inspiriert. Sie ist bis in die Knochen eine Komödiantin.” Edgar Reitz","[Sachbuch > Biographien & Autobiographien > Künstler, Dichter, Denker, Sachbuch > Biographien & Autobiographien > Schauspieler, Regisseure, Sachbuch > Lifestyle, Literatur & Unterhaltung > Romane & Erzählungen, Sachbuch > Kunst & Kultur, Sachbuch > Kabarett & Satire]",Hannelore Hoger,2017-06-13,9783837140118,[Hannelore Hoger],2017-06-13,2017,"[0.10180959282982897, 0.10353082026204626, 0.09376280257547408, 0.12645269939035333, 0.1081999598020381, 0.17262388006777646, 0.10789764643994189, 0.1857225986325409]",1,[7],[Sachbuch],[Sachbuch],"[Literatur & Unterhaltung, Sachbuch]",2
20,14568,Märchenwelt,"Märchen sind der älteste Wissensspeicher der Menschheit und ein Spiegel ihrer Träume, Ängste und Wünsche. Michael Köhlmeier, gefeierter Romancier und begnadeter Erzähler, hat einhundert Geschichten aus aller Welt gesammelt und nach Urszenen geordnet. Neben altbekannten Klassikern – etwa den Märchen der Brüder Grimm, von Hans Christian Andersen oder den Geschichten aus Tausendundeiner Nacht – gibt es neue Perlen zu entdecken: isländische Sagen und Märchen aus der Karibik ebenso wie Überlieferungen aus den Steppen Nordamerikas. Ein Schatz für jeden Märchenliebhaber, egal ob groß oder klein.","[Literatur & Unterhaltung > Klassiker & Lyrik > Märchen, Legenden und Sagen, Kinderbuch & Jugendbuch > Echtes Leben, Realistischer Roman]",Michael Köhlmeier,2017-10-09,9783328102212,[Michael Köhlmeier],2017-10-09,2017,"[0.10289048429964959, 0.11815669821642352, 0.09619184946173062, 0.22993903886350903, 0.1028787124788307, 0.15022543007948355, 0.10996945031748397, 0.08974833628288893]",1,[3],[Kinderbuch & Jugendbuch],[Kinderbuch & Jugendbuch],"[Kinderbuch & Jugendbuch, Literatur & Unterhaltung]",2
140,14688,Der Prinz und der Bettelknabe,"Tom ist ein Betteljunge, der sich nichts sehnlicher wünscht, als einmal in seinem Leben ein richtiger Prinz zu sein. Edward hingegen ist ein Prinz, der sich im Schloss langweilt. Durch Zufall treffen sich die beiden Jungen, die sich zum Verwechseln ähnlich sehen. Heimlich tauschen sie ihre Kleider – und eine spannende Geschichte beginnt ... Es gibt Dinge, deren Entdeckung immer wieder aufs Neue Spaß macht: Ein treffliches Beispiel ist diese liebevolle Hörspiel-Inszenierung von Otto Kurth aus dem Jahr 1968. Hans Paetsch, der bekannteste Märchenonkel unserer Kindheit, führt so warmherzig durch diese Verwechslungsgeschichte, dass wir uns für kurze Zeit nicht nur im London der Renaissance-Zeit, sondern im Hörspielhimmel glauben.","[Kinderbuch & Jugendbuch > Abenteuer, Literatur & Unterhaltung > Klassiker & Lyrik, Kinderbuch & Jugendbuch > Liebe, Beziehung und Freundschaft, Kinderbuch & Jugendbuch > Echtes Leben, Realistischer Roman]",Mark Twain,2013-10-22,9783844514605,[Mark Twain],2013-10-22,2013,"[0.09816415228839201, 0.09600991941522911, 0.09907226305150386, 0.18703834494589563, 0.09382253487835414, 0.23030474582426008, 0.08988723598102849, 0.1057008036153365]",1,[5],[Literatur & Unterhaltung],[Literatur & Unterhaltung],"[Kinderbuch & Jugendbuch, Literatur & Unterhaltung]",2
144,14692,Tagebuch eines Vampirs - Im Zwielicht,"Vierhundert Jahre ist es her, dass die Florentiner Brüder Stefano und Damon aus Liebe zu der schönen Catarina zu erbitterten Feinden – und durch Catarinas Fluch zu Vampiren wurden. Und noch immer ist der Kampf der Brüder nicht entschieden. Eine dunkle Ahnung von drohendem Unheil überkommt die 17-jährige Elena, als sie eines sonnigen Morgens eine riesige schwarze Krähe entdeckt, deren Blicke sie unablässig wie aus Menschenaugen zu verfolgen scheinen … Doch kaum betritt Elena die Highschool, ist alle Angst vergessen, denn Hals über Kopf verliebt sie sich in den umwerfenden italienischen Neuzugang: Stefano. Zu ihrer großen Enttäuschung wirkt der zunächst alles andere als interessiert. Doch hinter Stefanos cooler Fassade brodelt es: Auch er ist Feuer und Flamme für die Highschool-Schönheit und schon bald kann er sich seinen leidenschaftlichen Gefühlen nicht mehr widersetzen. Noch ahnt Elena nicht, welch verhängnisvolles Schicksal ihr damit bevorsteht. Denn Stefano hütet ein schreckliches Geheimnis: Elena erinnert ihn nicht nur an seine tragische Liebe – zu allem Übel liegt diese Geschichte auch noch 400 Jahre zurück! Stefano ist in Wirklichkeit nämlich ein Vampir und stammt eigentlich aus dem Florenz des 15. Jahrhunderts! Damals war ein erbitterter Kampf zwischen Stefano und seinem Bruder Damon um die schöne Catarina entbrannt – und durch Catarinas Fluch hatten sich die Brüder in Vampire verwandelt … Hier in der beschaulichen Kleinstadt Fell’s Church, die Stefano gewählt hat, um seinem Schattendasein in Italien zu entfliehen und endlich in der Welt des Tageslichts neu anzufangen, droht sich das Drama von einst zu wiederholen. Denn der Kampf der Rivalen ist noch immer nicht entschieden: Ebenso wie Stefano verliebt sich nämlich auch Damon in Elena. Doch während sich Stefano verzweifelt gegen sein Verlangen nach ihrem Blut wehrt, hat Damon es genau darauf abgesehen: In wechselnder Gestalt versucht er skrupellos, Elenas und Stefanos Liebe zu zerstören, um selbst von ihrem Blut zu trinken. Und plötzlich ist Stefano spurlos verschwunden …","[Kinderbuch & Jugendbuch > Liebe, Beziehung und Freundschaft, Literatur & Unterhaltung > Fantasy > Dark Fantasy, Kinderbuch & Jugendbuch > Fantasy und Science Fiction]",Lisa J. Smith,2008-11-03,9783570304976,[Lisa J. Smith],2008-11-03,2008,"[0.09401808456314852, 0.09650058085756084, 0.0950089332641032, 0.29829903720496703, 0.0853517396080531, 0.17362910373636392, 0.07769546501133973, 0.07949705575446349]",1,[3],[Kinderbuch & Jugendbuch],[Kinderbuch & Jugendbuch],"[Kinderbuch & Jugendbuch, Literatur & Unterhaltung]",2
153,14701,Der erste Single,"- Das neue Buch vom Meister der religiösen Satire Was ist nicht schon alles hineininterpretiert worden in den historischen Jesus! Eines aber hat noch keiner gewagt: Jesus als braven Familienvater darzustellen. Im Aufstand gegen die Familie haben auch ein Franz von Assisi oder ein Sören Kierkegaard zu ihrer christlichen Identität gefunden. Am deutlichsten drückt es Teresa von Avila aus: »Das Schrecklichste, was es gibt, ist die eigene Verwandtschaft.« Wie aber passt das zu der von den Kirchen gepriesenen Lebensform der Familie? Hans Conrad Zander untersucht ein in der Tat fragwürdiges Phänomen und präsentiert in seinem neuen Buch eine wahrhaft erlösende Nachricht für all jene, die heute als Singles leben: Archetypisch bietet die Single-Existenz die weitaus besten Voraussetzungen für ein religiöses Leben. Selbst wenn er an gar nichts glaubt, leistet der Single einen kostbaren Beitrag zur dringendsten christlichen Aufgabe unserer Zeit: Gottes Schöpfung zu bewahren vor der Zerstörung durch Übervölkerung.","[Glaube & Ethik > Spiritualität & Religion > Christlicher Glauben, Sachbuch > (Zeit-) Geschichte > Alte Geschichte, Literatur & Unterhaltung > Romane & Erzählungen > Erzählungen & Kurzgeschichten]",Hans Conrad Zander,2010-09-27,9783641050634,[Hans Conrad Zander],2010-09-27,2010,"[0.10055780110461991, 0.10041658991241681, 0.1903607034095376, 0.07959670935803793, 0.09134399709057003, 0.13269200138183837, 0.0858412751700974, 0.21919092257288195]",1,[7],[Sachbuch],[Sachbuch],"[Literatur & Unterhaltung, Glaube & Ethik, Sachbuch]",3
155,14703,Das Buch Onyx,"In einer verschneiten Winternacht werden die Geschwister Kate, Michael und Emma aus ihrem Heim gejagt. Seitdem suchen sie die magischen Chroniken vom Anbeginn, mit deren Hilfe sie ihre Eltern wiederfinden können. Zwei der drei Bücher haben sie dem finsteren Magier Magnus bereits entrissen, der sich dafür gleich gerächt und die kleine Emma entführt hat. Werden Kate und Michael ihre Schwester finden und das dritte Buch „Onyx“ in ihren Besitz bringen können? Eines ist sicher, es wird ein Kampf auf Leben und Tod ...","[Literatur & Unterhaltung > Romane & Erzählungen, Literatur & Unterhaltung > Fantasy > Abenteuer-Fantasy, Kinderbuch & Jugendbuch > Abenteuer, Kinderbuch & Jugendbuch > Echtes Leben, Realistischer Roman, Kinderbuch & Jugendbuch > Fantasy und Science Fiction, Literatur & Unterhaltung > Fantasy > All Age Fantasy]",John Stephens,2015-10-19,9783442477494,[John Stephens],2015-10-19,2015,"[0.10591000824808317, 0.10380594423579409, 0.09907938952672102, 0.20111540810658168, 0.10007456013614606, 0.20344077331988028, 0.11429553396678777, 0.0722783824600059]",1,[5],[Literatur & Unterhaltung],[Literatur & Unterhaltung],"[Kinderbuch & Jugendbuch, Literatur & Unterhaltung]",2
187,14735,"Komm, ich erzähl dir eine Geschichte","Wie begegnet man den Wirrnissen des Lebens? Mit Geschichten, sagt Jorge Bucay, der die Gabe hat, das Komplizierte einfach werden zu lassen. Und er hilft seinem Zuhörer Demian, seine Ängste und Probleme besser zu verstehen, indem er ihm Märchen aus aller Welt, Sufi-Gleichnisse, Zen-Weisheiten, antike Sagen, selbst Erfundenes erzählt. ""Jorge Bucays Geschichten haben eindeutig Suchtpotiential"". FRANKFURTER ALLGEMEINE ZEITUNG","[Sachbuch > Sachbuch Philosophie, Literatur & Unterhaltung > Romane & Erzählungen > Erzählungen & Kurzgeschichten]",Jorge Bucay,2015-11-09,9783844520972,[Jorge Bucay],2015-11-09,2015,"[0.10328415204132754, 0.12740194908043664, 0.11945341997336231, 0.13131015321146022, 0.097031805134639, 0.1585407670293889, 0.11760526710278539, 0.1453724864265999]",1,[5],[Literatur & Unterhaltung],[Literatur & Unterhaltung],"[Literatur & Unterhaltung, Sachbuch]",2
234,14782,Buddenbrooks,"Heinrich Breloers Verfilmung der ""Buddenbrooks"" wird das Kinoereignis der besonderen Art: Er zeigt das Drama um Glanz und Untergang der reichen Lübecker Kaufmannsfamilie in intimen, Anteil nehmenden und vielschichtigen Szenen. Regisseur Heinrich Breloer selbst verfasste unter Mitarbeit von Rainer Zimmer das Erzählmanuskript und setzte den Film in eine einzigartig verdichtete und nachhaltig beeindruckende Hörspielfassung um.","[Literatur & Unterhaltung > Romane & Erzählungen, Sachbuch > (Zeit-) Geschichte, Sachbuch > Kunst & Kultur, Sachbuch > Politik & Gesellschaft]",Thomas Mann,2015-09-28,9783844521528,[Thomas Mann],2015-09-28,2015,"[0.10920364631291504, 0.10124785931009365, 0.10207794658290494, 0.09844742312809585, 0.11074684366884802, 0.22919729929761065, 0.11300404623857792, 0.13607493546095387]",1,[5],[Literatur & Unterhaltung],[Literatur & Unterhaltung],"[Literatur & Unterhaltung, Sachbuch]",2
377,14925,Bartimäus,"Der Dschinn Bartimäus bekommt eines Tages in London den Auftrag, dem hochnäsigen Zauberschüler Nathanael zur Seite zu stehen: ein Auftrag, der Bartimäus zunächst alles andere als glücklich macht. Doch schon bald stecken die beiden in einem Abenteuer, das sie wie Pech und Schwefel zusammenschweißt. Nathanael versucht sich am mächtigen Zauberer Simon Lovelace zu rächen und ihm das berühmte Amulett von Samarkand zu stehlen und mit Bartimäus’ Hilfe könnte ihm das auch gelingen...","[Kinderbuch & Jugendbuch > Abenteuer, Kinderbuch & Jugendbuch > Echtes Leben, Realistischer Roman, Kinderbuch & Jugendbuch > Fantasy und Science Fiction, Literatur & Unterhaltung > Fantasy > All Age Fantasy, Literatur & Unterhaltung > Fantasy > Heroische Fantasy, Kinderbuch & Jugendbuch > Geister- und Gruselgeschichten]",Jonathan Stroud,2007-09-10,9783442367627,[Jonathan Stroud],2007-09-10,2007,"[0.09687904286806705, 0.0966462118465051, 0.10143919483113761, 0.2641365860841419, 0.08253159872516647, 0.19107363991876725, 0.0871936423658016, 0.08010008336041297]",1,[3],[Kinderbuch & Jugendbuch],[Kinderbuch & Jugendbuch],"[Kinderbuch & Jugendbuch, Literatur & Unterhaltung]",2
403,14951,Monument 14: Die Flucht (2),"Nachdem ein Tsunami die Ostküste der USA getroffen und weite Teile des Landes verwüstet hat, stranden vierzehn Jugendliche in einem Einkaufszentrum. Der Strom fällt aus, die Zivilisation bricht zusammen, und aus einer nahen Chemiefabrik entweicht eine gefährliche Giftwolke. Dann dringt das Gerücht durch, dass die Überlebenden von Denver aus ausgeflogen werden. Die Jugendlichen bestimmen eine Gesandtschaft, die sich nach Denver durchschlagen soll. Der Rest von ihnen bleibt zurück, darunter der eher schüchterne Dean, der sich früher immer aus allem herausgehalten hat. Als sie von einem gewalttätigen Einbrecher bedroht werden, muss Dean über sich selbst hinauswachsen …","[Literatur & Unterhaltung > Science Fiction > Dystopie, Kinderbuch & Jugendbuch > Fantasy und Science Fiction]",Emmy Laybourne,2014-05-12,9783453534551,[Emmy Laybourne],2014-05-12,2014,"[0.09766865487230907, 0.08804983704646663, 0.09731547634883754, 0.22491980407633053, 0.09839067136634995, 0.18490774617227018, 0.10155229244358921, 0.10719551767384702]",1,[3],[Kinderbuch & Jugendbuch],[Kinderbuch & Jugendbuch],"[Kinderbuch & Jugendbuch, Literatur & Unterhaltung]",2


## Lets check the confusion matrix (Do not run this , this will take long time and will not yield good results)

In [9]:
y_test.values

array(['Literatur & Unterhaltung', 'Literatur & Unterhaltung', 'Sachbuch',
       ..., 'Ratgeber', 'Kinderbuch & Jugendbuch',
       'Literatur & Unterhaltung'], dtype=object)

In [None]:
import seaborn as sn
import pandas as pd
import matplotlib.pyplot as plt
array = confusion_matrix(y_pred,y_test.values)
np.fill_diagonal(array,0)
df_cm = pd.DataFrame(array, index = list(le_mapping.keys()),
                  columns = list(le_mapping.keys()))
plt.figure(figsize = (10,7))
sn.heatmap(df_cm, annot=True,fmt=".5g")


In [None]:
inv_map = {v: k for k, v in le_mapping.items()}

In [None]:
y_pred_top = [inv_map[i].split(" > ")[0] for i in y_pred]

In [None]:
y_test_top = [inv_map[i].split(" > ")[0] for i in y_test]

In [None]:
confarray = confusion_matrix(y_test_top, y_pred_top,labels=list(set(y_test_top)))
confarray.shape

In [None]:
conf = pd.DataFrame(confarray,columns=list(set(y_test_top)))
conf.index = list(set(y_test_top))

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize = (10,7))
sns.heatmap(conf, annot=True,fmt="0.5g")

In [17]:
accuracy_score(y_pred_top,y_test_top)

0.8235294117647058

In [21]:
confusion_matrix(y_pred_top,y_test_top)

array([[  36,    0,    0,    1,    0,    0,    3,    1],
       [   1,  144,   11,    0,    0,    1,   35,   14],
       [   0,    8,  123,    2,    0,    9,    0,   28],
       [   0,    3,    1,  687,    2,   83,   19,    9],
       [   0,    0,    2,    2,   19,    0,    2,    8],
       [   2,    8,   19,   77,    3, 1697,   22,  123],
       [   3,   46,    4,   14,    2,    5,  363,   59],
       [   0,    2,   13,    5,    3,   35,   57,  417]])

In [2]:
import spacy
nlp = spacy.load('en')

doc = nlp(u"Apples and oranges are similar. Boots and hippos aren't.")

for token in doc:
    print(token, token.lemma, token.lemma_)

Apples 8566208034543834098 apple
and 2283656566040971221 and
oranges 2208928596161743350 orange
are 10382539506755952630 be
similar 18166476740537071113 similar
. 12646065887601541794 .
Boots 9918665227421442029 boot
and 2283656566040971221 and
hippos 6542994350242320795 hippo
are 10382539506755952630 be
n't 447765159362469301 not
. 12646065887601541794 .


In [4]:
lemmas

['duck']

### Analyse the confusions 

In [12]:
test_books = pd.read_csv("tl_test_books.csv")

In [15]:
test_books["y_test"] = y_test.values
test_books["y_pred"] = y_pred

In [23]:
mistakes = test_books[(test_books["y_pred"] == "Literatur & Unterhaltung") & (test_books["y_test"] == "Kinderbuch & Jugendbuch")]

In [24]:
len(mistakes)

94

In [None]:
mistakes

In [51]:
pred_test = list(zip(y_pred,y_test))
e = enumerate(pred_test)
ids = [i[0] for i in e if i[1] == ("Literatur & Unterhaltung","Kinderbuch & Jugendbuch")]

In [52]:
ids

[7,
 93,
 102,
 286,
 287,
 415,
 416,
 463,
 529,
 539,
 542,
 553,
 574,
 575,
 594,
 638,
 644,
 671,
 756,
 799,
 806,
 904,
 928,
 970,
 995,
 1008,
 1066,
 1068,
 1225,
 1234,
 1291,
 1301,
 1302,
 1369,
 1435,
 1547,
 1648,
 1650,
 1684,
 1694,
 1727,
 1848,
 1849,
 1928,
 1961,
 2023,
 2034,
 2076,
 2091,
 2126,
 2180,
 2188,
 2189,
 2223,
 2334,
 2356,
 2509,
 2543,
 2544,
 2671,
 2734,
 2745,
 2781,
 2811,
 2820,
 2880,
 2963,
 2966,
 3016,
 3057,
 3070,
 3093,
 3103,
 3112,
 3127,
 3296,
 3299,
 3470,
 3536,
 3574,
 3637,
 3734,
 3805,
 3810,
 3829,
 3838,
 3910,
 3925,
 3948,
 3953,
 4092,
 4155,
 4204,
 4231]

In [36]:
pred_test[10:40]

[('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Sachbuch', 'Literatur & Unterhaltung'),
 ('Architektur & Garten', 'Architektur & Garten'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Ratgeber', 'Ratgeber'),
 ('Ganzheitliches Bewusstsein', 'Ganzheitliches Bewusstsein'),
 ('Ganzheitliches Bewusstsein', 'Ganzheitliches Bewusstsein'),
 ('Architektur & Garten', 'Architektur & Garten'),
 ('Sachbuch', 'Sachbuch'),
 ('Ratgeber', 'Ratgeber'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Kinderbuch & Jugendbuch', 'Kinderbuch & Jugendbuch'),
 ('Kinderbuch & Jugendbuch', 'Kinderbuch & Jugendbuch'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Literatur & Unterhaltung', 'Literatur & Unterhaltung'),
 ('Sachbuch', 'Sachbuch'),
 ('Kinderbuch & Jugendbuch', 'Kinde