In [7]:
import treetagger.tree_tagger_tokenizer as tokenizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import keyword_extractor.mock_keyword_extractor as keyword_extractor
import numpy as np


with open("../data/text-snippets-de.txt") as f:
    content = f.readlines()
    
number_of_recommendations=10
vectorizer = TfidfVectorizer(tokenizer=tokenizer.tokenize, ngram_range=(1, 3))
test_case="Mit meinem Arbeitgeber habe ich vereinbart, dass ich die Benzinkosten selbst bezahle, wenn ich meinen Firmenwagen privat nutze. Reduziert dies den zu versteuernden geldwerten Vorteil, den ich nach der 1%-Regel bestimme?"
Y=vectorizer.fit_transform(content)
x=vectorizer.transform([test_case])
predictions=cosine_similarity(x,Y)

In [8]:
# make sure everything's working correctly so far
print(tokenizer.tokenize(test_case))
print(x)

print(predictions)
print(np.max(predictions))
print(predictions.shape)
print(keyword_extractor.extract_keywords(test_case))

['mit', 'mein', 'Arbeitgeber', 'haben', 'ich', 'vereinbaren', 'dass', 'ich', 'die', 'Benzinkosten', 'selbst', 'bezahlen', 'wenn', 'ich', 'mein', 'Firmenwagen', 'privat', 'nutzen', '.', 'reduzieren', 'dies', 'die', 'zu', 'versteuernd', 'geldwerten', 'Vorteil', 'die', 'ich', 'nach', 'die', '@card@', '%', '-Regel', 'bestimmen', '?']
  (0, 194795)	0.1810057398549317
  (0, 193460)	0.055815803052856404
  (0, 188614)	0.06052510095779815
  (0, 181999)	0.1810057398549317
  (0, 179569)	0.2540154544698635
  (0, 179563)	0.16924128793223894
  (0, 164044)	0.14221358320589472
  (0, 158496)	0.24018275511961223
  (0, 156868)	0.2165355993904878
  (0, 156797)	0.138554833911877
  (0, 151440)	0.22275561494735724
  (0, 151439)	0.1535640510334307
  (0, 146778)	0.20672114301161462
  (0, 146777)	0.08730658795426405
  (0, 146588)	0.05982765313856007
  (0, 144576)	0.069776612333228
  (0, 129085)	0.07039832674707298
  (0, 124124)	0.20672114301161462
  (0, 124121)	0.20672114301161462
  (0, 99791)	0.172209736249690

In [9]:
# get indices of best fits
sorted_predictions=(-predictions).argsort().flatten()[:number_of_recommendations]
print(sorted_predictions)

[ 412  899  522  610   63  217  976  372 1143 1245]


In [10]:
# print best fits
for i in sorted_predictions:
    print(i)
    print(content[i])

412
Auch wenn die Anwendung der 1 %-Regelung seit 2006 voraussetzt, dass das Kfz zu mehr als 50 % betrieblich genutzt wird, ist es verfassungsrechtlich nicht geboten, die nach der 1 %-Regelung ermittelte Nutzungsentnahme auf 50 % der Gesamtaufwendungen für das Kfz zu begrenzen .

899
(1) 1 Sind in dem zu versteuernden Einkommen außerordentliche Einkünfte enthalten, so ist die auf alle im Veranlagungszeitraum bezogenen außerordentlichen Einkünfte entfallende Einkommensteuer nach den Sätzen 2 bis 4 zu berechnen. 2 Die für die außerordentlichen Einkünfte anzusetzende Einkommensteuer beträgt das Fünffache des Unterschiedsbetrags zwischen der Einkommensteuer für das um diese Einkünfte verminderte zu versteuernde Einkommen (verbleibendes zu versteuerndes Einkommen) und der Einkommensteuer für das verbleibende zu versteuernde Einkommen zuzüglich eines Fünftels dieser Einkünfte. 3 Ist das verbleibende zu versteuernde Einkommen negativ und das zu versteuernde Einkommen positiv, so beträgt die E