In [27]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from stempel import StempelStemmer
import re

In [21]:
dataset = pd.read_csv('criminal.csv')

In [22]:
def transform_text(text):
    text = text.lower()
    text = text.split()
    ss = StempelStemmer.default()
    text = [ss.stem(word) for word in text]
    if None in text:
        text.remove(None)
    text = ' '.join(text)
    return text

In [23]:
corpus = []
for i in range(dataset.shape[0]):
    art = transform_text(dataset['crime'][i])
    corpus.append(art)

In [34]:
transformed_criminal = pd.DataFrame(corpus, columns=['crime'])
transformed_criminal

Unnamed: 0,crime
0,§ 1. kto wszczyna lub prowadzić wojnę napastniczy
1,§ 3. kto publiczny nawoływać do wszcząć wojny ...
2,"§ 1. kto, w ć wyniszczeć w całość alć w część ..."
3,"§ 2. kto, w ć wyniszczeć w całość alć w część ..."
4,"§ 1. kto, brać udzieć w masowy zamach lub choć..."
...,...
69,kto nieumyślny powodować śmierć człowieić
70,§ 1. kto powodować ciężki uszczerbka na zdrowi...
71,§ 1. kto naywać inny osoba do spowodować u on ...
72,§ 2. kto przemoca lub groźba bezprawny zmuszać...


In [33]:
for i in range(transformed_criminal.shape[0]):
    transformed_criminal['crime'][i] = re.sub('[^a-zA-ZąĄćĆęĘłŁńŃóÓśŚźŹżŻ]', '', transformed_criminal['crime'][i])
    transformed_criminal['crime'][i] = transformed_criminal['crime'][i].strip()

'     kto wszczyna lub prowadzić wojnę napastniczy'

In [39]:
temp = re.sub('[^a-zA-ZąĄćĆęĘłŁńŃóÓśŚźŹżŻ]', ' ', transformed_criminal['crime'][0])
temp = temp.strip()
temp

'kto wszczyna lub prowadzić wojnę napastniczy'

In [31]:
transformed_criminal.to_csv('transformed.csv', sep=';', encoding='utf-8-sig')

In [7]:
def fit_crime(my_crime, data):
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(data)
    crime_vector = tfidf_vectorizer.transform([my_crime])
    similarity = cosine_similarity(crime_vector, tfidf_matrix)
    print(similarity)
    best_match_index = similarity.argsort()[0][-1]
    return dataset.iloc[best_match_index]['article_number'], dataset.iloc[best_match_index]['crime'], dataset.iloc[best_match_index]['penalty']

In [12]:
wykroczenie_input = "zamach na prezydenta"
wykroczenie_input = transform_text(wykroczenie_input)
print(wykroczenie_input)
numer, opis, kara = fit_crime(wykroczenie_input, corpus)

print(f"Dopasowane przestępstwo: {opis}")
print(f"Grożąca kara: {kara}")

zamać na prezydent
[[0.03259121 0.         0.03131679 0.         0.04312    0.02400048
  0.01883905 0.         0.         0.02609371 0.         0.02476247
  0.05073232 0.0251435  0.         0.07643891 0.07138596 0.
  0.         0.03739562 0.03366637 0.         0.         0.0513273
  0.03788411 0.06140273 0.04085711 0.02934523 0.         0.03643491
  0.07897744 0.04381245 0.03970494 0.05555243 0.         0.
  0.52411201 0.51757196 0.52858572 0.09340176 0.07094068 0.06490631
  0.03709646 0.         0.05678734 0.03477412 0.06470554 0.03245827
  0.         0.         0.         0.         0.         0.
  0.         0.03330841 0.         0.         0.01817827 0.
  0.         0.0547835  0.0503924  0.         0.         0.
  0.         0.         0.         0.         0.01884303 0.03977369
  0.03704563 0.        ]]
Dopasowane przestępstwo: § 2. Kto publicznie znieważa Prezydenta Rzeczypospolitej Polskiej
Grożąca kara: do 3 lat
