In [13]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from stempel import StempelStemmer
import re

In [14]:
dataset = pd.read_csv('criminal.csv')

In [23]:
def transform_text(text):
    text = re.sub('[^a-zA-Z ]', '', text)
    text = text.lower()
    text = text.split()
    ss = StempelStemmer.default()
    text = [ss.stem(word) for word in text]
    if None in text:
        text.remove(None)
    # print(text)
    text = ' '.join(text)
    return text

In [27]:
corpus = []
for i in range(dataset.shape[0]):
    art = transform_text(dataset['crime'][i])
    corpus.append(art)

In [28]:
transformed_criminal = pd.DataFrame(corpus, columns=['crime'])
transformed_criminal

Unnamed: 0,crime
0,kto wszczyna lub prowadzić wojn napastniczpodl...
1,kto publiczny nawóuć do wszczcia wojny napastn...
2,kto w ć wyniszczeć w cao alć w czcić grupynaro...
3,kto w ć wyniszczeć w cao alć w czcić grupynaro...
4,kto biorc udzie w masowy zamach lub choby w je...
...,...
69,kto nieumylny powodować mier czowiek
70,kto powodować cik uszczerbka na zdrowie w post...
71,kto nakać inna osob do spowodować u on cikiego...
72,kto przemoc lub grob bezprawn zmuszać inna oso...


In [24]:
transformed_criminal = pd.DataFrame(corpus, columns=['crime'])
transformed_criminal.to_csv('transformed.csv', sep=',')

In [25]:
def fit_crime(my_crime, data):
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(data)
    crime_vector = tfidf_vectorizer.transform([my_crime])
    similarity = cosine_similarity(crime_vector, tfidf_matrix)
    print(similarity)
    best_match_index = similarity.argsort()[0][-1]
    return dataset.iloc[best_match_index]['article_number'], dataset.iloc[best_match_index]['crime'], dataset.iloc[best_match_index]['penalty']

In [26]:
wykroczenie_input = "zabijałem człowieka"
wykroczenie_input = transform_text(wykroczenie_input)
print(wykroczenie_input)
numer, opis, kara = fit_crime(wykroczenie_input, corpus)

print(f"Dopasowane przestępstwo: {opis}")
print(f"Grożąca kara: {kara}")

zabijać czowiek
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0.]]
Dopasowane przestępstwo: § 1. Kto powoduje naruszenie czynności narządu ciała lub rozstrój
zdrowia, inny niż: 1) pozbawienia człowieka wzroku, słuchu, mowy, zdolności płodzenia,
2) innego ciężkiego kalectwa, ciężkiej choroby nieuleczalnej lub długotrwałej,
choroby realnie zagrażającej życiu, trwałej choroby psychicznej, całkowitej albo
znacznej trwałej niezdolności do pracy w zawodzie lub trwałego, istotnego
zeszpecenia lub zniekształcenia ciała,
3) wycięcia, infibulacji lub innego trwałego i istotnego okaleczenia żeńskiego
narządu płciowego

Grożąca kara: od 3 miesięcy do 5 lat
