In [3]:
from functools import partial
import pandas as pd
import spacy
import time

In [4]:
def load_nlp_model(name: str):
    """
    Args:
        name: Language model name
    Returns: Language model object
    """
    nlp_start = time.time()
    nlp = spacy.load(name)
    nlp_end = time.time()
    nlp_time = nlp_end - nlp_start
    print(f"Wczytano silnik nlp w {nlp_time} s.")
    return nlp

In [8]:
def lemmatizer(nlp_model, phrase):
    doc = nlp_model(str(phrase['Słowo kluczowe']))    # rzutowanie na stringa. Wartości liczbowe mogą być wczytywane jako float.
    result = ""
    for token in doc:
        result += f"{token.lemma_} "
    return result[:-1]

In [9]:
def prepare_input_phrases_with_lemmas(nlp_model, filepath: str):
    """
    Loads xlsx file into pandas dataframe and adds lemmas in new column.

    Args:
        nlp_model: Language model
        filepath: Path to xlsx file

    Returns: Pandas dataframe
    """
    lemmatizer_start = time.time()

    phrase_database = pd.read_excel(filepath, engine="openpyxl")
    phrase_database['Lemma'] = phrase_database.apply(partial(lemmatizer, nlp_model), axis=1)
    phrase_database = phrase_database.drop_duplicates(subset=['URL', 'Lemma'])
    phrase_database.to_excel("Lemmas.xlsx")

    print("Stworzono df z frazami lemma.")

    lemmatizer_end = time.time()
    lemmatizer_time = lemmatizer_end - lemmatizer_start

    return phrase_database

In [10]:
lang_model = load_nlp_model("pl_core_news_sm")

Wczytano silnik nlp w 10.6211519241333 s.


In [22]:
df_phrases = prepare_input_phrases_with_lemmas(lang_model, "Input/asd.xlsx")

Stworzono df z frazami lemma.


In [28]:
df_phrases["Lemma"][df_phrases["URL"] == "https://eim.waw.pl/blog/skarga-na-lekarza"]

5    skarga na lekarz wzór
Name: Lemma, dtype: object

In [34]:
import numpy as np

n = 4

df_phrases_parts = np.array_split(df_phrases, n)

In [35]:
df_phrases_parts[0]

Unnamed: 0,URL,Słowo kluczowe,Lemma
0,https://eim.waw.pl/blog/odwolanie-od-decyzji-u...,odwołanie od decyzji pzu uszczerbek na zdrowiu...,odwołanie od decyzja pzu uszczerbek na zdrowie...
1,https://eim.waw.pl/blog/infekcja-i-sepsa-w-ciazy,sepsa po porodzie,sepsa po poród
2,https://eim.waw.pl/blog/wniosek-o-jednorazowe-...,jak napisać wniosek o jednorazowe odszkodowani...,jak napisać wniosek o jednorazowy odszkodowani...
3,https://eim.waw.pl/blog/wniosek-o-odszkodowani...,wniosek o odszkodowanie,wniosek o odszkodowanie
4,https://eim.waw.pl/blog/zerwane-sciegno-achill...,zerwane ścięgno achillesa odszkodowanie,zerwać ścięgno achillesa odszkodowanie
5,https://eim.waw.pl/blog/skarga-na-lekarza,skarga na lekarza wzór,skarga na lekarz wzór
6,https://eim.waw.pl/blog/odszkodowanie-za-zakaz...,zakażenie gronkowcem w szpitalu,zakażenie gronkowiec w szpital
7,https://eim.waw.pl/blog/odszkodowanie-za-strat...,straty moralne,strata moralny
8,https://eim.waw.pl/blog/blad-medyczny-przy-zab...,brzuch po laparoskopii,brzucho po laparoskopia
9,https://eim.waw.pl/blog/odszkodowanie-za-potra...,potrącenie pieszego na pasach konsekwencje,potrącić pieszego na pasy konsekwencja
