In [1]:
import pandas as pd
import spacy
import stanza

# Lemmatize all texts

> [!IMPORTANT]
> Needs a local installation of SpaCy and Stanza and the models used

## Load data from csv

In [2]:
df = pd.read_csv('data/severian_plaintext.csv')

In [3]:
df

Unnamed: 0,urn,lang,text
0,pta0001.pta001.pta-MsAb,Ms,Τοῦ αὐτοῦ ὁμιλία εἰς τὸν περι φύσεως νό μον· κ...
1,pta0001.pta001.pta-MsAe,Ms,Τοῦ ἐν ἁγίοις πατρὸς ἡμῶν ἰωάννου τοῦ χρυσοστό...
2,pta0001.pta001.pta-MsAp,Ms,Τοῦ αὐτοῦ ὁμιλία εἰς τὸν περὶ φύσεως νόμον λόγ...
3,pta0001.pta001.pta-MsAv,Ms,Τοῦ αὐτοῦ εἰς τὸν περὶ φύσεως νόμον πᾶσα γραφὴ...
4,pta0001.pta001.pta-MsBe,Ms,Τοῦ αὐτοῦ ἁγίου ἰωάννου τοῦ χρυσοστόμου. λόγος...
...,...,...,...
206,pta0001.pta066.pta-xcl1,xcl,"Երանելոյն Սեբերիանոսի խօսք վասն Զատկի, Կաթարիս..."
207,pta0001.pta067.pta-xcl1,xcl,Նորին երանելոյն Սեբերիանոսի Եմեսու եպիսկոպոսի ...
208,pta0001.pta068.pta-xcl1,xcl,Նորին ասացեալ 'ի սուրբ վկայն յԱկակ մարտիրոս: Ո...
209,pta0001.pta069.pta-xcl1,xcl,Սբյն Սեւերիանոսի Եմեսու եպիսկոպոսի 'ի գալուստ ...


## Load models
- SpaCy grc_proiel_trf for Greek
- Stanza for Latin (due to conflict in SpaCy version not possible to use LatinCy)
- Stanza for Armenian
- XXX for Syriac
- Do not lemmatize manuscript transcriptions (Ms)

### Armenian

In [None]:
#stanza.download('xcl')

In [3]:
nlp_xcl = stanza.Pipeline('xcl') 

2025-01-02 18:27:29 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

2025-01-02 18:27:29 INFO: Downloaded file to /home/stockhausen/stanza_resources/resources.json
2025-01-02 18:27:29 INFO: Loading these models for language: xcl (Classical_Armenian):
| Processor | Package        |
------------------------------
| tokenize  | caval          |
| mwt       | caval          |
| pos       | caval_nocharlm |
| lemma     | caval_nocharlm |
| depparse  | caval_nocharlm |

2025-01-02 18:27:29 INFO: Using device: cuda
2025-01-02 18:27:29 INFO: Loading: tokenize
2025-01-02 18:27:31 INFO: Loading: mwt
2025-01-02 18:27:31 INFO: Loading: pos
2025-01-02 18:27:32 INFO: Loading: lemma
2025-01-02 18:27:32 INFO: Loading: depparse
2025-01-02 18:27:33 INFO: Done loading processors!


### Greek

In [4]:
nlp_grc = spacy.load("grc_proiel_trf")

  self._model.load_state_dict(torch.load(filelike, map_location=device))


### Latin

In [None]:
#stanza.download('la')

In [5]:
nlp_lat = stanza.Pipeline('la')

2025-01-02 18:27:54 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

2025-01-02 18:27:54 INFO: Downloaded file to /home/stockhausen/stanza_resources/resources.json
2025-01-02 18:27:55 INFO: Loading these models for language: la (Latin):
| Processor | Package       |
-----------------------------
| tokenize  | ittb          |
| mwt       | ittb          |
| pos       | ittb_nocharlm |
| lemma     | ittb_nocharlm |
| depparse  | ittb_nocharlm |

2025-01-02 18:27:55 INFO: Using device: cuda
2025-01-02 18:27:55 INFO: Loading: tokenize
2025-01-02 18:27:55 INFO: Loading: mwt
2025-01-02 18:27:55 INFO: Loading: pos
2025-01-02 18:27:57 INFO: Loading: lemma
2025-01-02 18:27:58 INFO: Loading: depparse
2025-01-02 18:27:58 INFO: Done loading processors!


### Syriac

tbd.

## Lemmatize

In [6]:
def lemmatize_text(text, lang):
    # without stopwords in grc
    if lang == 'grc':
        nlp = nlp_grc
        doc = nlp(text)
        lemmatized = " ".join([token.lemma_ for token in doc if not token.is_stop])
    elif lang == 'lat':
        doc = nlp_lat(text)
        lemmatized = " ".join([word.lemma for sentence in doc.sentences for word in sentence.words])
    elif lang == 'xcl':
        doc = nlp_xcl(text)
        lemmatized = " ".join([word.lemma for sentence in doc.sentences for word in sentence.words])
    else:
        return ""
    return lemmatized

In [7]:
# Apply the lemmatization function
df['lemmatized_text'] = df.apply(lambda row: lemmatize_text(row['text'], row['lang']), axis=1)

In [8]:
df

Unnamed: 0,urn,lang,text,lemmatized_text
0,pta0001.pta001.pta-MsAb,Ms,Τοῦ αὐτοῦ ὁμιλία εἰς τὸν περι φύσεως νό μον· κ...,
1,pta0001.pta001.pta-MsAe,Ms,Τοῦ ἐν ἁγίοις πατρὸς ἡμῶν ἰωάννου τοῦ χρυσοστό...,
2,pta0001.pta001.pta-MsAp,Ms,Τοῦ αὐτοῦ ὁμιλία εἰς τὸν περὶ φύσεως νόμον λόγ...,
3,pta0001.pta001.pta-MsAv,Ms,Τοῦ αὐτοῦ εἰς τὸν περὶ φύσεως νόμον πᾶσα γραφὴ...,
4,pta0001.pta001.pta-MsBe,Ms,Τοῦ αὐτοῦ ἁγίου ἰωάννου τοῦ χρυσοστόμου. λόγος...,
...,...,...,...,...
206,pta0001.pta066.pta-xcl1,xcl,"Երանելոյն Սեբերիանոսի խօսք վասն Զատկի, Կաթարիս...","երանել ն Սեբերիանոս խօս վասն Զատկիս , Կաթարէս ..."
207,pta0001.pta067.pta-xcl1,xcl,Նորին երանելոյն Սեբերիանոսի Եմեսու եպիսկոպոսի ...,նոյն երանել ն Սեբերիանոս Եմեսու եպիսկոպ ասել '...
208,pta0001.pta068.pta-xcl1,xcl,Նորին ասացեալ 'ի սուրբ վկայն յԱկակ մարտիրոս: Ո...,նոյն ասել 'ի սուրբ վկայ ն ի ակակ մարտիր : ուր ...
209,pta0001.pta069.pta-xcl1,xcl,Սբյն Սեւերիանոսի Եմեսու եպիսկոպոսի 'ի գալուստ ...,Սբթն Սեւերիանոս Եմեսու եպիսկոպ 'ի գալուստ տն յ...


## Write results to a new csv file

In [9]:
# Write the DataFrame to a CSV file in data directory
csv_file_path = 'data/severian_plaintext_lemmatized.csv'
df.to_csv(csv_file_path, index=False)

print(f'DataFrame written to {csv_file_path}')

DataFrame written to data/severian_plaintext_lemmatized.csv
