# Dictionary compilation from Για να κχοντούμε γρούσσα νάμου

This notebook aims to create a dictionary from the words contained in Ioannis Kambysis' book, _Για να κχοντούμε γρούσσα νάμου_ (2020)

# Preparation

In [8]:
# Data wrangling
import pandas as pd
import numpy as np

# Image processing
import pytesseract
from PIL import Image

# Others
import re
import pyperclip as pc
import unicodedata
import copy

# Path to the Tesseract executable (change this to your Tesseract installation path)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

In [9]:
# Path to the image you want to process
image_path = r'C:\Users\jgcha\Desktop\Python\Códigos\Tsakonian tools\other_projects\OCR Gia na khontoume groussa namou\imgs\35-2-ts.jpeg'

# Load the image using PIL (Python Imaging Library)
image = Image.open(image_path)

# Set the languages parameter to a list of language codes
languages = ['eng', 'ell', 'fra', 'deu']  # Language codes for English and Greek
languages = ['ell']


# Perform OCR on the image with the specified languages
extracted_text = pytesseract.image_to_string(image, lang='+'.join(languages))

# Print the extracted text
print(extracted_text)

το κοϊθίνι - Τα κοϊθίνια

ο ντρυνικό - Οι ντρυνιῖσοί
ϱ σάκο -Οι σάκου
Αμάτουκα -Οι µάτουΐσε
Ατσία- Οιτσίε

0 µπίκο - Οι µπίέσοι

Το έρατόε - Τα ἐρατόα

0 όίνακα - Οι δινάκου

Το φκιάρι - Τα φκιάρια

Το κακίστρι - Τα κακίστρια
Ατριχία - Οιτριχίλε
Αγκιτσία - Οι γκιτσίε
Αδίγκα - Οι δίτζε

Απράνα -Οιπράνε



In [10]:
def ocr(img):
    # Path to the image you want to process
    image_path = r'C:\Users\jgcha\Desktop\Python\Códigos\Tsakonian tools\other_projects\OCR Gia na khontoume groussa namou\imgs\\' + img

    # Load the image using PIL (Python Imaging Library)
    image = Image.open(image_path)

    # Set the languages parameter to a list of language codes
    languages = ['eng', 'ell', 'fra', 'deu']  # Language codes for English and Greek
    languages = ['ell']


    # Perform OCR on the image with the specified languages
    extracted_text = pytesseract.image_to_string(image, lang='+'.join(languages))

    # Copy the extracted text to the clipboard
    pc.copy(extracted_text)

    return extracted_text        

In [11]:
print(ocr('35-2-ts.jpeg'))

το κοϊθίνι - Τα κοϊθίνια

ο ντρυνικό - Οι ντρυνιῖσοί
ϱ σάκο -Οι σάκου
Αμάτουκα -Οι µάτουΐσε
Ατσία- Οιτσίε

0 µπίκο - Οι µπίέσοι

Το έρατόε - Τα ἐρατόα

0 όίνακα - Οι δινάκου

Το φκιάρι - Τα φκιάρια

Το κακίστρι - Τα κακίστρια
Ατριχία - Οιτριχίλε
Αγκιτσία - Οι γκιτσίε
Αδίγκα - Οι δίτζε

Απράνα -Οιπράνε



# Complete flow

Steps:
* OCR image
* Copy to clipboard
* Fix format in VS Code
* Store in JSON with two keys: `raw` and `processed`
* Copy to Excel

In [12]:
# Select image
img = '35-2-ts'
extension = '.jpeg'
filename_ = img + extension

# OCR
text = {'raw' : ocr(filename_)}
print(text['raw'])

το κοϊθίνι - Τα κοϊθίνια

ο ντρυνικό - Οι ντρυνιῖσοί
ϱ σάκο -Οι σάκου
Αμάτουκα -Οι µάτουΐσε
Ατσία- Οιτσίε

0 µπίκο - Οι µπίέσοι

Το έρατόε - Τα ἐρατόα

0 όίνακα - Οι δινάκου

Το φκιάρι - Τα φκιάρια

Το κακίστρι - Τα κακίστρια
Ατριχία - Οιτριχίλε
Αγκιτσία - Οι γκιτσίε
Αδίγκα - Οι δίτζε

Απράνα -Οιπράνε



In [13]:
def postprocessing(text):
    """
    Cleans common OCR errors for easier processing
    """

    # Replace 0 with O
    text = re.sub(r'0', 'Ο', text)

    # Separate articles from the rest of the text
    text = re.sub(r'\nΑ(\S)', r'\nΑ \1', text)

    # Add a space before and after the hyphen
    text = re.sub(r'(\S)-', r'\1 -', text)
    text = re.sub(r'-(\S)', r'- \1', text)

    # Separate the articles after the hyphen from the rest of the text
    text = re.sub(r'- Οι(\S)', r'- Οι \1', text)

    # Remove empty lines
    text = re.sub(r'\n+', r'\n', text)

    # Replace initial "ϱ" with "Ο"
    text = re.sub(r'\nϱ', r'\nΟ', text)

    # Capitalize the first letter of each line
    text = re.sub(r'^(\S)', lambda m: m.group(1).upper(), text, flags=re.MULTILINE)

    # Copy the processed text to the clipboard
    pc.copy(text)

    return text

In [14]:
text['postprocessed'] = postprocessing(text['raw'])
print(text['postprocessed'])

Το κοϊθίνι - Τα κοϊθίνια
Ο ντρυνικό - Οι ντρυνιῖσοί
Ο σάκο - Οι σάκου
Α μάτουκα - Οι µάτουΐσε
Α τσία - Οι τσίε
Ο µπίκο - Οι µπίέσοι
Το έρατόε - Τα ἐρατόα
Ο όίνακα - Οι δινάκου
Το φκιάρι - Τα φκιάρια
Το κακίστρι - Τα κακίστρια
Α τριχία - Οι τριχίλε
Α γκιτσία - Οι γκιτσίε
Α δίγκα - Οι δίτζε
Α πράνα - Οι πράνε



In [15]:
# Keep only necessary information
def condense(postprocessed_text):
    """
    Removes unnecessary information from the postprocessed OCR output.
    """

    # Remove everything after the hyphen except the last two letters
    text = postprocessed_text.strip().split('\n')
    text = [f'{text.split("-")[0]} - {text.split("-")[1][-2:]}' for text in text]
    text = '\n'.join(text)

    # Remove double spaces
    text = re.sub(r' +', r' ', text)    

    # Copy the reduced text to the clipboard
    # pc.copy(text)

    return text

In [16]:
text['condensed'] = condense(text['postprocessed'])
print(text['condensed'])

Το κοϊθίνι - ια
Ο ντρυνικό - οί
Ο σάκο - ου
Α μάτουκα - σε
Α τσία - ίε
Ο µπίκο - οι
Το έρατόε - όα
Ο όίνακα - ου
Το φκιάρι - ια
Το κακίστρι - ια
Α τριχία - λε
Α γκιτσία - ίε
Α δίγκα - ζε
Α πράνα - νε


In [17]:
def extract_plural_suffixes(condensed_text):
    """
    Extracts the plural suffixes from the postprocessed OCR output.
    """

    # Convert to a list
    text_list = condensed_text.strip().split('\n')

    # For suffixes, remove consonantes except when:
    # 1) The word ends in -α and the suffix is -λε
    # 2) The word ends in -ε or /o and the suffix is -νε
    # 3) The plural is -δε and the second to last letter of the word is not δ
    # 4) The word is neutral (article is Το) and the suffix is -τα
    consonants = 'βγδζθκλμνξπρσςτφχψ'
    processed_text_list = []
    for text in text_list:
        # Exception 1
        if text.endswith('α - λε'):
            processed_text_list.append(text)

        # Exception 2
        elif text.endswith('ε - νε') or text.endswith('ο - νε'):
            processed_text_list.append(text)

        # Exception 3
        elif text.endswith('δε') and text.split()[1][-2] != 'δ':
            processed_text_list.append(text)

        # Exception 4
        elif text.startswith('Το') and text.endswith('τα'):
            processed_text_list.append(text)
        
        # General case
        else:
            processed_text_list.append(re.sub(rf' - [{consonants}]', ' - ', text))

    # Rejoin the list
    text = '\n'.join(processed_text_list)

    return text

In [18]:
text['clean_plurals'] = extract_plural_suffixes(text['condensed'])
print(text['clean_plurals'])

Το κοϊθίνι - ια
Ο ντρυνικό - οί
Ο σάκο - ου
Α μάτουκα - ε
Α τσία - ίε
Ο µπίκο - οι
Το έρατόε - όα
Ο όίνακα - ου
Το φκιάρι - ια
Το κακίστρι - ια
Α τριχία - λε
Α γκιτσία - ίε
Α δίγκα - ε
Α πράνα - ε


In [19]:
def move_articles(clean_plurals_text):
    """
    Moves the articles to the end of the word.
    """

    # Convert to a list
    text_list = clean_plurals_text.strip().split('\n')

    # Move the articles to the end of the word
    processed_text_list = []
    for line in text_list:
        article = line.split(' ')[0]
        rest = ' '.join(line.split(' ')[1:])
        line = f'{rest} - {article}'
        processed_text_list.append(line)

    # Rejoin the list
    text = '\n'.join(processed_text_list)

    # Copy the text to the clipboard
    pc.copy(text)

    return text

In [20]:
text['articles_moved'] = move_articles(text['clean_plurals'])
print(text['articles_moved'])

κοϊθίνι - ια - Το
ντρυνικό - οί - Ο
σάκο - ου - Ο
μάτουκα - ε - Α
τσία - ίε - Α
µπίκο - οι - Ο
έρατόε - όα - Το
όίνακα - ου - Ο
φκιάρι - ια - Το
κακίστρι - ια - Το
τριχία - λε - Α
γκιτσία - ίε - Α
δίγκα - ε - Α
πράνα - ε - Α


In [21]:
# Perform manual cleaning
manual_clean = """
κοϊθίνι - ια - Το
ντρυνικό - οί - Ο
σάκ̇ο - ου - Ο
μάτουκα - ε - Α
τσία - ίε - Α
µπίκο - οι - Ο
έρατσ̌ε - α - Το
σ̌ίνακα - ου - Ο
φκιάρι - ια - Το
κακίστρι - ια - Το
τριχία - λε - Α
γκιτσία - ίε - Α
δίγκα - ε - Α
πράνα - ε - Α
"""

text['manual_clean'] = manual_clean.strip()
print(text['manual_clean'])

κοϊθίνι - ια - Το
ντρυνικό - οί - Ο
σάκ̇ο - ου - Ο
μάτουκα - ε - Α
τσία - ίε - Α
µπίκο - οι - Ο
έρατσ̌ε - α - Το
σ̌ίνακα - ου - Ο
φκιάρι - ια - Το
κακίστρι - ια - Το
τριχία - λε - Α
γκιτσία - ίε - Α
δίγκα - ε - Α
πράνα - ε - Α


In [22]:
# Convert to dataframe
def text_to_dataframe(manual_clean_text):
    """
    Converts the text to a dataframe.
    """

    # Convert to a list
    text_list = manual_clean_text.strip().split('\n')

    # Convert to a dataframe
    df = pd.DataFrame([text.split(' - ') for text in text_list], columns=['word', 'plural', 'article'])

    return df

In [23]:
text['dataframes'] = {'raw' : text_to_dataframe(text['manual_clean'])}
text['dataframes']['raw']

Unnamed: 0,word,plural,article
0,κοϊθίνι,ια,Το
1,ντρυνικό,οί,Ο
2,σάκ̇ο,ου,Ο
3,μάτουκα,ε,Α
4,τσία,ίε,Α
5,µπίκο,οι,Ο
6,έρατσ̌ε,α,Το
7,σ̌ίνακα,ου,Ο
8,φκιάρι,ια,Το
9,κακίστρι,ια,Το


In [24]:
def remove_accents(input_text):
    nfkd_form = unicodedata.normalize('NFKD', input_text)
    return ''.join([c for c in nfkd_form if not unicodedata.combining(c)])

In [25]:
remove_accents(text['dataframes']['raw'].iloc[0]['word'])

'κοιθινι'

In [26]:
def compute_masculine_paradigm(entry_: dict):
    """
    Computes the hypothesized paradigm for a given masculine entry.
    """

    # Remove accents from the word and plural
    for key in ['word', 'plural']:
        entry_[key] = remove_accents(entry_[key])

    ### Apply rules ###
    # A1: plural in -οι
    if entry_['plural'] == 'οι':
        return "Α1"
    
    # A2: plural in -ε
    elif entry_['plural'] == 'ε':
        return "Α2"
    
    # A3: plural in -ου
    elif entry_['plural'] == 'ου':
        return "Α3"
    
    # A4: plural in -νε 
    # NOTE: plurals are formed by adding -ούνε to the singular
    # but it is checked here as -νε for simplicity
    elif entry_['plural'] == 'νε':
        return "Α4"
    
    # A5: plural in -δε
    elif entry_['plural'] == 'δε':
        return "Α5"
    
    # NaN if no rule applies
    else:
        return np.nan

In [27]:
def compute_femenine_paradigm(entry_: dict):
    """
    Computes the hypothesized paradigm for a given feminine entry.
    """

    # Remove accents from the word
    entry_['word'] = remove_accents(entry_['word'])

    ### Apply rules ###
    # Θ3: plural in -άε
    # If it does not hold, remove the accent from the plural suffix
    if entry_['plural'] == 'άε':
        return "Θ3"
    else:
        entry_['plural'] = remove_accents(entry_['plural'])

    # Θ2: plural in -λε
    if entry_['plural'] == 'λε':
        return "Θ2"    
    
    # Θ4: plural in -δε and word does not end in -ου
    elif entry_['plural'] == 'δε' and not entry_['word'].endswith('ου'):
        return "Θ4"

    # Θ5: plural in -δε and word ends in -ου
    elif entry_['plural'] == 'δε' and entry_['word'].endswith('ου'):
        return "Θ5"
    
    # Θ1: rest of plurals in ending in -ε
    elif entry_['plural'].endswith('ε'):
        return "Θ1"
        
    # NaN if no rule applies
    else:
        return np.nan

In [28]:
def compute_neuter_paradigm(entry_):
    """
    Computes the hypothesized paradigm for a given neuter entry.
    """

    # Remove accents from the word and plural
    for key in ['word', 'plural']:
        entry_[key] = remove_accents(entry_[key])    

    ### Apply rules ###
    # Υ2: word ends in -μα
    if entry_['word'].endswith('μα'):
        return "Υ2"
    
    # Υ3: plural ends in -ια
    elif entry_['plural'] == 'ια':
        return "Υ3"
    
    # Υ4: word ends in -ι and plural ends in -τα
    elif entry_['word'].endswith('ι') and entry_['plural'] == 'τα':
        return "Υ4"
    
    # Υ5: word ends in -ε and plural ends in -τα
    elif entry_['word'].endswith('ε') and entry_['plural'] == 'τα':
        return "Υ5"
    
    # Y1: rest of plurals in -α
    elif entry_['plural'] == 'α':
        return "Υ1"
    
    # NaN if no rule applies
    else:
        return np.nan

In [29]:
def compute_paradigms(basic_dataframe):
    """
    Extracts noun paradigms based on the plural suffixes.
    """

    # Convert to a dictionary
    df_dict = basic_dataframe.to_dict('records')

    # Create a modifyable copy of the df_dict
    # The values will lose the accents, which is not desired
    # for the final dataframe
    df_dict_copy = copy.deepcopy(df_dict)

    ### Paradigm rules ###
    paradigm_df_lines = []
    for entry, copy_entry in zip(df_dict, df_dict_copy):
        # Masculine nouns
        if entry['article'] == 'Ο':
            paradigm = compute_masculine_paradigm(copy_entry)
        
        # Femenine nouns
        elif entry['article'] == 'Α':
            paradigm = compute_femenine_paradigm(copy_entry)

        # Neuter nouns
        elif entry['article'] == 'Το':
            paradigm = compute_neuter_paradigm(copy_entry)

        # NaN if no rule applies
        else:
            paradigm = np.nan

        # Add the paradigm to the entry
        entry['paradigm'] = paradigm
        paradigm_df_lines.append(entry)

    # Convert to a dataframe
    paradigm_df = pd.DataFrame(paradigm_df_lines)

    return paradigm_df

In [30]:
compute_paradigms(text['dataframes']['raw'])

Unnamed: 0,word,plural,article,paradigm
0,κοϊθίνι,ια,Το,Υ3
1,ντρυνικό,οί,Ο,Α1
2,σάκ̇ο,ου,Ο,Α3
3,μάτουκα,ε,Α,Θ1
4,τσία,ίε,Α,Θ1
5,µπίκο,οι,Ο,Α1
6,έρατσ̌ε,α,Το,Υ1
7,σ̌ίνακα,ου,Ο,Α3
8,φκιάρι,ια,Το,Υ3
9,κακίστρι,ια,Το,Υ3


# Extract information from Greek part

In [31]:
# Select image
img = '35-2-gr'
extension = '.jpeg'
filename_ = img + extension

# OCR
text = {'raw' : ocr(filename_)}
print(text['raw'])

Το κοφίνι - Τα κοφίνια
Μεγάλο καλάθι, τρυγοκόφινο
Το σακί - Τα σακιά

Η τσάπα - Οιτσάπες

Το ξινιάρι - Τα ξινιάρια

0 κασµάς - Οι κασµάδες

Το αλέτρι - Τα αλέτρια

Το δικριάνι - Τα δικριάνια
Το φτυάρι - Τα φτυάρια

Το καπίστρι - Τα καπίστρια
Η τριχιά - Οιτριχιές

Η πιστιά - Οιπιστιές

Η ίγκλα - Οι ίγκλες

0 κόπανος - Οι κόπανοι



In [32]:
text['postprocessed'] = postprocessing(text['raw'])
print(text['postprocessed'])

Το κοφίνι - Τα κοφίνια
Μεγάλο καλάθι, τρυγοκόφινο
Το σακί - Τα σακιά
Η τσάπα - Οι τσάπες
Το ξινιάρι - Τα ξινιάρια
Ο κασµάς - Οι κασµάδες
Το αλέτρι - Τα αλέτρια
Το δικριάνι - Τα δικριάνια
Το φτυάρι - Τα φτυάρια
Το καπίστρι - Τα καπίστρια
Η τριχιά - Οι τριχιές
Η πιστιά - Οι πιστιές
Η ίγκλα - Οι ίγκλες
Ο κόπανος - Οι κόπανοι



In [50]:
def extract_word(postprocessed_text: str):
    """
    For Greek terms, extracts the word from the postprocessed OCR output.
    """

    # Convert to a list
    text_list = postprocessed_text.strip().split('\n')

    # Extract the part of the word before the hyphen
    processed_text_list = [line.split(' - ')[0] for line in text_list]

    # Remove the articles at the beginning of the word
    articles = ['Ο ', 'Η ', 'Το ', 'Οι ', 'Τα ']
    processed_text_list = [' '.join(line.split(' ')[1:]) if line.startswith(tuple(articles)) else line.lower() for line in processed_text_list]

    # Rejoin the list
    text = '\n'.join(processed_text_list)

    return text

In [51]:
print(extract_word(text['postprocessed']))

κοφίνι
μεγάλο καλάθι, τρυγοκόφινο
σακί
τσάπα
ξινιάρι
κασµάς
αλέτρι
δικριάνι
φτυάρι
καπίστρι
τριχιά
πιστιά
ίγκλα
κόπανος
