In [1]:
import pandas as pd
import tabula

from pathlib import Path
import sys

# Get the current working directory
cwd = Path.cwd()

# Get parent directory
parent_dir = cwd.parent

# Add parent directory to the Python path
if str(parent_dir) not in sys.path:
    sys.path.append(str(parent_dir))

# #Get utils directory
# utils_dir = parent_dir / "utils"

# # Add utils directory to the Python path
# if str(utils_dir) not in sys.path:
#     sys.path.append(str(utils_dir))

from utils.translations import OFFICIAL_GUIDE_REGIONS_TRANSLATIONS_GR_EN

In [2]:
# Read the pdf file
pdf_path = "../related_docs/official_implementation_guide_v9.pdf"

In [3]:
# Parse the grants limits table as dataframe
tabula.read_pdf(pdf_path, pages=15, lattice=True)[0][:1]

Unnamed: 0.1,ΠΕΡΙΦΕΡΕΙΕΣ,ΜΕΓΕΘΟΣ ΕΠΙΧΕΙΡΗΣΕΩΝ\rΔαπάνες Άρθρου 14,Δαπάνες Άρθρου\r18 και 31,Unnamed: 0
0,,ΜΕΣΑΙΕΣ,ΜΙΚΡΕΣ -\rΠΟΛΥ\rΜΙΚΡΕΣ,


In [4]:
eu_regions_grants_limits = tabula.read_pdf(pdf_path,
                pages=15,
                lattice=True,
                )[0]#[0:]

eu_regions_grants_limits

Unnamed: 0.1,ΠΕΡΙΦΕΡΕΙΕΣ,ΜΕΓΕΘΟΣ ΕΠΙΧΕΙΡΗΣΕΩΝ\rΔαπάνες Άρθρου 14,Δαπάνες Άρθρου\r18 και 31,Unnamed: 0
0,,ΜΕΣΑΙΕΣ,ΜΙΚΡΕΣ -\rΠΟΛΥ\rΜΙΚΡΕΣ,
1,Βόρειο Αιγαίο,70%,75%,50%
2,Κρήτη,60%,70%,50%
3,ΑνατολικήΜακεδονία-\rΘράκη,60%,70%,50%
4,Κεντρική Μακεδονία,60%,70%,50%
5,Δυτική Μακεδονία,60%,70%,50%
6,Ήπειρος,60%,70%,50%
7,Θεσσαλία,60%,70%,50%
8,Ιόνια Νησιά,50%,60%,50%
9,Δυτική Ελλάδα,60%,70%,50%


In [5]:
eu_regions_grants_limits.columns

Index(['ΠΕΡΙΦΕΡΕΙΕΣ', 'ΜΕΓΕΘΟΣ ΕΠΙΧΕΙΡΗΣΕΩΝ\rΔαπάνες Άρθρου 14',
       'Δαπάνες Άρθρου\r18 και 31', 'Unnamed: 0'],
      dtype='object')

In [6]:
# Dictionary to replace the column names
new_column_names = {
    'ΠΕΡΙΦΕΡΕΙΕΣ': 'region',
    'ΜΕΓΕΘΟΣ ΕΠΙΧΕΙΡΗΣΕΩΝ\rΔαπάνες Άρθρου 14': 'medium_size_article_14',
    'Δαπάνες Άρθρου\r18 και 31': 'small_micro_size_article_14',
    'Unnamed: 0': 'article_18_31'
}

# Rename the columns
eu_regions_grants_limits.rename(columns=new_column_names, inplace=True)

In [7]:
eu_regions_grants_limits.drop(0, inplace=True)

In [8]:
eu_regions_grants_limits

Unnamed: 0,region,medium_size_article_14,small_micro_size_article_14,article_18_31
1,Βόρειο Αιγαίο,70%,75%,50%
2,Κρήτη,60%,70%,50%
3,ΑνατολικήΜακεδονία-\rΘράκη,60%,70%,50%
4,Κεντρική Μακεδονία,60%,70%,50%
5,Δυτική Μακεδονία,60%,70%,50%
6,Ήπειρος,60%,70%,50%
7,Θεσσαλία,60%,70%,50%
8,Ιόνια Νησιά,50%,60%,50%
9,Δυτική Ελλάδα,60%,70%,50%
10,Στερεά Ελλάδα,50%,60%,50%


In [9]:

eu_regions_grants_limits.region.values

array(['Βόρειο Αιγαίο', 'Κρήτη', 'ΑνατολικήΜακεδονία-\rΘράκη',
       'Κεντρική Μακεδονία', 'Δυτική Μακεδονία', 'Ήπειρος', 'Θεσσαλία',
       'Ιόνια Νησιά', 'Δυτική Ελλάδα', 'Στερεά Ελλάδα', 'Ευρυτανία',
       'Πελοπόννησος:Δήμοι\rΜεγαλόπολης,Γορτυνίας\rΤρίπολης Οιχαλίας',
       'Πελοπόννησος:Λοιποί\rΔήμοι', 'Νότιο Αιγαίο'], dtype=object)

In [10]:
# Remove unnecessary characters '\r' from the region column values
eu_regions_grants_limits['region'] = eu_regions_grants_limits['region'].str.replace('\r', ' ')

In [11]:
# Translate region values from Greek to English
eu_regions_grants_limits['region'] = eu_regions_grants_limits['region'].apply(lambda x: OFFICIAL_GUIDE_REGIONS_TRANSLATIONS_GR_EN[x])


In [12]:
# drop duplicates
eu_regions_grants_limits.drop_duplicates(subset='region', inplace=True)

In [13]:
eu_regions_grants_limits

Unnamed: 0,region,medium_size_article_14,small_micro_size_article_14,article_18_31
1,North Aegean,70%,75%,50%
2,Crete,60%,70%,50%
3,Eastern Macedonia and Thrace,60%,70%,50%
4,Central Macedonia,60%,70%,50%
5,Western Macedonia,60%,70%,50%
6,Epirus,60%,70%,50%
7,Thessaly,60%,70%,50%
8,Ionian Islands,50%,60%,50%
9,Western Greece,60%,70%,50%
10,Sterea Ellada,50%,60%,50%
