In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import os

In [2]:
# sample_df = pd.read_excel("../../data/202012.xlsx", header=None, sheet_name=[0,1])

In [3]:
# Define the directory containing Excel files
directory = "../../data/"

# Get all Excel files in the directory
file_paths = [os.path.join(directory, file) for file in os.listdir(directory) if file.endswith(".xlsx")]
column_patterns = ['ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ.*', 'ΕΤΑΙΡΕΙΑ', 'ΗΜΕΡ.*ΕΚΔ.*ΠΑΡΑΓ.*', 'ΗΜΕΡ.*ΛΗΞΗ.*ΠΑΡΑΓ.*', 'ΠΕΡΙΦΕΡΕΙΑ', 'ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ', 'ΔΗΜΟ.* ', 'ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ', 'ΘΕΣΗ', '.*(MW)', 'ΤΕΧΝΟΛ.*'] 

# Sort file paths based on their names to process them in order
file_paths.sort()



In [27]:
def merge_dataframes(df1, df2, column_patterns):
    """
    Merge the first 13 columns of two DataFrames.

    Parameters:
    df1 (DataFrame): First DataFrame.
    df2 (DataFrame): Second DataFrame.

    Returns:
    DataFrame: Merged DataFrame containing the first 13 columns of each DataFrame.
    """
    # Determine the number of columns to merge (minimum between the two DataFrames)
    num_columns_to_merge = max(min(df1.shape[1], df2.shape[1]), len(column_patterns))
    # Select the first 13 columns from each DataFrame
    df1_subset = df1.iloc[:, :num_columns_to_merge]
    df2_subset = df2.iloc[:, :num_columns_to_merge]

    # Merge the subsets along columns
    merged_df = pd.concat([df1_subset, df2_subset], axis=0)

    return merged_df

def merge_dataframes_with_previous_files(file_paths, column_patterns):
    """
    Merge the first 13 columns of DataFrames from multiple Excel files with two sheets each.
    The column names from the first DataFrame are kept.

    Parameters:
    file_paths (list): List of file paths to Excel files.

    Returns:
    DataFrame: Merged DataFrame containing the first 13 columns of each DataFrame from all files.
    """
    merged_df = None
    merged_df_temp = None
    
    # Iterate over each file path
    for file_path in file_paths:
        print(f"\nLoading file : {file_path}")
        # Load Excel file into separate DataFrames
        df = pd.read_excel(file_path, header=1, sheet_name=None)
        print(f"Number of sheets detected: {len(df.keys())}")

        # Merge in sheet level
        for sheet_name, df_sheet in df.items():
            df_sheet = df_sheet.filter(regex='|'.join(column_patterns))
            print(f"Number of columns detected in {sheet_name} : {len(df_sheet.columns)}")
            if merged_df_temp is None:
                # Merge the Sheet DataFrames
                merged_df_temp = df_sheet
            else:
                merged_df_temp = merge_dataframes(merged_df_temp, df_sheet, column_patterns)

        # Merge in file level
        # If merged_df is None, assign it the merged DataFrame, else merge with the previous merged DataFrame
        if merged_df is None:
            merged_df = merged_df_temp
        else:
            merged_df = merge_dataframes(merged_df, merged_df_temp, column_patterns)

    return merged_df

In [28]:
# def merge_dataframes_with_previous_files(file_paths):
#     """
#     Merge the first 13 columns of DataFrames from multiple Excel files with multiple sheets.
#     The column names from the first DataFrame are kept.

#     Parameters:
#     file_paths (list): List of file paths to Excel files.

#     Returns:
#     DataFrame: Merged DataFrame containing the first 13 columns of each DataFrame from all files and sheets.
#     """
#     merged_df = None
    
#     # Iterate over each file path
#     for file_path in file_paths:
#         print(f"Loading file : {file_path}")
        
#         # Load Excel file into a dictionary of DataFrames with sheet names as keys
#         df_dict = pd.read_excel(file_path, header=None, sheet_name=None)

#         # Iterate over each sheet in the file
#         for sheet_name, df_sheet in df_dict.items():
#             # Merge the DataFrames
#             merged_df_temp = merge_dataframes(df_sheet, df_sheet)

#             # If merged_df is None, assign it the merged DataFrame, else merge with the previous merged DataFrame
#             if merged_df is None:
#                 merged_df = merged_df_temp
#             else:
#                 merged_df = merge_dataframes(merged_df, merged_df_temp)

#     return merged_df

In [29]:
# Merge DataFrames from all Excel files
merged_df = merge_dataframes_with_previous_files(file_paths, column_patterns)


Loading file : ../../data/202012.xlsx
Number of sheets detected: 2
Number of columns detected in ΑΔΕΙΕΣ ΑΠΕ : 11
Number of columns detected in ΑΔΕΙΕΣ ΥΒΡΙΔΙΚΩΝ : 11

Loading file : ../../data/202103.xlsx
Number of sheets detected: 2
Number of columns detected in ΑΔΕΙΕΣ ΑΠΕ : 11
Number of columns detected in ΑΔΕΙΕΣ ΥΒΡΙΔΙΚΩΝ : 11

Loading file : ../../data/202105.xlsx
Number of sheets detected: 2
Number of columns detected in ΑΔΕΙΕΣ ΑΠΕ : 11
Number of columns detected in ΑΔΕΙΕΣ ΥΒΡΙΔΙΚΩΝ : 11

Loading file : ../../data/202108.xlsx
Number of sheets detected: 2
Number of columns detected in ΑΔΕΙΕΣ ΑΠΕ : 11
Number of columns detected in ΑΔΕΙΕΣ ΥΒΡΙΔΙΚΩΝ : 11

Loading file : ../../data/202110.xlsx
Number of sheets detected: 3
Number of columns detected in ΑΔΕΙΕΣ ΑΠΕ : 11
Number of columns detected in ΑΔΕΙΕΣ ΥΒΡΙΔΙΚΩΝ : 11
Number of columns detected in ΑΔΕΙΕΣ ΣΗΘΥΑ : 10

Loading file : ../../data/202203.xlsx
Number of sheets detected: 3
Number of columns detected in ΑΔΕΙΕΣ ΑΠΕ : 11
Number o

In [30]:
merged_df

Unnamed: 0,ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ ΑΙΤΗΣΗΣ,ΕΤΑΙΡΕΙΑ,ΗΜΕΡΟΜΗΝΙΑ ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ,ΗΜΕΡΟΜΗΝΙΑ ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ,ΠΕΡΙΦΕΡΕΙΑ,ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ,ΔΗΜΟΣ,ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ,ΘΕΣΗ,ΙΣΧΥΣ (MW),...,Ισχύς ΑΠΕ (MW),ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ,ΗΜΕΡ. ΕΚΔΟΣΗΣ ΒΕΒΑΙΩΣΗΣ ΠΑΡΑΓΩΓΟΥ,ΗΜΕΡ. ΛΗΞΗΣ ΒΕΒΑΙΩΣΗΣ ΠΑΡΑΓΩΓΟΥ,ΤΕΧΝΟΛΟΓΙΑ ΑΠΕ,ΕΓΚΑΤΕΣΤΗΜΕΝΗ ΙΣΧΥΣ ΑΠΕ (MW),ΜΕΓΙΣΤΗ ΙΣΧΥΣ ΑΠΕ (MW),ΤΕΧΝΟΛΟΓΙΑ ΑΠΟΘΗΚΕΥΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ,ΜΕΓΙΣΤΗ ΙΣΧΥΣ ΕΓΧΥΣΗΣ (MW),ΜΕΓΙΣΤΗ ΙΣΧΥΣ ΑΠΟΡΡΟΦΗΣΗΣ (MW)
0,2001-02-19,ΔΕΗ ΑΝΑΝΕΩΣΙΜΕΣ ΑΕ,2003-03-04,2028-03-04 00:00:00,ΒΟΡΕΙΟΥ ΑΙΓΑΙΟΥ,ΛΕΣΒΟΥ,ΛΕΣΒΟΥ,ΠΕΤΡΑΣ,ΣΤΥΨΗ/ΠΕΡΙΟΧΗ ΑΡΓΕΝΟΥ,8.0,...,,,NaT,,,,,,,
1,2004-11-18,ΤΕΡΝΑ ΕΝΕΡΓΕΙΑΚΗ ΑΙ ΓΙΩΡΓΗΣ ΑΕ,2006-03-23,2021-03-23 00:00:00,ΑΤΤΙΚΗΣ,ΝΗΣΩΝ,ΥΔΡΑΣ,ΥΔΡΑΣ,ΝΗΣΙΔΑ ΑΓΙΟΣ ΓΕΩΡΓΙΟΣ,45.0,...,,,NaT,,,,,,,
2,2006-01-24,ΑΙΟΛΙΚΑ ΠΑΡΚΑ ΠΑΛΙΟΠΥΡΓΟΣ ΑΕ,2006-10-02,2021-10-02 00:00:00,ΣΤΕΡΕΑΣ ΕΛΛΑΔΟΣ,ΕΥΒΟΙΑΣ,ΚΑΡΥΣΤΟΥ,ΚΑΡΥΣΤΟΥ & ΚΑΦΗΡΕΩΣ,ΠΑΛΙΟΠΥΡΓΟΣ,13.8,...,,,NaT,,,,,,,
3,2005-07-22,ΤΕΡΝΑ ΕΝΕΡΓΕΙΑΚΗ ΑΙ ΓΙΩΡΓΗΣ ΑΕ,2006-10-16,2021-10-16 00:00:00,ΑΤΤΙΚΗΣ,ΝΗΣΩΝ,ΥΔΡΑΣ,ΥΔΡΑΣ,ΝΗΣΙΔΑ ΑΓΙΟΣ ΓΕΩΡΓΙΟΣ,24.0,...,,,NaT,,,,,,,
4,2006-01-24,ΑΙΟΛΙΚΑ ΠΑΡΚΑ ΠΛΑΤΑΝΟΣ ΜΟΝΟΠΡΟΣΩΠΗ ΑΕ,2009-06-16,2034-06-16 00:00:00,ΣΤΕΡΕΑΣ ΕΛΛΑΔΟΣ,ΕΥΒΟΙΑΣ,ΚΑΡΥΣΤΟΥ,ΜΑΡΜΑΡΙΟΥ,ΠΛΑΤΑΝΟΣ,13.8,...,,,NaT,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
115,NaT,ΕΝΕΡΓΕΙΑΚΗ ΚΟΙΝΟΤΗΤΑ ΠΕΡΙΟΡΙΣΜΕΝΗΣ ΕΥΘΥΝΗΣ ΕΔΕ...,NaT,,ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ,ΠΕΛΛΑΣ,,ΕΔΕΣΣΑΣ,ΚΟΤΖΑ ΚΙΣΛΑ,,...,,2023-06-09 14:11:50.818000,2023-12-01 09:15:30,2048-12-01 09:15:30,ΦΩΤΟΒΟΛΤΑΪΚΑ,5.73,5.73,ΣΥΣΣΩΡΕΥΤΕΣ,5.73,5.73
116,NaT,ΒΟΛΤΑΛΙΑ ΕΛΛΑΔΟΣ ΑΝΩΝΥΜΟΣ ΕΤΑΙΡΕΙΑ ΑΝΑΝΕΩΣΙΜΩ...,NaT,,ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ,ΑΙΤΩΛΟΑΚΑΡΝΑΝΙΑΣ,,ΑΣΤΑΚΟΥ,ΠΟΥΡΝΑΡΙΑ,,...,,2023-06-08 16:00:37.335000,2023-12-01 00:00:00,2048-12-01 00:00:00,ΦΩΤΟΒΟΛΤΑΪΚΑ,93,93,ΣΥΣΣΩΡΕΥΤΕΣ,74.00,74.00
117,NaT,ΒΟΛΤΑΛΙΑ ΕΛΛΑΔΟΣ ΑΝΩΝΥΜΟΣ ΕΤΑΙΡΕΙΑ ΑΝΑΝΕΩΣΙΜΩ...,NaT,,ΣΤΕΡΕΑΣ ΕΛΛΑΔΑΣ,ΦΘΙΩΤΙΔΑΣ,,ΞΥΝΙΑΔΑΣ,ΣΠΗΛΙΑ,,...,,2023-10-10 17:19:00,2024-02-19 09:59:00,2049-02-19 00:00:00,ΦΩΤΟΒΟΛΤΑΪΚΑ,6,6,ΣΥΣΣΩΡΕΥΤΕΣ,3.00,3.00
118,NaT,ECOENER HELLAS ΜΟΝΟΠΡΟΣΩΠΗ Α Ε,NaT,,ΘΕΣΣΑΛΙΑΣ,ΜΑΓΝΗΣΙΑΣ,,ΑΛΜΥΡΟΥ,ΑΓΙΟΣ ΙΩΑΝΝΗΣ,,...,,2023-10-09 14:41:00,2024-02-19 10:02:00,2049-02-19 00:00:00,ΦΩΤΟΒΟΛΤΑΪΚΑ,6,6,ΣΥΣΣΩΡΕΥΤΕΣ,20.00,20.00


In [8]:
def assign_naming(df, colnames=None):

    if colnames is None:
        colnames = ['ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ ΑΙΤΗΣΗΣ', 'ΕΤΑΙΡΕΙΑ', 'ΗΜΕΡΟΜΗΝΙΑ ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ',
        'ΗΜΕΡΟΜΗΝΙΑ ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ', 'ΠΕΡΙΦΕΡΕΙΑ', 'ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ',
        'ΔΗΜΟ.* ', 'ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ', 'ΘΕΣΗ', '(MW)', 'ΤΕΧΝΟΛΟΓΙΑ']

    num_columns_to_merge = max(len(df.columns), 13)

    df = df.set_axis(colnames[:num_columns_to_merge], axis='columns')

    return df

In [31]:
# merged_df = assign_naming(merged_df, colnames=None)

In [12]:
merged_df.isna().sum()

ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ ΑΙΤΗΣΗΣ       3426
ΕΤΑΙΡΕΙΑ                           283
ΗΜΕΡΟΜΗΝΙΑ ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ     37021
ΗΜΕΡΟΜΗΝΙΑ ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ    37021
ΠΕΡΙΦΕΡΕΙΑ                         283
ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ             33893
ΔΗΜΟΣ                            37021
ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ                   388
ΘΕΣΗ                               283
ΙΣΧΥΣ (MW)                       37036
ΤΕΧΝΟΛΟΓΙΑ                       20264
ΗΜΕΡ. ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ          40554
ΗΜΕΡ. ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ         68318
Ισχύς ΑΠΕ (MW)                   73304
ΗΜΕΡ. ΕΚΔ. ΑΔ. ΠΑΡΑΓΩΓΗΣ         73823
dtype: int64

In [None]:
# sample_df = merge_dataframes(sample_df[0], sample_df[1])

In [None]:
def convert_to_datetime(df):
    """
    Convert date-like columns in a DataFrame to datetime type.

    Parameters:
    df (DataFrame): Input DataFrame.

    Returns:
    DataFrame: DataFrame with date-like columns converted to datetime type.
    """
    # Copy the DataFrame to avoid modifying the original DataFrame
    df_copy = df.copy()
    
    # Iterate through each column
    for col in df_copy.columns:
        print(f"Attempting column: {col}")
        # Check if the column can be converted to datetime
        try:
            df_copy[col] = pd.to_datetime(df_copy[col], format="%Y-%m-%d")
            print(f"Column {col} transformed succesfully.\n")
        except:
            print(f"Column {col} is incompatible with datetime.\n")
            # If conversion fails, skip to the next column
            continue
    return df_copy

In [None]:
sample_df_dt = convert_to_datetime(sample_df)

Attempting column: ΑΙΤΗΣΗ
Column ΑΙΤΗΣΗ is incompatible with datetime.

Attempting column: ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ ΑΙΤΗΣΗΣ
Column ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ ΑΙΤΗΣΗΣ transformed succesfully.

Attempting column: ΕΤΑΙΡΕΙΑ
Column ΕΤΑΙΡΕΙΑ is incompatible with datetime.

Attempting column: ΑΡ. ΜΗΤΡΩΟΥ ΑΔΕΙΩΝ ΡΑΕ
Column ΑΡ. ΜΗΤΡΩΟΥ ΑΔΕΙΩΝ ΡΑΕ is incompatible with datetime.

Attempting column: ΗΜΕΡΟΜΗΝΙΑ ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ
Column ΗΜΕΡΟΜΗΝΙΑ ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ transformed succesfully.

Attempting column: ΗΜΕΡΟΜΗΝΙΑ ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ
Column ΗΜΕΡΟΜΗΝΙΑ ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ transformed succesfully.

Attempting column: ΠΕΡΙΦΕΡΕΙΑ
Column ΠΕΡΙΦΕΡΕΙΑ is incompatible with datetime.

Attempting column: ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ
Column ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ is incompatible with datetime.

Attempting column: ΔΗΜΟΣ 
Column ΔΗΜΟΣ  is incompatible with datetime.

Attempting column: ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ
Column ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ is incompatible with datetime.

Attempting column: ΘΕΣΗ
Column ΘΕΣΗ is incompatible with datetime.

Attemp

In [None]:
sample_df_dt.head()

Unnamed: 0,ΑΙΤΗΣΗ,ΗΜΕΡΟΜΗΝΙΑ ΥΠΟΒΟΛΗΣ ΑΙΤΗΣΗΣ,ΕΤΑΙΡΕΙΑ,ΑΡ. ΜΗΤΡΩΟΥ ΑΔΕΙΩΝ ΡΑΕ,ΗΜΕΡΟΜΗΝΙΑ ΕΚΔ. ΑΔ.ΠΑΡΑΓΩΓΗΣ,ΗΜΕΡΟΜΗΝΙΑ ΛΗΞΗΣ ΑΔ.ΠΑΡΑΓΩΓΗΣ,ΠΕΡΙΦΕΡΕΙΑ,ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ,ΔΗΜΟΣ,ΔΗΜΟΤΙΚΗ ΕΝΟΤΗΤΑ,ΘΕΣΗ,ΙΣΧΥΣ (MW),ΤΕΧΝΟΛΟΓΙΑ
0,B-00279,2001-02-19,ΔΕΗ ΑΝΑΝΕΩΣΙΜΕΣ ΑΕ,ΑΔ-00488,2003-03-04,2028-03-04,ΒΟΡΕΙΟΥ ΑΙΓΑΙΟΥ,ΛΕΣΒΟΥ,ΛΕΣΒΟΥ,ΠΕΤΡΑΣ,ΣΤΥΨΗ/ΠΕΡΙΟΧΗ ΑΡΓΕΝΟΥ,8.0,ΓΕΩΘΕΡΜΙΑ
1,Γ-00798,2004-11-18,ΤΕΡΝΑ ΕΝΕΡΓΕΙΑΚΗ ΑΙ ΓΙΩΡΓΗΣ ΑΕ,ΑΔ-00911,2006-03-23,2021-03-23,ΑΤΤΙΚΗΣ,ΝΗΣΩΝ,ΥΔΡΑΣ,ΥΔΡΑΣ,ΝΗΣΙΔΑ ΑΓΙΟΣ ΓΕΩΡΓΙΟΣ,45.0,ΑΙΟΛΙΚΑ
2,Γ-01329,2006-01-24,ΑΙΟΛΙΚΑ ΠΑΡΚΑ ΠΑΛΙΟΠΥΡΓΟΣ ΑΕ,ΑΔ-00981,2006-10-02,2021-10-02,ΣΤΕΡΕΑΣ ΕΛΛΑΔΟΣ,ΕΥΒΟΙΑΣ,ΚΑΡΥΣΤΟΥ,ΚΑΡΥΣΤΟΥ & ΚΑΦΗΡΕΩΣ,ΠΑΛΙΟΠΥΡΓΟΣ,13.8,ΑΙΟΛΙΚΑ
3,Γ-01089,2005-07-22,ΤΕΡΝΑ ΕΝΕΡΓΕΙΑΚΗ ΑΙ ΓΙΩΡΓΗΣ ΑΕ,ΑΔ-00989,2006-10-16,2021-10-16,ΑΤΤΙΚΗΣ,ΝΗΣΩΝ,ΥΔΡΑΣ,ΥΔΡΑΣ,ΝΗΣΙΔΑ ΑΓΙΟΣ ΓΕΩΡΓΙΟΣ,24.0,ΑΙΟΛΙΚΑ
4,Γ-01328,2006-01-24,ΑΙΟΛΙΚΑ ΠΑΡΚΑ ΠΛΑΤΑΝΟΣ ΜΟΝΟΠΡΟΣΩΠΗ ΑΕ,ΑΔ-01257,2009-06-16,2034-06-16,ΣΤΕΡΕΑΣ ΕΛΛΑΔΟΣ,ΕΥΒΟΙΑΣ,ΚΑΡΥΣΤΟΥ,ΜΑΡΜΑΡΙΟΥ,ΠΛΑΤΑΝΟΣ,13.8,ΑΙΟΛΙΚΑ


### Automate the whole thing for various files