**Deze code test verschillende woorden/ woordgroepen om statistsche vragen te definiëren.**

In [67]:
import pandas as pd
import re

# Load the Excel file
file_path = "Methodology tests.xlsx"  # Update if needed
xls = pd.ExcelFile(file_path)
df = xls.parse('Sheet1')

# Convert the first column (questions) to string to avoid errors
df.iloc[:, 0] = df.iloc[:, 0].astype(str)

# Define statistical patterns for Sets 2, 3, 4, and 5
statistical_sets = {
    "Set 1": [
        r"\b(hoeveel|aantal|percentage van|percentage|cijfer over|data over|statistieken van)\b",
        r"\b(trend in|evolutie van|groei van|toename van|afname van|ontwikkeling van)\b",
        r"\b(?:verschaffen|geven|tonen|lijst|overzicht van)?\s*(de|een)?\s*(gegevens|statistieken|cijfers)\b"
    ],
    "Set 2": [
        r"\b(hoe vaak|hoe groot|gemiddelde van|mediaan van|ratio van|procent van)\b",
        r"\b(stijging van|daling van|verandering in|ontwikkeling in|schommeling van|impact op)\b",
        r"\b(?:verschaffen|geven|tonen|lijst|overzicht van|analyse van)?\s*(de|een)?\s*(cijfers|gegevens|statistieken|tellingen)\b"
    ],
    "Set 3": [
        r"\b(bruto|netto|inkomen|uitgaven|begroting|subsidies|belasting|tarief|BBP|inflatie|schulden|werkloosheid|bestedingen|consumptie)\b",
        r"\b(bevolking|leeftijdsgroep|demografie|migratie|emigratie|immigratie|huishoudens|gezinnen|verhouding tussen|dichtheid)\b",
        r"\b(aantal|hoeveelheid|grootte van|gemiddelde|mediaan|percentage|spreiding|percentiel|kwartiel|standaarddeviatie)\b"
    ],
    "Set 4": [
        r"\b(zorgkosten|patiënten|ziekenhuisopnames|sterftecijfers|levensverwachting|gezondheidsuitgaven|vaccinaties|epidemieën|medicatiegebruik)\b",
        r"\b(reistijd|filedruk|kilometers afgelegd|verkeersongevallen|CO2-uitstoot|luchtvervuiling|hernieuwbare energie|klimaatverandering|waterkwaliteit)\b",
        r"\b(grondprijzen|woningmarkt|huurprijzen|hypotheken|verkoopcijfers|bouwvergunningen|energieverbruik)\b"
    ],
    "Set 5": [
        r"\b(vergeleken met|ten opzichte van|in vergelijking met|in het verleden|sinds \d{4}|tussen \d{4} en \d{4})\b",
        r"\b(ontwikkeling sinds|historische gegevens|trendanalyse|jaarverslagen|statistische rapporten)\b"
    ],
    "Set 6": [
        r"\b(hoeveel|aantal|percentage|statistieken|cijfers|gegevens|data)\b",
        r"\b(trend in|evolutie van|groei van|toename van|afname van|ontwikkeling van)\b",
        r"\b(per\s+\w+|per\s+\d+|in\s+\d{4}|tussen\s+\d{4}\s+en\s+\d{4})\b",  
        r"\b(wat is het aantal|hoe groot is|hoe vaak|gemiddelde van|ratio van)\b"
    ],
    "Set 7": [
        r"^(Wat is het aantal|Hoeveel)\b",
        r"\b(totale budget|welk budget|eenzelfde hoogte|gemiddeld aantal|geëvolueerd in de periode|jaarlijkse kostprijs |het aantal)\b",
        r"\b(bedroeg|welk|Kan de minister|wat was)\s*(de|een)?\s*(factuur|budget|overzicht|kostprijs)\b",
        r"\b(?:verschaffen|geven|tonen|lijst|overzicht van|bedroeg)?\s*(de|een)?\s*(gegevens|statistieken|cijfers|factuur|overzicht)\b"
    ],
    "Set 8": [
        r"^(Wat is het aantal|Hoeveel)\b", # zin moet beginnen met 
        r"\b(totale budget|welk budget|cijfer over|eenzelfde hoogte|gemiddeld aantal|geëvolueerd in de periode|jaarlijkse kostprijs|het aantal)\b", #zin moet bevatten
        r"\b(bedroeg|welk|Kan de minister|wat was)\s*(de|een)?\s*(factuur|budget|overzicht|kostprijs)\b", #zin moet iets uit eerste en laatse groep bevatten, "de" en "een" zijn optioneel
        r"\b(?:verschaffen|geven|tonen|lijst|overzicht van|bedroeg)?\s*(de|een)?\s*(gegevens|statistieken|cijfers|factuur|overzicht)\b"#zin moet iets uit tweede groep bevatten, eerste optioneel
    ],
    "Set 9": [
        r"^(Hoeveel)\b"
    ]
    
}

# Function to check if a question is statistical based on a pattern set
def is_statistical(question, patterns):
    return int(any(re.search(pattern, question, re.IGNORECASE) for pattern in patterns))

# Apply each statistical set and store results in separate columns
for set_name, patterns in statistical_sets.items():
    df[set_name] = df.iloc[:, 0].apply(lambda q: is_statistical(q, patterns))

# Trim df if necessary (to match the length of classifications)
df = df.iloc[:len(df)]

# Save the updated DataFrame to a new Excel file
output_file = "Updated_Methodology_Test.xlsx"
df.to_excel(output_file, index=False, engine="openpyxl")

print(f"✅ Statistical classifications added and saved successfully to: {output_file}")


✅ Statistical classifications added and saved successfully to: Updated_Methodology_Test.xlsx
