**Нульова гіпотеза (H₀):**
Середній бал з математики у чоловіків і жінок не відрізняється статистично значущо.

**Альтернативна гіпотеза (H₁):**
Середній бал з математики у чоловіків і жінок відрізняється статистично значущо.

In [None]:
def analyze_gender_math(df, dataset_type, filename, all_results):
    """Аналізує різницю в оцінках з математики за статтю."""
    required_cols = ['math_score_100', 'gender']
    if not all(col in df.columns for col in required_cols):
        print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
        return pd.Series(), pd.Series()

    df_math = df[df['math_score_100'].notna() & df['gender'].isin(['чоловіча', 'жіноча'])]
    male_scores = df_math[df_math['gender'] == 'чоловіча']['math_score_100']
    female_scores = df_math[df_math['gender'] == 'жіноча']['math_score_100']

    result = {'file': filename, 'dataset_type': dataset_type}
    if len(male_scores) >= 30 and len(female_scores) >= 30:
        t_stat, p_value = ttest_ind(male_scores, female_scores, equal_var=False, nan_policy='omit')
        u_stat, u_pval = mannwhitneyu(male_scores, female_scores, alternative='two-sided')
        pooled_std = np.sqrt(((male_scores.std() ** 2) + (female_scores.std() ** 2)) / 2)
        cohen_d = (male_scores.mean() - female_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
        result.update({
            'male_count': len(male_scores), 'female_count': len(female_scores),
            'male_avg': male_scores.mean(), 'female_avg': female_scores.mean(),
            't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
            'u_pval': u_pval, 'u_significant': u_pval < 0.05,'cohen_d': cohen_d
        })
    else:
        result['error'] = f'Недостатньо даних: чоловіків={len(male_scores)}, жінок={len(female_scores)}'

    all_results.append(result)
    return male_scores, female_scores

In [None]:
def analyze_gender_ukrainian(df, dataset_type, filename, all_results):
    """Аналізує різницю в оцінках з україсьнкої за статтю."""
    required_cols = ['ukrainian_score_100', 'gender']
    if not all(col in df.columns for col in required_cols):
        print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
        return pd.Series(), pd.Series()
    
    df_math = df[df['ukrainian_score_100'].notna() & df['gender'].isin(['чоловіча', 'жіноча'])]
    male_scores = df_math[df_math['gender'] == 'чоловіча']['ukrainian_score_100']
    female_scores = df_math[df_math['gender'] == 'жіноча']['ukrainian_score_100']
    
    result = {'file': filename, 'dataset_type': dataset_type}
    if len(male_scores) >= 30 and len(female_scores) >= 30:
        t_stat, p_value = ttest_ind(male_scores, female_scores, equal_var=False, nan_policy='omit')
        u_stat, u_pval = mannwhitneyu(male_scores, female_scores, alternative='two-sided')
        pooled_std = np.sqrt(((male_scores.std() ** 2) + (female_scores.std() ** 2)) / 2)
        cohen_d = (male_scores.mean() - female_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
        result.update({
            'male_count': len(male_scores), 'female_count': len(female_scores),
            'male_avg': male_scores.mean(), 'female_avg': female_scores.mean(),
            't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
            'u_pval': u_pval, 'u_significant': u_pval < 0.05, 'cohen_d': cohen_d
        })
    else:
        result['error'] = f'Недостатньо даних: чоловіків={len(male_scores)}, жінок={len(female_scores)}'
    
    all_results.append(result)
    return male_scores, female_scores

In [None]:
def analyze_gender_history(df, dataset_type, filename, all_results):
    """Аналізує різницю в оцінках з україсьнкої за статтю."""
    required_cols = ['history_score_100', 'gender']
    if not all(col in df.columns for col in required_cols):
        print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
        return pd.Series(), pd.Series()
    
    df_math = df[df['history_score_100'].notna() & df['gender'].isin(['чоловіча', 'жіноча'])]
    male_scores = df_math[df_math['gender'] == 'чоловіча']['history_score_100']
    female_scores = df_math[df_math['gender'] == 'жіноча']['history_score_100']
    
    result = {'file': filename, 'dataset_type': dataset_type}
    if len(male_scores) >= 30 and len(female_scores) >= 30:
        t_stat, p_value = ttest_ind(male_scores, female_scores, equal_var=False, nan_policy='omit')
        u_stat, u_pval = mannwhitneyu(male_scores, female_scores, alternative='two-sided')
        pooled_std = np.sqrt(((male_scores.std() ** 2) + (female_scores.std() ** 2)) / 2)
        cohen_d = (male_scores.mean() - female_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
        result.update({
            'male_count': len(male_scores), 'female_count': len(female_scores),
            'male_avg': male_scores.mean(), 'female_avg': female_scores.mean(),
            't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
            'u_pval': u_pval, 'u_significant': u_pval < 0.05, 'cohen_d': cohen_d
        })
    else:
        result['error'] = f'Недостатньо даних: чоловіків={len(male_scores)}, жінок={len(female_scores)}'
    
    all_results.append(result)
    return male_scores, female_scores

In [None]:
def analyze_gender_english(df, dataset_type, filename, all_results):
    """Аналізує різницю в оцінках з україсьнкої за статтю."""
    required_cols = ['english_score_100', 'gender']
    if not all(col in df.columns for col in required_cols):
        print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
        return pd.Series(), pd.Series()
    
    df_math = df[df['english_score_100'].notna() & df['gender'].isin(['чоловіча', 'жіноча'])]
    male_scores = df_math[df_math['gender'] == 'чоловіча']['english_score_100']
    female_scores = df_math[df_math['gender'] == 'жіноча']['english_score_100']
    
    result = {'file': filename, 'dataset_type': dataset_type}
    if len(male_scores) >= 30 and len(female_scores) >= 30:
        t_stat, p_value = ttest_ind(male_scores, female_scores, equal_var=False, nan_policy='omit')
        u_stat, u_pval = mannwhitneyu(male_scores, female_scores, alternative='two-sided')
        pooled_std = np.sqrt(((male_scores.std() ** 2) + (female_scores.std() ** 2)) / 2)
        cohen_d = (male_scores.mean() - female_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
        result.update({
            'male_count': len(male_scores), 'female_count': len(female_scores),
            'male_avg': male_scores.mean(), 'female_avg': female_scores.mean(),
            't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
            'u_pval': u_pval, 'u_significant': u_pval < 0.05, 'cohen_d': cohen_d
        })
    else:
        result['error'] = f'Недостатньо даних: чоловіків={len(male_scores)}, жінок={len(female_scores)}'
    
    all_results.append(result)
    return male_scores, female_scores

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Завантаження даних
df_2020 = pd.read_csv('filtered_data/2020.csv')
df_2023 = pd.read_csv('filtered_data/2023.csv')

# Фільтрація: тільки ті, хто має оцінку з математики і зазначений гендер
df_2020_math = df_2020[df_2020['math_score_100'].notna() & df_2020['gender'].isin(['чоловіча', 'жіноча'])].copy()
df_2023_math = df_2023[df_2023['math_score_100'].notna() & df_2023['gender'].isin(['чоловіча', 'жіноча'])].copy()

# Створення графіків
plt.figure(figsize=(14, 6))

# 2020
plt.subplot(1, 2, 1)
sns.histplot(
    data=df_2020_math,
    x='math_score_100',
    hue='gender',
    bins=50,
    element='step',
    stat='density',
    common_norm=False,
    palette='Set2'
)
plt.title('Розподіл балів з математики (2020)')
plt.xlabel('Бали')
plt.ylabel('Щільність')

# 2023
plt.subplot(1, 2, 2)
sns.histplot(
    data=df_2023_math,
    x='math_score_100',
    hue='gender',
    bins=50,
    element='step',
    stat='density',
    common_norm=False,
    palette='Set2'
)
plt.title('Розподіл балів з математики (2023)')
plt.xlabel('Бали')
plt.ylabel('Щільність')

# Відображення
plt.tight_layout()
plt.show()


In [None]:
from scipy.stats import ttest_ind, mannwhitneyu
def analyze_abroad_results(df, dataset_type, filename, all_results):
    """Порівнює оцінки з математики за кордоном і в Україні (лише для НМТ)."""
    if dataset_type != 'NMT':
        return pd.Series(), pd.Series()
    
    required_cols = ['math_score_100', 'region_flag']
    if not all(col in df.columns for col in required_cols):
        print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
        return pd.Series(), pd.Series()
    
    df_scores = df[df['average_score'].notna() & df['region_flag'].notna()]
    df_scores['location'] = np.where(df_scores['region_flag'] == 'other', 'За кордоном', 'Україна')

    abroad_scores = df_scores[df_scores['location'] == 'За кордоном']['average_score']
    ukraine_scores = df_scores[df_scores['location'] == 'Україна']['average_score']
    
    result = {'file': filename, 'dataset_type': dataset_type}
    if len(abroad_scores) >= 30 and len(ukraine_scores) >= 30:
        t_stat, p_value = ttest_ind(abroad_scores, ukraine_scores, equal_var=False, nan_policy='omit')
        u_stat, u_pval = mannwhitneyu(abroad_scores, ukraine_scores, alternative='two-sided')
        pooled_std = np.sqrt(((abroad_scores.std() ** 2) + (ukraine_scores.std() ** 2)) / 2)
        cohen_d = (abroad_scores.mean() - ukraine_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
        result.update({
            'abroad_count': len(abroad_scores), 'ukraine_count': len(ukraine_scores),
            'abroad_avg': abroad_scores.mean(), 'ukraine_avg': ukraine_scores.mean(),
            't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
            'u_pval': u_pval, 'u_significant': u_pval < 0.05, 'cohen_d': cohen_d
        })
    else:
        result['error'] = f'Недостатньо даних: за кордоном={len(abroad_scores)}, Україна={len(ukraine_scores)}'
    
    all_results.append(result)
    return abroad_scores, ukraine_scores

In [None]:
# перевірка
import pandas as pd
df = pd.read_csv("filtered_data/2023.csv", low_memory=False)
df_foreign = df[df['region_name'].str.contains("Інші країни", case=False, na=False)]
print(df_foreign)
df_foreign.to_csv("results/2023_foreign_testers.csv", index=False, encoding='utf-8')

In [None]:
# from scipy.stats import spearmanr
# import pandas as pd
# import seaborn as sns
# import matplotlib.pyplot as plt
# import os
# 
# def analyze_subject_correlation(df, dataset_type, filename, all_results):
#     """Аналізує кореляцію між предметами, окремо для 2022 і інших років."""
# 
#     all_subjects = [
#         'ukrainian_score_100', 'math_score_100',
#         'biology_score_100', 'chemistry_score_100', 'physics_score_100',
#         'english_score_100', 'geography_score_100', 'ukrainian_literature_score_100',
#         'history_score_100', 'french_score_100', 'german_score_100', 'spanish_score_100'
#     ]
# 
#     nmt_2022_subjects = ['ukrainian_score_100', 'math_score_100', 'history_score_100']
#     
#     if '2022' in filename and dataset_type == 'NMT':
#         subjects = nmt_2022_subjects
#     else:
#         subjects = all_subjects
#     
# 
#     available_subjects = [s for s in subjects if s in df.columns]
#     print(f"Доступні колонки у {filename}: {df.columns.tolist()}")
#     print(f"Знайдені предмети: {available_subjects}")
#     print(f"Типи даних: {df[available_subjects].dtypes}")
#     
#     if len(available_subjects) < 2:
#         print(f"⚠️ Недостатньо предметів для кореляції у {filename}: {available_subjects}")
#         result = {'file': filename, 'dataset_type': dataset_type, 'error': 'Недостатньо предметів'}
#         all_results.append(result)
#         return pd.DataFrame()
#     
#     result = {'file': filename, 'dataset_type': dataset_type}
#     
#     corr_matrix = df[available_subjects].corr(method='spearman').round(2)
#     if len(df[available_subjects].dropna(how='all')) >= 30:
#         for i, s1 in enumerate(available_subjects):
#             for s2 in available_subjects[i+1:]:
#                 valid_data = df[[s1, s2]].dropna()
#                 if len(valid_data) >= 10:  
#                     corr, pval = spearmanr(valid_data[s1], valid_data[s2])
#                     result[f'{s1.replace("_score_100", "")}_{s2.replace("_score_100", "")}_corr'] = corr
#                     result[f'{s1.replace("_score_100", "")}_{s2.replace("_score_100", "")}_pval'] = pval
#                 else:
#                     result[f'{s1.replace("_score_100", "")}_{s2.replace("_score_100", "")}_corr'] = None
#                     result[f'{s1.replace("_score_100", "")}_{s2.replace("_score_100", "")}_pval'] = None
#         result['corr_matrix'] = corr_matrix
#         
#         # Візуалізація теплової карти
#         plt.figure(figsize=(10, 8))
#         sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
#         plt.title(f'Кореляційна матриця ({dataset_type}, {filename})')
#         plt.savefig(os.path.join('results/graphs', f'corr_matrix_{filename}.png'), dpi=300)
#         plt.close()
#     else:
#         result['error'] = f'Недостатньо даних: {len(df[available_subjects].dropna(how="all"))} записів'
#     
#     all_results.append(result)
#     return df[available_subjects]

In [None]:
# def analyze_additional_subjects(df, dataset_type, filename, all_results):
#     """Визначає частоту вибору додаткових предметів."""
#     subjects = [
#         'biology_score_100', 'chemistry_score_100', 'physics_score_100',
#         'english_score_100', 'geography_score_100', 'ukrainian_literature_score_100',
#         'history_score_100', 'french_score_100', 'german_score_100', 'spanish_score_100',
#     ]
#     counts = {}
#     for subject in subjects:
#         if subject in df.columns:
#             counts[subject.replace('_score_100', '')] = df[subject].notna().sum()
#     
#     result = {'file': filename, 'dataset_type': dataset_type, **counts}
#     all_results.append(result)
#     return counts

In [None]:
def analyze_age_groups(df, dataset_type, filename, all_results):
    """Порівнює оцінки з average_score за віком (17/18)."""
    required_cols = ['average_score', 'student_age']
    if not all(col in df.columns for col in required_cols):
        print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
        return pd.Series(), pd.Series()
    
    df_age = df[df['average_score'].notna() & df['student_age'].isin([17, 18])]
    age_17_scores = df_age[df_age['student_age'] == 17]['average_score']
    age_18_scores = df_age[df_age['student_age'] == 18]['average_score']
    
    result = {'file': filename, 'dataset_type': dataset_type}
    if len(age_17_scores) >= 30 and len(age_18_scores) >= 30:
        t_stat, p_value = ttest_ind(age_17_scores, age_18_scores, equal_var=False, nan_policy='omit')
        u_stat, u_pval = mannwhitneyu(age_17_scores, age_18_scores, alternative='two-sided')
        pooled_std = np.sqrt(((age_17_scores.std() ** 2) + (age_18_scores.std() ** 2)) / 2)
        cohen_d = (age_17_scores.mean() - age_18_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
        result.update({
            'age_17_count': len(age_17_scores), 'age_18_count': len(age_18_scores),
            'age_17_avg': age_17_scores.mean(), 'age_18_avg': age_18_scores.mean(),
            't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
            'u_pval': u_pval, 'u_significant': u_pval < 0.05, 'cohen_d': cohen_d
        })
    else:
        result['error'] = f'Недостатньо даних: 17={len(age_17_scores)}, 18={len(age_18_scores)}'
    
    all_results.append(result)
    return age_17_scores, age_18_scores

In [None]:
# def analyze_age_group(df, dataset_type, filename, all_results):
#     """Порівнює оцінки з average_score за віком (17/18)."""
#     required_cols = ['average_score', 'student_age']
#     if not all(col in df.columns for col in required_cols):
#         print(f"⚠️ Відсутні колонки {required_cols} у {filename}")
#         return pd.Series(), pd.Series()
#     
#     df_age = df[df['average_score'].notna() & df['student_age'].isin([16, 19])]
#     age_16_scores = df_age[df_age['student_age'] == 16]['average_score']
#     age_17_scores = df_age[df_age['student_age'] == 19]['average_score']
#     
#     result = {'file': filename, 'dataset_type': dataset_type}
#     if len(age_16_scores) >= 30 and len(age_17_scores) >= 30:
#         t_stat, p_value = ttest_ind(age_16_scores, age_17_scores, equal_var=False, nan_policy='omit')
#         u_stat, u_pval = mannwhitneyu(age_16_scores, age_17_scores, alternative='two-sided')
#         pooled_std = np.sqrt(((age_16_scores.std() ** 2) + (age_17_scores.std() ** 2)) / 2)
#         cohen_d = (age_16_scores.mean() - age_17_scores.mean()) / pooled_std if pooled_std > 0 else np.nan
#         result.update({
#             'age_17_count': len(age_16_scores), 'age_18_count': len(age_17_scores),
#             'age_17_avg': age_16_scores.mean(), 'age_18_avg': age_17_scores.mean(),
#             't_stat': t_stat, 'p_value': p_value, 'significant': p_value < 0.05, 'u_stat': u_stat,
#             'u_pval': u_pval, 'u_significant': u_pval < 0.05, 'cohen_d': cohen_d
#         })
#     else:
#         result['error'] = f'Недостатньо даних: 17={len(age_16_scores)}, 18={len(age_17_scores)}'
#     
#     all_results.append(result)
#     return age_16_scores, age_17_scores

In [None]:
import os
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind, mannwhitneyu
import chardet
import re
import csv
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Налаштування папок
INPUT_FOLDER = "filtered_data"
RESULTS_FOLDER = "results"
GRAPHS_FOLDER = os.path.join(RESULTS_FOLDER, "graphs")
for folder in [RESULTS_FOLDER, GRAPHS_FOLDER]:
    os.makedirs(folder, exist_ok=True)

sns.set_style("whitegrid")

def detect_encoding(file_path):
    """Визначає кодування файлу."""
    try:
        with open(file_path, 'rb') as f:
            return chardet.detect(f.read(10000))['encoding'] or 'utf-8'
    except Exception as e:
        print(f"Помилка визначення кодування для {file_path}: {e}")
        return 'utf-8'

def detect_separator(file_path, encoding):
    """Визначає роздільник у CSV-файлі."""
    try:
        with open(file_path, encoding=encoding) as f:
            sample = f.read(2048)
            return csv.Sniffer().sniff(sample).delimiter
    except Exception as e:
        print(f"Помилка визначення роздільника для {file_path}: {e}")
        return ','

def load_csv(file_path):
    """Завантажує CSV-файл."""
    encoding = detect_encoding(file_path)
    sep = detect_separator(file_path, encoding)
    print(f"   Кодування: {encoding}, роздільник: '{sep}'")
    
    try:
        df = pd.read_csv(file_path, encoding=encoding, sep=sep, quotechar='"', on_bad_lines='skip')
        print(f"   Перші 5 колонок: {list(df.columns[:5])}")
        return df
    except Exception as e:
        print(f"Помилка читання {file_path}: {e}")
        return None

def detect_dataset_type(filename):
    """Визначає тип датасету за назвою файлу."""
    match = re.search(r'(\d{4})', filename)
    if match:
        year = int(match.group(1))
        return 'NMT' if year >= 2022 else 'ZNO'
    return None

# Збір даних
all_gender_results = []
all_gender_results2 = []
all_gender_results3 = []
all_gender_results4 = []
all_abroad_results = []
all_correlation_results = []
all_subjects_results = []
all_age_results = []

age_results = []


for filename in os.listdir(INPUT_FOLDER):
    if not filename.endswith(".csv"):
        continue
    
    path = os.path.join(INPUT_FOLDER, filename)
    print(f"🔄 Обробка {filename}...")
    
    try:
        df = load_csv(path)
        if df is None or df.empty:
            print(f"⚠️ Файл {filename} порожній або не вдалося завантажити")
            continue
        
        dataset_type = detect_dataset_type(filename)
        if not dataset_type:
            print(f"⚠️ Невідомий тип даних: {filename}")
            continue
        
        print(f"   Завантажено {len(df)} рядків, {len(df.columns)} стовпців")
        
        gender_male, gender_female = analyze_gender_math(df, dataset_type, filename, all_gender_results)
        gender_male2, gender_female2 = analyze_gender_ukrainian(df, dataset_type, filename, all_gender_results2)
        gender_male3, gender_female3 = analyze_gender_history(df, dataset_type, filename, all_gender_results3)
        gender_male4, gender_female4 = analyze_gender_english(df, dataset_type, filename, all_gender_results4)
        abroad_abroad, abroad_ukraine = analyze_abroad_results(df, dataset_type, filename, all_abroad_results)
        # subjects_df = analyze_subject_correlation(df, dataset_type, filename, all_correlation_results)
        # subjects_counts = analyze_additional_subjects(df, dataset_type, filename, all_subjects_results)
        age_17, age_18 = analyze_age_groups(df, dataset_type, filename, all_age_results)
        # age_16, age2_17 = analyze_age_group(df, dataset_type, filename, age_results)
      
    except Exception as e:
        print(f"❌ Помилка у файлі {filename}: {e}")
        import traceback
        traceback.print_exc()

# Збереження результатів по роках
pd.DataFrame(all_gender_results).to_csv(os.path.join(RESULTS_FOLDER, 'gender_math_analysis.csv'), index=False)
pd.DataFrame(all_gender_results2).to_csv(os.path.join(RESULTS_FOLDER, 'gender_ukrainian_analysis.csv'), index=False)
pd.DataFrame(all_gender_results3).to_csv(os.path.join(RESULTS_FOLDER, 'gender_history_analysis.csv'), index=False)
pd.DataFrame(all_gender_results4).to_csv(os.path.join(RESULTS_FOLDER, 'gender_english_analysis.csv'), index=False)
pd.DataFrame(all_abroad_results).to_csv(os.path.join(RESULTS_FOLDER, 'abroad_results_analysis.csv'), index=False)
# pd.DataFrame(all_correlation_results).to_csv(os.path.join(RESULTS_FOLDER, 'subject_correlation_analysis.csv'), index=False)
# pd.DataFrame(all_subjects_results).to_csv(os.path.join(RESULTS_FOLDER, 'additional_subjects_analysis.csv'), index=False)
pd.DataFrame(all_age_results).to_csv(os.path.join(RESULTS_FOLDER, 'age_groups_analysis.csv'), index=False)
# pd.DataFrame(age_results).to_csv(os.path.join(RESULTS_FOLDER, 'age_group(16, 17)_analysis.csv'), index=False)
print(f"\n🎉 Аналіз завершено! Результати збережено в '{RESULTS_FOLDER}'")

In [None]:
print("\n🔄 Генерація графіків...")
# Питання 1: Гендер (по роках)
for result in all_gender_results:
    if 'male_avg' in result and 'female_avg' in result:
        plt.figure(figsize=(8, 6))
        plt.bar(['Чоловіки', 'Жінки'], [result['male_avg'], result['female_avg']],
                color=['#36A2EB', '#FF6384'], edgecolor=['#2E8B57', '#C71585'])
        plt.title(f'Математика за статтю ({result["dataset_type"]}, {result["file"]})')
        plt.ylabel('Середня оцінка (0-200)')
        plt.savefig(os.path.join(GRAPHS_FOLDER, f'gender_math_{result["file"]}.png'), dpi=300, bbox_inches='tight')
        plt.close()

# Питання 2: За кордоном (по роках, лише НМТ)
for result in all_abroad_results:
    if 'abroad_avg' in result and 'ukraine_avg' in result:
        plt.figure(figsize=(8, 6))
        plt.bar(['За кордоном', 'Україна'], [result['abroad_avg'], result['ukraine_avg']],
                color=['#FFCE56', '#4BC0C0'], edgecolor=['#FFD700', '#20B2AA'])
        plt.title(f'Математика за місцем тестування (НМТ, {result["file"]})')
        plt.ylabel('Середня оцінка (0-200)')
        plt.savefig(os.path.join(GRAPHS_FOLDER, f'abroad_results_{result["file"]}.png'), dpi=300, bbox_inches='tight')
        plt.close()


# Питання 3: Кореляція (по роках)
for result in all_correlation_results:
    if 'corr_matrix' in result:
        corr_matrix = result['corr_matrix']
        subjects = [s.replace('_score_100', '') for s in corr_matrix.columns]
        plt.figure(figsize=(10, 8))
        sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0,
                    xticklabels=subjects, yticklabels=subjects)
        plt.title(f'Кореляція предметів ({result["dataset_type"]}, {result["file"]})')
        plt.savefig(os.path.join(GRAPHS_FOLDER, f'subject_correlation_{result["file"]}.png'), dpi=300, bbox_inches='tight')
        plt.close()

# Питання 4: Додаткові предмети (по роках)
for result in all_subjects_results:
    counts = {k: v for k, v in result.items() if k not in ['file', 'dataset_type'] and isinstance(v, (int, float)) and v > 0}
    if counts:
        plt.figure(figsize=(8, 6))
        plt.pie(list(counts.values()), labels=list(counts.keys()), colors=sns.color_palette('pastel'),
                autopct='%1.1f%%')
        plt.title(f'Популярність предметів ({result["dataset_type"]}, {result["file"]})')
        plt.savefig(os.path.join(GRAPHS_FOLDER, f'additional_subjects_{result["file"]}.png'), dpi=300, bbox_inches='tight')
        plt.close()
    else:
        print(f"⚠️ Пропущено графік для {result['file']}: немає коректних даних для предметів ({counts})")

# Питання 5: Вікові групи (по роках)
for result in all_age_results:
    if 'age_17_avg' in result and 'age_18_avg' in result:
        plt.figure(figsize=(8, 6))
        plt.bar(['17 років', '18 років'], [result['age_17_avg'], result['age_18_avg']],
                color=['#FF6384', '#36A2EB'], edgecolor=['#DC143C', '#1E90FF'])
        plt.title(f'Математика за віком ({result["dataset_type"]}, {result["file"]})')
        plt.ylabel('Середня оцінка (0-200)')
        plt.savefig(os.path.join(GRAPHS_FOLDER, f'age_groups_{result["file"]}.png'), dpi=300, bbox_inches='tight')
        plt.close()

print(f"\n🎉 Генерація графіків завершена! Графіки збережено в '{GRAPHS_FOLDER}'")

In [66]:
import pandas as pd
import numpy as np
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import r2_score, mean_squared_error
import matplotlib.pyplot as plt

# Папки
DATA_FOLDER = "filtered_data"
GRAPHS_FOLDER = "results/graphs"
os.makedirs(GRAPHS_FOLDER, exist_ok=True)

# Перелік файлів CSV
csv_files = [f for f in os.listdir(DATA_FOLDER) if f.endswith(".csv")]

# Перелік колонок для оцінок
score_columns = ['math_score_100', 'ukrainian_score_100', 'history_score_100']

# Проходимо всі файли
for file in csv_files:
    path = os.path.join(DATA_FOLDER, file)
    print(f"\n📂 Обробка файлу: {file}")

    # Читання CSV
    df = pd.read_csv(path)

    # Перевірка, чи є потрібні колонки
    required_features = ['territory_type', 'region_name', 'education_org_type', 'gender']
    missing_features = [c for c in required_features if c not in df.columns]
    missing_scores = [c for c in score_columns if c not in df.columns]

    if missing_features:
        print(f"⚠️ Пропущено файл {file}, бо відсутні колонки: {missing_features}")
        continue

    if len(missing_scores) == len(score_columns):
        print(f"⚠️ Пропущено файл {file}, бо немає жодної колонки для оцінок")
        continue

    # Обчислюємо середню оцінку, якщо average_score відсутня
    if 'average_score' not in df.columns:
        available_scores = [c for c in score_columns if c in df.columns]
        df['average_score'] = df[available_scores].mean(axis=1)

    # Видаляємо рядки без середньої оцінки
    df = df.dropna(subset=['average_score'])

    # Цільова змінна
    y = df['average_score']

    # Ознаки
    X_raw = df[required_features]

    # One-hot encoding
    encoder = OneHotEncoder(drop='first', sparse_output=False)
    X_encoded = encoder.fit_transform(X_raw)
    feature_names = encoder.get_feature_names_out(required_features)
    X = pd.DataFrame(X_encoded, columns=feature_names)

    # Розділення на train/test
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )

    # Модель
    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Метрики
    r2 = r2_score(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)

    print(f"🔹 R² Score: {r2:.3f}")
    print(f"🔹 Mean Squared Error: {mse:.2f}")

    # Графік
    plt.figure(figsize=(8, 6))
    plt.scatter(y_test, y_pred, alpha=0.6, color="blue", label="Прогнозовані vs Реальні")
    plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2, label="Ідеальна відповідність")
    plt.xlabel("Реальні оцінки")
    plt.ylabel("Прогнозовані оцінки")222
    plt.title(f"Прогнозування середніх оцінок {file}")
    plt.legend()
    graph_path = os.path.join(GRAPHS_FOLDER, f"prediction_scatter_{file.replace('.csv','')}.png")
    plt.savefig(graph_path, dpi=300, bbox_inches="tight")
    plt.close()

    print(f"✅ Графік збережено: {graph_path}")



📂 Обробка файлу: 2020.csv


  df = pd.read_csv(path)


🔹 R² Score: 0.169
🔹 Mean Squared Error: 443.08
✅ Графік збережено: results/graphs/prediction_scatter_2020.png

📂 Обробка файлу: 2021.csv


  df = pd.read_csv(path)


🔹 R² Score: 0.144
🔹 Mean Squared Error: 463.88
✅ Графік збережено: results/graphs/prediction_scatter_2021.png

📂 Обробка файлу: 2023.csv
🔹 R² Score: 0.161
🔹 Mean Squared Error: 201.97
✅ Графік збережено: results/graphs/prediction_scatter_2023.png

📂 Обробка файлу: 2022.csv


  df = pd.read_csv(path)


🔹 R² Score: 0.153
🔹 Mean Squared Error: 214.73
✅ Графік збережено: results/graphs/prediction_scatter_2022.png

📂 Обробка файлу: 2019.csv


  df = pd.read_csv(path)


🔹 R² Score: 0.169
🔹 Mean Squared Error: 424.28
✅ Графік збережено: results/graphs/prediction_scatter_2019.png

📂 Обробка файлу: 2024.csv
🔹 R² Score: 0.133
🔹 Mean Squared Error: 261.14
✅ Графік збережено: results/graphs/prediction_scatter_2024.png
