## Filtering Data

In [1]:
import pandas as pd
import os
import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        return chardet.detect(f.read(10000))['encoding']

input_folder = "transformed_data"
output_folder = "filtered_data"
os.makedirs(output_folder, exist_ok=True)

for filename in os.listdir(input_folder):
    if filename.endswith(".csv"):
        input_path = os.path.join(input_folder, filename)
        output_path = os.path.join(output_folder, filename)
        
        print(f"🔄 Фільтрація {filename}...")
        
        try:
            encoding = detect_encoding(input_path)
            df = pd.read_csv(input_path, encoding=encoding, low_memory=False)
            
            if 'subjects_count' not in df.columns or 'total_score' not in df.columns or 'average_score' not in df.columns:
                print(f"⚠️ У файлі {filename} відсутні необхідні стовпці (subjects_count/total_score/average_score)")
                continue

            initial_count = len(df)
            # Фільтрація: subjects_count >= 3, total_score > subjects_count * 100, average_score > 100
            filtered_df = df[(df['subjects_count'] >= 3) & 
                            (df['total_score'] > df['subjects_count'] * 100) & 
                            (df['average_score'] > 100)]
            new_count = len(filtered_df)
            
            filtered_df.to_csv(output_path, index=False, encoding='utf-8')
            print(f"✅ Збережено фільтрований файл: {output_path}")
            print(f"   Залишено рядків: {new_count}/{initial_count} ({new_count/initial_count:.1%})")
            
        except Exception as e:
            print(f"❌ Критична помилка у файлі {filename}: {str(e)}")

print("\n🎉 Фільтрацію завершено! Результати збережено у папці 'filtered_data'")

🔄 Фільтрація 2020.csv...
✅ Збережено фільтрований файл: filtered_data/2020.csv
   Залишено рядків: 201212/379299 (53.0%)
🔄 Фільтрація 2021.csv...
✅ Збережено фільтрований файл: filtered_data/2021.csv
   Залишено рядків: 188609/389323 (48.4%)
🔄 Фільтрація 2023.csv...
✅ Збережено фільтрований файл: filtered_data/2023.csv
   Залишено рядків: 256313/288935 (88.7%)
🔄 Фільтрація 2022.csv...
✅ Збережено фільтрований файл: filtered_data/2022.csv
   Залишено рядків: 213647/234104 (91.3%)
🔄 Фільтрація 2019.csv...
✅ Збережено фільтрований файл: filtered_data/2019.csv
   Залишено рядків: 172734/353813 (48.8%)
🔄 Фільтрація 2024.csv...
✅ Збережено фільтрований файл: filtered_data/2024.csv
   Залишено рядків: 264164/312508 (84.5%)

🎉 Фільтрацію завершено! Результати збережено у папці 'filtered_data'


In [2]:
df = pd.read_csv("filtered_data/2022.csv")

  df = pd.read_csv("filtered_data/2022.csv")


In [15]:
df

Unnamed: 0,id,birth_year,gender,region_name,area_name,territory_name,region_type,territory_type,education_org_name,education_org_type,...,pt_area_name,pt_territory_name,ukrainian_test_status,history_test_status,math_test_status,student_age,region_flag,subjects_count,total_score,average_score
0,d60381f3-8d71-441e-817e-49b9fa8b43dd,2005,чоловіча,Львівська область,Яворівський район,с.Гусаків,Випускник закладу загальної середньої освіти 2...,"селище, село","Гусаківський навчально-виховний комплекс ""Зага...",навчально-виховний комплекс,...,"м.Львів, Залізничний район міста",Залізничний район міста,Зараховано,Зараховано,Зараховано,17,west,3,417.0,139.000000
1,eb25a9fc-b757-4321-a2b4-ebb1b635397d,2005,чоловіча,Львівська область,Яворівський район,с.Гусаків,Випускник закладу загальної середньої освіти 2...,"селище, село","Гусаківський навчально-виховний комплекс ""Зага...",навчально-виховний комплекс,...,"м.Львів, Залізничний район міста",Залізничний район міста,Зараховано,Зараховано,Зараховано,17,west,3,422.0,140.666667
2,1cb161bd-51ed-4d24-b605-1d45db63cada,2005,жіноча,Львівська область,Яворівський район,с.Гусаків,Випускник закладу загальної середньої освіти 2...,"селище, село","Гусаківський навчально-виховний комплекс ""Зага...",навчально-виховний комплекс,...,"м.Львів, Залізничний район міста",Залізничний район міста,Зараховано,Зараховано,Зараховано,17,west,3,512.0,170.666667
3,0311b8d8-67bb-49a4-a0b9-f049b7ef4184,2005,жіноча,Львівська область,Яворівський район,с.Гусаків,Випускник закладу загальної середньої освіти 2...,"селище, село","Гусаківський навчально-виховний комплекс ""Зага...",навчально-виховний комплекс,...,"м.Львів, Залізничний район міста",Залізничний район міста,Зараховано,Зараховано,Зараховано,17,west,3,448.0,149.333333
4,a8b35a53-feac-4e42-aed8-8d6ffab7decf,2005,чоловіча,Львівська область,Яворівський район,с.Гусаків,Випускник закладу загальної середньої освіти 2...,"селище, село","Гусаківський навчально-виховний комплекс ""Зага...",навчально-виховний комплекс,...,"м.Львів, Залізничний район міста",Залізничний район міста,Зараховано,Зараховано,Зараховано,17,west,3,454.0,151.333333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
213642,9299d8e9-5193-4e13-bc64-440a65107e6d,2005,жіноча,Волинська область,Володимирський район,с.Заболотці,Випускник закладу загальної середньої освіти 2...,"селище, село",Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,...,м.Нововолинськ,м.Нововолинськ,Зараховано,Зараховано,Зараховано,17,north,3,430.0,143.333333
213643,6cbe3454-80f0-42b5-8d6d-c2ead687d804,2005,чоловіча,Волинська область,Володимирський район,с.Заболотці,Випускник закладу загальної середньої освіти 2...,"селище, село",Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,...,м.Нововолинськ,м.Нововолинськ,Зараховано,Зараховано,Зараховано,17,north,3,424.0,141.333333
213644,b897557b-c01b-49d4-8624-b351aaafe5ff,2005,жіноча,Волинська область,Володимирський район,с.Заболотці,Випускник закладу загальної середньої освіти 2...,"селище, село",Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,...,м.Нововолинськ,м.Нововолинськ,Зараховано,Зараховано,Зараховано,17,north,3,516.0,172.000000
213645,dcec644b-dcec-47ee-9971-6beebd1a929b,2005,чоловіча,Волинська область,Володимирський район,с.Заболотці,Випускник закладу загальної середньої освіти 2...,"селище, село",Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,...,м.Нововолинськ,м.Нововолинськ,Зараховано,Зараховано,Зараховано,17,north,3,463.0,154.333333


## Aggregeation by each year and category

In [3]:
import pandas as pd
import os
import chardet
import re

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        return chardet.detect(f.read(10000))['encoding']

def categorize_age(age):
    if pd.isna(age):
        return 'Н/Д'
    age = int(age)  
    if age <= 16:
        return '16 and less'
    elif age == 17:
        return '17'
    elif age == 18:
        return '18'
    elif age == 19:
        return '19'
    else:
        return '20 and more'

def aggregate_data(df, group_col, year):
    required_cols = [group_col, 'subjects_count', 'total_score', 'average_score', 'year']
    missing_cols = [col for col in required_cols if col not in df.columns]
    if missing_cols:
        print(f"⚠️ У даних відсутні стовпці: {missing_cols}")
        return None

    df_year = df[df['year'] == year].copy()

    if group_col == 'student_age':
        df_year['student_age'] = df_year['student_age'].apply(categorize_age)

    aggregated_df = df_year.groupby(group_col).agg(
        total_students=('subjects_count', 'count'), 
        total_score_sum=('total_score', 'sum'),
        avg_score_mean=('average_score', 'mean')
    ).reset_index()

    total_rows = len(df_year)
    total_students_sum = aggregated_df['total_students'].sum()
    print(f"Діагностика для {group_col}_{year}:")
    print(f"  Загальна кількість рядків у датасеті: {total_rows}")
    print(f"  Сума total_students: {total_students_sum}")

    return aggregated_df

def extract_year_from_filename(filename):
    match = re.search(r'(\d{4})\.csv', filename)
    return int(match.group(1)) if match else None

def process_and_aggregate_data(input_folder="filtered_data", output_folder="aggregated_data"):
    os.makedirs(output_folder, exist_ok=True)

    subfolders = ['age', 'gender', 'region', 'territory']
    for subfolder in subfolders:
        os.makedirs(os.path.join(output_folder, subfolder), exist_ok=True)

    available_years = set()
    for filename in os.listdir(input_folder):
        if filename.endswith(".csv"):
            year = extract_year_from_filename(filename)
            if year:
                available_years.add(year)

    if not available_years:
        print("⚠️ Не знайдено файлів із роками в назвах")
        return

    for filename in os.listdir(input_folder):
        if filename.endswith(".csv"):
            input_path = os.path.join(input_folder, filename)
            year = extract_year_from_filename(filename)
            if year not in available_years:
                continue
            print(f"🔄 Обробка {filename} (рік: {year})...")
            
            try:
                encoding = detect_encoding(input_path)
                df = pd.read_csv(input_path, encoding=encoding, low_memory=False)
                
                initial_count = len(df)
                filtered_df = df[
                    (df['subjects_count'] >= 3) & 
                    (df['total_score'] > 0) & 
                    (df['average_score'] > 100)
                ]
                new_count = len(filtered_df)
                
                if new_count == 0:
                    print(f"⚠️ У файлі {filename} немає даних після фільтрації")
                    continue

                filtered_df['year'] = year

                for subfolder, group_col in [('age', 'student_age'), ('gender', 'gender'), 
                                          ('region', 'region_flag'), ('territory', 'territory_type')]:
                    aggregated_df = aggregate_data(filtered_df, group_col, year)
                    if aggregated_df is not None:
                        output_path = os.path.join(output_folder, subfolder, f"{group_col}_{year}.csv")
                        aggregated_df.to_csv(output_path, index=False, encoding='utf-8')
                        print(f"✅ Збережено таблицю для {subfolder}/{group_col}_{year}.csv")
                        print(f"   Агреговано груп: {len(aggregated_df)}")
                        print(f"   Загальна кількість студентів: {aggregated_df['total_students'].sum()}")

                print(f"   Залишено рядків: {new_count}/{initial_count} ({new_count/initial_count:.1%})")

            except Exception as e:
                print(f"❌ Критична помилка у файлі {filename}: {str(e)}")

    print("\n🎉 Обробку та агрегацію завершено! Результати збережено у папці 'aggregated_data'")


process_and_aggregate_data()

🔄 Обробка 2020.csv (рік: 2020)...
Діагностика для student_age_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для age/student_age_2020.csv
   Агреговано груп: 5
   Загальна кількість студентів: 201212
Діагностика для gender_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для gender/gender_2020.csv
   Агреговано груп: 2
   Загальна кількість студентів: 201212
Діагностика для region_flag_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для region/region_flag_2020.csv
   Агреговано груп: 6
   Загальна кількість студентів: 201212
Діагностика для territory_type_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для territory/territory_type_2020.csv
   Агреговано груп: 2
   Загальна кількість студентів: 201212
   Залишено рядків: 201212/201212 (100.0%)
🔄 Обробка 2021.csv (рік: 20

## Total Aggregation by ctegory

In [5]:
import pandas as pd
import os
import chardet
import re

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        return chardet.detect(f.read(10000))['encoding']

def aggregate_data(df, category, year=None):
    """
    Агрегує дані за категорією, обчислюючи середнє average_score.
    
    Параметри:
        df (pd.DataFrame): Вихідний DataFrame з даними.
        category (str): Назва колонки для групування (gender, student_age, territory_type, region_flag).
        year (str, optional): Рік для фільтрації, якщо потрібен.
    
    Повертає:
        pd.DataFrame: Агреговані дані.
    """
    # Фільтрація за роком, якщо вказано
    if year:
        df = df[df['year'] == year]
    
    # Групування за категорією та обчислення середнього average_score
    agg_df = df.groupby(category)['average_score'].agg(['mean', 'count']).reset_index()
    agg_df = agg_df.rename(columns={'mean': 'mean_average_score', 'count': 'record_count'})
    
    # Округлення середнього балу до 2 знаків
    agg_df['mean_average_score'] = agg_df['mean_average_score'].round(2)
    
    return agg_df

def merge_and_aggregate_data(input_folder="filtered_data", output_folder="aggregated_data"):
    subfolders = ['age', 'gender', 'territory', 'region']
    for subfolder in subfolders:
        os.makedirs(os.path.join(output_folder, subfolder), exist_ok=True)

    merged_dfs = {
        'gender': pd.DataFrame(),
        'student_age': pd.DataFrame(),
        'territory_type': pd.DataFrame(),  
        'region_flag': pd.DataFrame()     
    }

    def extract_year_from_filename(filename):
        match = re.search(r'(\d{4})', filename)
        return match.group(1) if match else None

    # Обробка кожного файлу в input_folder
    for filename in os.listdir(input_folder):
        if filename.endswith(".csv"):
            input_path = os.path.join(input_folder, filename)
            year = extract_year_from_filename(filename)
            if year:
                print(f"🔄 Обробка {filename} (рік: {year})...")
                
                try:
                    encoding = detect_encoding(input_path)
                    df = pd.read_csv(input_path, encoding=encoding, low_memory=False)
                    
                    # Вибираємо лише потрібні колонки
                    relevant_cols = ['student_age', 'gender', 'region_flag', 'territory_type', 
                                   'subjects_count', 'total_score', 'average_score']
                    df = df[relevant_cols].copy()
                    
                    # Додаємо рік
                    df['year'] = year
                    
                    # Об’єднуємо з відповідними DataFrame
                    for category, group_col in [('gender', 'gender'), ('student_age', 'student_age'), 
                                              ('territory', 'territory_type'), ('region', 'region_flag')]:
                        if merged_dfs[group_col].empty:
                            merged_dfs[group_col] = df
                        else:
                            merged_dfs[group_col] = pd.concat([merged_dfs[group_col], df], ignore_index=True)

                except Exception as e:
                    print(f"❌ Критична помилка у файлі {filename}: {str(e)}")

    # Агрегація для кожної категорії та збереження в існуючі папки
    output_files = {
        'gender': 'aggregated.csv',
        'student_age': 'aggregated.csv',
        'region_flag': 'aggregated.csv',
        'territory_type': 'aggregated.csv'
    }

    for category, df in merged_dfs.items():
        if not df.empty:
            # Визначаємо правильну назву папки для збереження
            subfolder_map = {
                'gender': 'gender',
                'student_age': 'age',
                'region_flag': 'region',
                'territory_type': 'territory'
            }
            subfolder = os.path.join(output_folder, subfolder_map[category])
            agg_df = aggregate_data(df, category)  # Виклик без року, оскільки агрегація по всім рокам
            if agg_df is not None:
                output_path = os.path.join(subfolder, output_files[category])
                agg_df.to_csv(output_path, index=False, encoding='utf-8')
                print(f"✅ Збережено таблицю для {category}: {output_path}")
                print(f"   Загальна кількість рядків: {len(agg_df)}")
        else:
            print(f"⚠️ Дані для {category} відсутні")

    print("\n🎉 Об’єднання та агрегацію завершено! Результати збережено у папках 'aggregated_data'")

# Виклик функції
if __name__ == "__main__":
    merge_and_aggregate_data()

🔄 Обробка 2020.csv (рік: 2020)...
🔄 Обробка 2021.csv (рік: 2021)...
🔄 Обробка 2023.csv (рік: 2023)...
🔄 Обробка 2022.csv (рік: 2022)...
🔄 Обробка 2019.csv (рік: 2019)...
🔄 Обробка 2024.csv (рік: 2024)...
✅ Збережено таблицю для gender: aggregated_data/gender/aggregated.csv
   Загальна кількість рядків: 2
✅ Збережено таблицю для student_age: aggregated_data/age/aggregated.csv
   Загальна кількість рядків: 55
✅ Збережено таблицю для territory_type: aggregated_data/territory/aggregated.csv
   Загальна кількість рядків: 5
✅ Збережено таблицю для region_flag: aggregated_data/region/aggregated.csv
   Загальна кількість рядків: 6

🎉 Об’єднання та агрегацію завершено! Результати збережено у папках 'aggregated_data'
