In [1]:
import pandas as pd
import os
import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        return chardet.detect(f.read(10000))['encoding']

input_folder = "transformed_data"
output_folder = "filtered_data"
os.makedirs(output_folder, exist_ok=True)

for filename in os.listdir(input_folder):
    if filename.endswith(".csv"):
        input_path = os.path.join(input_folder, filename)
        output_path = os.path.join(output_folder, filename)
        
        print(f"🔄 Фільтрація {filename}...")
        
        try:
            encoding = detect_encoding(input_path)
            df = pd.read_csv(input_path, encoding=encoding, low_memory=False)
            
            if 'subjects_count' not in df.columns or 'total_score' not in df.columns:
                print(f"⚠️ У файлі {filename} відсутні необхідні стовпці (subjects_count/total_score)")
                continue

            # Фільтрація даних
            initial_count = len(df)
            filtered_df = df[(df['subjects_count'] >= 3) & (df['total_score'] > 0) & (df["average_score"]> 100)]
            new_count = len(filtered_df)
            
            # Збереження результату
            filtered_df.to_csv(output_path, index=False, encoding='utf-8')
            print(f"✅ Збережено фільтрований файл: {output_path}")
            print(f"   Залишено рядків: {new_count}/{initial_count} ({new_count/initial_count:.1%})")
            
        except Exception as e:
            print(f"❌ Критична помилка у файлі {filename}: {str(e)}")

print("\n🎉 Фільтрацію завершено! Результати збережено у папці 'filtered_data'")

🔄 Фільтрація 2020.csv...
✅ Збережено фільтрований файл: filtered_data/2020.csv
   Залишено рядків: 201212/379299 (53.0%)
🔄 Фільтрація 2021.csv...
✅ Збережено фільтрований файл: filtered_data/2021.csv
   Залишено рядків: 188609/389323 (48.4%)
🔄 Фільтрація 2023.csv...
✅ Збережено фільтрований файл: filtered_data/2023.csv
   Залишено рядків: 256313/288935 (88.7%)
🔄 Фільтрація 2019.csv...
✅ Збережено фільтрований файл: filtered_data/2019.csv
   Залишено рядків: 172734/353813 (48.8%)
🔄 Фільтрація 2024.csv...
✅ Збережено фільтрований файл: filtered_data/2024.csv
   Залишено рядків: 264164/312508 (84.5%)

🎉 Фільтрацію завершено! Результати збережено у папці 'filtered_data'


In [7]:
df = pd.read_csv("filtered_data/2019.csv")

  df = pd.read_csv("filtered_data/2019.csv")


In [8]:
df

Unnamed: 0,id,birth_year,gender,region_name,area_name,territory_name,region_type,territory_type,class_profile,class_language,...,spanish_score,spanish_pt_name,spanish_pt_region,spanish_pt_area,spanish_pt_territory,student_age,region_flag,subjects_count,total_score,average_score
0,2e8b9de3-8806-415a-bad1-be822ef8a042,2001,жіноча,Кіровоградська область,Добровеличківський район,м.Помічна,Випускник закладу загальної середньої освіти 2...,місто,Історичний,українська,...,,,,,,18,central,4,596.0,149.000000
1,eb149a7d-984e-4295-807c-12538b83b2d5,2002,жіноча,Донецька область,Волноваський район,смт Володимирівка,Випускник закладу загальної середньої освіти 2...,місто,Інформаційно-технологічний,російська,...,,,,,,17,east,4,584.0,146.000000
2,46a12d3d-00d5-4d22-aea1-c2a2adf3d1d4,2002,жіноча,Хмельницька область,Дунаєвецький район,с.Балин,Випускник закладу загальної середньої освіти 2...,село,Української філології,українська,...,,,,,,17,central,4,609.0,152.250000
3,afb32f61-5ef9-494a-b4cc-5fd59c32d0ea,2002,жіноча,Дніпропетровська область,Верхньодніпровський район,с.Пушкарівка,Випускник закладу загальної середньої освіти 2...,село,Історичний,українська,...,,,,,,17,east,3,583.0,194.333333
4,e25070fc-0bf7-4bdd-8e5c-ba081c277188,2002,чоловіча,Рівненська область,Рівненська область,м.Вараш,Випускник закладу загальної середньої освіти 2...,місто,Універсальний,українська,...,,,,,,17,north,4,556.0,139.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172729,d26b66ab-3586-4703-890a-3742d3c4e2c7,2000,жіноча,Чернігівська область,Менський район,с.Покровське,Випускник закладу загальної середньої освіти 2...,село,Універсальний,українська,...,,,,,,19,north,4,535.0,133.750000
172730,ffc73e22-2c29-43e6-85cc-55f7df284ebb,2002,чоловіча,Одеська область,Одеська область,м.Ізмаїл,Випускник закладу загальної середньої освіти 2...,місто,Фізико-математичний,українська,...,,,,,,17,south,4,667.0,166.750000
172731,7042a6c0-5da6-4b93-b2bd-482c4207a632,2001,чоловіча,Київська область,Переяслав-Хмельницький район,с.Єрківці,Випускник закладу загальної середньої освіти 2...,село,Універсальний,українська,...,,,,,,18,central,4,657.0,164.250000
172732,a0665ad0-2a9a-4215-bd15-e30445cad15b,2001,жіноча,Запорізька область,м.Запоріжжя,Дніпровський район міста,Випускник закладу загальної середньої освіти 2...,місто,Інший(багатопрофільність),українська,...,,,,,,18,south,4,742.0,185.500000


In [12]:
import pandas as pd
import os
import chardet
import re

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        return chardet.detect(f.read(10000))['encoding']

def categorize_age(age):
    if pd.isna(age):
        return 'Н/Д'
    age = int(age)  
    if age <= 16:
        return '16 and less'
    elif age == 17:
        return '17'
    elif age == 18:
        return '18'
    elif age == 19:
        return '19'
    else:
        return '20 and more'

def aggregate_data(df, group_col, year):
    required_cols = [group_col, 'subjects_count', 'total_score', 'average_score', 'year']
    missing_cols = [col for col in required_cols if col not in df.columns]
    if missing_cols:
        print(f"⚠️ У даних відсутні стовпці: {missing_cols}")
        return None

    df_year = df[df['year'] == year].copy()

    if df_year.empty:
        result_df = pd.DataFrame(columns=[group_col, 'total_students', 'score_sum', 'avg_score'])
        result_df[group_col] = df[group_col].unique() if not df.empty else []
        return result_df

    if group_col == 'student_age':
        df_year['student_age'] = df_year['student_age'].apply(categorize_age)

    aggregated_df = df_year.groupby(group_col).agg(
        total_students=('subjects_count', 'count'), 
        total_score_sum=('total_score', 'sum'),
        avg_score_mean=('average_score', 'mean')
    ).reset_index()

    total_rows = len(df_year)
    total_students_sum = aggregated_df['total_students'].sum()
    print(f"Діагностика для {group_col}_{year}:")
    print(f"  Загальна кількість рядків у датасеті: {total_rows}")
    print(f"  Сума total_students: {total_students_sum}")

    return aggregated_df

def extract_year_from_filename(filename):
    match = re.search(r'(\d{4})\.csv', filename)
    return int(match.group(1)) if match else None

def process_and_aggregate_data(input_folder="filtered_data", output_folder="aggregated_data"):
    os.makedirs(output_folder, exist_ok=True)

    subfolders = ['age', 'gender', 'region', 'territory']
    for subfolder in subfolders:
        os.makedirs(os.path.join(output_folder, subfolder), exist_ok=True)

    available_years = set()
    for filename in os.listdir(input_folder):
        if filename.endswith(".csv"):
            year = extract_year_from_filename(filename)
            if year:
                available_years.add(year)

    if not available_years:
        print("⚠️ Не знайдено файлів із роками в назвах")
        return

    for filename in os.listdir(input_folder):
        if filename.endswith(".csv"):
            input_path = os.path.join(input_folder, filename)
            year = extract_year_from_filename(filename)
            if year not in available_years:
                continue
            print(f"🔄 Обробка {filename} (рік: {year})...")
            
            try:
                encoding = detect_encoding(input_path)
                df = pd.read_csv(input_path, encoding=encoding, low_memory=False)
                
                initial_count = len(df)
                filtered_df = df[
                    (df['subjects_count'] >= 3) & 
                    (df['total_score'] > 0) & 
                    (df['average_score'] > 100)
                ]
                new_count = len(filtered_df)
                
                if new_count == 0:
                    print(f"⚠️ У файлі {filename} немає даних після фільтрації")
                    continue

                filtered_df['year'] = year

                for subfolder, group_col in [('age', 'student_age'), ('gender', 'gender'), 
                                          ('region', 'region_flag'), ('territory', 'territory_type')]:
                    aggregated_df = aggregate_data(filtered_df, group_col, year)
                    if aggregated_df is not None:
                        output_path = os.path.join(output_folder, subfolder, f"{group_col}_{year}.csv")
                        aggregated_df.to_csv(output_path, index=False, encoding='utf-8')
                        print(f"✅ Збережено таблицю для {subfolder}/{group_col}_{year}.csv")
                        print(f"   Агреговано груп: {len(aggregated_df)}")
                        print(f"   Загальна кількість студентів: {aggregated_df['total_students'].sum()}")

                print(f"   Залишено рядків: {new_count}/{initial_count} ({new_count/initial_count:.1%})")

            except Exception as e:
                print(f"❌ Критична помилка у файлі {filename}: {str(e)}")

    print("\n🎉 Обробку та агрегацію завершено! Результати збережено у папці 'aggregated_data'")


process_and_aggregate_data()

🔄 Обробка 2020.csv (рік: 2020)...
Діагностика для student_age_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для age/student_age_2020.csv
   Агреговано груп: 5
   Загальна кількість студентів: 201212
Діагностика для gender_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для gender/gender_2020.csv
   Агреговано груп: 2
   Загальна кількість студентів: 201212
Діагностика для region_flag_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для region/region_flag_2020.csv
   Агреговано груп: 6
   Загальна кількість студентів: 201212
Діагностика для territory_type_2020:
  Загальна кількість рядків у датасеті: 201212
  Сума total_students: 201212
✅ Збережено таблицю для territory/territory_type_2020.csv
   Агреговано груп: 2
   Загальна кількість студентів: 201212
   Залишено рядків: 201212/201212 (100.0%)
🔄 Обробка 2021.csv (рік: 20

In [18]:
import pandas as pd
import os
import chardet
import re

# Функція для визначення кодування файлу
def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        return chardet.detect(f.read(10000))['encoding']

# Функція для класифікації віку
def categorize_age(age):
    if pd.isna(age):
        return 'Н/Д'
    age = int(age)  # Переводимо в ціле число, якщо це можливо
    if age <= 16:
        return '16 and less'
    elif age == 17:
        return '17'
    elif age == 18:
        return '18'
    elif age == 19:
        return '19'
    else:
        return '20 and more'

# Функція для агрегації даних
def aggregate_data(df, group_col):
    # Перевірка наявності необхідних колонок
    required_cols = [group_col, 'subjects_count', 'total_score', 'average_score', 'year']
    missing_cols = [col for col in required_cols if col not in df.columns]
    if missing_cols:
        print(f"⚠️ У даних відсутні стовпці: {missing_cols}")
        return None

    # Класифікація віку, якщо групуємо за student_age
    if group_col == 'student_age':
        df['student_age'] = df['student_age'].apply(categorize_age)

    # Агрегація даних
    aggregated_df = df.groupby([group_col, 'year']).agg(
        total_students=('subjects_count', 'count'),  # Кількість рядків (унікальних записів)
        total_score_sum=('total_score', 'sum'),
        avg_score_mean=('average_score', 'mean')
    ).reset_index()

    # Діагностика
    total_rows = len(df)
    total_students_sum = aggregated_df['total_students'].sum()
    print(f"Діагностика для {group_col}:")
    print(f"  Загальна кількість рядків у датасеті: {total_rows}")
    print(f"  Сума total_students: {total_students_sum}")

    return aggregated_df

# Функція для витягнення року з назви файлу
def extract_year_from_filename(filename):
    match = re.search(r'(\d{4})\.csv', filename)
    return int(match.group(1)) if match else None

# Основна функція для об'єднання та агрегації даних
def merge_and_aggregate_data(input_folder="filtered_data", output_folder="aggregated_data"):
    # Переконаємося, що підпапки існують (з вашого скріншоту вони вже є)
    subfolders = ['age', 'gender', 'territory', 'region']
    for subfolder in subfolders:
        os.makedirs(os.path.join(output_folder, subfolder), exist_ok=True)

    # Ініціалізація порожніх DataFrame для кожної категорії
    merged_dfs = {
        'gender': pd.DataFrame(),
        'student_age': pd.DataFrame(),
        'territory_type': pd.DataFrame(),  # Використовуємо territory_type для territory
        'region_flag': pd.DataFrame()      # Використовуємо region_flag для region
    }

    # Обробка кожного файлу в input_folder
    for filename in os.listdir(input_folder):
        if filename.endswith(".csv"):
            input_path = os.path.join(input_folder, filename)
            year = extract_year_from_filename(filename)
            if year:
                print(f"🔄 Обробка {filename} (рік: {year})...")
                
                try:
                    encoding = detect_encoding(input_path)
                    df = pd.read_csv(input_path, encoding=encoding, low_memory=False)
                    
                    # Вибираємо лише потрібні колонки
                    relevant_cols = ['student_age', 'gender', 'region_flag', 'territory_type', 
                                   'subjects_count', 'total_score', 'average_score']
                    df = df[relevant_cols].copy()
                    
                    # Додаємо рік
                    df['year'] = year
                    
                    # Об’єднуємо з відповідними DataFrame
                    for category, group_col in [('gender', 'gender'), ('student_age', 'student_age'), 
                                              ('territory', 'territory_type'), ('region', 'region_flag')]:
                        if merged_dfs[group_col].empty:
                            merged_dfs[group_col] = df
                        else:
                            merged_dfs[group_col] = pd.concat([merged_dfs[group_col], df], ignore_index=True)

                except Exception as e:
                    print(f"❌ Критична помилка у файлі {filename}: {str(e)}")

    # Агрегація для кожної категорії та збереження в існуючі папки
    output_files = {
        'gender': 'aggregated.csv',
        'student_age': 'aggregated.csv',
        'region_flag': 'aggregated.csv',
        'territory_type': 'aggregated.csv'
    }

    for category, df in merged_dfs.items():
        if not df.empty:
            # Визначаємо правильну назву папки для збереження
            subfolder_map = {
                'gender': 'gender',
                'student_age': 'age',
                'region_flag': 'region',
                'territory_type': 'territory'
            }
            subfolder = os.path.join(output_folder, subfolder_map[category])
            agg_df = aggregate_data(df, category)
            if agg_df is not None:
                output_path = os.path.join(subfolder, output_files[category])
                agg_df.to_csv(output_path, index=False, encoding='utf-8')
                print(f"✅ Збережено таблицю для {category}: {output_path}")
                print(f"   Загальна кількість рядків: {len(agg_df)}")
        else:
            print(f"⚠️ Дані для {category} відсутні")

    print("\n🎉 Об’єднання та агрегацію завершено! Результати збережено у папках 'aggregated_data'")

# Виклик функції
if __name__ == "__main__":
    merge_and_aggregate_data()

🔄 Обробка 2020.csv (рік: 2020)...
🔄 Обробка 2021.csv (рік: 2021)...
🔄 Обробка 2023.csv (рік: 2023)...
🔄 Обробка 2019.csv (рік: 2019)...
🔄 Обробка 2024.csv (рік: 2024)...
Діагностика для gender:
  Загальна кількість рядків у датасеті: 1083032
  Сума total_students: 1083032
✅ Збережено таблицю для gender: aggregated_data/gender/aggregated.csv
   Загальна кількість рядків: 10
Діагностика для student_age:
  Загальна кількість рядків у датасеті: 1083032
  Сума total_students: 1083032
✅ Збережено таблицю для student_age: aggregated_data/age/aggregated.csv
   Загальна кількість рядків: 25
Діагностика для territory_type:
  Загальна кількість рядків у датасеті: 1083032
  Сума total_students: 1083032
✅ Збережено таблицю для territory_type: aggregated_data/territory/aggregated.csv
   Загальна кількість рядків: 14
Діагностика для region_flag:
  Загальна кількість рядків у датасеті: 1083032
  Сума total_students: 1083032
✅ Збережено таблицю для region_flag: aggregated_data/region/aggregated.csv
   