In [30]:
import pandas as pd
import numpy as np
from io import StringIO

def translate_kazakhstan_dataset(df):
    """
    Переводит датасет казахстанских студентов с русского на английский
    
    Parameters:
    -----------
    df : pandas.DataFrame
        Исходный датафрейм
        
    Returns:
    --------
    pandas.DataFrame
        Переведенный датафрейм
    """
    
    # Создать копию
    df = df.copy()
    
    print("="*80)
    print("KAZAKHSTAN STUDENT DATASET TRANSLATION")
    print("="*80)
    print(f"\nOriginal data: {len(df)} rows, {len(df.columns)} columns")
    
    # ==================== 1. ПЕРЕИМЕНОВАТЬ КОЛОНКИ ====================
    print("\n[1/4] Translating column names...")
    
    column_mapping = {
        'Timestamp': 'timestamp',
        'Email Address': 'email',
        '1. Университет': 'university',
        '2. Курс обучения': 'course_year',
        '3. Возраст': 'age',
        '4. Пол': 'gender',
        '5. Место проживания': 'living_situation',
        '6. Сколько человек в вашей семье?': 'family_size',
        '7. Образование матери': 'mother_education',
        '8. Образование отца': 'father_education',
        '9. Семейный доход (в тенге в месяц)': 'family_income',
        '10. Получаете ли вы финансовую поддержку от семьи?': 'financial_support',
        '11. Эмоциональная поддержка семьи в учёбе': 'emotional_support',
        '12. Сколько времени занимает дорога в университет': 'travel_time',
        '13. Сколько часов в неделю вы занимаетесь самостоятельной учёбой': 'study_hours_weekly',
        '14. Посещаете ли вы дополнительные курсы': 'extra_courses',
        '15. Были ли у вас академические проблемы (пересдачи, F)': 'academic_failures',
        '16. Как часто вы пропускаете пары': 'class_absences',
        '17. Есть ли у вас стабильный интернет дома': 'internet_access',
        '18. Насколько комфортно ваше место для учёбы': 'study_space_comfort',
        '19. Есть ли у вас личный ноутбук/ПК': 'has_computer',
        '20. Как вы оцениваете своё здоровье?': 'health_status',
        '21. Занимаетесь ли вы спортом/активностями?': 'physical_activity',
        '22. Сколько часов сна вы обычно получаете в сутки?': 'sleep_hours',
        '23. Посещали ли вы детский сад?': 'nursery_school',
        '24. Есть ли у вас романтические отношения?': 'romantic_relationship',
        '25. Как часто вы употребляете алкоголь?': 'alcohol_consumption',
        '26. Как часто вы испытываете стресс из-за учёбы?': 'academic_stress',
        '27. Наличие поддержки от друзей/одногруппников': 'peer_support',
        '28. Работаете ли вы?': 'employment_status',
        '29. GPA за последний семестр': 'gpa',
        'Column 30': 'column_30'
    }
    
    df.rename(columns=column_mapping, inplace=True)
    print("✓ Column names translated")
    
    # ==================== 2. ПЕРЕВЕСТИ ЗНАЧЕНИЯ ====================
    print("\n[2/4] Translating categorical values...")
    
    # Курс обучения (добавлен "Магистратура")
    course_mapping = {
        '1': '1',
        '2': '2', 
        '3': '3',
        '4': '4',
        '5': '5',
        'Магистратура': 'Masters',
        1: '1', 2: '2', 3: '3', 4: '4', 5: '5'
    }
    if 'course_year' in df.columns:
        df['course_year'] = df['course_year'].astype(str).map(course_mapping)
    
    # Пол
    gender_mapping = {'М': 'Male', 'Ж': 'Female'}
    if 'gender' in df.columns:
        df['gender'] = df['gender'].map(gender_mapping)
    
    # Место проживания
    living_mapping = {
        'Съёмная квартира': 'Rented apartment',
        'С родителями/Родственники': 'With parents',
        'Общежитие': 'Dormitory',
        'Другое': 'Other'
    }
    if 'living_situation' in df.columns:
        df['living_situation'] = df['living_situation'].map(living_mapping)
    
    # Образование
    education_mapping = {
        'Среднее': 'Secondary',
        'Средне-специальное': 'Vocational',
        'Высшее': 'Higher',
        'Магистратура и выше': 'Masters+'
    }
    if 'mother_education' in df.columns:
        df['mother_education'] = df['mother_education'].map(education_mapping)
    if 'father_education' in df.columns:
        df['father_education'] = df['father_education'].map(education_mapping)
    
    # Семейный доход
    income_mapping = {
        'Низкий (<200 000)': 'Low',
        'Средний (200 000–400 000)': 'Average',
        'Выше среднего (400 001–700 000)': 'Above average',
        'Высокий (>700 000)': 'High'
    }
    if 'family_income' in df.columns:
        df['family_income'] = df['family_income'].map(income_mapping)
    
    # Финансовая поддержка
    support_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Частично': 'Partially',
        'Полностью': 'Fully'
    }
    if 'financial_support' in df.columns:
        df['financial_support'] = df['financial_support'].map(support_mapping)
    
    # Эмоциональная поддержка
    frequency_mapping = {
        'Никогда': 'Never',
        'Редко': 'Rarely',
        'Иногда': 'Sometimes',
        'Часто': 'Often',
        'Всегда': 'Always'
    }
    if 'emotional_support' in df.columns:
        df['emotional_support'] = df['emotional_support'].map(frequency_mapping)
    
    # Время в дороге
    travel_mapping = {
        '<15 мин': '<15 min',
        '15–30 мин': '15-30 min',
        '30–60 мин': '30-60 min',
        '>1 часа': '>60 min'
    }
    if 'travel_time' in df.columns:
        df['travel_time'] = df['travel_time'].map(travel_mapping)
    
    # Часы учёбы в неделю
    study_mapping = {
        '<5': '<5',
        '5–10': '5-10',
        '10–20': '10-20',
        '>20': '>20'
    }
    if 'study_hours_weekly' in df.columns:
        df['study_hours_weekly'] = df['study_hours_weekly'].map(study_mapping)
    
    # Да/Нет вопросы
    yes_no_mapping = {'Да': 'Yes', 'Нет': 'No'}
    yes_no_columns = ['extra_courses', 'nursery_school', 'romantic_relationship']
    for col in yes_no_columns:
        if col in df.columns:
            df[col] = df[col].map(yes_no_mapping)
    
    # Пропуски пар
    absences_mapping = {
        'Никогда': 'Never',
        'Почти никогда': 'Almost never',
        'Редко': 'Rarely',
        'Иногда': 'Sometimes',
        'Часто': 'Often',
        'Очень часто': 'Very often'
    }
    if 'class_absences' in df.columns:
        df['class_absences'] = df['class_absences'].map(absences_mapping)
    
    # Интернет
    internet_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Иногда': 'Sometimes',
        'Редко': 'Rarely',
        'Всегда': 'Always'
    }
    if 'internet_access' in df.columns:
        df['internet_access'] = df['internet_access'].map(internet_mapping)
    
    # Наличие компьютера
    computer_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Пользуюсь общим': 'Shared'
    }
    if 'has_computer' in df.columns:
        df['has_computer'] = df['has_computer'].map(computer_mapping)
    
    # Физическая активность (complex - может быть multiple)
    # Оставляем как есть для дальнейшей обработки или можем разбить
    activity_keywords = {
        'Спорт': 'Sports',
        'Музыка/творчество': 'Music/Arts',
        'Волонтёрство': 'Volunteering',
        'Кружки/хобби': 'Clubs/Hobbies',
        'Нет активности': 'No activity'
    }
    if 'physical_activity' in df.columns:
        def translate_activity(val):
            if pd.isna(val):
                return val
            val_str = str(val)
            for rus, eng in activity_keywords.items():
                val_str = val_str.replace(rus, eng)
            return val_str
        df['physical_activity'] = df['physical_activity'].apply(translate_activity)
    
    # Часы сна
    sleep_mapping = {
        '<5': '<5',
        '5–6': '5-6',
        '6–7': '6-7',
        '7–8': '7-8',
        '>8': '>8'
    }
    if 'sleep_hours' in df.columns:
        df['sleep_hours'] = df['sleep_hours'].map(sleep_mapping)
    
    # Не помню
    memory_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Не помню': 'Don\'t remember'
    }
    if 'nursery_school' in df.columns:
        df['nursery_school'] = df['nursery_school'].apply(
            lambda x: memory_mapping.get(x, x) if pd.notna(x) else x
        )
    
    # Алкоголь
    alcohol_mapping = {
        'Никогда': 'Never',
        'Редко': 'Rarely',
        'Иногда': 'Sometimes',
        'Часто': 'Often'
    }
    if 'alcohol_consumption' in df.columns:
        df['alcohol_consumption'] = df['alcohol_consumption'].map(alcohol_mapping)
    
    # Стресс
    if 'academic_stress' in df.columns:
        df['academic_stress'] = df['academic_stress'].map(frequency_mapping)
    
    # Поддержка друзей
    if 'peer_support' in df.columns:
        df['peer_support'] = df['peer_support'].map(frequency_mapping)
    
    # Работа
    work_mapping = {
        'Нет': 'No',
        'Подработка (меньше 20 часов в неделю)': 'Part-time (<20h)',
        'Да (больше 20 часов в неделю)': 'Part-time (>20h)',
        'Да (меньше 20 часов в неделю)': 'Part-time (<20h)'
    }
    if 'employment_status' in df.columns:
        df['employment_status'] = df['employment_status'].map(work_mapping)
    
    print("✓ Categorical values translated")
    
    # ==================== 3. ПРОВЕРКА ====================
    print("\n[3/4] Checking for untranslated values...")
    
    untranslated = []
    for col in df.columns:
        if df[col].dtype == 'object':
            # Проверить кириллицу
            has_cyrillic = df[col].astype(str).str.contains('[а-яА-Я]', na=False, regex=True).any()
            if has_cyrillic and col not in ['timestamp', 'email', 'university']:
                unique_vals = df[col][df[col].notna()].unique()
                cyrillic_vals = [v for v in unique_vals if isinstance(v, str) and any(c.lower() in 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя' for c in v)]
                if cyrillic_vals:
                    untranslated.append({
                        'column': col,
                        'values': cyrillic_vals[:5]  # Показать первые 5
                    })
    
    if untranslated:
        print("\n⚠️  Found untranslated values:")
        for item in untranslated:
            print(f"   • {item['column']}: {item['values']}")
    else:
        print("✓ All categorical values translated successfully")
    
    # ==================== 4. ФИНАЛЬНАЯ ОБРАБОТКА ====================
    print("\n[4/4] Final processing...")
    
    # Конвертировать числовые колонки
    numeric_cols = ['age', 'family_size', 'academic_failures', 'study_space_comfort', 
                    'health_status', 'gpa']
    for col in numeric_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')
    
    print("✓ Numeric columns converted")
    
    # ==================== SUMMARY ====================
    print("\n" + "="*80)
    print("TRANSLATION SUMMARY")
    print("="*80)
    print(f"Rows: {len(df)}")
    print(f"Columns: {len(df.columns)}")
    print(f"\nColumn names:")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nData types:")
    print(df.dtypes.value_counts())
    
    print(f"\nMissing values:")
    missing = df.isnull().sum()
    missing = missing[missing > 0].sort_values(ascending=False)
    if len(missing) > 0:
        print(missing)
    else:
        print("  No missing values")
    
    return df


# ==================== ИСПОЛЬЗОВАНИЕ ====================
if __name__ == "__main__":
    # Пример использования
    
    # 1. Загрузить данные
    print("Loading data...")
    df = pd.read_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data.csv')
    
    # 2. Перевести
    df_english = translate_kazakhstan_dataset(df)
    
    # 3. Сохранить
    output_file = '/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_en.csv'
    df_english.to_csv(output_file, index=False, encoding='utf-8')
    print(f"\n✅ Saved to: {output_file}")
    
    # 4. Показать примеры
    print("\n" + "="*80)
    print("SAMPLE DATA")
    print("="*80)
    print(df_english.head(3))
    
    # 5. Базовая статистика
    print("\n" + "="*80)
    print("BASIC STATISTICS")
    print("="*80)
    print(f"Gender distribution:")
    print(df_english['gender'].value_counts())
    print(f"\nCourse year distribution:")
    print(df_english['course_year'].value_counts().sort_index())
    print(f"\nGPA statistics:")
    print(df_english['gpa'].describe())

Loading data...
KAZAKHSTAN STUDENT DATASET TRANSLATION

Original data: 121 rows, 32 columns

[1/4] Translating column names...
✓ Column names translated

[2/4] Translating categorical values...
✓ Categorical values translated

[3/4] Checking for untranslated values...
✓ All categorical values translated successfully

[4/4] Final processing...
✓ Numeric columns converted

TRANSLATION SUMMARY
Rows: 121
Columns: 32

Column names:
   1. timestamp
   2. email
   3. university
   4. course_year
   5. age
   6. gender
   7. living_situation
   8. family_size
   9. mother_education
  10. father_education
  11. family_income
  12. financial_support
  13. emotional_support
  14. travel_time
  15. study_hours_weekly
  16. extra_courses
  17. academic_failures
  18. class_absences
  19. internet_access
  20. study_space_comfort
  21. has_computer
  22. health_status
  23. physical_activity
  24. sleep_hours
  25. nursery_school
  26. romantic_relationship
  27. alcohol_consumption
  28. academic_s

In [31]:
import pandas as pd
import numpy as np

def clean_encoded_dataset(df):
    """
    Удаляет ненужные колонки из датасета после encoding
    
    Parameters:
    -----------
    df : pandas.DataFrame
        Датафрейм с лишними колонками
        
    Returns:
    --------
    pandas.DataFrame
        Очищенный датафрейм
    """
    
    print("="*80)
    print("CLEANING ENCODED DATASET")
    print("="*80)
    print(f"\nOriginal shape: {df.shape}")
    print(f"Original columns: {len(df.columns)}")
    
    # Создать копию
    df_clean = df.copy()
    
    # ==================== 1. УДАЛИТЬ TIMESTAMP КОЛОНКИ ====================
    print("\n[1/4] Removing timestamp columns...")
    
    # Найти все колонки начинающиеся с timestamp_
    timestamp_cols = [col for col in df_clean.columns if col.startswith('timestamp_')]
    
    if timestamp_cols:
        print(f"   Found {len(timestamp_cols)} timestamp columns")
        df_clean = df_clean.drop(columns=timestamp_cols)
        print(f"   ✓ Removed {len(timestamp_cols)} columns")
    else:
        print("   No timestamp columns found")
    
    # ==================== 2. УДАЛИТЬ EMAIL КОЛОНКИ ====================
    print("\n[2/4] Removing email columns...")
    
    # Найти все колонки начинающиеся с email_
    email_cols = [col for col in df_clean.columns if col.startswith('email_')]
    
    if email_cols:
        print(f"   Found {len(email_cols)} email columns")
        df_clean = df_clean.drop(columns=email_cols)
        print(f"   ✓ Removed {len(email_cols)} columns")
    else:
        print("   No email columns found")
    
    # ==================== 3. УДАЛИТЬ UNIVERSITY КОЛОНКИ (опционально) ====================
    print("\n[3/4] Checking university columns...")
    
    # Найти все колонки начинающиеся с university_
    university_cols = [col for col in df_clean.columns if col.startswith('university_')]
    
    if university_cols:
        print(f"   Found {len(university_cols)} university one-hot encoded columns")
        print(f"   Note: These are one-hot encoded universities - keep or remove?")
        # Можете раскомментировать если хотите удалить:
        # df_clean = df_clean.drop(columns=university_cols)
        # print(f"   ✓ Removed {len(university_cols)} columns")
    else:
        print("   No university columns found")
    
    # ==================== 4. УДАЛИТЬ ДРУГИЕ НЕНУЖНЫЕ КОЛОНКИ ====================
    print("\n[4/4] Removing other unnecessary columns...")
    
    # Удалить column_30 если пустая
    if 'column_30' in df_clean.columns:
        if df_clean['column_30'].isna().all():
            df_clean = df_clean.drop(columns=['column_30'])
            print("   ✓ Removed empty 'column_30'")
    
    # Удалить оригинальные timestamp и email если нужно
    drop_cols = []
    
    # Timestamp - обычно не нужен для анализа
    if 'timestamp' in df_clean.columns:
        drop_cols.append('timestamp')
    
    # Email - конфиденциальная информация
    if 'email' in df_clean.columns:
        drop_cols.append('email')
    
    if drop_cols:
        print(f"   Removing original columns: {drop_cols}")
        df_clean = df_clean.drop(columns=drop_cols)
        print(f"   ✓ Removed {len(drop_cols)} original columns")
    
    # ==================== SUMMARY ====================
    print("\n" + "="*80)
    print("CLEANING SUMMARY")
    print("="*80)
    print(f"Original shape: {df.shape}")
    print(f"Cleaned shape:  {df_clean.shape}")
    print(f"Columns removed: {len(df.columns) - len(df_clean.columns)}")
    
    print(f"\n✅ Cleaning complete!")
    print(f"   Rows: {len(df_clean)}")
    print(f"   Columns: {len(df_clean.columns)}")
    
    return df_clean


def get_column_groups(df):
    """
    Группирует колонки по категориям для лучшего понимания
    """
    
    print("\n" + "="*80)
    print("COLUMN GROUPS")
    print("="*80)
    
    groups = {
        'Demographics': ['university', 'course_year', 'age', 'gender', 'living_situation'],
        'Family': ['family_size', 'mother_education', 'father_education', 
                   'family_income', 'financial_support', 'emotional_support'],
        'Academic': ['study_hours_weekly', 'extra_courses', 'academic_failures', 
                     'class_absences', 'travel_time'],
        'Environment': ['internet_access', 'study_space_comfort', 'has_computer'],
        'Health/Lifestyle': ['health_status', 'physical_activity', 'sleep_hours', 'nursery_school'],
        'Social': ['romantic_relationship', 'alcohol_consumption', 'academic_stress', 'peer_support'],
        'Employment': ['employment_status'],
        'Target': ['gpa']
    }
    
    # Найти какие колонки есть
    for group_name, cols in groups.items():
        existing = [col for col in cols if col in df.columns]
        if existing:
            print(f"\n{group_name} ({len(existing)}):")
            for col in existing:
                print(f"  • {col}")
    
    # Encoded колонки
    encoded_cols = [col for col in df.columns if '_' in col and 
                    not col.startswith(('timestamp_', 'email_', 'column_'))]
    
    if encoded_cols:
        print(f"\nEncoded Features ({len(encoded_cols)}):")
        # Группировать по префиксу
        prefixes = {}
        for col in encoded_cols:
            prefix = col.split('_')[0]
            if prefix not in prefixes:
                prefixes[prefix] = []
            prefixes[prefix].append(col)
        
        for prefix, cols in sorted(prefixes.items()):
            print(f"  {prefix}: {len(cols)} features")


def select_features_for_modeling(df):
    """
    Выбирает только нужные колонки для моделирования
    """
    
    print("\n" + "="*80)
    print("SELECTING FEATURES FOR MODELING")
    print("="*80)
    
    # Базовые колонки (не encoded)
    basic_features = [
        'course_year', 'age', 'family_size', 'study_space_comfort',
        'health_status', 'academic_failures', 'gpa'
    ]
    
    # Encoded колонки (только полезные)
    encoded_prefixes = [
        'gender_', 'living_situation_', 'mother_education_', 'father_education_',
        'family_income_', 'financial_support_', 'emotional_support_',
        'travel_time_', 'study_hours_weekly_', 'extra_courses_',
        'class_absences_', 'internet_access_', 'has_computer_',
        'physical_activity_', 'sleep_hours_', 'nursery_school_',
        'romantic_relationship_', 'alcohol_consumption_', 'academic_stress_',
        'peer_support_', 'employment_status_'
    ]
    
    # Собрать все нужные колонки
    selected_cols = []
    
    # Базовые
    for col in basic_features:
        if col in df.columns:
            selected_cols.append(col)
    
    # Encoded
    for prefix in encoded_prefixes:
        matching = [col for col in df.columns if col.startswith(prefix)]
        selected_cols.extend(matching)
    
    print(f"\nSelected {len(selected_cols)} features for modeling")
    print(f"  • Basic features: {len([c for c in selected_cols if '_' not in c])}")
    print(f"  • Encoded features: {len([c for c in selected_cols if '_' in c])}")
    
    # Создать новый датафрейм
    df_modeling = df[selected_cols].copy()
    
    return df_modeling


# ==================== ИСПОЛЬЗОВАНИЕ ====================
if __name__ == "__main__":
    
    # 1. Загрузить данные
    print("Loading data...")
    df = pd.read_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_en.csv')
    
    # 2. Очистить
    df_clean = clean_encoded_dataset(df)
    
    # 3. Показать группы колонок
    get_column_groups(df_clean)
    
    # 4. Выбрать только нужные для моделирования
    df_modeling = select_features_for_modeling(df_clean)
    
    # 5. Сохранить
    print("\n" + "="*80)
    print("SAVING CLEANED DATA")
    print("="*80)
    
    # Полная очищенная версия
    df_clean.to_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_en.csv', index=False)
    print("✓ Saved: /Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_en.csv")
    
    # Версия только для моделирования
    df_modeling.to_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_modeling.csv.csv', index=False)
    print("✓ Saved: /Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_modeling.csv.csv")
    
    print(f"\n✅ All done!")
    print(f"   Clean data: {df_clean.shape}")
    print(f"   Modeling data: {df_modeling.shape}")


# ==================== БЫСТРОЕ РЕШЕНИЕ ====================
def quick_clean(input_file, output_file):
    """
    Быстрая очистка - просто удалить timestamp_ и email_ колонки
    """
    df = pd.read_csv(input_file)
    
    # Удалить timestamp_ и email_ колонки
    cols_to_drop = [col for col in df.columns 
                    if col.startswith('timestamp_') or col.startswith('email_')]
    
    df_clean = df.drop(columns=cols_to_drop)
    
    # Удалить пустые колонки
    df_clean = df_clean.dropna(axis=1, how='all')
    
    df_clean.to_csv(output_file, index=False)
    
    print(f"✅ Cleaned!")
    print(f"   Original: {len(df.columns)} columns")
    print(f"   Cleaned:  {len(df_clean.columns)} columns")
    print(f"   Removed:  {len(cols_to_drop)} columns")
    print(f"   Saved to: {output_file}")
    
    return df_clean


# Использовать так:
# df_clean = quick_clean('your_file.csv', 'cleaned_file.csv')

Loading data...
CLEANING ENCODED DATASET

Original shape: (121, 32)
Original columns: 32

[1/4] Removing timestamp columns...
   No timestamp columns found

[2/4] Removing email columns...
   No email columns found

[3/4] Checking university columns...
   No university columns found

[4/4] Removing other unnecessary columns...
   ✓ Removed empty 'column_30'
   Removing original columns: ['timestamp', 'email']
   ✓ Removed 2 original columns

CLEANING SUMMARY
Original shape: (121, 32)
Cleaned shape:  (121, 29)
Columns removed: 3

✅ Cleaning complete!
   Rows: 121
   Columns: 29

COLUMN GROUPS

Demographics (5):
  • university
  • course_year
  • age
  • gender
  • living_situation

Family (6):
  • family_size
  • mother_education
  • father_education
  • family_income
  • financial_support
  • emotional_support

Academic (5):
  • study_hours_weekly
  • extra_courses
  • academic_failures
  • class_absences
  • travel_time

Environment (3):
  • internet_access
  • study_space_comfort
  •

In [32]:
# foreign_data = pd.read_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/student_portuguese.csv')

# # Создаём новую колонку GPA в диапазоне 0-4
# import numpy as np

# def grade_to_gpa(score):
#     if score >= 18:
#         return 4.0
#     elif score >= 17:
#         return 3.67
#     elif score >= 16:
#         return 3.33
#     elif score >= 15:
#         return 3.0
#     elif score >= 14:
#         return 2.67
#     elif score >= 13:
#         return 2.33
#     elif score >= 12:
#         return 2.0
#     elif score >= 10:
#         return 1.0
#     else:
#         return 0.0

# # Применяем ко всей колонке
# foreign_data['final_grade'] = foreign_data['final_grade'].apply(grade_to_gpa)


# # Сохраняем обновлённый CSV
# foreign_data.to_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/student_portuguese.csv', index=False)

# print("foreign_data CSV обновлён")


foreign_data CSV обновлён
