In [1]:
import pandas as pd
import numpy as np
from io import StringIO

def translate_kazakhstan_dataset(df):
    """
    Переводит датасет казахстанских студентов с русского на английский
    
    Parameters:
    -----------
    df : pandas.DataFrame
        Исходный датафрейм
        
    Returns:
    --------
    pandas.DataFrame
        Переведенный датафрейм
    """
    
    # Создать копию
    df = df.copy()
    
    print("="*80)
    print("KAZAKHSTAN STUDENT DATASET TRANSLATION")
    print("="*80)
    print(f"\nOriginal data: {len(df)} rows, {len(df.columns)} columns")
    
    # ==================== 1. ПЕРЕИМЕНОВАТЬ КОЛОНКИ ====================
    print("\n[1/4] Translating column names...")
    
    column_mapping = {
        'Timestamp': 'timestamp',
        'Email Address': 'email',
        '1. Университет': 'university',
        '2. Курс обучения': 'course_year',
        '3. Возраст': 'age',
        '4. Пол': 'gender',
        '5. Место проживания': 'living_situation',
        '6. Сколько человек в вашей семье?': 'family_size',
        '7. Образование матери': 'mother_education',
        '8. Образование отца': 'father_education',
        '9. Семейный доход (в тенге в месяц)': 'family_income',
        '10. Получаете ли вы финансовую поддержку от семьи?': 'financial_support',
        '11. Эмоциональная поддержка семьи в учёбе': 'emotional_support',
        '12. Сколько времени занимает дорога в университет': 'travel_time',
        '13. Сколько часов в неделю вы занимаетесь самостоятельной учёбой': 'study_hours_weekly',
        '14. Посещаете ли вы дополнительные курсы': 'extra_courses',
        '15. Были ли у вас академические проблемы (пересдачи, F)': 'academic_failures',
        '16. Как часто вы пропускаете пары': 'class_absences',
        '17. Есть ли у вас стабильный интернет дома': 'internet_access',
        '18. Насколько комфортно ваше место для учёбы': 'study_space_comfort',
        '19. Есть ли у вас личный ноутбук/ПК': 'has_computer',
        '20. Как вы оцениваете своё здоровье?': 'health_status',
        '21. Занимаетесь ли вы спортом/активностями?': 'physical_activity',
        '22. Сколько часов сна вы обычно получаете в сутки?': 'sleep_hours',
        '23. Посещали ли вы детский сад?': 'nursery_school',
        '24. Есть ли у вас романтические отношения?': 'romantic_relationship',
        '25. Как часто вы употребляете алкоголь?': 'alcohol_consumption',
        '26. Как часто вы испытываете стресс из-за учёбы?': 'academic_stress',
        '27. Наличие поддержки от друзей/одногруппников': 'peer_support',
        '28. Работаете ли вы?': 'employment_status',
        '29. GPA за последний семестр': 'gpa',
        'Column 30': 'column_30'
    }
    
    df.rename(columns=column_mapping, inplace=True)
    print("✓ Column names translated")
    
    # ==================== 2. ПЕРЕВЕСТИ ЗНАЧЕНИЯ ====================
    print("\n[2/4] Translating categorical values...")
    
    # Курс обучения (добавлен "Магистратура")
    course_mapping = {
        '1': '1',
        '2': '2', 
        '3': '3',
        '4': '4',
        '5': '5',
        'Магистратура': 'Masters',
        1: '1', 2: '2', 3: '3', 4: '4', 5: '5'
    }
    if 'course_year' in df.columns:
        df['course_year'] = df['course_year'].astype(str).map(course_mapping)
    
    # Пол
    gender_mapping = {'М': 'Male', 'Ж': 'Female'}
    if 'gender' in df.columns:
        df['gender'] = df['gender'].map(gender_mapping)
    
    # Место проживания
    living_mapping = {
        'Съёмная квартира': 'Rented apartment',
        'С родителями/Родственники': 'With parents',
        'Общежитие': 'Dormitory',
        'Другое': 'Other'
    }
    if 'living_situation' in df.columns:
        df['living_situation'] = df['living_situation'].map(living_mapping)
    
    # Образование
    education_mapping = {
        'Среднее': 'Secondary',
        'Средне-специальное': 'Vocational',
        'Высшее': 'Higher',
        'Магистратура и выше': 'Masters+'
    }
    if 'mother_education' in df.columns:
        df['mother_education'] = df['mother_education'].map(education_mapping)
    if 'father_education' in df.columns:
        df['father_education'] = df['father_education'].map(education_mapping)
    
    # Семейный доход
    income_mapping = {
        'Низкий (<200 000)': 'Low',
        'Средний (200 000–400 000)': 'Average',
        'Выше среднего (400 001–700 000)': 'Above average',
        'Высокий (>700 000)': 'High'
    }
    if 'family_income' in df.columns:
        df['family_income'] = df['family_income'].map(income_mapping)
    
    # Финансовая поддержка
    support_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Частично': 'Partially',
        'Полностью': 'Fully'
    }
    if 'financial_support' in df.columns:
        df['financial_support'] = df['financial_support'].map(support_mapping)
    
    # Эмоциональная поддержка
    frequency_mapping = {
        'Никогда': 'Never',
        'Редко': 'Rarely',
        'Иногда': 'Sometimes',
        'Часто': 'Often',
        'Всегда': 'Always'
    }
    if 'emotional_support' in df.columns:
        df['emotional_support'] = df['emotional_support'].map(frequency_mapping)
    
    # Время в дороге
    travel_mapping = {
        '<15 мин': '<15 min',
        '15–30 мин': '15-30 min',
        '30–60 мин': '30-60 min',
        '>1 часа': '>60 min'
    }
    if 'travel_time' in df.columns:
        df['travel_time'] = df['travel_time'].map(travel_mapping)
    
    # Часы учёбы в неделю
    study_mapping = {
        '<5': '<5',
        '5–10': '5-10',
        '10–20': '10-20',
        '>20': '>20'
    }
    if 'study_hours_weekly' in df.columns:
        df['study_hours_weekly'] = df['study_hours_weekly'].map(study_mapping)
    
    # Да/Нет вопросы
    yes_no_mapping = {'Да': 'Yes', 'Нет': 'No'}
    yes_no_columns = ['extra_courses', 'nursery_school', 'romantic_relationship']
    for col in yes_no_columns:
        if col in df.columns:
            df[col] = df[col].map(yes_no_mapping)
    
    # Пропуски пар
    absences_mapping = {
        'Никогда': 'Never',
        'Почти никогда': 'Almost never',
        'Редко': 'Rarely',
        'Иногда': 'Sometimes',
        'Часто': 'Often',
        'Очень часто': 'Very often'
    }
    if 'class_absences' in df.columns:
        df['class_absences'] = df['class_absences'].map(absences_mapping)
    
    # Интернет
    internet_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Иногда': 'Sometimes',
        'Редко': 'Rarely',
        'Всегда': 'Always'
    }
    if 'internet_access' in df.columns:
        df['internet_access'] = df['internet_access'].map(internet_mapping)
    
    # Наличие компьютера
    computer_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Пользуюсь общим': 'Shared'
    }
    if 'has_computer' in df.columns:
        df['has_computer'] = df['has_computer'].map(computer_mapping)
    
    # Физическая активность (complex - может быть multiple)
    # Оставляем как есть для дальнейшей обработки или можем разбить
    activity_keywords = {
        'Спорт': 'Sports',
        'Музыка/творчество': 'Music/Arts',
        'Волонтёрство': 'Volunteering',
        'Кружки/хобби': 'Clubs/Hobbies',
        'Нет активности': 'No activity'
    }
    if 'physical_activity' in df.columns:
        def translate_activity(val):
            if pd.isna(val):
                return val
            val_str = str(val)
            for rus, eng in activity_keywords.items():
                val_str = val_str.replace(rus, eng)
            return val_str
        df['physical_activity'] = df['physical_activity'].apply(translate_activity)
    
    # Часы сна
    sleep_mapping = {
        '<5': '<5',
        '5–6': '5-6',
        '6–7': '6-7',
        '7–8': '7-8',
        '>8': '>8'
    }
    if 'sleep_hours' in df.columns:
        df['sleep_hours'] = df['sleep_hours'].map(sleep_mapping)
    
    # Не помню
    memory_mapping = {
        'Да': 'Yes',
        'Нет': 'No',
        'Не помню': 'Don\'t remember'
    }
    if 'nursery_school' in df.columns:
        df['nursery_school'] = df['nursery_school'].apply(
            lambda x: memory_mapping.get(x, x) if pd.notna(x) else x
        )
    
    # Алкоголь
    alcohol_mapping = {
        'Никогда': 'Never',
        'Редко': 'Rarely',
        'Иногда': 'Sometimes',
        'Часто': 'Often'
    }
    if 'alcohol_consumption' in df.columns:
        df['alcohol_consumption'] = df['alcohol_consumption'].map(alcohol_mapping)
    
    # Стресс
    if 'academic_stress' in df.columns:
        df['academic_stress'] = df['academic_stress'].map(frequency_mapping)
    
    # Поддержка друзей
    if 'peer_support' in df.columns:
        df['peer_support'] = df['peer_support'].map(frequency_mapping)
    
    # Работа
    work_mapping = {
        'Нет': 'No',
        'Подработка (меньше 20 часов в неделю)': 'Part-time (<20h)',
        'Да (больше 20 часов в неделю)': 'Part-time (>20h)',
        'Да (меньше 20 часов в неделю)': 'Part-time (<20h)'
    }
    if 'employment_status' in df.columns:
        df['employment_status'] = df['employment_status'].map(work_mapping)
    
    print("✓ Categorical values translated")
    
    # ==================== 3. ПРОВЕРКА ====================
    print("\n[3/4] Checking for untranslated values...")
    
    untranslated = []
    for col in df.columns:
        if df[col].dtype == 'object':
            # Проверить кириллицу
            has_cyrillic = df[col].astype(str).str.contains('[а-яА-Я]', na=False, regex=True).any()
            if has_cyrillic and col not in ['timestamp', 'email', 'university']:
                unique_vals = df[col][df[col].notna()].unique()
                cyrillic_vals = [v for v in unique_vals if isinstance(v, str) and any(c.lower() in 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя' for c in v)]
                if cyrillic_vals:
                    untranslated.append({
                        'column': col,
                        'values': cyrillic_vals[:5]  # Показать первые 5
                    })
    
    if untranslated:
        print("\n⚠️  Found untranslated values:")
        for item in untranslated:
            print(f"   • {item['column']}: {item['values']}")
    else:
        print("✓ All categorical values translated successfully")
    
    # ==================== 4. ФИНАЛЬНАЯ ОБРАБОТКА ====================
    print("\n[4/4] Final processing...")
    
    # Конвертировать числовые колонки
    numeric_cols = ['age', 'family_size', 'academic_failures', 'study_space_comfort', 
                    'health_status', 'gpa']
    for col in numeric_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')
    
    print("✓ Numeric columns converted")
    
    # ==================== SUMMARY ====================
    print("\n" + "="*80)
    print("TRANSLATION SUMMARY")
    print("="*80)
    print(f"Rows: {len(df)}")
    print(f"Columns: {len(df.columns)}")
    print(f"\nColumn names:")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nData types:")
    print(df.dtypes.value_counts())
    
    print(f"\nMissing values:")
    missing = df.isnull().sum()
    missing = missing[missing > 0].sort_values(ascending=False)
    if len(missing) > 0:
        print(missing)
    else:
        print("  No missing values")
    
    return df


# ==================== ИСПОЛЬЗОВАНИЕ ====================
if __name__ == "__main__":
    # Пример использования
    
    # 1. Загрузить данные
    print("Loading data...")
    df = pd.read_csv('/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data.csv')
    
    # 2. Перевести
    df_english = translate_kazakhstan_dataset(df)
    
    # 3. Сохранить
    output_file = '/Users/kassi/Data Mining/Final/Code/data/orginal/kz_data_en.csv'
    df_english.to_csv(output_file, index=False, encoding='utf-8')
    print(f"\n✅ Saved to: {output_file}")
    
    # 4. Показать примеры
    print("\n" + "="*80)
    print("SAMPLE DATA")
    print("="*80)
    print(df_english.head(3))
    
    # 5. Базовая статистика
    print("\n" + "="*80)
    print("BASIC STATISTICS")
    print("="*80)
    print(f"Gender distribution:")
    print(df_english['gender'].value_counts())
    print(f"\nCourse year distribution:")
    print(df_english['course_year'].value_counts().sort_index())
    print(f"\nGPA statistics:")
    print(df_english['gpa'].describe())

Loading data...
KAZAKHSTAN STUDENT DATASET TRANSLATION

Original data: 121 rows, 32 columns

[1/4] Translating column names...
✓ Column names translated

[2/4] Translating categorical values...
✓ Categorical values translated

[3/4] Checking for untranslated values...
✓ All categorical values translated successfully

[4/4] Final processing...
✓ Numeric columns converted

TRANSLATION SUMMARY
Rows: 121
Columns: 32

Column names:
   1. timestamp
   2. email
   3. university
   4. course_year
   5. age
   6. gender
   7. living_situation
   8. family_size
   9. mother_education
  10. father_education
  11. family_income
  12. financial_support
  13. emotional_support
  14. travel_time
  15. study_hours_weekly
  16. extra_courses
  17. academic_failures
  18. class_absences
  19. internet_access
  20. study_space_comfort
  21. has_computer
  22. health_status
  23. physical_activity
  24. sleep_hours
  25. nursery_school
  26. romantic_relationship
  27. alcohol_consumption
  28. academic_s