In [17]:
# ============================================================================
# ЛАБОРАТОРНАЯ РАБОТА № 2
# Работа с данными в Google Colab / Jupyter Notebook
# ============================================================================

# Шаг 1: Загрузка данных
# Проверяем, работаем ли мы в Google Colab или локально

import os

# Определяем, работаем ли мы в Google Colab
try:
    import google.colab
    IN_COLAB = True
    print("=" * 60)
    print("РЕЖИМ: Google Colab")
    print("=" * 60)
    
    # Проверяем, есть ли файлы уже загружены через файловый браузер
    work_dir = '/content/'
    required_files = ['contests.csv', 'rating_changes.csv', 'users.csv']
    files_exist = all(os.path.exists(os.path.join(work_dir, f)) for f in required_files)
    
    if files_exist:
        # Файлы уже загружены через файловый браузер
        print("\n✓ Файлы уже загружены через файловый браузер!")
        uploaded = {f: None for f in required_files}
        print("\n" + "=" * 60)
        print("НАЙДЕННЫЕ ФАЙЛЫ")
        print("=" * 60)
        for filename in required_files:
            file_path = os.path.join(work_dir, filename)
            if os.path.exists(file_path):
                file_size = os.path.getsize(file_path) / (1024 * 1024)
                print(f"  ✓ {filename} ({file_size:.2f} MB)")
        print(f"\nВсего найдено файлов: {len(uploaded)}")
    else:
        # Файлы не найдены, загружаем через files.upload()
        from google.colab import files
        print("\nЗагрузка файлов через диалоговое окно...")
        print("Необходимо выбрать файлы: contests.csv, rating_changes.csv, users.csv")
        uploaded = files.upload()
        
        print("\n" + "=" * 60)
        print("ЗАГРУЖЕННЫЕ ФАЙЛЫ")
        print("=" * 60)
        for filename in uploaded.keys():
            file_size = len(uploaded[filename])
            file_size_mb = file_size / (1024 * 1024)
            print(f"  ✓ {filename} ({file_size_mb:.2f} MB)")
        print(f"\nВсего загружено файлов: {len(uploaded)}")
    
except ImportError:
    IN_COLAB = False
    print("=" * 60)
    print("РЕЖИМ: Локальный Jupyter Notebook")
    print("=" * 60)
    print("\nФайлы должны находиться в текущей директории:")
    print("  - contests.csv")
    print("  - rating_changes.csv")
    print("  - users.csv")
    
    # Проверяем наличие файлов
    required_files = ['contests.csv', 'rating_changes.csv', 'users.csv']
    uploaded = {}
    current_dir = os.getcwd()
    
    print(f"\nТекущая директория: {current_dir}")
    print("\nПроверка наличия файлов:")
    for filename in required_files:
        if os.path.exists(filename):
            file_size = os.path.getsize(filename) / (1024 * 1024)
            uploaded[filename] = None  # Помечаем, что файл существует
            print(f"  ✓ {filename} найден ({file_size:.2f} MB)")
        else:
            print(f"  ✗ {filename} НЕ НАЙДЕН!")
    
    if len(uploaded) < len(required_files):
        print("\n⚠ ВНИМАНИЕ: Не все файлы найдены!")
        print("Убедитесь, что файлы находятся в текущей директории.")


РЕЖИМ: Локальный Jupyter Notebook

Файлы должны находиться в текущей директории:
  - contests.csv
  - rating_changes.csv
  - users.csv

Текущая директория: c:\Users\venya\Лаб2

Проверка наличия файлов:
  ✓ contests.csv найден (0.21 MB)
  ✓ rating_changes.csv найден (12.03 MB)
  ✓ users.csv найден (0.37 MB)


In [18]:
# Шаг 2: Сохранение загруженных файлов на диск (только для Google Colab)
# В локальном режиме файлы уже на диске

print("=" * 60)
print("ПОДГОТОВКА ФАЙЛОВ")
print("=" * 60)

# Проверяем, определена ли переменная IN_COLAB (из первой ячейки)
try:
    is_colab = IN_COLAB
except NameError:
    # Если переменная не определена, проверяем наличие google.colab
    try:
        import google.colab
        is_colab = True
    except ImportError:
        is_colab = False

if is_colab:
    # В Google Colab: сохраняем загруженные файлы на диск
    print("\nСохранение загруженных файлов на диск...")
    for filename, file_content in uploaded.items():
        if filename.endswith('.csv') and file_content is not None:
            with open(filename, 'wb') as f:
                f.write(file_content)
            print(f"  ✓ Файл {filename} сохранен")
    
    # Проверяем файлы в директории /content/
    work_dir = '/content/'
else:
    # В локальном режиме: файлы уже на диске
    print("\nФайлы уже находятся на диске (локальный режим)")
    work_dir = os.getcwd()

# Проверяем, какие CSV файлы доступны
print("\n" + "=" * 60)
print(f"ФАЙЛЫ В ДИРЕКТОРИИ: {work_dir}")
print("=" * 60)
csv_files = sorted([f for f in os.listdir(work_dir) if f.endswith('.csv')])
for f in csv_files:
    file_path = os.path.join(work_dir, f)
    file_size = os.path.getsize(file_path) / (1024 * 1024)  # размер в MB
    print(f"  • {f} ({file_size:.2f} MB)")


ПОДГОТОВКА ФАЙЛОВ

Файлы уже находятся на диске (локальный режим)

ФАЙЛЫ В ДИРЕКТОРИИ: c:\Users\venya\Лаб2
  • contests.csv (0.21 MB)
  • rating_changes.csv (12.03 MB)
  • users.csv (0.37 MB)


In [19]:
# Шаг 3: Загрузка данных в pandas DataFrame
import pandas as pd
import numpy as np

# Читаем CSV файлы
print("=" * 60)
print("ЗАГРУЗКА ДАННЫХ В PANDAS DATAFRAME")
print("=" * 60)

contests_df = pd.read_csv('contests.csv')
rating_changes_df = pd.read_csv('rating_changes.csv')
users_df = pd.read_csv('users.csv')

print("\nДанные загружены успешно!")
print(f"  ✓ contests.csv: {len(contests_df):,} строк, {len(contests_df.columns)} колонок")
print(f"  ✓ rating_changes.csv: {len(rating_changes_df):,} строк, {len(rating_changes_df.columns)} колонок")
print(f"  ✓ users.csv: {len(users_df):,} строк, {len(users_df.columns)} колонок")


ЗАГРУЗКА ДАННЫХ В PANDAS DATAFRAME

Данные загружены успешно!
  ✓ contests.csv: 2,074 строк, 10 колонок
  ✓ rating_changes.csv: 306,886 строк, 7 колонок
  ✓ users.csv: 5,007 строк, 12 колонок


In [20]:
# Шаг 4: Исследовательский анализ данных (EDA)
# Изучаем структуру каждой таблицы

print("=" * 60)
print("АНАЛИЗ ТАБЛИЦЫ CONTESTS")
print("=" * 60)
print(f"\nИнформация о таблице:")
contests_df.info()
print(f"\nПервые 5 строк:")
print(contests_df.head())
print(f"\nОписательная статистика (числовые колонки):")
print(contests_df.describe())

print("\n" + "=" * 60)
print("АНАЛИЗ ТАБЛИЦЫ RATING_CHANGES")
print("=" * 60)
print(f"\nИнформация о таблице:")
rating_changes_df.info()
print(f"\nПервые 5 строк:")
print(rating_changes_df.head())
print(f"\nОписательная статистика (числовые колонки):")
print(rating_changes_df.describe())

print("\n" + "=" * 60)
print("АНАЛИЗ ТАБЛИЦЫ USERS")
print("=" * 60)
print(f"\nИнформация о таблице:")
users_df.info()
print(f"\nПервые 5 строк:")
print(users_df.head())
print(f"\nОписательная статистика (числовые колонки):")
print(users_df.describe())


АНАЛИЗ ТАБЛИЦЫ CONTESTS

Информация о таблице:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2074 entries, 0 to 2073
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Unnamed: 0               2074 non-null   int64  
 1   contestId                2074 non-null   int64  
 2   name                     2074 non-null   object 
 3   type                     2074 non-null   object 
 4   phase                    2074 non-null   object 
 5   durationSeconds          2074 non-null   int64  
 6   startTimeSeconds         2074 non-null   int64  
 7   problems_in_contest      2046 non-null   object 
 8   contestants_count        2072 non-null   float64
 9   ratingUpdateTimeSeconds  1721 non-null   float64
dtypes: float64(2), int64(4), object(4)
memory usage: 162.2+ KB

Первые 5 строк:
   Unnamed: 0  contestId                                               name  \
0           0       2184              

In [21]:
# Шаг 5: Визуализация данных
import matplotlib.pyplot as plt
import seaborn as sns

# Настройка стиля графиков
try:
    plt.style.use('seaborn-v0_8')
except:
    try:
        plt.style.use('seaborn')
    except:
        plt.style.use('default')

sns.set_palette("husl")
plt.rcParams['figure.dpi'] = 100
plt.rcParams['font.size'] = 10

print("=" * 60)
print("ВИЗУАЛИЗАЦИЯ ДАННЫХ")
print("=" * 60)

# График 1: Распределение рейтингов пользователей
plt.figure(figsize=(14, 5))

plt.subplot(1, 2, 1)
users_df['rating'].hist(bins=50, edgecolor='black', color='steelblue')
plt.xlabel('Рейтинг', fontsize=11)
plt.ylabel('Количество пользователей', fontsize=11)
plt.title('Распределение рейтингов пользователей', fontsize=12, fontweight='bold')
plt.grid(True, alpha=0.3)

# График 2: Распределение изменений рейтинга
plt.subplot(1, 2, 2)
rating_changes_df['newRating'].hist(bins=50, edgecolor='black', color='orange')
plt.xlabel('Новый рейтинг', fontsize=11)
plt.ylabel('Количество записей', fontsize=11)
plt.title('Распределение новых рейтингов', fontsize=12, fontweight='bold')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# График 3: Топ-10 стран по количеству пользователей
plt.figure(figsize=(10, 6))
top_countries = users_df['country'].value_counts().head(10)
sns.barplot(x=top_countries.values, y=top_countries.index, palette='viridis')
plt.xlabel('Количество пользователей', fontsize=11)
plt.ylabel('Страна', fontsize=11)
plt.title('Топ-10 стран по количеству пользователей', fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()


ModuleNotFoundError: No module named 'matplotlib'

In [None]:
# Шаг 6: Проверка пропущенных значений (missing values)

print("=" * 60)
print("АНАЛИЗ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ")
print("=" * 60)

# Анализ пропусков в каждой таблице
tables = {
    'contests_df': contests_df,
    'rating_changes_df': rating_changes_df,
    'users_df': users_df
}

for table_name, table in tables.items():
    print(f"\n{'-' * 60}")
    print(f"Таблица: {table_name}")
    print(f"{'-' * 60}")
    missing = table.isnull().sum()
    missing_pct = (missing / len(table) * 100).round(2)
    missing_df = pd.DataFrame({
        'Колонка': missing.index,
        'Пропусков': missing.values,
        'Процент': missing_pct.values
    })
    missing_df = missing_df[missing_df['Пропусков'] > 0].sort_values('Пропусков', ascending=False)
    
    if len(missing_df) > 0:
        print(missing_df.to_string(index=False))
    else:
        print("  ✓ Пропущенных значений нет")
    print(f"  Всего пропусков: {table.isnull().sum().sum():,}")

# Визуализация пропущенных значений
plt.figure(figsize=(16, 5))

plt.subplot(1, 3, 1)
missing_contests = contests_df.isnull().sum()
missing_contests = missing_contests[missing_contests > 0]
if len(missing_contests) > 0:
    sns.barplot(x=missing_contests.values, y=missing_contests.index, palette='Reds')
    plt.xlabel('Количество пропусков')
    plt.title('Пропуски в contests_df', fontweight='bold')
else:
    plt.text(0.5, 0.5, 'Нет пропусков', ha='center', va='center', transform=plt.gca().transAxes)
    plt.title('Пропуски в contests_df', fontweight='bold')

plt.subplot(1, 3, 2)
missing_rating = rating_changes_df.isnull().sum()
missing_rating = missing_rating[missing_rating > 0]
if len(missing_rating) > 0:
    sns.barplot(x=missing_rating.values, y=missing_rating.index, palette='Oranges')
    plt.xlabel('Количество пропусков')
    plt.title('Пропуски в rating_changes_df', fontweight='bold')
else:
    plt.text(0.5, 0.5, 'Нет пропусков', ha='center', va='center', transform=plt.gca().transAxes)
    plt.title('Пропуски в rating_changes_df', fontweight='bold')

plt.subplot(1, 3, 3)
missing_users = users_df.isnull().sum()
missing_users = missing_users[missing_users > 0]
if len(missing_users) > 0:
    sns.barplot(x=missing_users.values, y=missing_users.index, palette='Blues')
    plt.xlabel('Количество пропусков')
    plt.title('Пропуски в users_df', fontweight='bold')
else:
    plt.text(0.5, 0.5, 'Нет пропусков', ha='center', va='center', transform=plt.gca().transAxes)
    plt.title('Пропуски в users_df', fontweight='bold')

plt.tight_layout()
plt.show()


In [None]:
# Шаг 7: Объединение таблиц
# Создаем полную объединенную таблицу

print("=" * 60)
print("ОБЪЕДИНЕНИЕ ТАБЛИЦ")
print("=" * 60)

# Объединяем rating_changes с contests по contestId
print("\n1. Объединение rating_changes + contests (по contestId)...")
merged_df = pd.merge(
    rating_changes_df,
    contests_df,
    on='contestId',
    how='left',  # left join - сохраняем все записи из rating_changes
    suffixes=('', '_contest')
)
print(f"   ✓ Результат: {len(merged_df):,} строк, {len(merged_df.columns)} колонок")

# Объединяем с users по handle
print("2. Объединение с users (по handle)...")
full_merged = pd.merge(
    merged_df,
    users_df,
    on='handle',
    how='left',
    suffixes=('', '_user')
)
print(f"   ✓ Результат: {len(full_merged):,} строк, {len(full_merged.columns)} колонок")

print(f"\n{'=' * 60}")
print("ИТОГОВАЯ ОБЪЕДИНЕННАЯ ТАБЛИЦА")
print(f"{'=' * 60}")
print(f"  • Строк: {len(full_merged):,}")
print(f"  • Колонок: {len(full_merged.columns)}")
print(f"\nКолонки в объединенной таблице:")
for i, col in enumerate(full_merged.columns.tolist(), 1):
    print(f"  {i:2d}. {col}")

print(f"\nПервые 5 строк объединенной таблицы:")
print(full_merged.head())


In [None]:
# Шаг 8: Обработка пропущенных значений в объединенной таблице

print("=" * 60)
print("ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ")
print("=" * 60)

# Анализ пропусков перед обработкой
print("\nПропущенные значения ДО обработки:")
missing_before = full_merged.isnull().sum()
missing_before = missing_before[missing_before > 0]
if len(missing_before) > 0:
    print(missing_before)
else:
    print("  ✓ Пропущенных значений нет")
print(f"  Всего пропусков: {full_merged.isnull().sum().sum():,}")

# Заполняем пропуски в числовых колонках средним значением
print("\n" + "-" * 60)
print("Заполнение пропусков в числовых колонках (средним значением):")
print("-" * 60)
numeric_cols = full_merged.select_dtypes(include=[np.number]).columns
filled_numeric = 0
for col in numeric_cols:
    missing_count = full_merged[col].isnull().sum()
    if missing_count > 0:
        mean_val = full_merged[col].mean()
        full_merged[col].fillna(mean_val, inplace=True)
        print(f"  ✓ {col}: заполнено {missing_count:,} пропусков средним значением {mean_val:.2f}")
        filled_numeric += missing_count

if filled_numeric == 0:
    print("  ✓ Нет пропусков в числовых колонках")

# Для категориальных колонок заполняем наиболее частым значением
print("\n" + "-" * 60)
print("Заполнение пропусков в категориальных колонках (модой):")
print("-" * 60)
categorical_cols = full_merged.select_dtypes(include=['object']).columns
filled_categorical = 0
for col in categorical_cols:
    missing_count = full_merged[col].isnull().sum()
    if missing_count > 0:
        mode_vals = full_merged[col].mode()
        mode_val = mode_vals[0] if not mode_vals.empty else 'Unknown'
        full_merged[col].fillna(mode_val, inplace=True)
        print(f"  ✓ {col}: заполнено {missing_count:,} пропусков значением '{mode_val}'")
        filled_categorical += missing_count

if filled_categorical == 0:
    print("  ✓ Нет пропусков в категориальных колонках")

# Проверка после обработки
print("\n" + "=" * 60)
print("ПРОВЕРКА ПОСЛЕ ОБРАБОТКИ")
print("=" * 60)
missing_after = full_merged.isnull().sum().sum()
print(f"  Осталось пропусков: {missing_after:,}")
if missing_after == 0:
    print("  ✓ Все пропуски успешно обработаны!")
else:
    print(f"  ⚠ Осталось {missing_after:,} пропусков")


In [None]:
# Шаг 9: Кодирование категориальных переменных
# Используем one-hot encoding для категориальных признаков

print("=" * 60)
print("КОДИРОВАНИЕ КАТЕГОРИАЛЬНЫХ ПЕРЕМЕННЫХ")
print("=" * 60)

# Анализ категориальных переменных
print("\nАнализ категориальных переменных:")
categorical_vars = ['type', 'phase', 'country']
for var in categorical_vars:
    if var in full_merged.columns:
        unique_count = full_merged[var].nunique()
        top_values = full_merged[var].value_counts().head(3)
        print(f"\n  • {var}:")
        print(f"    - Уникальных значений: {unique_count}")
        print(f"    - Топ-3 значения:")
        for val, count in top_values.items():
            print(f"      {val}: {count:,} ({count/len(full_merged)*100:.1f}%)")

# Применяем one-hot encoding
print("\n" + "-" * 60)
print("Применение one-hot encoding:")
print("-" * 60)

full_merged_encoded = full_merged.copy()

# Для type (тип соревнования: CF, ICPC, IOI)
if 'type' in full_merged.columns:
    type_dummies = pd.get_dummies(full_merged['type'], prefix='type')
    full_merged_encoded = pd.concat([full_merged_encoded, type_dummies], axis=1)
    print(f"  ✓ type: создано {len(type_dummies.columns)} колонок")
    print(f"    Колонки: {', '.join(type_dummies.columns.tolist())}")

# Для phase (фаза соревнования)
if 'phase' in full_merged.columns:
    phase_dummies = pd.get_dummies(full_merged['phase'], prefix='phase')
    full_merged_encoded = pd.concat([full_merged_encoded, phase_dummies], axis=1)
    print(f"  ✓ phase: создано {len(phase_dummies.columns)} колонок")
    print(f"    Колонки: {', '.join(phase_dummies.columns.tolist())}")

print(f"\n{'=' * 60}")
print(f"РЕЗУЛЬТАТ КОДИРОВАНИЯ")
print(f"{'=' * 60}")
print(f"  • Колонок ДО кодирования: {len(full_merged.columns)}")
print(f"  • Колонок ПОСЛЕ кодирования: {len(full_merged_encoded.columns)}")
print(f"  • Добавлено колонок: {len(full_merged_encoded.columns) - len(full_merged.columns)}")


In [None]:
# Шаг 10: Анализ данных
# Выполняем различные анализы объединенных данных

print("=" * 60)
print("АНАЛИЗ ДАННЫХ")
print("=" * 60)

# Анализ 1: Топ-10 пользователей по количеству участий
print("\n" + "-" * 60)
print("АНАЛИЗ 1: ТОП-10 ПОЛЬЗОВАТЕЛЕЙ ПО КОЛИЧЕСТВУ УЧАСТИЙ")
print("-" * 60)
participation_stats = full_merged.groupby('handle').agg({
    'contestId': 'count',
    'newRating': 'max',
    'oldRating': 'min',
    'country': 'first',
    'rating': 'first'
}).rename(columns={'contestId': 'contests_participated'})

participation_stats = participation_stats.sort_values('contests_participated', ascending=False)
print(participation_stats.head(10).to_string())

# Анализ 2: Статистика по странам
print("\n" + "-" * 60)
print("АНАЛИЗ 2: СТАТИСТИКА ПО СТРАНАМ (ТОП-10)")
print("-" * 60)
country_stats = full_merged.groupby('country').agg({
    'handle': 'nunique',      # уникальных пользователей
    'contestId': 'count',     # всего участий
    'newRating': 'mean',      # средний рейтинг
    'rating': 'mean'          # средний текущий рейтинг
}).rename(columns={
    'handle': 'unique_users',
    'contestId': 'total_participations',
    'newRating': 'avg_new_rating',
    'rating': 'avg_current_rating'
})
country_stats = country_stats.sort_values('unique_users', ascending=False)
print(country_stats.head(10).to_string())

# Анализ 3: Статистика по типам соревнований
print("\n" + "-" * 60)
print("АНАЛИЗ 3: СТАТИСТИКА ПО ТИПАМ СОРЕВНОВАНИЙ")
print("-" * 60)
type_stats = full_merged.groupby('type').agg({
    'contestId': 'nunique',   # уникальных соревнований
    'handle': 'nunique',       # уникальных участников
    'newRating': 'mean',       # средний рейтинг
    'problems_solved_num': 'mean'  # среднее количество решенных задач
}).rename(columns={
    'contestId': 'unique_contests',
    'handle': 'unique_participants',
    'newRating': 'avg_rating',
    'problems_solved_num': 'avg_problems_solved'
})
print(type_stats.to_string())


In [None]:
# Шаг 11: Дополнительные визуализации объединенных данных

print("=" * 60)
print("ДОПОЛНИТЕЛЬНЫЕ ВИЗУАЛИЗАЦИИ")
print("=" * 60)

# График 1: Распределение рейтингов по типам соревнований
plt.figure(figsize=(15, 6))

plt.subplot(1, 2, 1)
contest_types = full_merged['type'].dropna().unique()
colors = ['steelblue', 'orange', 'green', 'red', 'purple']
for i, contest_type in enumerate(contest_types):
    data = full_merged[full_merged['type'] == contest_type]['newRating']
    plt.hist(data, alpha=0.6, label=contest_type, bins=30, color=colors[i % len(colors)])
plt.xlabel('Новый рейтинг', fontsize=11)
plt.ylabel('Частота', fontsize=11)
plt.title('Распределение рейтингов по типам соревнований', fontsize=12, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)

# График 2: Средний рейтинг по странам (топ-15)
plt.subplot(1, 2, 2)
top_countries_rating = full_merged.groupby('country')['newRating'].mean().sort_values(ascending=False).head(15)
sns.barplot(x=top_countries_rating.values, y=top_countries_rating.index, palette='coolwarm')
plt.xlabel('Средний рейтинг', fontsize=11)
plt.ylabel('Страна', fontsize=11)
plt.title('Топ-15 стран по среднему рейтингу', fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

# График 3: Корреляционная матрица числовых признаков
plt.figure(figsize=(12, 10))
numeric_cols_for_corr = ['oldRating', 'newRating', 'problems_solved_num', 
                          'durationSeconds', 'contestants_count', 'rating', 'maxRating']
# Проверяем наличие колонок
numeric_cols_for_corr = [col for col in numeric_cols_for_corr if col in full_merged.columns]
corr_data = full_merged[numeric_cols_for_corr].corr()
sns.heatmap(corr_data, annot=True, fmt='.2f', cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8}, 
            xticklabels=True, yticklabels=True)
plt.title('Корреляционная матрица числовых признаков', fontsize=12, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()


In [None]:
# Шаг 12: Сохранение результатов анализа

print("=" * 60)
print("СОХРАНЕНИЕ РЕЗУЛЬТАТОВ АНАЛИЗА")
print("=" * 60)

# Сохраняем объединенную таблицу
print("\nСохранение файлов...")
full_merged.to_csv('merged_data.csv', index=False)
print("  ✓ Объединенная таблица сохранена в merged_data.csv")

# Сохраняем статистику по пользователям
participation_stats.to_csv('user_statistics.csv')
print("  ✓ Статистика по пользователям сохранена в user_statistics.csv")

# Сохраняем статистику по странам
country_stats.to_csv('country_statistics.csv')
print("  ✓ Статистика по странам сохранена в country_statistics.csv")

# Сохраняем статистику по типам соревнований
type_stats.to_csv('contest_type_statistics.csv')
print("  ✓ Статистика по типам соревнований сохранена в contest_type_statistics.csv")

# Проверяем сохраненные файлы
print("\n" + "-" * 60)
print("ПРОВЕРКА СОХРАНЕННЫХ ФАЙЛОВ")
print("-" * 60)
result_files = [
    'merged_data.csv',
    'user_statistics.csv',
    'country_statistics.csv',
    'contest_type_statistics.csv'
]

for f in result_files:
    if os.path.exists(f):
        size = os.path.getsize(f) / (1024 * 1024)  # размер в MB
        print(f"  ✓ {f:35s} {size:8.2f} MB")
    else:
        print(f"  ✗ {f:35s} НЕ НАЙДЕН")


In [None]:
# Шаг 13: Скачивание результатов на локальный компьютер
# Используем files.download() для скачивания файлов (только в Google Colab)

print("=" * 60)
print("СКАЧИВАНИЕ РЕЗУЛЬТАТОВ")
print("=" * 60)

files_to_download = [
    'merged_data.csv',
    'user_statistics.csv',
    'country_statistics.csv',
    'contest_type_statistics.csv'
]

# Проверяем, определена ли переменная IN_COLAB (из первой ячейки)
try:
    is_colab = IN_COLAB
except NameError:
    # Если переменная не определена, проверяем наличие google.colab
    try:
        import google.colab
        is_colab = True
        from google.colab import files
    except ImportError:
        is_colab = False

if is_colab:
    print("\nНачинаем скачивание файлов...")
    print("(В Google Colab откроются диалоговые окна для сохранения файлов)")
    
    for file in files_to_download:
        if os.path.exists(file):
            try:
                files.download(file)
                print(f"  ✓ {file} - скачан")
            except Exception as e:
                print(f"  ✗ {file} - ошибка: {e}")
        else:
            print(f"  ✗ {file} - файл не найден")
else:
    print("\nЛокальный режим: файлы уже сохранены в текущей директории")
    print(f"Директория: {os.getcwd()}")
    print("\nСохраненные файлы:")
    for file in files_to_download:
        if os.path.exists(file):
            file_size = os.path.getsize(file) / (1024 * 1024)
            print(f"  ✓ {file} ({file_size:.2f} MB)")
        else:
            print(f"  ✗ {file} - файл не найден")

print("\n" + "=" * 60)
print("ЛАБОРАТОРНАЯ РАБОТА ЗАВЕРШЕНА!")
print("=" * 60)
print("\nВсе этапы выполнены:")
print("  ✓ Загрузка данных")
print("  ✓ Исследовательский анализ данных (EDA)")
print("  ✓ Визуализация")
print("  ✓ Обработка пропущенных значений")
print("  ✓ Объединение таблиц")
print("  ✓ Кодирование категориальных переменных")
print("  ✓ Анализ данных")
print("  ✓ Сохранение результатов")
print("\n" + "=" * 60)
