In [5]:
lectures_file_path = '/content/lectures.csv'
questions_file_path = '/content/questions.csv'

In [8]:
# Импорт необходимых библиотек
import pandas as pd

# Загрузка данных
lectures_file_path = '/content/lectures.csv'
questions_file_path = '/content/questions.csv'

lectures_df = pd.read_csv(lectures_file_path)
questions_df = pd.read_csv(questions_file_path)

# ---------------------------------
# Чистка и подготовка данных
# ---------------------------------

# Копирование исходных данных для обработки
lectures_cleaned = lectures_df.copy()
questions_cleaned = questions_df.copy()

# Заполнение пропущенных значений в колонке `tags` и разделение тегов в отдельные элементы
questions_cleaned['tags'] = questions_cleaned['tags'].fillna('')  # Заполнение пропусков пустой строкой
questions_cleaned['tags_list'] = questions_cleaned['tags'].str.split()  # Преобразование строк в список тегов

# "Взрыв" списка тегов для анализа каждого тега отдельно
questions_exploded = questions_cleaned.explode('tags_list')

# Добавление частоты встречаемости тегов
questions_exploded['tag_frequency'] = questions_exploded.groupby('tags_list')['tags_list'].transform('count')

# Создание признака сложности вопроса на основе правильного ответа
questions_exploded['difficulty'] = questions_exploded['correct_answer'].apply(lambda x: 'Easy' if x > 1 else 'Hard')

# ---------------------------------
# Анализ признаков
# ---------------------------------

# Анализ успеваемости по разделам
part_performance = questions_exploded.groupby('part')['correct_answer'].mean()

# Анализ успеваемости по тегам
tags_performance = questions_exploded.groupby('tags_list')['correct_answer'].mean().sort_values(ascending=False)

# Частота встречаемости тегов
tag_frequency = questions_exploded['tags_list'].value_counts()

# ---------------------------------
# Подготовка сводных данных
# ---------------------------------
summary_results = {
    "Средняя успеваемость по разделам": part_performance,
    "Топ-10 лучших тегов": tags_performance.head(10),
    "Частота тегов (топ-10)": tag_frequency.head(10),
    "Данные после обработки": questions_exploded.head(10)
}

# Вывод первых строк обработанных данных
print(questions_exploded.head(10))

questions_exploded.to_csv('processed_questions.csv', index=False)
print("Файл сохранен как 'processed_questions.csv'")

from IPython.display import display
display(questions_exploded.head(10))

# Возвращение сводки для анализа
summary_results


   question_id  bundle_id  correct_answer  part            tags tags_list  \
0            0          0               0     1   51 131 162 38        51   
0            0          0               0     1   51 131 162 38       131   
0            0          0               0     1   51 131 162 38       162   
0            0          0               0     1   51 131 162 38        38   
1            1          1               1     1       131 36 81       131   
1            1          1               1     1       131 36 81        36   
1            1          1               1     1       131 36 81        81   
2            2          2               0     1  131 101 162 92       131   
2            2          2               0     1  131 101 162 92       101   
2            2          2               0     1  131 101 162 92       162   

   tag_frequency difficulty  
0           71.0       Hard  
0          650.0       Hard  
0          914.0       Hard  
0         2256.0       Hard  
1 

Unnamed: 0,question_id,bundle_id,correct_answer,part,tags,tags_list,tag_frequency,difficulty
0,0,0,0,1,51 131 162 38,51,71.0,Hard
0,0,0,0,1,51 131 162 38,131,650.0,Hard
0,0,0,0,1,51 131 162 38,162,914.0,Hard
0,0,0,0,1,51 131 162 38,38,2256.0,Hard
1,1,1,1,1,131 36 81,131,650.0,Hard
1,1,1,1,1,131 36 81,36,35.0,Hard
1,1,1,1,1,131 36 81,81,1969.0,Hard
2,2,2,0,1,131 101 162 92,131,650.0,Hard
2,2,2,0,1,131 101 162 92,101,52.0,Hard
2,2,2,0,1,131 101 162 92,162,914.0,Hard


{'Средняя успеваемость по разделам': part
 1    1.503740
 2    1.311424
 3    1.497259
 4    1.472655
 5    1.454727
 6    1.453952
 7    1.547666
 Name: correct_answer, dtype: float64,
 'Топ-10 лучших тегов': tags_list
 186    2.333333
 44     2.047619
 175    2.000000
 58     1.909091
 170    1.880000
 139    1.857143
 43     1.833333
 172    1.818182
 151    1.812500
 80     1.810811
 Name: correct_answer, dtype: float64,
 'Частота тегов (топ-10)': tags_list
 92     2269
 38     2256
 81     1969
 29     1707
 136    1033
 162     914
 102     789
 8       751
 143     712
 131     650
 Name: count, dtype: int64,
 'Данные после обработки':    question_id  bundle_id  correct_answer  part            tags tags_list  \
 0            0          0               0     1   51 131 162 38        51   
 0            0          0               0     1   51 131 162 38       131   
 0            0          0               0     1   51 131 162 38       162   
 0            0          0            