In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Предобработка количественных данных

### Компетенция чемпионата по русскому языку

In [3]:
df = pd.read_csv("2022_Russian_data.csv")

In [4]:
df.head(10).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
SUBJECT,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык
YEAR,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022
REGION,Адыгея,Адыгея,Адыгея,Адыгея,Адыгея,Адыгея,Адыгея,Адыгея,Адыгея,Адыгея
DATA_AVAILABLE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE
WINNERS_ONLY,False,False,False,False,False,False,False,False,False,False
GRADE_OF_COMPETITION,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0
ID,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0
CODE,,,,,,,,,,
DISTRICT,Город Майкоп,ГБОУ АРГ,Майкопский район,Тахтамукайский район,Майкопский район,Теучежский район,Тахтамукайский район,Майкопский район,Майкопский район,Теучежский район
SCHOOL,,,,,,,,,,


# Описание признаков
* SUBJECT: школьный предмет
* YEAR: год состязания
* REGION: регион России (включая аннексированные Республику Крым и Севастополь)
* DATA_AVAILABLE: имеются ли данные для региона. Данные считались имеющимися, если хотя бы для победителей и призёров регионального этапа известны результаты в баллах или в процентах от теоретического максимума, а не только статусы победителя, призёра и т. п.
* WINNERS_ONLY: представлены ли данные только для участников, получивших дипломы, или для всех участников регионального этапа в данном регионе. NB: для Свердловской области данные в принятом нами смысле имеются только для победителей, однако призёры включены в датасет; выбрано значение TRUE
* GRADE_OF_COMPETITION: класс, задания для которого выполнял участник (9, 10 или 11)
* ID: уникальный идентификатор участника (выбран произвольно)
* CODE: шифр участника на региональном этапе
* DISTRICT: район, город, муниципальное образование и т. д., к которому относится школа участника
* SCHOOL: школа, за которую выступает участник
* T1–T8: оценки участника в баллах за задания 1–8 регионального этапа. Несравнимы между классами!
* SUM: сумма баллов участника за все задания регионального этапа. Теоретическая максимально возможная сумма в 2021 году для 9 класса составляла 90 баллов, для 10 класса — 100 баллов, для 11 класса — 110 баллов; в 2022 году для 9 класса — 88 баллов, для 10 класса — 100 баллов, для 11 класса — 112 баллов
* PERCENTAGE: процент, который сумма баллов участника на региональном этапе составляет от теоретического максимума
* REGIONAL_STATUS: категория, к которой участник отнесён по итогам регионального этапа. Основными являются Победитель, Призер, Участник, а также пустая категория, по смыслу совпадающая со статусом Участника. Отнесение следует различным правилам в разных регионах, поэтому в общем случае статусы плохо сравнимы между регионами (для отбора на заключительный этап используются не они, а единый для страны проходной балл)
* AUTHENTIC: какое из значений полей SUM и PERCENTAGE представлено в исходных данных, а какое вычислено при создании датасета. В случаях, когда исходным был процент выполнения (и тем более отсутствовали результаты проверки отдельных заданий), суммы несистематически приводились к разрешённому правилами шагу в 0,5 балла
* FINAL_SUM: сумма баллов участника на заключительном этапе. Теоретическая максимально возможная сумма в 2021 году для 9 класса составляла 150 баллов, для 10 класса — 165 баллов, для 11 класса — 180 баллов
* FINAL_PERCENTAGE: процент, который сумма баллов участника на заключительном этапе составляет от теоретического максимума
* FINAL_STATUS: категория, к которой участник отнесён по итогам заключительного этапа. Возможные значения: Победитель, Призер, Участник
* COMMENT: неформальный комментарий

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12514 entries, 0 to 12513
Data columns (total 26 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   SUBJECT               12514 non-null  object 
 1   YEAR                  12514 non-null  int64  
 2   REGION                12514 non-null  object 
 3   DATA_AVAILABLE        12514 non-null  object 
 4   WINNERS_ONLY          12507 non-null  object 
 5   GRADE_OF_COMPETITION  12507 non-null  float64
 6   ID                    12508 non-null  float64
 7   CODE                  2941 non-null   object 
 8   DISTRICT              4658 non-null   object 
 9   SCHOOL                2552 non-null   object 
 10  T1                    3414 non-null   float64
 11  T2                    3414 non-null   float64
 12  T3                    3414 non-null   float64
 13  T4                    3414 non-null   float64
 14  T5                    3414 non-null   float64
 15  T6                 

Так как мы видим что значени FINAL_SUM, FINAL_PERCANTEGE и FINAL_STATUS пустые,и никакой формулы для них нету, мы можем их удалить, ведь итоговая сумма уже подсчитана в SUM PERCENTAGE и STATUS

In [5]:
df.drop("FINAL_SUM", axis=1, inplace=True)
df.drop("FINAL_PERCENTAGE", axis=1, inplace=True)
df.drop("FINAL_STATUS", axis=1, inplace=True)
df.reset_index()

Unnamed: 0,index,SUBJECT,YEAR,REGION,DATA_AVAILABLE,WINNERS_ONLY,GRADE_OF_COMPETITION,ID,CODE,DISTRICT,...,T4,T5,T6,T7,T8,SUM,PERCENTAGE,REGIONAL_STATUS,AUTHENTIC,COMMENT
0,0,русский язык,2022,Адыгея,TRUE,False,9.0,1.0,,Город Майкоп,...,4.5,7.5,2.0,9.0,,24.5,27.8,,оба,
1,1,русский язык,2022,Адыгея,TRUE,False,9.0,2.0,,ГБОУ АРГ,...,3.0,1.0,1.0,2.0,,7.5,8.5,,оба,
2,2,русский язык,2022,Адыгея,TRUE,False,9.0,3.0,,Майкопский район,...,0.0,1.0,0.0,1.0,,5.0,5.7,,оба,
3,3,русский язык,2022,Адыгея,TRUE,False,9.0,4.0,,Тахтамукайский район,...,1.5,0.5,0.0,0.0,,4.5,5.1,,оба,
4,4,русский язык,2022,Адыгея,TRUE,False,9.0,5.0,,Майкопский район,...,3.0,0.0,0.0,0.0,,4.0,4.5,,оба,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12509,12509,русский язык,2022,Ярославская область,TRUE,False,11.0,12505.0,,Любимский МР,...,0.5,1.5,2.5,0.0,,4.5,4.0,,оба,
12510,12510,русский язык,2022,Ярославская область,TRUE,False,11.0,12506.0,,Ростовский МР,...,0.5,1.0,1.0,0.0,,4.5,4.0,,оба,
12511,12511,русский язык,2022,Ярославская область,TRUE,False,11.0,12507.0,,Ростовский МР,...,0.0,1.5,0.0,0.0,,3.0,2.7,,оба,
12512,12512,русский язык,2022,Ярославская область,TRUE,False,11.0,12508.0,,г. Ярославль,...,0.0,0.0,2.0,0.0,,2.0,1.8,,оба,


In [6]:
df["REGIONAL_STATUS"].fillna("Участник", inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["REGIONAL_STATUS"].fillna("Участник", inplace=True)


Несмотря то что нам выдает Exception, метод успешно отработал и заменил пустые значения на соответсвутющие 

In [7]:
df.REGIONAL_STATUS.sample(20)

4169       Призер
3079       Призер
1999     Участник
10792    Участник
101      Участник
4783     Участник
12071    Участник
10608    Участник
10060    Участник
3486     Участник
9514     Участник
11404    Участник
4847     Участник
6799       Призер
1369     Участник
4368     Участник
5740       Призер
11094    Участник
2924     Участник
10557    Участник
Name: REGIONAL_STATUS, dtype: object

In [8]:
df.describe()

Unnamed: 0,YEAR,GRADE_OF_COMPETITION,ID,T1,T2,T3,T4,T5,T6,T7,T8,SUM,PERCENTAGE
count,12514.0,12507.0,12508.0,3414.0,3414.0,3414.0,3414.0,3414.0,3414.0,3413.0,0.0,7462.0,12468.0
mean,2022.0,10.051651,6254.5,2.344757,0.352665,0.503808,2.156415,2.339045,1.83802,2.103575,,14.411521,13.962167
std,0.0,1.097466,3610.892918,2.254255,1.828766,1.371773,2.197838,1.831161,2.48997,2.429675,,13.817028,12.25267
min,2022.0,8.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0
25%,2022.0,9.0,3127.75,1.0,0.0,0.0,0.0,1.0,0.0,0.0,,4.5,5.113636
50%,2022.0,10.0,6254.5,2.0,0.0,0.0,1.5,2.0,1.0,1.0,,10.0,10.7
75%,2022.0,11.0,9381.25,3.0,0.0,0.0,4.0,3.5,3.0,3.0,,19.0,18.75
max,2022.0,37.0,12508.0,17.5,15.0,10.0,10.0,12.0,17.0,12.0,,84.0,86.93


Мы видим аномальное значение, то что есть записи с людьми которые учились в 37 классе, по описанию мы знаем что максимально допустимый лимит 11 классов, соответственно мы удаляем аномальное значение

In [9]:
df = df[df["GRADE_OF_COMPETITION"] <= 11]

In [10]:
df[df["GRADE_OF_COMPETITION"] > 11]

Unnamed: 0,SUBJECT,YEAR,REGION,DATA_AVAILABLE,WINNERS_ONLY,GRADE_OF_COMPETITION,ID,CODE,DISTRICT,SCHOOL,...,T4,T5,T6,T7,T8,SUM,PERCENTAGE,REGIONAL_STATUS,AUTHENTIC,COMMENT


In [11]:
df.reset_index()

Unnamed: 0,index,SUBJECT,YEAR,REGION,DATA_AVAILABLE,WINNERS_ONLY,GRADE_OF_COMPETITION,ID,CODE,DISTRICT,...,T4,T5,T6,T7,T8,SUM,PERCENTAGE,REGIONAL_STATUS,AUTHENTIC,COMMENT
0,0,русский язык,2022,Адыгея,TRUE,False,9.0,1.0,,Город Майкоп,...,4.5,7.5,2.0,9.0,,24.5,27.8,Участник,оба,
1,1,русский язык,2022,Адыгея,TRUE,False,9.0,2.0,,ГБОУ АРГ,...,3.0,1.0,1.0,2.0,,7.5,8.5,Участник,оба,
2,2,русский язык,2022,Адыгея,TRUE,False,9.0,3.0,,Майкопский район,...,0.0,1.0,0.0,1.0,,5.0,5.7,Участник,оба,
3,3,русский язык,2022,Адыгея,TRUE,False,9.0,4.0,,Тахтамукайский район,...,1.5,0.5,0.0,0.0,,4.5,5.1,Участник,оба,
4,4,русский язык,2022,Адыгея,TRUE,False,9.0,5.0,,Майкопский район,...,3.0,0.0,0.0,0.0,,4.0,4.5,Участник,оба,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12476,12508,русский язык,2022,Ярославская область,TRUE,False,11.0,12504.0,,г. Ярославль,...,0.5,3.5,0.0,0.0,,5.5,4.9,Участник,оба,
12477,12509,русский язык,2022,Ярославская область,TRUE,False,11.0,12505.0,,Любимский МР,...,0.5,1.5,2.5,0.0,,4.5,4.0,Участник,оба,
12478,12510,русский язык,2022,Ярославская область,TRUE,False,11.0,12506.0,,Ростовский МР,...,0.5,1.0,1.0,0.0,,4.5,4.0,Участник,оба,
12479,12511,русский язык,2022,Ярославская область,TRUE,False,11.0,12507.0,,Ростовский МР,...,0.0,1.5,0.0,0.0,,3.0,2.7,Участник,оба,


### Видимо что значений выше 11 класса не осталось, значит мы сделали все правильно

In [12]:
df.shape

(12481, 23)

In [13]:
df["CODE"].notna().value_counts()

CODE
False    9540
True     2941
Name: count, dtype: int64

In [14]:
df["COMMENT"].notna().value_counts()

COMMENT
False    12474
True         7
Name: count, dtype: int64

### Мы видим значения комментариев и Code не пустое, значит мы можем его оставить

In [15]:
df[df["SUM"] >= 88]

Unnamed: 0,SUBJECT,YEAR,REGION,DATA_AVAILABLE,WINNERS_ONLY,GRADE_OF_COMPETITION,ID,CODE,DISTRICT,SCHOOL,...,T4,T5,T6,T7,T8,SUM,PERCENTAGE,REGIONAL_STATUS,AUTHENTIC,COMMENT


### Видим что аномальных значений в SUM не найденно, так как ни 1 из них не превышает максимума

In [16]:
df.T8.notna().value_counts()

T8
False    12481
Name: count, dtype: int64

### Мы видим что Т8 этап не проводился, поэтому смело можем его убрать

In [17]:
df.drop("T8", axis=1, inplace=True)
df.reset_index()

Unnamed: 0,index,SUBJECT,YEAR,REGION,DATA_AVAILABLE,WINNERS_ONLY,GRADE_OF_COMPETITION,ID,CODE,DISTRICT,...,T3,T4,T5,T6,T7,SUM,PERCENTAGE,REGIONAL_STATUS,AUTHENTIC,COMMENT
0,0,русский язык,2022,Адыгея,TRUE,False,9.0,1.0,,Город Майкоп,...,0.0,4.5,7.5,2.0,9.0,24.5,27.8,Участник,оба,
1,1,русский язык,2022,Адыгея,TRUE,False,9.0,2.0,,ГБОУ АРГ,...,0.0,3.0,1.0,1.0,2.0,7.5,8.5,Участник,оба,
2,2,русский язык,2022,Адыгея,TRUE,False,9.0,3.0,,Майкопский район,...,0.0,0.0,1.0,0.0,1.0,5.0,5.7,Участник,оба,
3,3,русский язык,2022,Адыгея,TRUE,False,9.0,4.0,,Тахтамукайский район,...,0.0,1.5,0.5,0.0,0.0,4.5,5.1,Участник,оба,
4,4,русский язык,2022,Адыгея,TRUE,False,9.0,5.0,,Майкопский район,...,0.0,3.0,0.0,0.0,0.0,4.0,4.5,Участник,оба,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12476,12508,русский язык,2022,Ярославская область,TRUE,False,11.0,12504.0,,г. Ярославль,...,0.0,0.5,3.5,0.0,0.0,5.5,4.9,Участник,оба,
12477,12509,русский язык,2022,Ярославская область,TRUE,False,11.0,12505.0,,Любимский МР,...,0.0,0.5,1.5,2.5,0.0,4.5,4.0,Участник,оба,
12478,12510,русский язык,2022,Ярославская область,TRUE,False,11.0,12506.0,,Ростовский МР,...,0.0,0.5,1.0,1.0,0.0,4.5,4.0,Участник,оба,
12479,12511,русский язык,2022,Ярославская область,TRUE,False,11.0,12507.0,,Ростовский МР,...,0.0,0.0,1.5,0.0,0.0,3.0,2.7,Участник,оба,


In [18]:
df.sample(20).T

Unnamed: 0,5720,9467,3082,3426,702,5124,6013,2914,7840,5126,987,6422,3991,2107,9409,10191,7668,6029,1271,10669
SUBJECT,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык,русский язык
YEAR,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022,2022
REGION,Московская область,Самарская область,Москва,Москва,Волгоградская область,Московская область,Московская область,Москва,Ленинградская область,Московская область,Волгоградская область,Московская область,Москва,Москва,Самарская область,Смоленская область,Курганская область,Московская область,Дагестан,Томская область
DATA_AVAILABLE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE,TRUE
WINNERS_ONLY,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
GRADE_OF_COMPETITION,10.0,9.0,10.0,10.0,10.0,9.0,10.0,11.0,10.0,9.0,11.0,11.0,9.0,11.0,9.0,11.0,9.0,10.0,11.0,11.0
ID,5719.0,9465.0,3081.0,3425.0,701.0,5123.0,6012.0,2913.0,7839.0,5125.0,986.0,6421.0,3990.0,2106.0,9407.0,10187.0,7667.0,6028.0,1270.0,10665.0
CODE,,,28238908,28237113,,,,28236142,,,,,28238395,28236175,,,,,,
DISTRICT,,г. Тольятти,,,,,,,Тихвинский,,,,,,г. Самара,Вяземский район,,,Хасавюрт,Каргасокский район
SCHOOL,,,,,,,,,,,,,,,,,МКОУ СОШ №40 г. Кургана,,,


### Итог
#### Проанализировав 1 этап (Предобработка данных) мы видим что было много аномальных значений которые мы постарались исправить и убрать, было много пустых значений, которые мы заполнили данными, а те что неподдаются обработке и заполнению, удалили. Пройдя этот этап мы подготовили данные для последующего взаимодействия