# Основная информация проекта

## Цель проекта
Отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет на их успеваемость по математике, чтобы на ранней стадии выявлять студентов, находящихся в группе риска.

## Описание датасета
1. **school** - аббревиатура школы, в которой учится ученик;
2. **sex** - пол ученика ('F' - женский, 'M' - мужской);
3. **age** - возраст ученика (от 15 до 22);
4. **address** - тип адреса ученика ('U' - городской, 'R' - за городом);
5. **famsize** - размер семьи('LE3' <= 3, 'GT3' >3);
6. **Pstatus** - статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно);
7. **Medu** - образование матери (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее);
8. **Fedu** - образование отца (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее);
9. **Mjob** - работа матери ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое);
10. **Fjob** - работа отца ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое);
11. **reason** — причина выбора школы ('home' - близость к дому, 'reputation' - репутация школы, 'course' - образовательная программа, 'other' - другое);
12. **guardian** - опекун ('mother' - мать, 'father' - отец, 'other' - другое);
13. **traveltime** - время в пути до школы (1 - <15 мин., 2 - 15-30 мин., 3 - 30-60 мин., 4 - >60 мин.);
14. **studytime** - время на учёбу помимо школы в неделю (1 - <2 часов, 2 - 2-5 часов, 3 - 5-10 часов, 4 - >10 часов);
15. **failures** - количество внеучебных неудач (n, если 1<=n<=3, иначе 0);
16. **schoolsup** - дополнительная образовательная поддержка (yes или no);
17. **famsup** - семейная образовательная поддержка (yes или no);
18. **paid** - дополнительные платные занятия по математике (yes или no);
19. **activities** - дополнительные внеучебные занятия (yes или no);
20. **nursery** - посещал детский сад (yes или no);
21. **higher** - хочет получить высшее образование (yes или no);
22. **internet** - наличие интернета дома (yes или no);
23. **romantic** - в романтических отношениях (yes или no);
24. **famrel** - семейные отношения (от 1 - очень плохо до 5 - очень хорошо);
25. **freetime** - свободное время после школы (от 1 - очень мало до 5 - очень мого);
26. **goout** - проведение времени с друзьями (от 1 - очень мало до 5 - очень много);
27. **health** - текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо);
28. **absences** - количество пропущенных занятий;
29. **score** - баллы по госэкзамену по математике.

# Импорт библиотек и загрузка данных

In [65]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from itertools import combinations
from scipy.stats import ttest_ind

In [110]:
# Установка максимального количества строк для отображения
pd.set_option('display.max_rows', 50)
# Установка максимального количества стоолбцов для отображения
pd.set_option('display.max_columns', 50)

In [108]:
data = pd.read_csv('stud_math.csv') # Загрузка датасета

# Первичный осмотр данных

In [111]:
# Проверка на успешность загрузки данных и краткий вывод таблицы с информацией
display(data.head())
data.info()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,"studytime, granular",higher,internet,romantic,famrel,freetime,goout,health,absences,score
0,GP,F,18,U,,A,4.0,4.0,at_home,teacher,course,mother,2.0,2.0,0.0,yes,no,no,no,yes,-6.0,yes,,no,4.0,3.0,4.0,3.0,6.0,30.0
1,GP,F,17,U,GT3,,1.0,1.0,at_home,other,course,father,1.0,2.0,0.0,no,yes,no,no,no,-6.0,yes,yes,no,5.0,3.0,3.0,3.0,4.0,30.0
2,GP,F,15,U,LE3,T,1.0,1.0,at_home,other,other,mother,1.0,2.0,3.0,yes,no,,no,yes,-6.0,yes,yes,,4.0,3.0,2.0,3.0,10.0,50.0
3,GP,F,15,U,GT3,T,4.0,2.0,health,,home,mother,1.0,3.0,0.0,no,yes,yes,yes,yes,-9.0,yes,yes,yes,3.0,2.0,2.0,5.0,2.0,75.0
4,GP,F,16,U,GT3,T,3.0,3.0,other,other,home,father,1.0,2.0,0.0,no,yes,yes,no,yes,-6.0,yes,no,no,4.0,3.0,2.0,5.0,4.0,50.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 30 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   school               395 non-null    object 
 1   sex                  395 non-null    object 
 2   age                  395 non-null    int64  
 3   address              378 non-null    object 
 4   famsize              368 non-null    object 
 5   Pstatus              350 non-null    object 
 6   Medu                 392 non-null    float64
 7   Fedu                 371 non-null    float64
 8   Mjob                 376 non-null    object 
 9   Fjob                 359 non-null    object 
 10  reason               378 non-null    object 
 11  guardian             364 non-null    object 
 12  traveltime           367 non-null    float64
 13  studytime            388 non-null    float64
 14  failures             373 non-null    float64
 15  schoolsup            386 non-null    obj

In [105]:
# Вывод количества строк и столбцов таблицы
print(f'Датасет состоит из {data.shape[0]} строк и {data.shape[1]} столбцов')

Датасет состоит из 395 строк и 30 столбцов


In [107]:
# Подсчёт количества столбцов с пропущенными значениями
print(
    f'Количество столбцов с пропущенными значениями - {data.isnull().any().sum()}')

Количество столбцов с пропущенными значениями - 27


# Prepare data

In [95]:
one = [col for col in data.columns if data[col].nunique() <= 1]
len(one)

0

In [85]:
many_null_cols = [col for col in student.columns if student[col].isnull(
).sum() / student.shape[0] > 0.9]
big_top_value_cols = [col for col in student.columns if student[col].value_counts(
    dropna=False, normalize=True).values[0] > 0.9]
one_value_cols = [
    col for col in student.columns if student[col].nunique() <= 1]

In [86]:
cols_to_drop = list(set(many_null_cols + big_top_value_cols + one_value_cols))
# cols_to_drop.remove('isFraud')
# len(cols_to_drop)
print(cols_to_drop)

['higher']


In [72]:
# test = student.drop(cols_to_drop, axis=1)
student.shape

(395, 30)

In [54]:
data.higher.nunique()
display(data.higher.value_counts(dropna=False, normalize=True))

yes    0.901266
NaN    0.050633
no     0.048101
Name: higher, dtype: float64