# **Общие статистики**

In [None]:
# Импортирование библиотеки, открытие файла, просмотр
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from scipy.stats import ttest_ind

mathmatics = pd.read_csv('stud_math.csv')
display(mathmatics)

In [None]:
# Детальная информация о колонках датафрейма (размер данных, названия признаков и их типы)
mathmatics.info()
print(f'Количество строк: {mathmatics.shape[0]}')
print(f'Количество столбцов: {mathmatics.shape[1]}')
print(f'Список столбцов: ', list(mathmatics.columns))

In [None]:
# Основные статистические характеристики (числовые данные)
mathmatics.describe()

In [None]:
# Подсчет процента пропуска значений в колонках (выбор более 10% пропусков)

for col in mathmatics.columns:
    pct_missing = mathmatics[col].isna().mean()
    if pct_missing > 0.1:
        print(f'{col} - {pct_missing : .1%}')

In [None]:
# Ручное удаление выбросов
Fedu_drop = mathmatics[mathmatics.Fedu == 40].index
famrel_drop = mathmatics[mathmatics.famrel == -1.0].index
absences_drop = mathmatics[(mathmatics.absences == 212) | (
    mathmatics.absences == 385)].index

mathmatics.drop(index=Fedu_drop, inplace=True)
mathmatics.drop(index=famrel_drop, inplace=True)
mathmatics.drop(index=absences_drop, inplace=True)

# **ЦЕЛЕВАЯ ПЕРЕМЕННАЯ** 

In [None]:
# Заполнение пропусков в целевой переменной
mathmatics.score = mathmatics.score.fillna(mathmatics.score.median())
mathmatics.score.isna().sum()  # Проверяем, что заполнили все пропуски

In [None]:
# Удаление выбросов целевой переменной (если бы таковые были)
IQR = mathmatics.score.quantile(0.75) - mathmatics.score.quantile(0.25)
perc25 = mathmatics.score.quantile(0.25)
perc75 = mathmatics.score.quantile(0.75)
print(f"25-й перцентиль: {perc25};", f"75-й перцентиль: {perc75};",
      f"IQR: {IQR};", f"Границы выбросов: [{perc25 - 1.5*IQR}, {perc75 + 1.5*IQR}].")

mathmatics = mathmatics[mathmatics.score.between(
    perc25 - 1.5*IQR, perc75 + 1.5*IQR)]

In [None]:
# Построение коробчатых диаграмм для выявления закономерностей распределения признаков

def get_boxplot(column):
    """Функция строит коробчатые диаграммы для нижеперечисленных колонок датасета"""
    fig, ax = plt.subplots(figsize=(8, 4))
    sns.boxplot(x=column, y='score', data=mathmatics, ax=ax)
    plt.xticks(rotation=45)
    ax.set_title('Boxplot for ' + column)
    plt.show()


for col in ['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu',
            'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
            'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
            'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout',
            'health', 'absences']:
    get_boxplot(col)

# **SCHOOL** 
- Количество случаев между школами распределено неравномерно
- Медианное значение score выше в школе "GP" (оттуда 88% данных)
- В школе "MS" никто не набрал ниже 20 баллов (за исключением единичного выброса)

In [None]:
mathmatics.school.value_counts().plot(kind='bar')
print(
    f"Количество уникальных значений в столбце school - {mathmatics.school.nunique()}")

# **SEX**
- Распределение по полу в выборке равномерное
- Судя по графику, среди мальчиков успеваемость по математике немного выше, чем у девочек


In [None]:
mathmatics.sex.value_counts().plot(kind='bar')
print(
    f"Количество уникальных значений в столбце sex - {mathmatics.sex.nunique()}")

# **AGE**
- Смещение выборки влево
- Выборка представлена не всеми возрастными группами
- Судя по коробчатому графику, медианное значение балла на экзамене максимальное в возрастной группе 20 лет, минимальное в 21 и 22 года. Однако данные результаты нельзя принимать во внимание, потому что количество случаев в вышеперечисленных возрастных группах минимальное. 

In [None]:
mathmatics.age.plot(kind='hist', title='Age')
mathmatics.age.describe()

# **ADDRESS**
- Распределение по адресу в выборке НЕ равномерное
- Результаты экзамена по математике выше у учеников, проживающих по адресу "U"

In [None]:
mathmatics.address.value_counts(normalize=True).plot(kind='bar')
print(
    f"Количество уникальных значений в столбце address - {mathmatics.sex.nunique()}")

# **FAMSIZE**
- Распределение по размеру семьи в выборке НЕ равномерное
- В семьях с меньшим количеством человек не наблюдается сдача экзамена на баллы ниже 20 (за исключением единичного выброса)

In [None]:
mathmatics.famsize.value_counts(normalize=True).plot(kind='bar')
print(
    f"Количество уникальных значений в столбце famsize - {mathmatics.famsize.nunique()}")

# **PSTATUS**
- Распределение по статусу совместного проживания родителей в выборке НЕ равномерное


In [None]:
mathmatics.Pstatus.value_counts().plot(kind='bar')
print(
    f"Количество уникальных значений в столбце Pstatus - {mathmatics.Pstatus.nunique()}")

# **MEDU, FEDU**
- Распределение по образованию матери в выборке НЕ равномерное (больше всего представлено случаев с высшим образованием)
- Более высокие баллы получали ученики, у которых матери имеют высшее образование
- Распределение по образованию отца в выборке довольно равномерное

In [None]:
mathmatics.Medu.plot(kind='hist');

In [None]:
mathmatics.Fedu.plot(kind='hist');

# **MJOB, FJOB**
- Медианное значение баллов экзамена выше у учеников, матери которых работают в здравоохранении
- Медианное значение баллов экзамена выше у учеников, отцы которых работают учителями

# **GUARDIAN**
- У абсолютного большинства учеников опекуном является мать
- У тех учеников, у которых опекуном явлется отец, средний балл по экзамену не ниже 20 баллов

In [None]:
mathmatics.guardian.value_counts().plot(kind='bar');

# **FAILURES, PAID, HIGHER**
- Успеваемость выше у учеников, у которых количество внеучебных неудач ниже
- Ученики, которые посещали дополнительные платные занятия по математики получили за экзамен более 20 баллов
- Ученики, которые хотят получить высшее образование, сдали экзамен лучше (медианное значение выше, больше высоких баллов)

# **Работа с числовыми переменными**

In [None]:
# Построение диаграмм рассеяния важных числовых переменных
mathmatics.plot(kind='scatter', x='score', y='failures');
mathmatics.plot(kind='scatter', x='score', y='absences');

In [None]:
# Быстрое построение графиков зависимости переменных
sns.pairplot(mathmatics, kind = 'reg');

In [None]:
# Использование матрица корреляции, подсчет индекса, построение тепловой карты
correlation = mathmatics.corr()
display(correlation)
sns.heatmap(correlation, cmap='coolwarm');

# **Работа с номинативными переменными**

In [None]:
def get_stat_dif(column):
    """Функция проверяет статистическую разницу распределения баллов за экзамен по номинативным признакам"""
    """Проводится тест Стьюдента"""
    cols = mathmatics.loc[:, column].value_counts().index[:10]
    combinations_all = list(combinations(cols, 2))
    for comb in combinations_all:
        if ttest_ind(mathmatics.loc[mathmatics.loc[:, column] == comb[0], 'score'],
                     mathmatics.loc[mathmatics.loc[:, column] == comb[1], 'score']).pvalue \
                <= 0.05/len(combinations_all):  # Учли поправку Бонферони
            print('Найдены статистически значимые различия для колонки', column)
            break


for col in ['school', 'sex', 'address', 'famsize', 'Pstatus', 'Mjob', 'Fjob',
            'reason', 'guardian', 'schoolsup', 'famsup', 'paid', 'activities',
            'nursery', 'higher', 'internet', 'romantic']:
    get_stat_dif(col)

In [None]:
# Оставляем переменные, которые оказывают влияние на результат экзамена, в датасете для дальнейшего построения модели.
math_for_model = mathmatics.loc[:, [
    'sex', 'address', 'Mjob', 'paid', 'higher', 'romantic', 'failures']]
math_for_model.head()

## **Выводы**
1) В данных достаточно мало пустых значений, более 10% пропущенных значений содержится в столбцах **Pstatus** и **paid**.

2) Единичные выбросы есть практических во всех переменных, однако самые явные были найдены в столбцах **Fedu** (образование отца), **famrel** (семейные отношения), а также, вероятно, в **absences** (пропуски занятий), что позволяет сделать вывод о том, что данные достаточно чистые.

3) Согласно построенным графикам разброса значений, чем меньше внеучебных задач (**failures**), меньше пропусков (**absences**) тем выше балл экзамена (**score**).

4) Согласно коробчатым диаграммам результаты экзамена могут зависеть:
- от школы и пола (у мальчиков баллы немного выше)
- места проживания (у городских выше)
- родителей (выше у учеников, чьи матери имеют высшее образование, работают в здравоохранении; чьи отцы работают учителями)
- количества внеучебных неудач (чем их ниже, тем выше балл)
- желания получить высшее образование (выше балл)

5) Обнаружена средняя отрицательная корреляция между **failures** (количеством внеучебных неудач) и **score** (-0,332), а также слабые отрицательные корреляции между **age** (возраст) и **score** (-0,149), **goout** (проведение времени с друзьями) и **score** (-0,122).
Таким образом, чем меньше количество внеучебных неудач, возраст ученика и проведенное им время с друзьями, тем выше балл на экзамене по математике.

6) Существует слабая положительная корреляция между **Medu** (образование матери) и **score** (0,212), **Fedu** (образование отца) и **score** (0,125), **studytime** (время на учебу помимо школы в неделю) и **score** (0,114).
Таким образом, образование родителей, а также дополнительная учеба вне школы напрямую влиют на балл по математике. 

7) Самые важные параметры, которые предлагается использовать в дальнейшем для построения модели, это 'sex', 'address', 'Mjob', 'paid', 'higher', 'romantic', а также 'failures'.