2.8. Итоговое задание
Вас пригласили поучаствовать в одном из проектов UNICEF — международного подразделения ООН, чья миссия состоит в повышении уровня благополучия детей по всему миру.

Суть проекта — отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет на их успеваемость по математике, чтобы на ранней стадии выявлять студентов, находящихся в группе риска.

И сделать это можно с помощью модели, которая предсказывала бы результаты госэкзамена по математике для каждого ученика школы (вот она, сила ML!). Чтобы определиться с параметрами будущей модели, проведите разведывательный анализ данных и составьте отчёт по его результатам.

Ниже вы найдете пошаговую инструкцию по выполнению проекта.

Описание датасета
Посмотрим на переменные, которые содержит датасет:
1 school — аббревиатура школы, в которой учится ученик

2 sex — пол ученика ('F' - женский, 'M' - мужской)

3 age — возраст ученика (от 15 до 22)

4 address — тип адреса ученика ('U' - городской, 'R' - за городом)

5 famsize — размер семьи('LE3' <= 3, 'GT3' >3)

6 Pstatus — статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно)

7 Medu — образование матери (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)

8 Fedu — образование отца (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)

9 Mjob — работа матери ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)

10 Fjob — работа отца ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)

11 reason — причина выбора школы ('home' - близость к дому, 'reputation' - репутация школы, 'course' - образовательная программа, 'other' - другое)

12 guardian — опекун ('mother' - мать, 'father' - отец, 'other' - другое)

13 traveltime — время в пути до школы (1 - <15 мин., 2 - 15-30 мин., 3 - 30-60 мин., 4 - >60 мин.)

14 studytime — время на учёбу помимо школы в неделю (1 - <2 часов, 2 - 2-5 часов, 3 - 5-10 часов, 4 - >10 часов)

15 failures — количество внеучебных неудач (n, если 1<=n<=3, иначе 0)

16 schoolsup — дополнительная образовательная поддержка (yes или no)

17 famsup — семейная образовательная поддержка (yes или no)

18 paid — дополнительные платные занятия по математике (yes или no)

19 activities — дополнительные внеучебные занятия (yes или no)

20 nursery — посещал детский сад (yes или no)

21 higher — хочет получить высшее образование (yes или no)

22 internet — наличие интернета дома (yes или no)

23 romantic — в романтических отношениях (yes или no)

24 famrel — семейные отношения (от 1 - очень плохо до 5 - очень хорошо)

25 freetime — свободное время после школы (от 1 - очень мало до 5 - очень мого)

26 goout — проведение времени с друзьями (от 1 - очень мало до 5 - очень много)

27 health — текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо)

28 absences — количество пропущенных занятий

29 score — баллы по госэкзамену по математике

Рекомендации по выполнению проекта

    Проведите первичную обработку данных. Так как данных много, стоит написать функции, которые можно применять к столбцам определённого типа.
    Посмотрите на распределение признака для числовых переменных, устраните выбросы.
    Оцените количество уникальных значений для номинативных переменных.
    По необходимости преобразуйте данные
    Проведите корреляционный анализ количественных переменных
    Отберите не коррелирующие переменные.
    Проанализируйте номинативные переменные и устраните те, которые не влияют на предсказываемую величину (в нашем случае — на переменную score).
    Не забудьте сформулировать выводы относительно качества данных и тех переменных, которые вы будете использовать в дальнейшем построении модели.

In [None]:
# !conda install -c conda-forge jupyter_contrib_nbextensions

In [None]:
# !pip install autopep8

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from IPython.core.display import display
from scipy.stats import ttest_ind

pd.set_option('display.max_rows', 50) # показывать больше строк
pd.set_option('display.max_columns', 50) # показывать больше колонок

In [None]:
students = pd.read_csv('stud_math.csv')

In [None]:
display(students.head(10))
students.info()

In [None]:
def print_column_info(column):
    d_type = column.dtype
    count = column.value_counts()
    values = len(column)
    uniq = column.unique()
    print(f'Название колонки: {column.name}. \nТип: {d_type}. '
          f'\nЗначений: \n{count}. \nВсего: {values} \nУникальные значения: {uniq}')
    print('-----')
    return column

In [None]:
for column_name in students.columns:
    column = students[column_name]
    students[column_name] = column.apply(lambda x: None if pd.isnull(x) or x == 'nan' else x)
    print_column_info(students[column_name])

Видим, что в колонке "score" есть пропуски. Уберем эти строки из выборки, т.к. мы не сможем понять влияние условий жизни на успеваемость

In [None]:
# students.score = students.score[students.score != None]
students=students[pd.isnull(students.score) != True]

In [None]:
students.age.hist(label = 'возраст ученика')
students.age.describe()

In [None]:
students.traveltime.hist(label = 'время в пути до школы')
students.traveltime.describe()

In [None]:
students.studytime.hist(label = 'время на учёбу помимо школы в неделю')
students.studytime.describe()

In [None]:
students.failures.hist(label = 'количество внеучебных неудач')
students.failures.describe()

In [None]:
students.famrel.hist(label = 'семейные отношения')
students.famrel.describe()

-1 - выброс. делаем = 1

In [None]:
students.famrel = students.famrel.apply(lambda x: 1 if x < 1 else x)

In [None]:
students.freetime.hist(label = 'свободное время после школы')
students.freetime.describe()

In [None]:
students.goout.hist(label = 'проведение времени с друзьями')
students.goout.describe()

In [None]:
students.health.hist(label = 'текущее состояние здоровья')
students.health.describe()

In [None]:
students.absences.hist(label = 'количество пропущенных занятий')
students.absences.describe()

Уберем выбросы

In [None]:
median = students.absences.median()
IQR = students.absences.quantile(0.75) - students.absences.quantile(0.25)
perc25 = students.absences.quantile(0.25)
perc75 = students.absences.quantile(0.75)
print('25-й перцентиль: {},'.format(perc25), '75-й перцентиль: {},'.format(perc75)
      , "IQR: {}, ".format(IQR),"Границы выбросов: [{f}, {l}].".format(f=perc25 - 1.5*IQR, l=perc75 + 1.5*IQR))
students.absences=students.absences.loc[students.absences.between(perc25 - 1.5*IQR, perc75 + 1.5*IQR)]
students.absences.hist(bins = 16, label = 'IQR')
# students.absences.loc[students.absences <= 100].hist(alpha = 0.5, bins = 16, range = (40, 100), label = 'Здравый смысл')
plt.legend();

In [None]:
students.absences.hist(label = 'количество пропущенных занятий')
students.absences.describe()

In [None]:
students.score.hist(label = ' баллы по госэкзамену по математике')
students.score.describe()

In [None]:
display(students.head(10))
students.info()

Образование матери

In [None]:
students.Medu.hist(label = 'Образование матери')
students.Medu.describe()

Образование отца

In [None]:
students.Fedu.hist(label = 'Образование отца')
students.Fedu.describe()

Есть выброс на 40, скорее всего это опечатка = 4.0
Все что больше 10 делим на 10

In [None]:
students.Fedu = students.Fedu.apply(lambda x: x/10 if x >= 10 else x)

In [None]:
students.Fedu.hist(label = 'Образование отца')
students.Fedu.describe()

Образование. Сводная гистограма

In [None]:
students.Medu.hist(label = 'Образование матери')
students.Fedu.hist(label = 'Образование отца', alpha = 0.5)
students.Medu.describe()
plt.legend()


Анализ номинативных переменных

In [None]:
def get_boxplot(column):
    fig, ax = plt.subplots(figsize = (14, 4))
    sns.boxplot(x=column, y='score',
                data=students.loc[students.loc[:, column].isin(students.loc[:, column].value_counts().index)],
               ax=ax)
    plt.xticks(rotation=45)
    ax.set_title('Boxplot for ' + column)
    plt.show()

In [None]:
for column_name in students.columns:
    col = students[column_name]
    if col.dtype == 'object':
        get_boxplot(column_name)


Не сильно влияет на оценку:
название школы, пол, причина выбора школы,семейная образовательная поддержка,
 дополнительные платные занятия по математике,

Городские ученики учатся лучше
Размер семьи не сильно влияет
Pstatus  - не сильно влияет
Работа родителей оказывает влияние на оценку

Если опекун не один из родителей, то ученик учится хуже
дополнительная образовательная поддержка ухудшает оценку
дополнительные внеучебные занятия - улучшают оценку
посещал детский сад - улучшает оценку
Желание получить высшее образование очень сильно повышает оценку
наличие интернета дома - тоже повышает оценку
романтические отношения немного мешают учебе

Итого: Городские ученики, у которых родители имеют хорошую работу. Если ученик
посещал детский сад, имеет дома интернет и есть желание получить высшее образование
учатся лучше.

Корреляционный анализ

In [None]:
sns.pairplot(students, kind = 'reg')

Используем для наглядности матрицу корреляций:

In [None]:
students.corr()



Видим, что образование матери и отца сильнее всего влияет на успеваемость,
и образрвание матери влияет сильнее, чем отца
Дальность от школы ухудшает успеваемость
Дополнительные часы обучения так же повышают оценку
а вот количество внеучебных неудач наоборот ухудшают успеваемость
Семейные отношения и здоровье немного повышают успеваемость, а проведение времени с друзьями
уменьшают

Данные в целом чистые, присутствуют небольшые выбросы и пропуски по успеваемости



