In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from scipy.stats import ttest_ind
df = pd.read_csv('https://raw.githubusercontent.com/Roman0285/skillfactory_rds/master/module_2/stud_math.xls')

In [None]:
df.info()

В датасете числовых столбцов - 13, строковых столбцов - 17

In [None]:
df.columns

Заменим название некоторых столбцов

In [None]:
df = df.rename(columns={'Pstatus': 'p_status', 'Medu': 'm_edu',
                        'Fedu': 'f_edu', 'Mjob': 'm_job', 'Fjob': 'f_job', 'studytime, granular' : 'st_granular' })

Рассмотрим столбец school

In [None]:
pd.DataFrame(df.school.value_counts())

В датасете содержится два уникальных значения:
- GP
- MS

Вывод, что выборка для анализа сделана по ученикам из двух школ

Рассмотрим столбец sex

In [None]:
pd.DataFrame(df.sex.value_counts())

В датасете содержится два уникальных значения:

- F
- M

Вывод, что в выборке нет трансгендеров и детей, не определившихся с полом

Рассмотрим столбец age

In [None]:
df.age.hist(bins = 40)
df.age.describe()

In [None]:
IQR = df.age.quantile(0.75) - df.age.quantile(0.25)
perc25 = df.age.quantile(0.25)
perc75 = df.age.quantile(0.75)
print('25-й перцентиль: {},'.format(perc25), '75-й перцентиль: {},'.format(perc75),
      "IQR: {}, ".format(IQR), "Границы выбросов: [{f}, {l}].".format(f=perc25 - 1.5*IQR, l=perc75 + 1.5*IQR))

В датасете содержится восемь уникальных значений, один выброс - ученик в возрасте 22 года. По здравому смыслу и ученики с 19 до 21 года тоже лишние, но скорее всего ребята плохо учатся и оставались на второй год. Плюс в условии задания сказано рассмотреть влияние условий жизни учащихся в возрасте от 15 до 22 лет. Поэтому анализ будем проводить по всей выборке


Рассмотрим столбец address, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.address.mode()[0]

Заменим нулевые значения на моду

In [None]:
df.address = df.address.fillna(df.address.mode()[0])

In [None]:
pd.DataFrame(df.address.value_counts())

В датасете информация о детях преимущественно живущих в городе ( в 3.75 раза больше)

Рассмотрим столбец famsize, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.famsize.mode()[0]

In [None]:
df.famsize = df.famsize.fillna(df.famsize.mode()[0])

In [None]:
pd.DataFrame(df.famsize.value_counts())

В датасете преимущественно содержится информация о детях, живущих в многодетных семьях (в 2,7 раза больше, чем семьи с меньше чем трое детей).

Рассмотрим столбец p_status, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.p_status.mode()[0]

In [None]:
df.p_status = df.p_status.fillna(df.p_status.mode()[0])

In [None]:
pd.DataFrame(df.p_status.value_counts())

В датасете преимущественно содержится информация о детях, живущих в полных семьях (в 10 раза больше, чем в раздельных семьях).

Рассмотрим столбец m_edu. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.m_edu.mode()[0]

In [None]:
df.m_edu = df.m_edu.fillna(df.m_edu.mode()[0])

In [None]:
pd.DataFrame(df.m_edu.value_counts())

Уровень образования матерей этих детей разделен приблизительно на равные части (четверть - высшее, четверть - среднее специальное или 11 классов, четверть - 5-9 классы, оставшаяся часть имеет образование 1 - 4 класса, либо без образования)

Рассмотрим столбец f_edu. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.f_edu.mode()[0]

In [None]:
df.f_edu = df.f_edu.fillna(df.f_edu.mode()[0])

In [None]:
pd.DataFrame(df.f_edu.value_counts())

Уровень образования отцов ниже уровня образования матерей. Кроме того есть одно уникальное значение "40". Скорее всего это опечатка. И уровень образования "4.0". заменим "40" на "4.0"

In [None]:
def fix_f_edu(x):
    if x == 40.0:
        return 4.0
    else:
        return x

In [None]:
df.f_edu = df.f_edu.apply(fix_f_edu)

In [None]:
pd.DataFrame(df.f_edu.value_counts())

Рассмотрим столбец m_job, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.m_job.mode()[0]

In [None]:
df.m_job = df.m_job.fillna(df.m_job.mode()[0])

In [None]:
pd.DataFrame(df.m_job.value_counts())

В датасете больше всего матерей задействовано в других сферах.

Рассмотрим столбец f_job, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.f_job.mode()[0]

In [None]:
df.f_job = df.f_job.fillna(df.f_job.mode()[0])

In [None]:
pd.DataFrame(df.f_job.value_counts())

В датасете больше всего отцов также задействовано в других сферах.

Рассмотрим столбец reason, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.reason.mode()[0]

In [None]:
df.reason = df.reason.fillna(df.reason.mode()[0])

In [None]:
pd.DataFrame(df.reason.value_counts())

Причины выбора школы разделились практически по ровну. Близость к дому, репутация школы, образовательная программа в равных частях.

Рассмотрим столбец guardian, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.guardian.mode()[0]

In [None]:
df.guardian = df.guardian.fillna(df.guardian.mode()[0])

In [None]:
pd.DataFrame(df.guardian.value_counts())

В датасете больше всего детей, чьи опекуны матери (более чем в три раза). Однако мне кажется этот столбец противоречит со столбцом p_status.

Рассмотрим столбец traveltime. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.traveltime.mode()[0]

In [None]:
df.traveltime = df.traveltime.fillna(df.traveltime.mode()[0])

In [None]:
pd.DataFrame(df.traveltime.value_counts())

В датасете почти 70% детей тратят меньше 15 минут на дорогу. Около 25% до 30 минут. Можно сделать вывод, что все дети живут достаточно близко от школы

Рассмотрим столбец studytime. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.studytime.mode()[0]

In [None]:
df.studytime = df.studytime.fillna(df.studytime.mode()[0])

In [None]:
pd.DataFrame(df.studytime.value_counts())

В датасете почти 50% детей тратят от 2-х до 5-ти часов на учебу. Около 25% менее 2-х часов. Возможно дети одаренные быстро схватывают, а возможно наоборот недостаточно тратят время

Рассмотрим столбец failures. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.failures.mode()[0]

In [None]:
df.failures = df.failures.fillna(df.failures.mode()[0])

In [None]:
pd.DataFrame(df.failures.value_counts())

В датасете почти 80% детей не выполняют внеучебные неудачи. 

Рассмотрим столбец schoolsup, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.schoolsup.mode()[0]

In [None]:
df.schoolsup = df.schoolsup.fillna(df.schoolsup.mode()[0])

In [None]:
pd.DataFrame(df.schoolsup.value_counts())

В датасете очень маленькая часть детей использует дополнительную образовательную поддержку

Рассмотрим столбец famsup, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.famsup.mode()[0]

In [None]:
df.famsup = df.famsup.fillna(df.famsup.mode()[0])

In [None]:
pd.DataFrame(df.famsup.value_counts())

В датасете чуть больше половины детей используется семейная образовательная поддержка

Рассмотрим столбец paid, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.paid.mode()[0]

In [None]:
df.paid = df.paid.fillna(df.paid.mode()[0])

In [None]:
pd.DataFrame(df.paid.value_counts())

В датасете чуть больше половины детей посещают дополнительные платные занятия по математике

Рассмотрим столбец activities, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.activities.mode()[0]

In [None]:
df.activities = df.activities.fillna(df.activities.mode()[0])

In [None]:
pd.DataFrame(df.activities.value_counts())

В датасете детей, которые посещают и не посещают дополнительные внеучебные занятия практически одинаково

Рассмотрим столбец nursery, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.nursery.mode()[0]

In [None]:
df.nursery = df.nursery.fillna(df.nursery.mode()[0])

In [None]:
pd.DataFrame(df.nursery.value_counts())

80% детей в датасете посещали детский сад

Рассмотрим столбец st_granular. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.st_granular.mode()[0]

In [None]:
df.st_granular = df.st_granular.fillna(df.st_granular.mode()[0])

In [None]:
pd.DataFrame(df.st_granular.value_counts())

Пока не понятно что это за параметр, если подтвердится что он коррелируется с studytime от этой колонки необходимо будет избавится

Рассмотрим столбец higher, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.higher.mode()[0]

In [None]:
df.higher = df.higher.fillna(df.higher.mode()[0])

In [None]:
pd.DataFrame(df.higher.value_counts())

В датасете почти все дети хотят получить высшее образование

Рассмотрим столбец internet, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.internet.mode()[0]

In [None]:
df.internet = df.internet.fillna(df.internet.mode()[0])

In [None]:
pd.DataFrame(df.internet.value_counts())

В датасете у 85% детей есть интернет дома

Рассмотрим столбец romantic, в этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.romantic.mode()[0]

In [None]:
df.romantic = df.romantic.fillna(df.romantic.mode()[0])

In [None]:
pd.DataFrame(df.romantic.value_counts())

В датасете почти 70% детей не состоят в романтических отношениях

Рассмотрим столбец famrel. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.famrel.mode()[0]

In [None]:
df.famrel = df.famrel.fillna(df.famrel.mode()[0])

In [None]:
pd.DataFrame(df.famrel.value_counts())

В датасете у 75% детей семейные отношения хорошие. Кроме того есть значение "-1.0" Скорее всего это опечатка. Заменим это значение на "1.0"

In [None]:
def fix_famrel(x):
    if x == -1.0:
        return 1.0
    else:
        return x

In [None]:
df.famrel = df.famrel.apply(fix_famrel)

In [None]:
pd.DataFrame(df.famrel.value_counts())

Рассмотрим столбец freetime. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.freetime.mode()[0]

In [None]:
df.freetime = df.freetime.fillna(df.freetime.mode()[0])

In [None]:
pd.DataFrame(df.freetime.value_counts())

В датасете представлена информация о свободном времени детей, около 40% достаточно свободного времени, 30% больше среднего. 

Рассмотрим столбец goout. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.goout.mode()[0]

In [None]:
df.goout = df.goout.fillna(df.goout.mode()[0])

In [None]:
pd.DataFrame(df.goout.value_counts())

В датасете представлена информация о времени детей проведенным с друзьями, около 35% достаточно свободного времени, 25% меньше среднего, 20% выше среднего

Рассмотрим столбец health. Будем считать этот столбец категориальным признаком, несмотря на то, что он в числовом формате. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем наиболее часто встречающееся значение (моду)

In [None]:
df.health.mode()[0]

In [None]:
df.health = df.health.fillna(df.health.mode()[0])

In [None]:
pd.DataFrame(df.health.value_counts())

В датасете предоставлена информация о здоровье детей. Около 40% из них имеют очень хорошее здоровье. Но около 22% имеют плохое и очень плохое здоровье

Рассмотрим столбец absences. В этом столбце есть незаполненные ячейки, что бы их заполнить найдем медианное значение

In [None]:
df.absences.median()

Заполним пропущенные значения

In [None]:
df.absences = df.absences.fillna(df.absences.median())

In [None]:
df.absences.hist(bins=20)
df.absences.describe()

Видим, что основное распределение лежит между 0 и 20 пропущенными занятиями и есть потенциальные выбросы свыше 20.
Самый простой способ отфильтровать выбросы — воспользоваться формулой интерквартильного расстояния (межквартильного размаха). Выбросом считаются такие значения, которые лежат вне рамок

In [None]:
IQR = df.absences.quantile(0.75) - df.absences.quantile(0.25)
perc25 = df.absences.quantile(0.25)
perc75 = df.absences.quantile(0.75)
print('25-й перцентиль: {},'.format(perc25), '75-й перцентиль: {},'.format(perc75),
      "IQR: {}, ".format(IQR), "Границы выбросов: [{f}, {l}].".format(f=perc25 - 1.5*IQR, l=perc75 + 1.5*IQR))

Удалим выбросы из датасета

In [None]:
df = df.loc[df.absences <= 20.0]

Рассмотрим столбец score.

Заменим незаполненные ячейки на 0.0. т.к. не понятно по какой причине нет показателей

In [None]:
df.score = df.score.fillna(0.0)

In [None]:
df.score.hist(bins=30)
df.score.describe()

Из распределния видно выбросов нет. Есть часть учеников, у которых оценка 0. Это может значить что ученики например не пришли на экзамен. 

In [None]:
IQR = df.score.quantile(0.75) - df.score.quantile(0.25)
perc25 = df.score.quantile(0.25)
perc75 = df.score.quantile(0.75)
print('25-й перцентиль: {},'.format(perc25), '75-й перцентиль: {},'.format(perc75),
      "IQR: {}, ".format(IQR), "Границы выбросов: [{f}, {l}].".format(f=perc25 - 1.5*IQR, l=perc75 + 1.5*IQR))

Удалим все строчки с 0.0 значением, т.к. это означает, что ученики например не пришли на экзамен. И в итоговом анализе мы этих ученников не рассматриваем

In [None]:
df = df.loc[df.score != 0.0]

Выясним, какие столбцы коррелируют с баллами по госэкзамену по математике. Это поможет понять, какие параметры стоит оставить для модели, а какие — исключить. Создадим новый df с интересующими нас столбцами age, absences, score.

In [None]:
df_new = df.loc[:, ['age', 'absences', 'score']]

In [None]:
sns.pairplot(df_new, kind='reg')

Используем для наглядности матрицу корреляций:

In [None]:
df_new.corr()

Столбцы age и absences слабо скоррелированы друг с другом. Отрицательная корреляция их со столбцом score говорит о том что чем больше возраст ученика или больше пропущенных уроков, тем результат хуже

Рассмотрим остальные переменные с помощью box-plot

In [None]:
def get_boxplot(column):
    fig, ax = plt.subplots(figsize=(14, 4))
    sns.boxplot(x=column, y='score',
                data=df.loc[df.loc[:, column].isin(
                    df.loc[:, column].value_counts().index[:5])],
                ax=ax)
    ax.set_title('Boxplot for ' + column)
    plt.show()

In [None]:
for col in ['school', 'sex', 'address', 'famsize', 'p_status', 'm_edu', 'f_edu', 'm_job', 'f_job', 'reason', 'guardian',
            'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'st_granular',
            'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'health']:
    get_boxplot(col)

Из графиков видно, что некоторые параметры могут не влиять на успеваемость учеников. Проверим, есть ли статистическая разница в распределении оценок по номинативным признакам, с помощью теста Стьюдента. Проверим нулевую гипотезу о том, что распределения оценок батончиков по различным параметрам неразличимы:

In [None]:
def get_stat_dif(column):
    cols = df.loc[:, column].value_counts().index[:5]
    combinations_all = list(combinations(cols, 2))
    for comb in combinations_all:
        if ttest_ind(df.loc[df.loc[:, column] == comb[0], 'score'],
                     df.loc[df.loc[:, column] == comb[1], 'score']).pvalue \
                <= 0.05/len(combinations_all):  # Учли поправку Бонферони
            print('Найдены статистически значимые различия для колонки', column)
            break

In [None]:
for col in ['school', 'sex', 'address', 'famsize', 'p_status', 'm_edu', 'f_edu', 'm_job', 'f_job', 'reason', 'guardian',
            'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'st_granular',
            'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'health']:
    get_stat_dif(col)

Как мы видим, серьёзно отличаются 10 параметров: sex, address, m_edu, f_edu, m_job, studytime, failures, schoolsup, st_granular, health. Оставим эти переменные в датасете для дальнейшего построения модели, кроме колнки st_granular, как говорилось выше столбец st_granular это тот же самый парметр как и studytime, только умноженный на (-3). Итак, в нашем случае важные переменные, которые, возможно, оказывают влияние на оценку, это: sex, address, m_edu, f_edu, m_job, studytime, failures, schoolsup, health, age, absences, score.

In [None]:
df_for_model = df.loc[:, ['sex', 'address', 'm_edu', 'f_edu', 'm_job',
                          'studytime', 'failures', 'schoolsup', 'health', 'age', 'absences', 'score']]
df_for_model.head()

Выводы:
- В данных достаточно мало пустых значений
- Выбросы найдены в столбце возраст, но данные не удалялись в соответствии с условием задания (отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет) и количество пропущенных занятий (т.к. понятно что чем больше пропущенных занаятий, тем хуже успеваемость), также удалены ученики с оценкой по экзамену "0". Возможно они не пришли или забыли сдать работу, что позволяет сделать вывод о том, что данные не достаточно чистые.
- Отрицательная корреляция age и absences со столбцом score говорит о том что чем больше возраст ученика или больше пропущенных уроков, тем результат хуже
- Самые важные параметры, которые предлагается использовать в дальнейшем для построения модели, это sex, address, m_edu, f_edu, m_job, studytime, failures, schoolsup, health, age, absences, score. 