In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from scipy.stats import ttest_ind

pd.set_option('display.max_rows', 50) # показывать больше строк
pd.set_option('display.max_columns', 50) # показывать больше колонок

In [3]:
data = pd.read_csv('stud_math.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'stud_math.csv'

In [None]:
display(data.describe(include='object'))
data.describe()

In [None]:
data.head()

In [None]:
df = data.copy()

# Описание датасета
Посмотрим на переменные, которые содержит датасет:

* **school** — аббревиатура школы, в которой учится ученик
* **sex** — пол ученика ('F' - женский, 'M' - мужской)
* **age** — возраст ученика (от 15 до 22)
* **address** — тип адреса ученика ('U' - городской, 'R' - за городом)
* **famsize** — размер семьи('LE3' <= 3, 'GT3' >3)
* **Pstatus** — статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно)
* **Medu** — образование матери (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)
* **Fedu** — образование отца (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)
* **Mjob** — работа матери ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)
* **Fjob** — работа отца ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)
* **reason** — причина выбора школы ('home' - близость к дому, 'reputation' - репутация школы, 'course' - образовательная программа, 'other' - другое)
* **guardian** — опекун ('mother' - мать, 'father' - отец, 'other' - другое)
* **traveltime** — время в пути до школы (1 - <15 мин., 2 - 15-30 мин., 3 - 30-60 мин., 4 - >60 мин.)
* **studytime** — время на учёбу помимо школы в неделю (1 - <2 часов, 2 - 2-5 часов, 3 - 5-10 часов, 4 - >10 часов)
* **failures** — количество внеучебных неудач (n, если 1<=n<=3, иначе 0)
* **schoolsup** — дополнительная образовательная поддержка (yes или no)
* **famsup** — семейная образовательная поддержка (yes или no)
* **paid** — дополнительные платные занятия по математике (yes или no)
* **activities** — дополнительные внеучебные занятия (yes или no)
* **nursery** — посещал детский сад (yes или no)
* **higher** — хочет получить высшее образование (yes или no)
* **internet** — наличие интернета дома (yes или no)
* **romantic** — в романтических отношениях (yes или no)
* **famrel** — семейные отношения (от 1 - очень плохо до 5 - очень хорошо)
* **freetime** — свободное время после школы (от 1 - очень мало до 5 - очень мого)
* **goout** — проведение времени с друзьями (от 1 - очень мало до 5 - очень много)
* **health** — текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо)
* **absences** — количество пропущенных занятий
* **score** — баллы по госэкзамену по математике


In [None]:
df.info()

In [None]:
# Количество NaN
nan_df = pd.DataFrame(df.isna().sum(),columns=['NaN'])
nan_df

In [None]:
df.columns

****

Рассмотрим все столбцы по отдельности.

# <span style="color:green">school</span>

аббревиатура школы, в которой учится ученик

In [None]:
print("Количество уникальных школ в датасете: ", df.school.nunique())
df['school'].value_counts()

In [None]:
df['school'].value_counts().plot(kind='bar',
                                 grid=True,
                                 title='Количество учеников в школах')

**Вывод по столбцу school:** 

Всего 2 уникальных значения, отсутвуют незаполненные данные (это хорошо). Распределение учеников между школами неравномерное, количество учеников в школе GP больше, чем в MS, в 7.5 раз. 

Предположу, что для анализа предоставлен небольшой кусок датасета, в который попали всего 2 школы, при этом возможно данные по 2-ой школе неполные. 

Или Другой вариант: GP - городская школа (с большим количеством учеников), MS - загородная или частная специлизированная школа (с меньшим количеством учеников).

*****

# <span style="color:green">sex</span>
пол ученика ('F' - женский, 'M' - мужской)

In [None]:
df.sex.value_counts()

In [None]:
df['sex'].value_counts().plot(kind='bar',
                              grid=True,
                              title='Распределение учеников в школах по полу')

**Вывод по столбцу sex:** 

Категориальный (бинарный) признак (F и M), Отсутвуют незаполненные данные (это хорошо). В данной выборке девочек на 11% больше, чем мальчиков.

*****

# <span style="color:green">age</span>

возраст ученика (от 15 до 22)

In [None]:
df.age.value_counts()

In [None]:
sns.countplot(x='age', data=df, label='age')

In [None]:
sns.boxplot(y = 'score', x = 'age', data=df)

**Вывод по столбцу age:** 

Содержит числовые данные, пустых значений нет!
Заполнен корректно - соответвуют описанию (от 15 до 22).

Судя по графику можно предположить, что ученики по возрасту распределены приблизительно нормально.

*****

# <span style="color:green">address</span>

тип адреса ученика ('U' - городской, 'R' - за городом)

Номинативный признак

In [None]:
display(pd.DataFrame(df.address.value_counts(dropna=False)))

In [None]:
df['address'].value_counts().plot(kind='bar',
                                  grid=True,
                                  title='Распределение учеников в школах по адресу')

**Вывод по столбцу address:** 

Категориальный признак (U и R).
Количество учеников, живуших в городу, больше в 3.5 раза, чем живуших за городом. 

<span style="color:red">Содержит 17 пустых значений!</span>

Варианты избавления от пустых значений:
* можно предположить взаимосвязь школы, адреса и время в пути до школы (school, address, traveltime):

In [None]:
df.pivot_table(values='age',
               index='address',
               columns='school',
               aggfunc='count',
               margins=True,
               fill_value=0,
               dropna=False)

In [None]:
df.pivot_table(values='traveltime',
               index='address',
               columns='school',
               aggfunc='median',
               margins=True,
               fill_value=0,
               dropna=False)

До школы MS в среднем добираться дольше. Ученики, живущие за городом, добираются дольше. 

In [None]:
# df.groupby(['school', 'traveltime', 'address']).age.count()


In [None]:
df.groupby(['traveltime', 'address']).age.count()

In [None]:
# display(df[df.address.isnull()])

Предлагаю заменить пропуски на R, traveltime > 2, остальное на U  


In [None]:
df['address'] = df.apply(lambda x: ('R' if (
    x.traveltime > 2) else 'U') if pd.isna(x.address) else x.address, axis=1)

In [None]:
# df.groupby(['school', 'traveltime', 'address']).age.count()

******
# <span style="color:green">famsize</span>

размер семьи('LE3' <= 3, 'GT3' >3)

In [None]:
display(pd.DataFrame(df.famsize.value_counts(dropna=False)))

In [None]:
df['famsize'].value_counts().plot(kind='bar',
                                  grid=True,
                                  title='Распределение учеников по признаку "Размер семьи"')

**Вывод по столбцу famsize:** 

Категориальный признак.
Семьи, более 3 человек, преобладают в выборке.

<span style="color:red">Содержит 27 пустых значений!</span> 


In [None]:
df.pivot_table(values='age',
               index='Pstatus',
               columns='famsize',
               aggfunc='count',
               margins=True,
               fill_value=0,
               dropna=False
               )

In [None]:
# display(df[df.famsize.isnull()])

Семьи GT3 преобладают в выборке не зависимо от живут родители вместе или нет (при этом по пустым значения у большинства родители живут вместе). 
Склоняюсь к варианту замены пустых на GT3 (наиболее часто встречающееся), хотя пустых почти 7%... Вернусь к этому позже 

****

# <span style="color:green">Pstatus</span>

статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно)

In [None]:
display(pd.DataFrame(df.Pstatus.value_counts(dropna=False)))

In [None]:
df['Pstatus'].value_counts().plot(kind='bar',
                                  grid=True,
                                  title='Распределение учеников по признаку "Статус совместного жилья родителей"')

**Вывод по столбцу famsize и Pstatus:** 

Категориальные признак.

<span style="color:red">Содержит 45 пустых значений! Достаточно много </span> 


Семьи более 3 человек - 71% в датасете; 
Семьи, где родители живут вместе - 90%.

Пустые можно заполнить: 
* наиболее часто встречающимся (Т или GT3) 
* cлучайно заполнить возможными значениями (и/или сохраняя пропорцию распределения) по каждому столбцу
* изучить взаимосвязь размер семьи и статус совместного проживания (famsize, Pstatus) - В семьях, более 3 человек - родители проживают совместно


In [None]:
df.pivot_table(values='age',
               index='Pstatus',
               columns='famsize',
               aggfunc='count',
               margins=True,
               fill_value=0,
               dropna=False
               )

In [None]:
df.groupby(['Pstatus', 'famsize']).age.count()

In [None]:
# display(df[df.Pstatus.isnull()])

In [None]:
len(df[(df.famsize == 'GT3') & (df.Pstatus.isnull())])

Семьи T значительно преобладают в выборке (в семьях более 3 человек и менее). 
Склоняюсь к варианту замены пустых на T (наиболее часто встречающееся), хотя пустых более 11%... Вернусь к этому позже 

****

# <span style="color:green">Medu</span>

образование матери:
* 0 - нет, 
* 1 - 4 класса, 
* 2 - 5-9 классы, 
* 3 - среднее специальное или 11 классов, 
* 4 - высшее.

Номинативный признак

In [None]:
display(pd.DataFrame(df.Medu.value_counts(dropna=False)))

<span style="color:red">Содержит 3 пустых значений!</span> 

Заменим на наиболее часто встречающееся:

In [None]:
df['Medu'] = df['Medu'].fillna(df['Medu'].mode()[0])
display(pd.DataFrame(df.Medu.value_counts(dropna=False)))

In [None]:
# df['Medu'].value_counts().plot(kind='bar',
#                                grid=True,
#                                title='Распределение учеников по признаку "Образование матери"')

In [None]:
sns.countplot(x='Medu', data=df)

****
# <span style="color:green">Fedu</span>

образование матери:
* 0 - нет, 
* 1 - 4 класса, 
* 2 - 5-9 классы, 
* 3 - среднее специальное или 11 классов, 
* 4 - высшее.

Номинативный признак

In [None]:
display(pd.DataFrame(df.Fedu.value_counts(dropna=False)))

В датасете по столбцу содержится Ошибка - 40.0, скорее всего опечатка, добавлен лишний 0 - заменим на 4.0: 

In [None]:
df.loc[df['Fedu'] == 40.0, 'Fedu'] = 4.0
display(pd.DataFrame(df.Fedu.value_counts(dropna=False)))

<span style="color:red">Содержит 24 пустых значений!</span> 

In [None]:
# df['Fedu'].value_counts().plot(kind='bar',
#                                grid=True,
#                                title='Распределение учеников по признаку "Образование отца"')

In [None]:
sns.countplot(x='Fedu', data=df)


In [None]:
df[['Medu', 'Fedu']].plot(kind='hist',
                            bins=5,
                            grid=True,
                            subplots=True,
                            title=['Medu', 'Fedu'],
                            legend=False)

In [None]:
fig, ax =plt.subplots(1,2)
sns.countplot(x=df['Medu'], data=df, ax=ax[0])
sns.countplot(x=df['Fedu'], data=df, ax=ax[1])

In [None]:
df.pivot_table('sex', index='Medu', columns='Fedu', aggfunc=['count'], fill_value="",
                 dropna=True, margins=True)

In [None]:
print('Признаки Medu и Fedu равны:', len(df[df.Medu == df.Fedu]))
print('Признаки Medu и Fedu неравны:', len(df[df.Medu != df.Fedu]), 'в том числе 3 + 24 пустые значения')

In [None]:
# df[pd.isnull(df['Medu'])]
# df[pd.isnull(df['Fedu'])]

In [None]:
df.loc[:,['Medu','Fedu']].corr()

**Вывод по столбцу Medu и Fedu:** 

Категориальный признак (имеет 5 значений).
Образование матери в среднем лучше образования отца (судя по графикам).

Сложно представить в настоящее время людей без образования (0) или 4 класса (1). Для Medu - 62, для Fedu - 80 - это 15% и 20% соответвенно. 
 Поэтому необходимы уточнения по выборке данных (какие страны/регионы, дата сбора информации, актуальность и тп). 

Варианты заполнения пустых значений:
* Модой
* оценить взаимосвязь между Medu и Fedu (у семейных пар схожее образование - достаточно высокая корреляция)
* изучить взаимосвязь между Medu и Mjob; Fedu и Fjob


In [None]:
df['Fedu'] = df.apply(lambda x: x.Medu if pd.isna(x.Fedu) else x.Fedu , axis=1)

In [None]:
# df[df.Fedu.isnull()]

****
# <span style="color:green">Mjob</span>

работа матери:
* 'teacher' - учитель, 
* 'health' - сфера здравоохранения, 
* 'services' - гос служба, 
* 'at_home' - не работает, 
* 'other' - другое.

Номинативный признак

In [None]:
display(pd.DataFrame(df.Mjob.value_counts(dropna=False)))

<span style="color:red">Содержит 19 пустых значений!</span> 

In [None]:
sns.countplot(x='Mjob', data=df)

In [None]:
# df['Mjob'].value_counts().plot(kind='bar',
#                                grid=True,
#                                title='Распределение учеников по признаку "Работа матери"')

Поскольку сферу деятельности мамы в случаях пропусках не представляется возможным определить, заменим пропуски на значение "other", тем более, что оно самое популярное.

In [None]:
df.Mjob = df.Mjob.fillna('other')

****
# <span style="color:green">Fjob</span>

работа матери:
* 'teacher' - учитель, 
* 'health' - сфера здравоохранения, 
* 'services' - гос служба, 
* 'at_home' - не работает, 
* 'other' - другое.

Номинативный признак

In [None]:
display(pd.DataFrame(df.Fjob.value_counts(dropna=False)))

<span style="color:red">Содержит 36 пустых значений!</span> 

In [None]:
sns.countplot(x='Fjob', data=df)

In [None]:
# df['Fjob'].value_counts().plot(kind='bar',
#                                grid=True,
#                                title='Распределение учеников по признаку "Работа отца"')

**Вывод по столбцу Mjob и Fjob:** 

Категориальный признак (имеет 5 значений).


Варианты заполнения пустых значений:
* Модой
* поискать взаимосвязь между Mjob и Fjob (у 147 учеников место работы родитилей совпадает)
* поискать взаимосвязь между Medu и Mjob; Fedu и Fjob

Здравый смысл: У учителей должно быть высшее образование.
Из наблюдений: 95% матерей-учителей имеют высшее образование (4 категория), у остальных - 3 категория. 
У отцов-учителей есть 3 пыстых значения - можно распределить эти пустые согласно доли 95% - категория 4, остальное 3. 

In [None]:
len(df[df.Mjob == df.Fjob])

In [None]:
# df[df.Fjob.isnull()]

Как и в предыдущем признаке, заменим пропуски на "other":

In [None]:
df.Fjob = df.Fjob.fillna('other')

****
# <span style="color:green">reason</span>

причина выбора школы:
* 'home' - близость к дому, 
* 'reputation' - репутация школы, 
* 'course' - образовательная программа, 
* 'at_home' - не работает, 
* 'other' - другое.

Номинативный признак

In [None]:
display(pd.DataFrame(df.reason.value_counts(dropna=False)))

<span style="color:red">Содержит 17 пустых значений!</span> 

In [None]:
sns.countplot(x='reason', data=df)

In [None]:
df.groupby(['traveltime', 'reason']).age.count()

In [None]:
sns.boxplot(y = 'score', x = 'reason', data=df)

Варианты замены пустых:
- мода (курс)
- близость к дому (но это неочевидно из наших данных)

поэтому заменим на моду:


In [None]:
df.reason = df.reason.fillna('course')

****
# <span style="color:green">guardian</span>

опекун 
* 'mother' - мать, 
* 'father' - отец,
* 'other' - другое.

Номинативный признак

In [None]:
display(pd.DataFrame(df.guardian.value_counts(dropna=False)))

<span style="color:red">Содержит 31 пустых значений!</span> 

In [None]:
# df[df.guardian.isnull()]

In [None]:
sns.countplot(x='guardian', data=df)

**Комментарии к столбцу guardian**

Наибольшее значение - мать - очень предсказуемо. 

Вариант заполнения пустых - самым часто встречающимся или пропорционально.

In [None]:
df.guardian = df.guardian.fillna('mother')

****
# <span style="color:green">traveltime</span>

время в пути до школы
* 1 - <15 мин., 
* 2 - 15-30 мин.,
* 3 - 30-60 мин.
* 4 - >60 мин.

In [None]:
display(pd.DataFrame(df.traveltime.value_counts(dropna=False)))

<span style="color:red">Содержит 28 пустых значений!</span> 

In [None]:
sns.countplot(x='traveltime', data=df)

**Комментарии к столбцу traveltime**

На первый взгляд:

1. В этих данных мода = 1 (самое короткое время - достаточно разумно и логично) - можно предложить пустые заполнить этим значением. 
 
2. Значения 1 и 2 встречаются в более 85% случаях - можно заполнить пустые значения пропорционально этим 2 категориям.
 
или:

3. Сравнить с address: Для городских жителей время в пути в 90% случаях это категория 1 (большая часть) и 2. Таким образом мы сможем заполнить 18 пустых ячеек. Аналогично для живуших за городом - там распределение между тремя категориями.

4. Сопоставить school, address и traveltime. Хотя помним - возможно предложенный датасета является частью и данные по второй школе неполные и тогда этот пункт некорректно рассматривать.

5. Сравнить с reason (home): вероятно имеется в виду близость к дому (значение 1 и 2 - в данном случае составялют 90%)
  

In [None]:
# df.groupby(['school', 'address', 'traveltime']).age.count()

df.pivot_table(values='traveltime',
               index='address',
               columns='school',
               aggfunc='median',
               margins=True,
               fill_value=0,
               dropna=False)

In [None]:
# df[df.traveltime.isnull()]

Исходя из выше предложенного предлагаю заменить пропуски на 1, если у ученика городской адрес, и заменить пропуск на 2, если ученик проживает за городом.

In [None]:
df['traveltime'] = df.apply(lambda x: (2 if x.address == 'R' else 1)\
                             if pd.isna(x.traveltime) else x.traveltime , axis=1)

****
# <span style="color:green">studytime</span>

время на учёбу помимо школы в неделю 
* 1 - <2 часов, 
* 2 - 2-5 часов,
* 3 - 5-10 часов,
* 4 - >10 часов.

In [None]:
display(pd.DataFrame(df.studytime.value_counts(dropna=False)))

<span style="color:red">Содержит 7 пустых значений!</span> 

In [None]:
sns.countplot(x='studytime', data=df)

**Комментарии к studytime**

Распределение похоже на нормальное, слега смещенное вправо (скорее всего смещение вызвано неодинаковыми временными интервалами) . 

Пустых значение немного - можно заполнить мода  - 2

In [None]:
df['studytime'] = df['studytime'].fillna(df['studytime'].mode()[0])
display(pd.DataFrame(df.studytime.value_counts(dropna=False)))

****
# <span style="color:green">failures</span>

количество внеучебных неудач (n, если 1<=n<=3, иначе 0)

In [None]:
display(pd.DataFrame(df.failures.value_counts(dropna=False)))
sns.countplot(x='failures', data=df)

<span style="color:red">Содержит 22 пустых значений!</span> 

**Комментарии к столбцу failures**

Что значит 0? не было неудач и/или было больше 3?
    
я склоняюсь к версии, что пустые значение - это незаполненный 0. И поэтому заменить:
    

In [None]:
df['failures'] = df['failures'].fillna(0.0)
display(pd.DataFrame(df.failures.value_counts(dropna=False)))

****
# <span style="color:green">schoolsup</span>

дополнительная образовательная поддержка (yes или no)

In [None]:
display(pd.DataFrame(df.schoolsup.value_counts(dropna=False)))

<span style="color:red">Содержит 9 пустых значений!</span> 

Заменим на моду:

In [None]:
df['schoolsup'] = df['schoolsup'].fillna(df['schoolsup'].mode()[0])
display(pd.DataFrame(df.schoolsup.value_counts(dropna=False)))

****
# <span style="color:green">famsup</span>

семейная образовательная поддержка (yes или no)

In [None]:
display(pd.DataFrame(df.famsup.value_counts(dropna=False)))

****
# <span style="color:green">paid</span>

дополнительные платные занятия по математике (yes или no)

In [None]:
display(pd.DataFrame(df.paid.value_counts(dropna=False)))

In [None]:
sns.boxplot(x='paid', y='score', data=df)

**Выводы по столбцам schoolsup, famsup , paid**

Для начала было бы не плохо понять, что именно подразумевается "образовательной поддержкой", на основании каких данных заполнялись эти столбцы, какие критерии, на сколько объективна иноформациия

1. На первый взгляд эти 3 столбца можно преоброзовать в один Дополнительная образовательная поддержка (yes или no)
2. famsup - можно сравнить с данными о работе родителей (Можно предположить, что учителя-родители более склонны оказать семейную образовательную поддержку)
3. Cтолбец paid - поскольку нас интересует результаты экзамена именно по математике и доп.занятия по математике способны улучшить результаты (согласно здравому смыслу) - хотя из бокс-плота этого не следует... Проведем расчеты позже

****
# <span style="color:green">activities</span>

дополнительные внеучебные занятия (yes или no)

In [None]:
display(pd.DataFrame(df.activities.value_counts(dropna=False)))

**Выводы по столбцам activities**

Значений yes или no практически одинаково, поэтому заменять пустые нет смысла (либо заполнить случайным образом).

****
# <span style="color:green">nursery</span>

посещал детский сад (yes или no)

In [None]:
display(pd.DataFrame(df.nursery.value_counts(dropna=False)))

****
# <span style="color:red">studytime, granular</span>

отсутвует в описании

In [None]:
display(pd.DataFrame(df['studytime, granular'].value_counts(dropna=False)))
display(pd.DataFrame(df['studytime'].value_counts(dropna=False)))

In [None]:
df.loc[:,['studytime','studytime, granular']].corr()

Повторяет столбец studytime, умноженный на (-3)

  Удалим его, на он не нужен

In [None]:
df.drop(['studytime, granular'], inplace=True, axis=1)

****
# <span style="color:green">higher</span>

хочет получить высшее образование (yes или no)

In [None]:
display(pd.DataFrame(df.higher.value_counts(dropna=False)))

Судя по нашим данным, подавляющее большинство школьников хотят получить высшее образование, что вполне логично. Заменим пропуски на самое часто встречающееся "yes". 

In [None]:
df.higher = df.higher.fillna('yes')

****
# <span style="color:green">internet</span>

наличие интернета дома (yes или no)

In [None]:
display(pd.DataFrame(df.internet.value_counts(dropna=False)))

56 пустых - много для нашей выборки данных. Оставим как есть.


****
# <span style="color:green">romantic</span>

в романтических отношениях (yes или no)

In [None]:
display(pd.DataFrame(df.romantic.value_counts(dropna=False)))

31 пыстых - достаточно много. Нет оснований, на что можно опереться при выборе заполнения - как вариант случайным образом 

****
# <span style="color:green">famrel</span>

семейные отношения (от 1 - очень плохо до 5 - очень хорошо)

In [None]:
display(pd.DataFrame(df.famrel.value_counts(dropna=False)))

Некорректное значение -1.0.

 Скорее всего, что при внесении данных произошла ошибка, опечатка, изменим на 1.0

In [None]:
df.famrel = df.famrel.apply(lambda x: -x if x == -1.0 else x)
display(pd.DataFrame(df.famrel.value_counts(dropna=False)))
sns.countplot(x='famrel', data=df)

****
# <span style="color:green">freetime</span>

свободное время после школы (от 1 - очень мало до 5 - очень много)

In [None]:
display(pd.DataFrame(df.freetime.value_counts(dropna=False)))
sns.countplot(x='freetime', data=df)

Признак категориальный, у него нормальное распределение, выбросов нет, картина вполне реалистичная. Поскольку пропусков около 3%, заменим из на среднее значение - 3.

In [None]:
df.freetime = df.freetime.fillna(3)

****
# <span style="color:green">goout</span>

проведение времени с друзьями (от 1 - очень мало до 5 - очень много)

In [None]:
display(pd.DataFrame(df.goout.value_counts(dropna=False)))
sns.countplot(x='goout', data=df)

Признак категориальный. У признака нормальное распределение, выбросов нет, признак похож на предыдущий, что у школьники соблюдают баланс между временем, занятым учебой и друзьями. Поскольку пропусков меньше 2%, заменим из на среднее значение - 3.

In [None]:
df.goout = df.goout.fillna(3)

****
# <span style="color:green">health</span>

текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо)

In [None]:
display(pd.DataFrame(df.health.value_counts(dropna=False)))
sns.countplot(x='health', data=df)

In [None]:
df.health.describe()

Признак категориальный. Большинство школьников имеют отличное здоровье, выбросов в признаке нет, пропуски заменим на медианное значение - 4.

In [None]:
df.health = df.health.fillna(4)

****
# <span style="color:green">absences</span>

количество пропущенных занятий

In [None]:
display(pd.DataFrame(df.absences.value_counts(dropna=False)))
data.absences.describe()

In [None]:
median = df.absences.median()
IQR = df.absences.quantile(0.75) - df.absences.quantile(0.25)
perc25 = df.absences.quantile(0.25)
perc75 = df.absences.quantile(0.75)
display(pd.DataFrame(
    (df[df.absences <= (perc75 + 1.5*IQR)]).absences.value_counts()))
print("Пропущенных занятий более {l}       ".format(l=perc75 + 1.5*IQR),
      len(df[(df.absences > (perc75 + 1.5*IQR)) |
             (df.absences < (perc25 - 1.5*IQR))]), " учеников")

In [None]:
df.absences.hist(bins=80)


**Комментарии к столбцу absences**

Количество пропущенных занятий - здесь имеется в виду именно занятия (уроки)?
Если подразумеваются учебные дни, тогда есть выбросы 385 и 212 (больше чем учебных дней в году) - и мх нужно удалить.

Можно предположить, что количество пропусков зависит от состояния здоровья (столбцец health) - из-за болезней, из-за спортивных соревнований (activities), времени проведенного вне дома/учебы или романтических отношений (goout, romantic). Но первичный осмотр эту версию не подтверждает.

  Я бы предложила изменить этот столбец в категориальный признак, чтобы облегчить восприятие информации. Мы видим межквартильный размах составляет до 20 пропусков. Таким образом, можно выделить следующие категории:
- A - (0, 5] пропусков 
- B - (5, 10] пропусков 
- C - (10, 15] пропусков 
- D - (15, 20] пропусков 
- E - (20, ] пропусков - более 20 пропусков

Пустые ячейки можно заполнить модой (это 0). В пользу этой версии может еще и говорить при заполнении/переносе данных 0 могли не писать и определенные форматы могли преоброзовать 0 в 'пусто'.

In [None]:
df.absences = df.absences.fillna(0)

In [None]:
df['absences'] = df.apply(lambda x: 'A' if x.absences <= 5 else ('B' if x.absences <= 10 else (
    'C' if x.absences <= 15 else ('D' if x.absences <= 20 else  'E'))), axis=1)

In [None]:
display(pd.DataFrame(df.absences.value_counts(dropna=False)))

In [None]:
# Количество NaN
nan_df = pd.DataFrame(df.isna().sum(),columns=['NaN'])
nan_df

****
# <span style="color:green">score</span>

баллы по госэкзамену по математике

In [None]:
display(pd.DataFrame(df.score.value_counts(dropna=False)))

In [None]:
df.score.hist(bins=20)
df.score.describe()

<span style="color:red">Содержит 6 пустых значений!</span> 

Заменим на 0:

In [None]:
df['score'] = df['score'].fillna(0.0)
display(pd.DataFrame(df.score.value_counts(dropna=False)))
df.score.hist(bins=20)

**Комментарии к столбцу score**

Смущает значение 0 на экзамене:

* Возможно это отсутвие данные (из-за технического переноса 0 = 'пусто'), тогда получается 43 незаполненные ячейки.
* С другой стороны 0 - может означать оценку за экзамен (неявка, не сдал).
* Или же 0-вые значение необходимо будет спргнозировать, ученик еще не сдавал экзамен.
 
 

In [None]:
# df_score = df[df.score >0]

In [None]:
# df_score

# Корреляционный анализ

Для начала посмотрим корреляцю по числовым признакам:

In [None]:
data_num = df[['age', 'score']]

In [None]:
sns.pairplot(data_num, kind='reg')

In [None]:
data_num.corr()

In [None]:
# data_num_sc = df_score[['age', 'score']]
# sns.pairplot(data_num_sc, kind='reg')
# data_num_sc.corr()

**Комментарии**

Оставляем оба критерия, потому что они не сколлерированны между собой. 
Можно сказать, что между возрастом есть обратная корреляция, т.е. чем выше возраст тем ниже score.

# Анализ категориальных переменных¶

Очевидно, что для номинативных переменных использовать корреляционный анализ не получится. Однако можно посмотреть, различаются ли распределения score в зависимости от значения этих переменных. Это можно сделать, например, с помощью box-plot

In [None]:
def get_boxplot(column):
    fig, ax = plt.subplots(figsize=(14, 4))
    sns.boxplot(x=column, y='score',
                data=df.loc[df.loc[:, column].isin(
                    df.loc[:, column].value_counts().index[:10])],
                ax=ax)
    plt.xticks(rotation=45)
    ax.set_title('Boxplot for ' + column)
    plt.show()

In [None]:
for col in ['school', 'sex', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
            'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
            'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
            'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout',
            'health', 'absences']:
    get_boxplot(col)

По графикам похоже, что могут влиять на результаты score следующие параметры:

- school
- sex
- adress
- Medu
- Fedu
- Mjob
- Fjob
- guardian
- studytime
- failures
- schoolsup
- higher
- freetime или goout ?
- health ?
- absences

Странно, что в выборку на попал paid - занятия по математике. 

Однако графики являются лишь вспомогательным инструментом, настоящую значимость различий может помочь распознать статистика. Проверим, есть ли статистическая разница в распределении оценок по номинативным признакам, с помощью теста Стьюдента. Проверим нулевую гипотезу о том, что распределения оценок батончиков по различным параметрам неразличимы:

In [None]:
def get_stat_dif(column):
    cols = df.loc[:, column].value_counts().index[:]
    combinations_all = list(combinations(cols, 2))
    for comb in combinations_all:
        if ttest_ind(df.loc[df.loc[:, column] == comb[0], 'score'],
                     df.loc[df.loc[:, column] == comb[1], 'score']).pvalue \
                <= 0.05/len(combinations_all):  # Учли поправку Бонферони
            print('Найдены статистически значимые различия для колонки', column)
            break

In [None]:
for col in ['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
            'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
            'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
            'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout',
            'health', 'absences', 'score']:
    get_stat_dif(col)

**Вывод**
Достаточно отличаются 12 параметров: sex, age, address, Medu, Fedu, Mjob, guardian, failures, schoolsup, higher, romantic, goout. 

Оставим эти переменные в датасете для дальнейшего построения модели.

In [None]:
df_mod = df.loc[:, ['sex', 'age', 'address', 'Medu', 'Fedu', 'Mjob', 'guardian', 
                       'failures', 'schoolsup', 'higher', 'romantic', 'goout', 'score']]

In [None]:
df_mod.info()
df_mod.head()

# Выводы

В результате EDA для анализа влияния критериев датасета на модель, которая предсказывала бы результаты госэкзамена по математике для каждого ученика школы были получены следующие выводы:

 В данных достаточно много пустых значений (в некоторых процент пропусков доходит до 11%). Только 3 столбца заполнены полностью (из 29). 
 
 Найдены выбросы и ошибки - изменены данные:
- в столбце Fedu (значение 40.0 – скорее все опечатка, заменила на 4.0)
- в столбце famrel (значение -1.0 – скорее все опечатка, заменила на 1.0)

Столбец studytime, granular – удален, т.к. он полностью скоррелирован со столбцом studytime

Пустые значения (там, где пропусков не много) заменены на моду (медиану) или на 0, где по смыслу больше подходит.



Гипотезы:
- отрицательная корреляция параметра age и score может говорить о том, что чем моложе ученик, тем лучше сдает экзамен (выше score);
- отрицательная корреляция параметра failures и score может говорить о том, что чем больше неудач по другим предметам тем ниже score
- отрицательная корреляция параметра goout и score может говорить о том, что чем больше ученик проводит времени с друзьями тем ниже score
- положительная корреляция по парамметру Medu говорит о том, что чем выше лучше образование матери тем выше score
- положительная корреляция по парамметру Fedu говорит о том, что чем выше лучше образование отца тем выше score

Критерии, которые предлагается использовать в дальнейшем для построения модели это: 
- sex, 
- age, 
- address, 
- Medu, 
- Fedu, 
- Mjob, 
- guardian,
- failures, 
- schoolsup, 
- higher,
- romantic,
- goout,
- score


