## Проект 2. Разведывательный анализ данных

# Примечание для ментора - проект дорабатывается, текущая версия не окончательная

## Цели и задачи проекта

### Цели проекта

Отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет на их успеваемость по математике, чтобы на ранней стадии выявлять студентов, находящихся в группе риска.

### Задачи проекта

- Провести разведывательный анализ исходных данных, на которых в последствии будет строиться модель, предсказывающая результаты госэкзамена по математике для каждого ученика школы.  
- В рамках EDA определить, какие данные оказывают наибольшее влияние на работу модели, а какие могут быть исключены ввиду их слабого влияния.

#### Этапы работы

1. **Первичная обработка** данных.
2. Оценка **распределения признака** для числовых переменных. Устранение выбросов.
3. Оценка количества **уникальных значений** для номинативных переменных.
4. **Преобразование** данных.
5. **Корреляционный анализ** количественных переменных.
6. Отбор **не коррелирующих** переменных.
7. Анализ номинативных переменных. Исключение переменных, **не влияющих** на предсказываемую величину - переменную **score**.
8. **Выводы** относительно качества данных и тех переменных, которые будут использованы в дальнейшем построении модели.

## Краткая информация о данных

В нашем распоряжении имеется датасет с исходными данными, который содержит следующие переменные (из исходных данных к проекту):

1 **school** — аббревиатура школы, в которой учится ученик

2 **sex** — пол ученика ('F' - женский, 'M' - мужской)

3 **age** — возраст ученика (от 15 до 22)

4 **address** — тип адреса ученика ('U' - городской, 'R' - за городом)

5 **famsize** — размер семьи('LE3' <= 3, 'GT3' >3)

6 **Pstatus** — статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно)

7 **Medu** — образование матери (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)

8 **Fedu** — образование отца (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)

9 **Mjob** — работа матери ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)

10 **Fjob** — работа отца ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)

11 **reason** — причина выбора школы ('home' - близость к дому, 'reputation' - репутация школы, 'course' - образовательная программа, 'other' - другое)

12 **guardian** — опекун ('mother' - мать, 'father' - отец, 'other' - другое)

13 **traveltime** — время в пути до школы (1 - <15 мин., 2 - 15-30 мин., 3 - 30-60 мин., 4 - >60 мин.)

14 **studytime** — время на учёбу помимо школы в неделю (1 - <2 часов, 2 - 2-5 часов, 3 - 5-10 часов, 4 - >10 часов)

15 **failures** — количество внеучебных неудач (n, если 1<=n<3, иначе 4)

16 **schoolsup** — дополнительная образовательная поддержка (yes или no)

17 **famsup** — семейная образовательная поддержка (yes или no)

18 **paid** — дополнительные платные занятия по математике (yes или no)

19 **activities** — дополнительные внеучебные занятия (yes или no)

20 **nursery** — посещал детский сад (yes или no)

21 **higher** — хочет получить высшее образование (yes или no)

22 **internet** — наличие интернета дома (yes или no)

23 **romantic** — в романтических отношениях (yes или no)

24 **famrel** — семейные отношения (от 1 - очень плохо до 5 - очень хорошо)

25 **freetime** — свободное время после школы (от 1 - очень мало до 5 - очень мого)

26 **goout** — проведение времени с друзьями (от 1 - очень мало до 5 - очень много)

27 **health** — текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо)

28 **absences** — количество пропущенных занятий

29 **score** — баллы по госэкзамену по математике


Плюс еще одна переменная **studytime, granular**, смысл и важность которой постараемся определить в ходе анализа датасета.

## Этапы работы над проектом

### Первичная обработка данных

Для работы с данными импортируем необходимые модули и зададим некоторые настройки.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
from itertools import combinations
from scipy.stats import ttest_ind
import os
from collections import Counter

# Настройка Matplotlib
%matplotlib inline

# Настройка Pandas
pd.set_option('display.max_rows', 50) # показывать больше строк
pd.set_option('display.max_columns', 50) # показывать больше колонок

Загрузим датасет в переменную **stud** и выведем находящиеся в нем данные, а так же информацию о датасете

In [3]:
stud = pd.read_csv('stud_math.csv')
display(stud.head(10))

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,"studytime, granular",higher,internet,romantic,famrel,freetime,goout,health,absences,score
0,GP,F,18,U,,A,4.0,4.0,at_home,teacher,course,mother,2.0,2.0,0.0,yes,no,no,no,yes,-6.0,yes,,no,4.0,3.0,4.0,3.0,6.0,30.0
1,GP,F,17,U,GT3,,1.0,1.0,at_home,other,course,father,1.0,2.0,0.0,no,yes,no,no,no,-6.0,yes,yes,no,5.0,3.0,3.0,3.0,4.0,30.0
2,GP,F,15,U,LE3,T,1.0,1.0,at_home,other,other,mother,1.0,2.0,3.0,yes,no,,no,yes,-6.0,yes,yes,,4.0,3.0,2.0,3.0,10.0,50.0
3,GP,F,15,U,GT3,T,4.0,2.0,health,,home,mother,1.0,3.0,0.0,no,yes,yes,yes,yes,-9.0,yes,yes,yes,3.0,2.0,2.0,5.0,2.0,75.0
4,GP,F,16,U,GT3,T,3.0,3.0,other,other,home,father,1.0,2.0,0.0,no,yes,yes,no,yes,-6.0,yes,no,no,4.0,3.0,2.0,5.0,4.0,50.0
5,GP,M,16,U,LE3,T,4.0,3.0,services,other,reputation,mother,1.0,2.0,0.0,no,yes,yes,yes,yes,-6.0,yes,yes,no,5.0,4.0,2.0,5.0,10.0,75.0
6,GP,M,16,,LE3,T,2.0,2.0,other,other,home,mother,1.0,2.0,0.0,no,no,no,no,yes,-6.0,yes,yes,no,4.0,4.0,4.0,3.0,0.0,55.0
7,GP,F,17,U,GT3,A,4.0,4.0,other,teacher,home,mother,2.0,2.0,0.0,yes,yes,no,no,yes,-6.0,yes,no,no,4.0,1.0,4.0,1.0,6.0,30.0
8,GP,M,15,U,LE3,A,3.0,2.0,services,other,home,mother,1.0,2.0,0.0,no,yes,yes,no,yes,-6.0,yes,yes,no,,2.0,2.0,1.0,0.0,95.0
9,GP,M,15,U,,,3.0,4.0,other,other,home,mother,1.0,2.0,0.0,no,yes,yes,yes,yes,-6.0,yes,yes,no,5.0,5.0,1.0,5.0,0.0,75.0


In [4]:
display(stud.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 30 columns):
school                 395 non-null object
sex                    395 non-null object
age                    395 non-null int64
address                378 non-null object
famsize                368 non-null object
Pstatus                350 non-null object
Medu                   392 non-null float64
Fedu                   371 non-null float64
Mjob                   376 non-null object
Fjob                   359 non-null object
reason                 378 non-null object
guardian               364 non-null object
traveltime             367 non-null float64
studytime              388 non-null float64
failures               373 non-null float64
schoolsup              386 non-null object
famsup                 356 non-null object
paid                   355 non-null object
activities             381 non-null object
nursery                379 non-null object
studytime, granular    388 non-

None

#### Предварительная оценка датасета:
- датасет имеет **395 строк**
- в датасете присутствует столбец **studytime, granular**, упоминание о котором отсутствует в постановке задачи
- количество пропусков в каждом столбце не превышает **12%** от количества строк
- только **3** столбца не имеют в своем составе пропусков: **school**, **sex**, **age**
- **13 столбцов** представлены числовыми признаками и **17 столбцов** - категориальными