# Проект 2. Разведывательный анализ данных EDA

### Цель проекта: Проведение разведывательного анализа предложенных данных из dataset для его подготовки к обучению и тестированию ML-модели

### Задачи проекта:

1. Провести первичную обработку данных (первичный осмотр данных)
2. Посмотреть на распределенные признака для числовых переменных, устранить выбросы
3. Оценить количество уникальных значений для номинативных переменных
4. По необходимости преобразовать данные
5. Провести корреляционный анализ количественных переменных
6. Отобрать не коррелирующие переменные
7. Проанализировать номинативные переменные и устранить те, которые не влияют на предсказываемую величину
8. Сформулировать выводы относительно качества данных и тех переменных, которые будут использоваться в дальнейшем построении модели"

### Импорт библиотек

In [19]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from scipy.stats import ttest_ind
import numpy as np
import random
import warnings
warnings.simplefilter('ignore')

pd.set_option('display.max_rows', 50) # показывать больше строк
pd.set_option('display.max_columns', 50) # показывать больше колонок

from IPython.display import Markdown, display

def printmd(string):
    display(Markdown(string))

### Загрузка dataset

In [17]:
stud = pd.read_csv('stud_math.csv')

### Описание данных dataset

In [3]:
# Словарь значений полей
descriptions = {
    
"school": "аббревиатура школы, в которой учится ученик"
,"sex": "пол ученика ('F' - женский, 'M' - мужской)"
,"age": "возраст ученика (от 15 до 22)"
,"address": "тип адреса ученика ('U' - городской, 'R' - за городом)"
,"famsize": "размер семьи('LE3' <= 3, 'GT3' >3)"
,"Pstatus": "статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно)"
,"Medu": "образование матери (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)"
,"Fedu": "образование отца (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)"
,"Mjob": "работа матери ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)"
,"Fjob": "работа отца ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' - не работает, 'other' - другое)"
,"reason": "причина выбора школы ('home' - близость к дому, 'reputation' - репутация школы, 'course' - образовательная программа, 'other' - другое)"
,"guardian": "опекун ('mother' - мать, 'father' - отец, 'other' - другое)"
,"traveltime": "время в пути до школы (1 - <15 мин., 2 - 15-30 мин., 3 - 30-60 мин., 4 - >60 мин.)"
,"studytime": "время на учёбу помимо школы в неделю (1 - <2 часов, 2 - 2-5 часов, 3 - 5-10 часов, 4 - >10 часов)"
,"failures": "количество внеучебных неудач (n, если 1<=n<=3, иначе 0)"
,"schoolsup": "дополнительная образовательная поддержка (yes или no)"
,"famsup": "семейная образовательная поддержка (yes или no)"
,"paid": "дополнительные платные занятия по математике (yes или no)"
,"activities": "дополнительные внеучебные занятия (yes или no)"
,"nursery": "посещал детский сад (yes или no)"
,"higher": "хочет получить высшее образование (yes или no)"
,"internet": "наличие интернета дома (yes или no)"
,"romantic": "в романтических отношениях (yes или no)"
,"famrel": "семейные отношения (от 1 - очень плохо до 5 - очень хорошо)"
,"freetime": "свободное время после школы (от 1 - очень мало до 5 - очень мого)"
,"goout": "проведение времени с друзьями (от 1 - очень мало до 5 - очень много)"
,"health": "текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо)"
,"absences": "количество пропущенных занятий"
,"score": "баллы по госэкзамену по математике"
    
}

In [4]:
# Границы данных исходя из условия
borders = {
    
"age": [15,22]
,"Medu": [0,4]
,"Fedu": [0,4]
,"traveltime": [1,4]
,"studytime": [1,4]
,"failures": [0,3]
,"farmel": [1,5]
,"freetime": [1,5]
,"goout": [1,5]
,"health": [1,5]
,"score": [0,100]
    
}

### 1. Первичный осмотр данных

In [5]:
display(stud.head(10))
stud.info()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,"studytime, granular",higher,internet,romantic,famrel,freetime,goout,health,absences,score
0,GP,F,18,U,,A,4.0,4.0,at_home,teacher,course,mother,2.0,2.0,0.0,yes,no,no,no,yes,-6.0,yes,,no,4.0,3.0,4.0,3.0,6.0,30.0
1,GP,F,17,U,GT3,,1.0,1.0,at_home,other,course,father,1.0,2.0,0.0,no,yes,no,no,no,-6.0,yes,yes,no,5.0,3.0,3.0,3.0,4.0,30.0
2,GP,F,15,U,LE3,T,1.0,1.0,at_home,other,other,mother,1.0,2.0,3.0,yes,no,,no,yes,-6.0,yes,yes,,4.0,3.0,2.0,3.0,10.0,50.0
3,GP,F,15,U,GT3,T,4.0,2.0,health,,home,mother,1.0,3.0,0.0,no,yes,yes,yes,yes,-9.0,yes,yes,yes,3.0,2.0,2.0,5.0,2.0,75.0
4,GP,F,16,U,GT3,T,3.0,3.0,other,other,home,father,1.0,2.0,0.0,no,yes,yes,no,yes,-6.0,yes,no,no,4.0,3.0,2.0,5.0,4.0,50.0
5,GP,M,16,U,LE3,T,4.0,3.0,services,other,reputation,mother,1.0,2.0,0.0,no,yes,yes,yes,yes,-6.0,yes,yes,no,5.0,4.0,2.0,5.0,10.0,75.0
6,GP,M,16,,LE3,T,2.0,2.0,other,other,home,mother,1.0,2.0,0.0,no,no,no,no,yes,-6.0,yes,yes,no,4.0,4.0,4.0,3.0,0.0,55.0
7,GP,F,17,U,GT3,A,4.0,4.0,other,teacher,home,mother,2.0,2.0,0.0,yes,yes,no,no,yes,-6.0,yes,no,no,4.0,1.0,4.0,1.0,6.0,30.0
8,GP,M,15,U,LE3,A,3.0,2.0,services,other,home,mother,1.0,2.0,0.0,no,yes,yes,no,yes,-6.0,yes,yes,no,,2.0,2.0,1.0,0.0,95.0
9,GP,M,15,U,,,3.0,4.0,other,other,home,mother,1.0,2.0,0.0,no,yes,yes,yes,yes,-6.0,yes,yes,no,5.0,5.0,1.0,5.0,0.0,75.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 30 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   school               395 non-null    object 
 1   sex                  395 non-null    object 
 2   age                  395 non-null    int64  
 3   address              378 non-null    object 
 4   famsize              368 non-null    object 
 5   Pstatus              350 non-null    object 
 6   Medu                 392 non-null    float64
 7   Fedu                 371 non-null    float64
 8   Mjob                 376 non-null    object 
 9   Fjob                 359 non-null    object 
 10  reason               378 non-null    object 
 11  guardian             364 non-null    object 
 12  traveltime           367 non-null    float64
 13  studytime            388 non-null    float64
 14  failures             373 non-null    float64
 15  schoolsup            386 non-null    obj

##### В dataset содержится информация о 395 школьниках. Все столбцы, кроме первых трех (school, sex, age) содержат пропуски в значениях. Данные представлены в 30 столбцах. 17 столбцов содержат строковый тип, 13 стобцов содержат числовой тип.

In [21]:
plt.figure(figsize=(10, 7))
sns.heatmap(stud.isnull(),cmap=None, annot=True)

AttributeError: module 'seaborn' has no attribute 'heatmap'

<Figure size 720x504 with 0 Axes>

##### Пропуски распределены равномерно по всему dataset