# Проект 2. Разведывательный анализ данных

Вас пригласили поучаствовать в одном из проектов UNICEF — международного подразделения ООН, чья миссия состоит в повышении уровня благополучия детей по всему миру.

Суть проекта — отследить влияние условий жизни учащихся в возрасте от 15 до 22 лет на их успеваемость по математике, чтобы на ранней стадии выявлять студентов, находящихся в группе риска.

И сделать это можно с помощью модели, которая предсказывала бы результаты госэкзамена по математике для каждого ученика школы (вот она, сила ML!). Чтобы определиться с параметрами будущей модели, проведите разведывательный анализ данных и составьте отчёт по его результатам.



### Описание датасета

Посмотрим на переменные, которые содержит датасет:

1. `school` — аббревиатура школы, в которой учится ученик
2. `sex` — пол ученика ('F' - женский, 'M' - мужской)
3. `age` — возраст ученика (от 15 до 22)
4. `address` — тип адреса ученика ('U' - городской, 'R' - за городом)
5. `famsize` — размер семьи('LE3' <= 3, 'GT3' >3)
6. `Pstatus` — статус совместного жилья родителей ('T' - живут вместе 'A' - раздельно)
7. `Medu` — образование матери (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)
8. `Fedu` — образование отца (0 - нет, 1 - 4 класса, 2 - 5-9 классы, 3 - среднее специальное или 11 классов, 4 - высшее)
9. `Mjob` — работа матери ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' -
не работает, 'other' - другое)
10. `Fjob` — работа отца ('teacher' - учитель, 'health' - сфера здравоохранения, 'services' - гос служба, 'at_home' -
не работает, 'other' - другое)
11. `reason` — причина выбора школы ('home' - близость к дому, 'reputation' - репутация школы, 'course' -
образовательная программа, 'other' - другое)
12. `guardian` — опекун ('mother' - мать, 'father' - отец, 'other' - другое)
13. `traveltime` — время в пути до школы (1 - <15 мин., 2 - 15-30 мин., 3 - 30-60 мин., 4 - >60 мин.)
14. `studytime` — время на учёбу помимо школы в неделю (1 - <2 часов, 2 - 2-5 часов, 3 - 5-10 часов, 4 - >10 часов)
15. `failures` — количество внеучебных неудач (n, если 1<=n<=3, иначе 0)
16. `schoolsup` — дополнительная образовательная поддержка (yes или no)
17. `famsup` — семейная образовательная поддержка (yes или no)
18. `paid` — дополнительные платные занятия по математике (yes или no)
19. `activities` — дополнительные внеучебные занятия (yes или no)
20. `nursery` — посещал детский сад (yes или no)
21. `higher` — хочет получить высшее образование (yes или no)
22. `internet` — наличие интернета дома (yes или no)
23. `romantic` — в романтических отношениях (yes или no)
24. `famrel` — семейные отношения (от 1 - очень плохо до 5 - очень хорошо)
25. `freetime` — свободное время после школы (от 1 - очень мало до 5 - очень мого)
26. `goout` — проведение времени с друзьями (от 1 - очень мало до 5 - очень много)
27. `health` — текущее состояние здоровья (от 1 - очень плохо до 5 - очень хорошо)
28. `absences` — количество пропущенных занятий
29. `score` — баллы по госэкзамену по математике



# Рекомендации по выполнению проекта
1. Проведите `первичную обработку` данных. Так как данных много, стоит написать функции, которые можно применять к
столбцам определённого типа.
2. Посмотрите на `распределение признака` для числовых переменных, устраните выбросы.
3. Оцените количество `уникальных значений` для номинативных переменных.
4. По необходимости `преобразуйте` данные
5. Проведите `корреляционный анализ` количественных переменных
6. Отберите `не коррелирующие` переменные.
7. Проанализируйте `номинативные переменные` и устраните те, которые не влияют на предсказываемую величину (в нашем
случае — на переменную `score`).
8. Не забудьте `сформулировать выводы` относительно качества данных и тех переменных, которые вы будете использовать в
дальнейшем построении модели.


**Вот по каким критериям проект будет оценивать ментор:**

1. Качество кода и соответствие стандартам оформления pep-8.
2. Для каждого столбца найдено количество пустых строк, найдены и убраны выбросы. 
3. Для количественных переменных построены гистограммы распределений и сделаны выводы.
4. Проведён корреляционный анализ и анализ номинативных переменных, корректно отобраны переменные для построения модели.
5. Сформулированы промежуточные и итоговые выводы.

**Ноутбук с решением должен содержать:**

- цели и задачи проекта;
- поэтапное описание работы;
- промежуточные выводы;
- основные итоги работы.

*Дополнительно: оставьте комментарий по своей работе для ментора.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import combinations
from IPython.core.display import display
from scipy.stats import ttest_ind

pd.set_option('display.max_rows', 50)  # показывать больше строк
pd.set_option('display.max_columns', 50)  # показывать больше колонок

cacao = pd.read_csv('cacao_flavors.csv')