# Проект по анализу данных (продолжение)

## Определение итоговой оценки студента

Если вы не помните, с каким именно датасетом работали, то можете воспользоваться функцией *get_dataset_name*, на вход ей передав ваш адрес электронной почты.

In [None]:
def get_dataset_name(email):
    return 'student-mat.csv' if sum(ord(c) for c in email) % 2 else 'student-por.csv'

Выполните код ниже, передав на вход строку с адресом электронной почты:

In [None]:
get_dataset_name('')

Датасеты имеют следующий набор признаков:
 - school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
 - sex - пол ("F" - female или "M" - male)
 - age - возраст (от 15 до 22)
 - address - откуда студент ("U" - urban или "R" - rural)
 - famsize - размер семьи ("LE3" - меньше или равно 3 или "GT3" - больше 3)
 - Pstatus - в каких отношениях родители ("T" - живут вместе "A" - раздельно)
 - Medu - образование матери (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Fedu - образование отца (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - reason - причина выбора школы (близко к дому — "home", репутация школы — "reputation", "course" предпочтение некоторым предметам или "other")
 - guardian - опекун ("mother", "father" или "other")
 - traveltime - время от дома до школы (1 - меньше 15 мин., 2 - 15 до 30 мин., 3 - 30 мин. до 1 часа, или 4 - больше 1 часа)
 - studytime - количество часов обучения в неделю (1 - меньше 2 часов, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, или 4 - больше 10 часов)
 - failures - колисечтво ранее не сданных предметов (n if 1 <= n < 3, else 4)
 - schoolsup - дополнительные занятия (yes or no)
 - famsup - помощь от семьи при выполнении заданий (yes or no)
 - paid - дополнительные платные занятия (yes or no)
 - activities - внеклассная деятельность (yes or no)
 - nursery - посещал детский сад (yes or no)
 - higher - желание высшего образования (yes or no)
 - internet - домашний интернет (yes or no)
 - romantic - состоит в романтических отношениях (yes or no)
 - famrel - насколько хорошо отношения в семье (от 1 - очень плохие до 5 - превосходные)
 - freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - очень много)
 - goout - гуляет с друзьями (от 1 - редко до 5 - очень часто)
 - Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
 - Walc - употребление алкоголя в выходные (от 1 - очень редко до 5 - очень часто)
 - health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
 - absences - количество школьных пропусков (от 0 до 93)

Признаки ниже связаны с курсом (математика/португальский)
 - G1 - оценка за первый семестр (от 0 до 20)
 - G2 - оценка за второй семестр (от 0 до 20)
 - [целевая переменная] G3 - итоговая оценка (от 0 до 20)

In [None]:
import numpy as np
import pandas as pd
import scipy as sp
import pylab as plt

%matplotlib inline

Для начала загрузите данные. Обратите внимание, чтобы данные были загружены верно (был указан верный разделитель, а так же корректно отображались названия столбцов). Чтобы это проверить, а также посмотреть, что представляют из себя данные, можно вывести первые несколько строк загруженного датасета на экран.

Разделите признаки и целевую зависимость в две отдельные переменные *X* и *y*.

Как можно видеть (и как показали эксперименты ранее) в данных есть числовые признаки (например, *age*), а так же категориальные (*guardian*). Для начала поработает только с числовыми признаками. 

Создайте две новых матрицы с признаками: в первой будут только числовые признаки, во второй — все остальные. Для этого удобно воспользоваться методом датафрейма [select_dtypes](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.select_dtypes.html).

Для оценки качества выберете одну из метрик:
 - коэффициент детерминации [r2](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)
 - [MAE](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html)
 - [MSE](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)

Теперь будем строить модели для предсказания, используя пока только числовые признаки. Вам нужно будет рассмотреть следующие модели:
 - линейную регрессию [LinearRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)
 - регуляризованную линейную регрессию — одну из моделей [Ridge](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) или [Lasso](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html)
 - случайный лес [RandomForest](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html) со 100 деревьями
 - метод ближайших соседей [KNeighborsRegressor](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html)
 
Для следующих моделей вам нужно подобрать оптимальные гиперпараметры с помощью 5-fold кросс-валидации:
 - коэффициент при регуляризаторе в случае Ridge и Lasso
 - максимальную глубину деревьев для RandomForest
 - количество соседей для KNeighborsRegressor
 
Вы можете перебрать несколько (3-5) значений соответствующего параметра. Скорее всего вам удобно будет воспользоваться:
 - классом [KFold](http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.KFold.html) чтобы создать объект для кросс-валидации
 - классом [GridSearchCV](http://scikit-learn.org/stable/modules/generated/sklearn.grid_search.GridSearchCV.html) имеющим параметры:
   - *estimator* некоторая модель, например, *KNeighborsRegressor()*
   - *param_grid* — словарь с оптимизируемыми параметрыми, например, *{'n_neighbors': [1, 3, 5, 15]}*
   - *scoring* — название оптимизируемой метрики (*r2_score*, *mean_squared_error* либо *mean_absolute_error*) в зависимости от того, какую метрику вы выбрали
   - *cv* — схема кросс-валидации (здесь можно указать созданный ранее объект KFold)
   
   после создания объекта вам нужно вызвать метод *fit*, после чего у обученного объекта посмотреть поле *best\_params\_*, где будут сохранены оптимальные в данном случае параметры. [Пример использования](http://scikit-learn.org/stable/auto_examples/model_selection/grid_search_digits.html).
   
**(4 балла)** Подберите оптимальные значения гиперпараметров для указанных выше моделей.

**(2 балла)** Теперь измерьте качество на кросс-валидации для каждой модели с оптимальными параметрами. Для этого удобно воспользоваться функцией [cross_val_score](http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.cross_val_score.html), имеющую параметры, аналогичные *GridSearchCV*.

**(1 балл)** Вернемся к отложенной матрице категориальных признаков. Так как алгоритмы не умеют работать со строковыми данными, преобразуйте их с помощью функции [get_dummies](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html) в числовую матрицу, где значение каждого признака будет закодировано как бинарное. Сколько признаков теперь получилось? 

Объедините две матрицы: с числовыми признаками и закодированными категориальными в полную матрицу признаков. Для этого удобно воспользоваться функцией [concat](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html), указав первым аргументов массив датафреймов, а также *axis=1*.

**(1 балл)** Обучите модели с оптимальными параметрами из предыдущего пункта и измерьте качество на полной матрице признаков с помощью функции *cross\_val\_score*.

**(2 балла)** Ответьте на следующие вопросы:
 - какая из моделей имеет наилучшее качество в первом случае, а какая — во втором?
 - есть ли модели, для которых добавление категориальных признаков дало прирост в качестве?
 - какая из использованных моделей кажется вам наиболее сложной и почему?

**(1 дополнительный балл)** Обучите случайный лес на полной матрице признаков и найдите топ3 наиболее важных признаков. Можно ли дать интерпретацию почему эти признаки оказались наиболее информативными в рамках данной задачи?