# Семинар 2

## pandas

- документация: http://pandas.pydata.org/pandas-docs/stable/
- 10 minutes to pandas: https://pandas.pydata.org/pandas-docs/stable/10min.html
- Pandas Tutorial: DataFrames in Python: https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python
- Cheet Sheet: https://www.analyticsvidhya.com/blog/2015/07/11-steps-perform-data-analysis-pandas-python/
- Visualization: http://pandas.pydata.org/pandas-docs/stable/visualization.html

Будем работать с данными, собранными благодаря опросу студентов математического курса средней школы в Португалии (возраст - от 15 до 22 лет). Они находятся в файле "math_students.csv". Целевой переменной является итоговая оценка студента за курс.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

# магическая функция, позволяющая выводить графики прямо в ноутбук
%matplotlib inline

Загрузим данные и посмотрим на них.

In [None]:
# если данные и ноутбук находятся в разных папках, то для загрузки файла помимо названия необходимо также прописать путь к нему
# .csv - текстовый файл для представления табличных данных, разделенных каким-то символом. В данном случае - запятой
data = pd.read_csv('math_students.csv', delimiter=',')

# функция .head(n) выводит первые n строк таблицы (по умолчанию n=5)
data.head()

Аналогично, можно смотреть не на верхние строки таблицы, а на нижние:

In [None]:
data.tail()

В данном случае объектами являются студенты, признаками - различные их характеристики. Найдем число и тех, и других:

In [None]:
data.shape

Итак, всего объектов 395, а признаков - 32 (учитываем, что один из столбцов - это целевая переменная). Все признаки имеют разную природу. Вот их более подробная расшифровка:

 - school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
 - sex - пол ("F" - female или "M" - male)
 - age - возраст (от 15 до 22)
 - address - откуда студент ("U" - urban или "R" - rural)
 - famsize - размер семьи ("LE3" - меньше или равно 3 или "GT3" - больше 3)
 - Pstatus - в каких отношениях родители ("T" - живут вместе "A" - раздельно)
 - Medu - образование матери (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Fedu - образование отца (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - reason - причина выбора школы (близко к дому — "home", репутация школы — "reputation", предпочтение некоторым предметам - "course" или "other")
 - guardian - опекун ("mother", "father" или "other")
 - traveltime - время от дома до школы (1 - меньше 15 мин., 2 - 15 до 30 мин., 3 - 30 мин. до 1 часа, или 4 - больше 1 часа)
 - studytime - количество часов обучения в неделю (1 - меньше 2 часов, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, или 4 - больше 10 часов)
 - failures - количество ранее не сданных предметов (n if 1 <= n < 3, else 4)
 - schoolsup - дополнительные занятия (yes or no)
 - famsup - помощь от семьи при выполнении заданий (yes or no)
 - paid - дополнительные платные занятия (yes or no)
 - activities - внеклассная деятельность (yes or no)
 - nursery - посещал детский сад (yes or no)
 - higher - желание высшего образования (yes or no)
 - internet - домашний интернет (yes or no)
 - romantic - состоит в романтических отношениях (yes or no)
 - famrel - насколько хороши отношения в семье (от 1 - очень плохие до 5 - превосходные)
 - freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - очень много)
 - goout - гуляет с друзьями (от 1 - редко до 5 - очень часто)
 - Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
 - Walc - употребление алкоголя в выходные (от 1 - очень редко до 5 - очень часто)
 - health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
 - absences - количество школьных пропусков (от 0 до 93)
 - G1 - оценка за первый семестр (от 0 до 20)
 - G2 - оценка за второй семестр (от 0 до 20)
 - G3 - итоговая оценка (от 0 до 20)

Для вывода названий всех признаков есть специальная функция:

In [None]:
data.columns

Как получить таблицу без последней колонки?

In [None]:
data[data.columns[:-1]].head()

In [None]:
data.iloc[:, :-1].head()

In [None]:
data.loc[:, data.columns[:-1]].head()

Посмотрим, есть ли в данных пропуски:

In [None]:
data.isnull().any().any()

Итак, пропусков нет.

Можно вывести статистику по значениям признаков:

In [None]:
data.describe()

Более подробное описание значений признаков (количество непустых значений, типов столбцов и объема занимаемой памяти):

In [None]:
data.info()

Какие значения принимает признак `guardian`?

In [None]:
data['guardian'].unique()

In [None]:
data['guardian'].nunique()

In [None]:
data['guardian'].value_counts()

Выделим только тех студентов, у которых опекуном является мать и которая работает учителем или на дому:

In [None]:
data[(data['guardian'] == 'mother') & ((data['Mjob'] == 'teacher') | (data['Mjob'] == 'at_home'))].head()

Работа с признаками - очень важный этап решения задачи. Помимо имеющихся признаков, можно создавать новые, которые могут оказаться полезными для построения качественного алгоритма. Например, внимательно изучив описания признаков, связанных с алкоголем, создадим признак "alc", который будет отражать общее употребление алкоголя в течение недели по формуле ниже:

$$
alc = \frac{5\times Dalc + 2 \times Walc}{7}
$$

In [None]:
data['alc'] = (5 * data['Dalc'] + 2 * data['Walc']) / 7

In [None]:
data[['Walc', 'Dalc', 'alc']].head()

Проанализируем взаимосвязь употребления алкоголя и успехов в учебе детальнее. Посмотрим на распределение употребления алкоголя у студентов:

In [None]:
plt.figure(figsize=(10,7))
plt.title('Alcohol consumption distribution')
data['alc'].hist()
plt.xlabel('weekly alcohol consumption')
plt.ylabel('number of students')
plt.show()

Посмотрим на среднее употребление алкоголя:

In [None]:
data['alc'].mean()

Итак, из гистограммы и полученного значения можно сделать вывод, что в среднем студенты употребляют алкоголь относительно редко. Теперь посмотрим на влияние употребления алкоголя в выходные и будни на итоговую оценку. Для этого разделим студентов на две части: те, чье употребление алкоголя меньше среднего, и те, у кого оно не меньше среднего. Начнем с выходных.

In [None]:
weekend_sober = data[data['Walc'] < data['Walc'].mean()]
weekend_drunk = data[data['Walc'] >= data['Walc'].mean()]

In [None]:
weekend_sober.shape, weekend_drunk.shape

Посчитаем среднее значение целевой переменной для каждой части.

In [None]:
weekend_sober_g3 = weekend_sober['G3'].mean()
weekend_drunk_g3 = weekend_drunk['G3'].mean()
print(weekend_sober_g3, weekend_drunk_g3)

Итак, средние оценки примерно одинаковы - у тех, кто употребляет больше алкоголя в выходные, она чуть хуже. Теперь перейдем к будним дням.

In [None]:
workday_sober = data[data['Dalc'] < data['Dalc'].mean()]
workday_drunk = data[data['Dalc'] >= data['Dalc'].mean()]

In [None]:
workday_sober.shape, workday_drunk.shape

In [None]:
workday_sober_g3 = workday_sober['G3'].mean()
workday_drunk_g3 = workday_drunk['G3'].mean()
print(workday_sober_g3, workday_drunk_g3)

По сравнению с выходными, разница между средними оценками сильно увеличилась и стала больше одного балла.

Из подобного краткого анализа можно сделать предварительное предположение (которое, разумеется, нужно еще статистически проверить) о том, что алкоголь влияет на успехи в учебе: те, кто употребляет больше алкоголя в будние дни, учится хуже, чем те, кто лучше себя в этом плане контролирует. Это наблюдение можно интерпретировать: в будни учеба особенно интенсивна, поэтому употребление алкоголя в эти дни мешает учиться, в отличие от выходных, когда можно отдохнуть.

Также данные можно исследовать с помощью группировки и агрегирования. Например, найдем исследуем закономерности, связанные с разными школами. Сгруппируем объекты по школам:

In [None]:
data_by_school = data.groupby('school')
data_by_school.describe()

Теперь посмотрим на среднее значение признаков для каждой школы:

In [None]:
data_by_school.mean()

## Задания для самостоятельного решения

1. Получите таблицу со студентами с четными номерами.
2. Получите таблицу со студентами, имеющими четное число пропусков.
3. Верно ли, что студенты, имеющие больше 10 пропусков, учатся хуже, чем остальные?
4. Как вы думаете, какие еще признаки могут повлиять на итоговую оценку? Найдите закономерности, аналогичные рассмотренным.
5. Как вы думаете, если при школе откроется общежитие, насколько актуально это будет для студентов математического класса?
6. Найдите в данных закономерности с помощью группировки.

In [None]:
# ̿̿ ̿̿ ̿̿ ̿'̿'\̵͇̿̿\з= ( ▀ ͜͞ʖ▀) =ε/̵͇̿̿/’̿’̿ ̿ ̿̿ ̿̿ ̿̿