# Семинар 1

## pandas

![](pandas.jpg)

- документация: http://pandas.pydata.org/pandas-docs/stable/
- 10 minutes to pandas: https://pandas.pydata.org/pandas-docs/stable/10min.html
- Pandas Tutorial: DataFrames in Python: https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python
- Cheet Sheet: https://www.analyticsvidhya.com/blog/2015/07/11-steps-perform-data-analysis-pandas-python/
- Visualization: http://pandas.pydata.org/pandas-docs/stable/visualization.html

Будем работать с данными, собранными благодаря опросу студентов математического курса средней школы в Португалии (возраст - от 15 до 22 лет). Они находятся в файле "math_students.csv". Целевой переменной является итоговая оценка студента за курс.

In [2]:
import matplotlib.pyplot as plt
import pandas as pd

# магическая функция, позволяющая выводить графики прямо в ноутбук
%matplotlib inline

Загрузим данные и посмотрим на них.

In [None]:
# если данные и ноутбук находятся в разных папках, то для загрузки файла помимо названия необходимо также прописать путь к нему
# .csv - текстовый файл для представления табличных данных, разделенных каким-то символом. В данном случае - запятой
data = pd.read_csv('math_students.csv', delimiter=',')

# функция .head(n) выводит первые n строк таблицы (по умолчанию n=5)
data.head()

Аналогично, можно смотреть не на верхние строки таблицы, а на нижние:

In [None]:
data.tail()

В данном случае объектами являются студенты, признаками - различные их характеристики. Найдем число и тех, и других:

In [None]:
data.shape

Итак, всего объектов 395, а признаков - 32 (учитываем, что один из столбцов - это целевая переменная). Все признаки имеют разную природу. Вот их более подробная расшифровка:

 - school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
 - sex - пол ("F" - female или "M" - male)
 - age - возраст (от 15 до 22)
 - address - откуда студент ("U" - urban или "R" - rural)
 - famsize - размер семьи ("LE3" - меньше или равно 3 или "GT3" - больше 3)
 - Pstatus - в каких отношениях родители ("T" - живут вместе "A" - раздельно)
 - Medu - образование матери (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Fedu - образование отца (0 - никакого,  1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
 - Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
 - reason - причина выбора школы (близко к дому — "home", репутация школы — "reputation", предпочтение некоторым предметам - "course" или "other")
 - guardian - опекун ("mother", "father" или "other")
 - traveltime - время от дома до школы (1 - меньше 15 мин., 2 - 15 до 30 мин., 3 - 30 мин. до 1 часа, или 4 - больше 1 часа)
 - studytime - количество часов обучения в неделю (1 - меньше 2 часов, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, или 4 - больше 10 часов)
 - failures - количество ранее не сданных предметов (n if 1 <= n < 3, else 4)
 - schoolsup - дополнительные занятия (yes or no)
 - famsup - помощь от семьи при выполнении заданий (yes or no)
 - paid - дополнительные платные занятия (yes or no)
 - activities - внеклассная деятельность (yes or no)
 - nursery - посещал детский сад (yes or no)
 - higher - желание высшего образования (yes or no)
 - internet - домашний интернет (yes or no)
 - romantic - состоит в романтических отношениях (yes or no)
 - famrel - насколько хороши отношения в семье (от 1 - очень плохие до 5 - превосходные)
 - freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - очень много)
 - goout - гуляет с друзьями (от 1 - редко до 5 - очень часто)
 - Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
 - Walc - употребление алкоголя в выходные (от 1 - очень редко до 5 - очень часто)
 - health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
 - absences - количество школьных пропусков (от 0 до 93)
 - G1 - оценка за первый семестр (от 0 до 20)
 - G2 - оценка за второй семестр (от 0 до 20)
 - G3 - итоговая оценка (от 0 до 20)

Для вывода названий всех признаков есть специальная функция:

In [None]:
data.columns

Чтобы отделить от признаков целевую переменную, давайте удалим из таблицы последнюю колонку - 'G3'. Как получить таблицу без последней колонки?

In [None]:
data[:, :-1]

Как видно, индексация как в массивах `numpy` в нашем случае не работает. Давайте рассмотрим список названий колонок, который упоминался выше, без последнего элемента:

In [None]:
data.columns[:-1]

Теперь "выделим" в таблице те столбцы, которые мы хотим оставить.

In [None]:
data[data.columns[:-1]].head()

Заметим, что если бы мы выделили все названия исходных столбцов, то у нас получилась бы и исходная таблица:

In [None]:
data[data.columns].head()

Как можно еще? Можно оставить элементы таблицы с нужными индексами с помощью функции `iloc`. Все строки мы оставляем на своих местах (`:`), а столбцы берем до минус первого - последнего (`:-1`):

In [None]:
data.iloc[:, :-1].head()

Также можно обращаться к строкам-столбцам таблицы не по индексам, а по названиям - с помощью функции `loc`:

In [None]:
data.loc[:, data.columns[:-1]].head()

Еще один способ - исключим из таблицы все, что нам нужно, с помощью функции `drop`:

In [None]:
data.drop(['G3'], axis=1).head()

Этот способ достаточно удобен, потому что он не зависит от положения колонки "G3" в таблице - неважно, была она последней, первой или третьей с конца.

Обратите внимание на важный параметр `axis`, который указывает на то, на что нужно смотреть - на колонки или столбцы. По умолчанию в данном случае он принимает значение 0 - посмотрим, что получится, если забыть его:

In [None]:
data.drop(['G3'], axis=0).head()

Действительно, никакая из строк таблицы не называется "G3", так что программа не понимает, что мы от нее хотим - исключать нечего.

Посмотрим, есть ли в данных пропуски:

In [None]:
data.isnull().any().any()

Давайте разберемся, что сейчас произошло.

In [None]:
data.isnull()

In [None]:
data.isnull().any()

In [None]:
data.isnull().any().any()

Итак, пропусков нет.

По любой функции можно получить информацию из документации следующим образом:

In [None]:
?pd.isnull

Либо - нажав Shift+Tab+Tab.

Можно вывести статистику по значениям признаков:

In [None]:
data.describe()

Более подробное описание значений признаков (количество непустых значений, типов столбцов и объема занимаемой памяти):

In [None]:
data.info()

Какие значения принимает признак `guardian`?

In [None]:
data['guardian'].unique()

In [None]:
data['guardian'].nunique()

In [None]:
data['guardian'].value_counts()

Выделим только тех студентов, у которых опекуном является мать и которая работает учителем или на дому:

In [None]:
data[(data['guardian'] == 'mother') & ((data['Mjob'] == 'teacher') | (data['Mjob'] == 'at_home'))].head()

Работа с признаками - очень важный этап решения задачи. Помимо имеющихся признаков, можно создавать новые, которые могут оказаться полезными для построения качественного алгоритма. Например, внимательно изучив описания признаков, связанных с алкоголем, создадим признак "alc", который будет отражать общее употребление алкоголя в течение недели по формуле ниже:

$$
alc = \frac{5\times Dalc + 2 \times Walc}{7}
$$

In [None]:
data['alc'] = (5 * data['Dalc'] + 2 * data['Walc']) / 7

In [None]:
data[['Walc', 'Dalc', 'alc']].head()

Проанализируем взаимосвязь количества пропусков и успехов в учебе. Посмотрим на распределение количества пропусков у студентов:

In [None]:
plt.figure(figsize=(10,7))
plt.title('Absences distribution')
data['absences'].hist()
plt.xlabel('absences')
plt.ylabel('number of students')
plt.show()

Посмотрим на среднее количество пропусков:

In [None]:
data['absences'].mean()

Итак, из гистограммы и полученного значения можно сделать вывод, что большинство студентов пропускает не так много занятий. Теперь посмотрим на влияние количества пропусков на итоговую оценку. Для этого разделим студентов на две части: те, у кого количество пропусков меньше среднего, и те, у кого оно не меньше среднего.

In [None]:
mean_absences = data['absences'].mean()
stud_few_absences = data[data['absences'] < mean_absences]
stud_many_absences = data[data['absences'] >= mean_absences]

Посмотрим, сколько получилось и тех, и других.

In [None]:
print('Students with few absences:', stud_few_absences.shape[0])
print('Students with many absences:', stud_many_absences.shape[0])

Посчитаем среднее значение целевой переменной для каждой части.

In [None]:
stud_few_absences_g3 = stud_few_absences['G3'].mean()
stud_many_absences_g3 = stud_many_absences['G3'].mean()
print('Students with few absences, mean G3:', stud_few_absences_g3)
print('Students with many absences, mean G3:', stud_many_absences_g3)



Итак, средние оценки примерно одинаковы - у тех, кто пропускал меньше занятий, она чуть хуже. Возможно, студенты, пропускавшие много занятий, знали материал очень хорошо :) Впрочем, подобное исследование не позволяет делать никаких серьезных выводов.

Также данные можно исследовать с помощью группировки и агрегирования. Например, найдем исследуем закономерности, связанные с разными школами. Сгруппируем объекты по школам:

In [None]:
data_by_school = data.groupby('school')
data_by_school.describe()

Теперь посмотрим на среднее значение признаков для каждой школы:

In [None]:
data_by_school.mean()

Можно заметить, например, что в среднем до школы Mousinho da Silveira студентам нужно добираться дольше, чем до Gabriel Pereira. Интересно, что, несмотря на это, в среднем количество пропусков у них меньше.

### Задания для самостоятельного решения

1. Получите таблицу со студентами с четными номерами.
2. Получите таблицу со студентами, имеющими четное число пропусков.
3. Верно ли, что студенты, имеющие больше 10 пропусков, учатся хуже, чем остальные?
4. Как вы думаете, какие еще признаки могут повлиять на итоговую оценку? Найдите закономерности, аналогичные рассмотренным.
5. Как вы думаете, если при школе откроется общежитие, насколько актуально это будет для студентов математического класса?
6. Найдите в данных закономерности с помощью группировки.

In [None]:
# ̿̿ ̿̿ ̿̿ ̿'̿'\̵͇̿̿\з= ( ▀ ͜͞ʖ▀) =ε/̵͇̿̿/’̿’̿ ̿ ̿̿ ̿̿ ̿̿