<a href="https://colab.research.google.com/github/Mir-ina/ml-learn/blob/main/Lesson_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Pandas - это библиотека для работы с данными на языке Python, предназначенная для базового анализа данных и простой визуализации. Работает в связке с библиотеками Numpy и Matplotlib

Полезные ссылки для более глубокого понимания Pandas и визуализации:

- Документация: http://pandas.pydata.org/pandas-docs/stable/
- 10 минут Pandas: https://pandas.pydata.org/pandas-docs/stable/10min.html
- Самоучитель по Pandas: https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python
- Шпаргалка по PAndas: https://www.analyticsvidhya.com/blog/2015/07/11-steps-perform-data-analysis-pandas-python/
- Визуализации с Pandas: http://pandas.pydata.org/pandas-docs/stable/visualization.html

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline

Мы будем работать с данными, собранными в ходе опроса учащихся старших классов математических школ Португалии (в возрасте от 15 до 22 лет). Они находятся в файле «math_students.csv». Целевая переменная - итоговая оценка ученика за курс.

Загрузим данные и посмотрим на них:

In [None]:
# если данные и блокнот находятся в разных папках, то для загрузки файла, помимо имени, необходимо указать путь к нему
# .csv - текстовый файл для представления табличных данных, разделенных каким-либо символом. В данном случае, запятой.
data = pd.read_csv('math_students.csv', delimiter=',')

# Функция .head(n) выводит первые n строк таблицы (по умолчанию n=5)
data.head()

Вы также можете вывести строки таблциы, начиная с нижних:

In [None]:
data.tail()

В данном случае, объектами являются студенты, а признаками - их различные характеристики. Найдем количество и тех, и других:

In [None]:
data.shape

Итак, всего 395 объектов и 32 признака (мы учитываем, что один из столбцов является целевой переменной). Все признаки разные. Подробнее:

  - school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
  - sex - пол ("F" - женский, "M" - мужской)
  - age - возраст (от 15 до 22)
  - address - локация студента ("U" - urban (город) или "R" - rural (деревня)
  - famsize - количество членов семьи ("LE3" - меньше или равно 3; "GT3" - больше, чем 3)
  - Pstatus - взаимоотношнения родителей ("T" - живут, вместе "A" - живут раздельно)
  - Medu - образование матери (0 - отсутствует, 1 - начальное образование (4 класса), 2 - от 5 до 9 классов, 3 - среднее специальное, 4 - высшее образование)
  - Fedu - образование отца (0 - отсутствует, 1 - начальное образование (4 класса), 2 - от 5 до 9 классов, 3 - среднее специальное, 4 - высшее образование)
  - Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" или "other")
  - Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative или police), "at_home" или "other")
  - reason - причина, по которой выбрана школа (близко к дому - "home", статус и престиж школы - "reputation", предпочтение некоторым дисциплинам - "course" или "other")
  - guardian - опекун ("mother", "father" или "other")
  - traveltime - время от дома до школы (1 - меньше, чем 15 минут, 2 - от 15 до 30 минут, 3 - от 30 минут до 1 часа, 4 - больше, чем 1 час)
  - studytime - количество учебных часов в неделю (1 - меньше, чем 2 часа, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, 4 - больше, чем 10 часов)
  - failures - количество ранее не сданных предметов (n, если 1 <= n < 3, иначе 4)
  - schoolsup - дополнительные занятия (да или нет)
  - famsup - помощь семьи при выполнении заданий (да или нет)
  - paid -  дополнительные платные занятия (да или нет)
  - activities - внешкольные занятия (да или нет)
  - nursery - посещали детский сад (да или нет)
  - higher - желание получить высшее образование (да или нет)
  - internet - домашний интернет (да или нет)
  - romantic - состоит в романтических отношениях (да или нет)
  - famrel - насколько хороши отношения в семье (от 1 - очень плохие до 5 - отличные)
  - freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - много)
  - goout - ходит на прогулки с друзьями (от 1 - редко до 5 - очень часто)
  - Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
  - Walc - употребление алкоголя в выходные дни (от 1 - очень редко до 5 - очень часто)
  - health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
  - absences - количество пропусков занятий (от 0 до 93)
  - G1 - оценка за первый семестр (от 0 до 20)
  - G2 - оценка за второй семестр (от 0 до 20)
  - G3 - итоговая оценка (от 0 до 20)

Для отображения названий всех признаков существует специальная функция:

In [None]:
data.columns

Как вывести таблицу без последнего столбца?

In [None]:
data[data.columns[:-1]].head()

In [None]:
data.iloc[:, :-1].head()

In [None]:
data.loc[:, data.columns[:-1]].head()

Давайте посмотрим, есть ли в данных пропуски:

In [None]:
data.isnull().any().any()

Таким образом, никаких пропусков нет.

Вы можете отображать статистику по значениям характеристик:

In [None]:
data.describe()

Более подробное описание набора данных (количество ненулевых значений, типы столбцов и объем занимаемой памяти):

In [None]:
data.info()

Какие значения принимает признак `guardian`?

In [None]:
data['guardian'].unique()

In [None]:
data['guardian'].nunique()

In [None]:
data['guardian'].value_counts()

Выберем только тех учеников, чья мать является опекуном и работает учителем или на дому:

In [None]:
data[(data['guardian'] == 'mother') & ((data['Mjob'] == 'teacher') | (data['Mjob'] == 'at_home'))].head()

Работа с признаками - очень важный шаг в решении задачи. Например, дополнительно к существующим признакам можно создать новые, которые могут пригодиться для построения качественного алгоритма. Так, внимательно изучив описания признаков, связанных с алкоголем, создадим признак «alc», который будет отражать общее потребление алкоголя в течение недели, с использованием приведенной ниже формулы:

$$
alc = \frac{5\times Dalc + 2 \times Walc}{7}
$$

In [None]:
data['alc'] = (5 * data['Dalc'] + 2 * data['Walc']) / 7

In [None]:
data[['Walc', 'Dalc', 'alc']].head()

Давайте проанализируем связь между потреблением алкоголя и академическими успехами. Рассмотрим распределение потребления алкоголя среди студентов:

In [None]:
plt.figure(figsize=(10,7))
plt.title('Распределение употребления алкоголя')
data['alc'].hist()
plt.xlabel('Еженедельное употребление алкоголя')
plt.ylabel('Количество студентов')
plt.show()

Давайте посмотрим на среднее потребление алкоголя:

In [None]:
data['alc'].mean()

Итак, из построенной гистограммы и полученного значения можно сделать вывод, что студенты (в среднем) употребляют алкоголь относительно редко. Теперь давайте посмотрим, как влияет употребление алкоголя в выходные и будние дни на итоговуый балл студента. Для этого разделим студентов на две части: тех, чье потребление алкоголя меньше среднего, и тех, чье потребление алкоголя не меньше среднего. Начнем с выходных.

In [None]:
weekend_sober = data[data['Walc'] < data['Walc'].mean()]
weekend_drunk = data[data['Walc'] >= data['Walc'].mean()]

In [None]:
weekend_sober.shape, weekend_drunk.shape

Рассчитаем среднее значение целевой переменной для каждой части.

In [None]:
weekend_sober_g3 = weekend_sober['G3'].mean()
weekend_drunk_g3 = weekend_drunk['G3'].mean()
print(weekend_sober_g3, weekend_drunk_g3)

Итак, средние показатели примерно одинаковы - у тех, кто употребляет больше алкоголя по выходным, дела обстоят несколько хуже. Теперь перейдем к учебным дням.

In [None]:
workday_sober = data[data['Dalc'] < data['Dalc'].mean()]
workday_drunk = data[data['Dalc'] >= data['Dalc'].mean()]

In [None]:
workday_sober.shape, workday_drunk.shape

In [None]:
workday_sober_g3 = workday_sober['G3'].mean()
workday_drunk_g3 = workday_drunk['G3'].mean()
print(workday_sober_g3, workday_drunk_g3)

По сравнению с выходными, разница между средними баллами значительно увеличилась и составила более одного балла.

На основании такого краткого анализа можно сделать предварительное предположение (которое, конечно, еще нуждается в статистической проверке) о том, что алкоголь влияет на успехи в учебе: те, кто употребляет больше алкоголя в будние дни, учатся хуже, чем те, у кого это потребление ниже среднего в течение учебной недели. Это наблюдение можно интерпретировать так: в будние дни учеба проходит особенно интенсивно, поэтому употребление алкоголя в эти дни мешает учебе, в отличие от выходных, когда можно расслабиться.

Данные также можно исследовать с помощью группировки и агрегирования. Например, давайте найдем и изучим закономерности, связанные с различными школами. Давайте сгруппируем объекты по школам:

In [None]:
data_by_school = data.groupby('school')
data_by_school.describe()

Теперь давайте посмотрим на среднее значение характеристик для каждой школы:

In [None]:
data_by_school.mean()

## Задания для самостоятельного решения

1. Выведите таблицу с учениками с четными номерами.
2. ыведите таблицу с учениками, у которых четное количество пропусков.
3. Правда ли, что студенты, имеющие более 10 пропусков, учатся хуже остальных?
4. Как вы думаете, какие еще особенности и характеристики могут повлиять на итоговую оценку? Найдите закономерности, схожие с рассмотренными.
5. Как вы думаете, если в школе откроется общежитие, насколько оно будет актуально для учеников математического класса?
6. Найдите закономерности в данных с помощью группировки.

In [None]:
# ̿̿ ̿̿ ̿̿ ̿'̿'\̵͇̿̿\з= ( ▀ ͜͞ʖ▀) =ε/̵͇̿̿/’̿’̿ ̿ ̿̿ ̿̿ ̿̿