# Основы работы с количественными данными

*Алла Тамбовцева*

## Практикум 3. Обработка данных и визуализация количественных данных


## Часть 1: загрузка и описание данных

В файле `salaries.csv` сохранены данные по сотрудникам университета в США, а именно следующие их характеристики:

* `rank`: должность;
* `discipline`: тип преподаваемой дисциплины (`A` – теоретическая, `B` – практическая);
* `phd`: число лет с момента получения степени PhD;
* `service`: число лет опыта работы;
* `sex`: пол;
* `salary`: заработная плата за 9 месяцев, в долларах.

Импортируем библиотеку `pandas` с сокращённым названием `pd`, которая используется для загрузки и обработки данных в табличном виде:

In [None]:
import pandas as pd

Загрузим сам файл с данными в Google Colab или Jupyter Notebook.

**Пояснение для Google Colab.** Загрузить файл с данными в облачное хранилище можно через кнопку *Files* (значок папки слева от рабочей области с ячейками), при нажатии на которую появляется возможность выбрать файл с компьютера (значок стрелки). После добавления файла его можно выбрать, кликнуть на три точки справа от названия, скопировать путь через *Copy path* и вставить его в функцию `read_csv()` для чтения CSV-файла. Например:

    df = pd.read_csv("/content/salaries.csv")

**Пояснение для Jupyter Notebook.** Удобно, если файл с данными при работе лежит в той же папке, что и текущий ipynb-файл, в котором мы запускаем код, так не придется полностью прописывать к нему путь, достаточно одного названия с расширением. Загрузить файл с данными в Jupyter можно через *Upload* на *Home Page* (по аналогии с загрузкой ipynb-файлов). После добавления файла его название с расширением можно вставить в функцию `read_csv()` для чтения CSV-файла. Например:

    df = pd.read_csv("salaries.csv")

Загрузим данные из файла `salaries` и сохраним их в таблицу – датафрейм с назанием `df`.



In [None]:
df = pd.read_csv("salaries.csv")

Посмотрим на датафрейм:

In [None]:
df

Можем отдельно вывести на экран первые или последние 5 строк датафрейма, воспользовавшись методами `.head()` и `.tail()` соответственно:

In [None]:
# первые
df.head()

In [None]:
# последние
df.tail()

Внутри `.head()` и `.tail()` можно указать желаемое количество строк таблицы, если базовое значение 5 нас не устраивает:

In [None]:
df.head(8)

Посмотрим на переменные и проверим, что все переменные – корректных типов (например, числа считаны как числа, а не как текст):

In [None]:
df.info()

Метод `.info()` возвращает «техническое» описание данных:

* `RangeIndex`: число строк и их индексы;
* `Data columns`: число столбцов;
* `Column`: название столбца;
* `Non-Null Count`: число заполненных – не пустых (`null`) – ячеек в столбце;
* `Dtype`: тип столбца; тип `int` — целочисленный (`integer`), тип `float` — вещественный, может включать в себя как дробные, так и целочисленные значения, тип `object` – строковый, то же что и `string`, то есть текст.

Перейдём к более содержательным вопросам и посмотрим на описательные статистики по всем числовым столбцам:

In [None]:
df.describe() # давайте проинтерпретируем

Метод `.describe()` возвращает набор основных описательных статистик:

* `count`: число заполненных – непустых – ячеек в столбце;
* `mean`: среднее арифметическое;
* `std`: стандартное отклонение;
* `min`: минимум;
* `max`: максимум;
* `25%`: нижний квартиль;
* `50%`: медиана;
* `75%`: верхний квартиль.

По умолчанию метод `.describe()` выдаёт описание только числовых столбцов, если мы, напротив, хотим описать только текстовые, в качестве аргумента нужно добавить аргумент `include = "object"`, так как текстовый тип в `pandas` называется именно `object`:

In [None]:
df.describe(include = "object") # давайте проинтерпретируем

Иногда для понимания особенностей данных строки в таблице необходимо отсортировать по какому-нибудь показателю. Так, например, отсортировав строки по заработной плате, мы узнаем, какими характеристиками обладают сотрудники, получающие самую низкую/высокую заработную плату. Для сортировки используется метод `.sort_values()`:

In [None]:
# по умолчанию: по возрастанию
df.sort_values("salary")

In [None]:
# ascending = False: по убыванию
df.sort_values("salary", ascending = False)

По умолчанию метод `.sort_values()` не изменяет сам датафрейм, Если мы хотим сохранить результат сортировки сразу в датафрейме, можно добавить аргумент `inplace = True`:

In [None]:
# более изящный вариант для df = df.sort_values("salary")
df.sort_values("salary", inplace = True)

При необходимости можно выставить сразу несколько оснований для группировки. Так, если мы отсортируем сотрудников только по опыту работы, мы заметим, что людей с нулевым опытом работы несколько:

In [None]:
df.sort_values("service")

Что мы можем сделать в таком случае? Добавить сортировку по второму основанию: если строк с некоторым значением `service` несколько, среди них производим дополнительную сортировку по `phd`, то есть по числу лет с момента получения степени:

In [None]:
df.sort_values(["service", "phd"])

## Часть 2: визуализация данных

Если нам не нужно выполнять какие-то более тонкие настройки графиков, для визуализации достаточно методов на датафреймах `pandas`, без загрузки дополнительной библиотеки `matplotlib`, которая обычно используется для построения графиков. 

Для выбора столбца, который мы собираемся описывать и визуализировать, достаточно указать его название в кавычках в квадратных скобках после названия датафрейма. Проверим это на столбце с заработной платой и методе `.describe()`.

In [None]:
df["salary"].describe()

Для других методов это работет точно так же (названия интуитивные и соответствуют аналогичным функциям в `numpy`):

In [None]:
print(df["salary"].mean())
print(df["salary"].std())

print(df["salary"].median())
print(df["salary"].quantile(0.25))
print(df["salary"].quantile(0.75))

Давайте остановимся на этом столбце и построим для него различные графики!

### Задание 1

Постройте для столбца `salary` гистограмму и прокомментируйте распределение заработной платы.

*Подсказка:* метод `.plot()` с аргументом `kind = "hist"`, за цвет заливки отвечает аргумент `color`, за цвет границ столбцов – аргумент `edgecolor`.

In [None]:
### YOUR CODE HERE ###

### Задание 2

Постройте для столбца `salary` сглаженный график плотности распределения и прокомментируйте полученный график.

*Подсказка:* тот же метод `.plot()` с аргументом `kind = "kde"`.

In [None]:
### YOUR CODE HERE ###

### Задание 3

Постройте для столбца `salary` ящик с усами и прокомментируйте полученный график.

*Подсказка:* тот же метод `.plot()` с аргументом `kind = "box"`.

In [None]:
### YOUR CODE HERE ###

### Задание 4

Постройте графики из заданий 1-3 для опыта работы (стажа в годах), сохранённого в столбце `service`. Прокомментируйте полученные распределения.

In [None]:
### YOUR CODE HERE ###

## Часть 3: группировка и описание данных

Для того, чтобы описывать данные и строить графики по группам, необязательно отфильтровывать строки, соответствующие каждой группе, в отдельный датафрейм и работать с каждой группой отдельно. Для базового описания достаточно воспользоваться методом `.groupby()`. Внутри этого метода можно вписать название столбца, на основе которого мы выполняем группировку, а затем из результата группировки через квадратные скобки выбрать столбец или столбцы, которые мы хотим описать или как-то обработать. 

Сгруппируем строки в `df` по полу и выведем описательные статистики для заработной платы `salary` в каждой группе:

In [None]:
df.groupby("sex")["salary"].describe() # проинтерпретируем

Как и в случае с сортировкой, оснований для группировки может быть несколько. Сгруппируем строки по типу преподаваемой дисциплины и полу:

In [None]:
df.groupby(["discipline", "sex"])["salary"].describe() # проинтерпретируем

Вместо `.describe()` можно вписать любой метод, который работает на отдельных столбцах и подходит для типа выбранных данных:

In [None]:
df.groupby(["discipline", "sex"])["salary"].mean()

Раз можно описывать данные сразу по группам, сразу по группам можно строить и графики!

### Задание 1

Постройте гистограммы для заработной платы с группировкой по полу – одна гистограмма для сотрудников-женщин, другая – для сотрудников-мужчин. 

*Подсказка:* метод `.hist()`, применяется ко всему датафрейму, внутри указываем название столбца и основание группировки в аргументе `by`.

In [None]:
### YOUR CODE HERE ###

### Задание 2

Постройте гистограммы для заработной платы с группировкой по типу дисциплины и полу. Всего должно получиться четыре гистограммы.

In [None]:
### YOUR CODE HERE ###

### Задание 3

Постройте ящики с усами для опыта работы с группировкой по должности.

Подсказка: метод `.boxplot()`, применяется ко всему датафрейму, внутри указываем название столбца и основание группировки в аргументе `by`.

In [None]:
### YOUR CODE HERE ###