## Pandas

[Ссылка на форму для заполнения ответов домашней работы](https://forms.gle/4LKA92qe7y9ushb79)

In [None]:
import pandas as pd
import numpy as np

%matplotlib inline

### NumPy

### Структуры данных Pandas
#### Series
- Series - одномерная структура данных, которая может хранить в себе данные одного типа. Series напоминает словарь, так как позволяет получать элементы по индексу, который может быть не только целочисленного типа. Свойства Series:
    - Series.index - индексы элементов
    - Series.values - значения элементов
    
#### DataFrame
- DataFrame - двумерная структура данных, которая может хранить в себе данные разных типов. По сути, DataFrame это матрица, где столбцами являются признаки, а строками объекты. Каждая колонка DataFrame имеет тип Series. DataFrame имеет много методов и свойств для аналитики, получения срезов и преобразования данных. Вот некоторые из них:
    - DataFrame.info() - получение общей информации по датафрейму
    - DataFrame.dtypes - типы колонок
    - DataFrame.columns - имена колонок
    
Для того, чтобы считать данные из файла в DataFrame, в библиотеке предусмотрено множество функций. Большинство из них начинаются с префикса 'read' - например:
   - pandas.read_csv - читает данные из файла с расширением .csv
   - pandas.read_excel - читает данные из файла .xlsx
Эти методы имеют много параметров, начиная от имени файла и заканчивая кодировкой и разделителем.

Более подробно с методами DataFrame можно ознакомиться в документации к Pandas, ссылка на которую приводится в разделе "Полезные ссылки".

#### Далее мы будем рассматривать датасет с реальными данными из нефтяной отрасли: дебит жидкости после ГТМ (геолого-технического мероприятия)

#### Описание смысла признаков
Признак | Описание
--------| -------------
Dnytr | диаметр трубы
H_din |   Динамический уровень
Q_OIS |   Дебит жидкости
NomMoschn |	Номинальная мощность
Hperf |	Глубина перфораций
NomNapor	| Номинальный напор
Water_cut |	Обводненность
NomPodacha	| Номинальная подача
Dnkt |	Диаметр НКТ
H_sp	| Глубина спуска
P_plst	| Пластовое давление
Hvd	| Глубина верхних дыр перфораций
Extend_Hvd	| Удлинение верхних дыр перфораций
PlNeft |	Плотность нефти
VyazkNeft	| Вязкость нефти
SumTolshin	| Сумма нефтенасыщенных толщин
P_zatr	| Затрубное давление
PlVody |	Плотность воды
Pnas	| Давление насыщения
Inject_0,1,2,3	| Приемистость ближайших нагнетательных скважин
BHP	| Забойное давление
State	| Состояние скважины (работает, не работает)
IDN_type |	Тип ГТМ (ИДН или ППР)
NalichSep |	Наличие сепаратора
Formation_lbl |	Метка пласта
state_age	| Возраст состояние
Date |	Дата
Start_date	| Дата начала ГТМ
Well_ID|	ID скважины
id	ID| ГТМ
VNR|	Признак выхода на режим
Date_VNR|	Дата выхода на режим
GTM_type_lbl|	Метка типа ГТМ 

#### Описание задачи
На основе предоставленных данных построить модель прогнозирования дебита жидкости (признак ‘Q_OIS’) после геолого-технического мероприятия (ГТМ) – итенсификация добычи нефти (ИДН). Прогноз необходимо сделать на дату выхода скажины на режим (дата ВНР). Точка прогноза однозначно задается бинарным признаком ‘VNR’ (точка прогноза – VNR=1).

Каждому событию ИДН предшествует своя история, однозначно определяемая признаком ‘id’. В тренировочном датасете ‘contest_train_df.csv’ для каждого факта ИДН (признак ‘id’) известно значение дебита жидкости ‘Q_OIS’ на дату ВНР (VNR=1).

Также в качестве дополнительной информации дана таблица со всеми типами ГТМ, проведенными на исследуемых скважинах.

In [None]:
# чтение данных из файла с расширением .csv
df = pd.read_csv('contest_train_df.csv')
# общая информация о датафрейме
df.info()

In [None]:
# Имя первого признака
df.columns

In [None]:
# Обращение к колонке DataFrame по имени
# слева - индекс, справа - значение
# возвращается тип Series
df['Dnkt']

In [None]:
# Получение элемента Series по индексу
df['H_sp'].iloc[2]

In [None]:
# Вопрос 1. Какое значение лежит в колонке Formation_lbl по индексу 297?

# код тут

### Статистика по DataFrame и Series
Ещё несколько полезных функций для получения информации о данных в датафрейме:

- DataFrame.describe() - получение описательной статистики
- Series().value_counts - подсчёт поличества вхождений значений в Series
- Series.unique(), Series.nunique() - множество уникальных значений в Series и количество уникальных
- DataFrame.head() - первые несколько записей DataFrame
- Series.max(), Series.min() - максимальное и минимальное значения
- Series.mean(), Series.median() - среднее и медианное значения

In [None]:
# сначала хочется просто посмотреть на данные
# выведем первые 10 записей датасета
df.head(10)

In [None]:
# размер таблицы, возвращается кортеж (количество записей, количество столбцов)
df.shape

In [None]:
# как оценить данные в общем?
# полученим статистику по датафрейму
df.describe()

In [None]:
# если хочется посмотреть только на часть выбранных признаков
# стоит выделить их и заново сделать describe

df[['Q_OIS', # этот признак интересует, потому что он целевой
   'VNR',   # этот признак является важным идентифкатором
    'Water_cut' # это признак, связанный с жидкостью
   ]].describe()

In [None]:
# количество уникальных значений в признаке
df['VNR'].nunique()

In [None]:
# похоже, признак VNR бинарный - у него всего два уникальных значения
# убедимся, что эти два значения - 1 и 0
df['VNR'].value_counts()

In [None]:
# Вопрос 2. Сколько в датасете признаков, у которых всего 2 уникальных значения?

# код тут

In [None]:
# Вопрос 3. Сколько уникальных значений в признаке Water_cut?

# код тут

In [None]:
# Вопрос 4. Совпадает ли медиана и среднее у признака Extend_Hvd?

# код тут

In [None]:
# Вопрос 5. Какое максимальное значение у признака NomPodacha?

# код тут

### Преобразование данных

##### Пропуски
Пропуски - отсутствующие значения в данных. С пропусками в данных можно бороться несколькими способами: заполнять их, или удалять объекты с пропусками. Если пропусков немного, то удаление объектов с пропусками может быть приемлимо, однако во многих случаях пропуски предпочтительнее заполнить, чтобы не потерять нужную информацию.
Pandas предоставляет несколько методов для работы с пропусками:
- Series.isna() - возвращает True для каждого пропуска
- Series.dropna() - удаляет все пропуски
- Series.fillna() - заполняет пропуски

##### Дубликаты
Дубликаты - повторяющиеся значения в данных. Дубликаты вредны: они создают неверное представление о данных (распределениях) и часто являются причиной ошибок (в данных и в процессе их обработки).
Для работы с дубликатами в Pandas:
- DataFrame.drop_duplicates() - удаляет все дублирующиеся значения

In [None]:
# так как признак VNR оказался бинарным, преобразуем его к нужному типу
df['VNR'] = df['VNR'].astype(bool)

In [None]:
df['VNR']

In [None]:
# в выводе первых строк датасета было видно очень много пропусков (NaN)
# а сколько их точно?
# количество пропусков по всем признакам (колонкам)
# df.count() - количество заполненных по признакам (колонкам)
for col in df.columns:
    print('Признак = {:<13}: количество пропусков = {}'.format(col, df[col].isna().sum()))

In [None]:
# посмотрим, сколько останется данных
# если просто убрать все объекты (строки) в которых есть хотя бы один пропуск:
df.dropna().shape

In [None]:
# если убрать все объекты с пропусками, то мы теряем очень много данных
# проверим, есть ли строки, в которых пропущены воообще все значения?
df.dropna(how='all').shape[0] != df.shape[0]

In [None]:
# абсолютно пустых строк в датасете нет, значит просто убрать пропуски мы не можем
# лучше всего будет заполнить пропуски средним, но так как датасет довольно большой,
# сделаем это после группировки и создания агрегатов
# чтобы узнать, сколько всего будет уникальных скважин (а значит и строк в сгруппированном датасете) 
# вызовем метод nunique для признака Well_ID
df['Well_ID'].nunique()

In [None]:
# Вопрос 6. Каков процент (%) пропусков в колонке NomNapor? Округлите ответ до двух знаков после запятой.

# код тут

In [None]:
# Вопрос 7. Во сколько раз уменьшится размер датафрейма если сделать drop_duplicates по колонкам 'Dnkt','Dnytr'?
# Округлите ответ до целых.

# код тут

In [None]:
# Вопрос 8. Изменится ли среднее значение признака NomNapor если заполнить в нём пропуски значением 0?

# код тут

### Агрегация

#### Группировка и агрегация
В pandas для группировки данных реализован метод **DataFrame.groupby()**. Он возвращает сгруппированный по указанному признаку датафрейм, к которому можно применять различные функции-агрегаты: например, выделение суммы для группы, подсчёт внутри группы более сложных агрегатов.

#### Использование lambda и apply
В случае потребности в нестандартных агрегатах можно воспользоваться **lambda-функцией** - для датафрейма она будет принимать Series, а для Series ячейку массива. Применить lambda-функцию к датафрейму можно через **apply** - этот метод принимает на вход функцию и применяет её ко всем элементам датафрейма (или Series).

In [None]:
# посмотрим агрегаты по признакам state_age и Water_cut
df.aggregate({'state_age': ['max', 'mean'],
              'Water_cut': ['max', 'min']})

In [None]:
# сгруппируем датафрейм по признаку Well_ID
df_grouped = df.groupby('Well_ID')
# выведем результат
df_grouped

In [None]:
# теперь получим агрегаты из первого пункта по сгруппированному датафрему
df_grouped.aggregate({'state_age': ['max', 'mean'],
                      'Water_cut': ['max', 'min']})

In [None]:
# сравним округлённые значения средних и медианы по сгруппированному датафрейму
df_grouped.aggregate({'state_age':lambda x: round(np.median(x))==round(np.mean(x))})

In [None]:
# посмотрим, какова разница между максимумом и минимумом по признаку Water_cut
df_grouped['Water_cut'].apply(lambda x: x.max() - x.min())

In [None]:
# Вопрос 9. У скольки объектов при группировке по Well_ID среднее и медиана по признаку state_age не равны?

# код тут

### Сводные таблицы и корреляция
#### Сводные таблицы.
В pandas для построения сводных таблиц реализован метод pivot_table() - он принимает признаки и функции, которые нужно применить к этим признака. Кроме прочего, ему надо передать колонку, которая будет являться идентификатором в результирующей сводной таблице.

#### Корреляция
Корреляция - мера линейной (монотонной) зависимости. В pandas расчёт коэффициента корреляции реализован в методе corr(). По умолчанию рассчитывается коэффициент корреляции Пирсона, он может принимать значения от -1 до 1, где абсолютное значение отвечает за силу взаимосвязи, а знак - за её направление.

In [None]:
df.pivot_table(values='Water_cut',
               index='Well_ID',
               aggfunc=['mean','max','min'])

In [None]:
df.pivot_table(values=['Dnytr','Q_OIS'],
               index='VNR',
               aggfunc=['std','mean'])

In [None]:
agg_df = df_grouped.aggregate({'Q_OIS': ['max', 'mean'],
                      'Water_cut': ['max', 'mean']})
agg_df.corr()

In [None]:
# Вопрос 10. С помощью функции aggregate найдите максимум, минимум, медиану по признакам
#            Q_OIS, Water_cut, NomMoschn, P_plst для каждой скважины (по датафрейму, сгруппированному по Well_ID).
#            Посчитайте коэффициент корреляции Пирсона для этих агрегатов.
#            Есть ли среди этих агрегатов такие, коэффициент корреляции у которых больше 0.8?

# код тут

### Встроенная визуализация

Для визуализации датафрейм имеет метод **plot()**. Главные параметры, которые он принимает, это названия признаков и вид графика, который нужно по этим признакам отрисовать.

In [None]:
df.head(1000).plot(y='Water_cut',kind='kde',figsize=(5,5))

In [None]:
df.head(1000).plot(y='Water_cut',kind='hist',figsize=(5,4))

### Сохранение данных

In [None]:
df_res = df.head()

In [None]:
df_res.to_csv('filename.csv',index=False)

In [None]:
df_res.to_excel('filename.xlsx',index=False)

# Полезные ссылки:
- [Документация Pandas ](https://pandas.pydata.org/pandas-docs/stable/index.html)
- [Средние величины](https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%B5_%D0%B2%D0%B5%D0%BB%D0%B8%D1%87%D0%B8%D0%BD%D1%8B)
- [Видео-туториалы Pandas на английском](https://www.youtube.com/watch?v=CmorAWRsCAw#action=share)


### Дополнительные материалы - теория и практика

#### Объединение датафреймов
Если данные берутся из нескольких источников, которые имеют общие идентификаторы, то объединить их можно методом **merge()**. Этот метод довольно гибкий - можно указывать имена колонок для объединения в каждом из датафремов, указывать тип объединения и др.

Тип объединения обычно выбирают в зависимости от конечной цели: если мы хотим сохранить обсолютно все объекты из обоих источников, даже при условии, что они будут почти не заполнены, можно выбрать тип "*outer*" .
Если у нас есть один наиболее доверенный источник, в качестве данных которого мы уверены, то можно присодинять данные из других источников с указанием типа "*left*" - в этом случае объекты, которых не будет в первом источнике, также не попадут и в конечный датафрейм.

Типу объединения соответствуют два понятия из теории множеста: **a.merge(b, how="inner")** - *пересечение множеств* a и b,
**a.merge(b, how="outer")** - *объединение множеств* a и b.

Ниже приведены несколько примеров объединения с помощью метода **merge()**.

In [None]:
# создадим два игрушечных датасета с разным набром объектов и разными колонками, чтобы увидеть
# как работают различные типы объединения
a = pd.DataFrame({'UID':[0,1,2,3,4,5],
                  'Должность':['Инженер','Инженер','Заместитель директора', 'Менеджер','Главный инженер','Менеджер'],
                  'Оклад (тыс.руб)':[35, 38, 95, 35, 58, 32]})

b = pd.DataFrame({'UID':[0,1,2,3,4],
                  'Возраст':[23,32,40,25,50],
                  'Образование':['Среднее специальное','Высшее','Высшее','Среднее специальное','К.т.н']})

In [None]:
a.merge(b, on='UID', how='outer')

In [None]:
a.merge(b, on='UID', how='inner')

In [None]:
# предположим, что мы хотим посмотреть размеры окладов в разрезе возраста и образования
# в этом случае outer тип для нас бесполезен - так как не принёсёт в данные нужной информации
df = a.merge(b, on='UID', how='inner')

In [None]:
# посмотрим на средние оклады людей до 35 (включительно) и после 35
round(df[df['Возраст'] <= 30]['Оклад (тыс.руб)'].mean(),2),round(df[df['Возраст'] > 30]['Оклад (тыс.руб)'].mean(),2)

In [None]:
# теперь сгруппируем наш датафрейм по типу образования и посмотрим на статистику по окладу
df.groupby('Образование')['Оклад (тыс.руб)'].mean()

In [None]:
# теперь предположим, что нам дали дополнительные данные по сотрудникам из филиалов компании
# мы должны присоединить их к нашему датасету и рассчитать интересующие показатели заново
a = pd.DataFrame({'UID':[101, 200, 202, 408, 501],
                  'Должность':['Инженер','Менеджер','Старший инженер','Инженер','Оператор поддержки'],
                  'Оклад (тыс.руб)':[38, 27, 45, 35, 20]})

b = pd.DataFrame({'UID':[101, 200, 202, 408, 501],
                  'Возраст':[37, 38, 45, 28, 21],
                  'Образование':['Высшее','Высшее','Высшее','Среднее специальное','Среднее']})

df_add = a.merge(b, on='UID', how='inner')

In [None]:
# объединим датафремы
df = pd.concat([df, df_add]) # метод concat принимает список из датафреймов, у которых должны быть одинаковые колонки

In [None]:
round(df[df['Возраст'] <= 30]['Оклад (тыс.руб)'].mean(),2),round(df[df['Возраст'] > 30]['Оклад (тыс.руб)'].mean(),2)

In [None]:
df.groupby('Образование')['Оклад (тыс.руб)'].mean()

#### Оконные функции.
Для работы с рапсределёнными во времени данных в pandas существуют оконные функции - они позволяют вычислить агрегаты в рамках небольших временных периодов, так называемых "окон", которые можно сдвигать на заданный шаг для повторения рассчётов.
В pandas реализовано несколько методов для работы с распределёнными во времени данными:
- pandas.rolling() - позволяет произвести оконные вычисления с любой произвольной функцией в рамках заданного окна
- pandas.expanding() - позвояет произвести куммулятивные вычисления с любой произвольной функцией для заданного размера окна
- pandas.ewm() - позволяет "сгладить" данные, подробное описание можно прочесть в документации к pandas

In [None]:
# представим, что теперь для каждого сотрудника из предыдущего пункта мы решили проанализировать его предыдущую
# трудовую деятельность : длительность работы на каждом месте, рост дохода
a = pd.DataFrame({'UID':[1, 1, 2, 2, 2, 2, 408, 408, 501],
                 'Company_ID':[100, 304, 202, 35, 78, 23, 90, 23, 10],
                 'Дата начала работы':['2000-09-01',
                                       '2005-12-15',
                                       '2003-05-07',
                                       '2006-08-02',
                                       '2011-10-07',
                                       '2017-11-15',
                                       '2013-02-02',
                                       '2016-09-25',
                                       '2018-07-30'
                                      ],
                 'Дата окончания работы':['2005-11-04',
                                          '2015-03-03',
                                          '2006-07-24',
                                           '2011-10-01',
                                           '2016-10-20',
                                           '2019-11-08',
                                          '2016-06-04',
                                          '2018-09-20',
                                          '2019-05-14'],
                 'Оклад (тыс.руб)':[26, 35, 30, 48, 54, 79, 21, 32, 17]})

In [None]:
# приведём даты к нужному типу, чтобы они корректно отобразились на графике
a['Дата начала работы'] = pd.to_datetime(a['Дата начала работы'])
a['Дата окончания работы'] = pd.to_datetime(a['Дата окончания работы'])

In [None]:
# Отрисуем, как менялся оклад работника с UID=2 по годам
a[a['UID'] == 2].plot(x='Дата начала работы',y='Оклад (тыс.руб)')

In [None]:
# сгладим наш график для работника с UID=2
# попробуйте поменять параметр alpha, чтобы увидеть, как в зависимости от него меняется график
a_tmp = a[a['UID'] == 2].ewm(alpha=0.5).mean()
a_tmp[['Оклад (тыс.руб)']].merge(a['Дата начала работы'], left_index=True, right_index=True).plot(x='Дата начала работы',y='Оклад (тыс.руб)')

In [None]:
# сгруппируем работников по UID, посмотрим среднее на двух последних местах работы по окладу
a_grouped = a.groupby('UID')
a_grouped['Оклад (тыс.руб)'].rolling(2).mean()

In [None]:
# Самостоятельная работа:
# 1) Попробуйте сгруппировать данные по образованию и должности.
# Какая категория людей получает наибольший, а какая наименьший доход?
# 2) Закодируйте признак образование по принципу "выше уровень образования - больше цифра"
# Каково значение коэффициента корреляции Пирсона между уровнем образования и окладом, каков его знак?
# (на самом деле, коэффициент корреляции Пирсона здесь не очень подходит -
# об этом будет рассказано в следующих лекциях курса)

# код тут