# Введение в pandas

# Создание и структура Series и DataFrame

In [None]:
import numpy as np
import pandas as pd

In [None]:
np.random.seed(18182)
data = np.random.randint(10, size=(6, 4))
# Дата Фрейм
df = pd.DataFrame(data, columns=['a', 'b', 'c', 'd'])
df

In [None]:
# Серия
np.random.seed(18182)
data = np.random.randint(10, size=6)
sr = pd.Series(data)
sr

In [None]:
print('Форма DataFrame: ', df.shape)
print('Размер DataFrame: ', df.size)

### Сохранение и загрузка
Для сохранения DataFrame обычно используется формат csv  (Comma-Separated Values — значения, разделённые запятыми), который представляет собой текстовый файл, в котором данные записаны построчно, а значения разных столбцов разделены запятыми

In [None]:
df.to_csv('data/example.csv')
df2 = pd.read_csv('data/example.csv', index_col=0)
# df2 = pd.read_csv('data/example.csv', index_col=0, header=0)
df2

### Компоненты объектов

In [None]:
# Компоненты DataFrame
print('Названия колонок:', df.columns)
print('Названия индексов:', df.index)
df2 = df.copy()
df2.index = np.arange(df2.shape[0])
print('Названия индексов (другой вариант):', df2.index)
print('Данные:', df.values)

In [None]:
# Столбцы и строки DataFrame представляют собой Series.
sr = df['b']
sr

In [None]:
# Компоненты Series
print('Названия индексов:', sr.index)
print('Данные:', sr.values)
print('Имя:', sr.name)

# Индексация

In [None]:
# Получение столбца
df['a']

In [None]:
# Несколько столбцов
df[['a', 'c']]  # Перечисление именно через list !!!

In [None]:
df2 = df.copy()
df2.index = pd.Index(list('qwerty'))
display(df2)

# Доступ по меткам / лейблам (строка, столбец) (не кореллирует с целочисленным индексом)
print('На месте (1, а):', df2.loc['w', 'a'])

# Доступ по позиции (только целочисленный индекс)
print('На позиции (1, 0):', df2.iloc[1, 0])

In [None]:
display(df)

# Доступ по меткам / лейблам (строка, столбец) (не кореллирует с целочисленным индексом)
print('На месте (1, а):', df.loc[1, 'a'])

# Доступ по позиции (только целочисленный индекс)
print('На позиции (1, 0):', df.iloc[1, 0])

In [None]:
# Срез строк
display(df[-2:])
# Срез столбцов
display(df.loc[:, 'b':'d'])  # включительно

# Получение информации

In [None]:
df = pd.read_csv('data/wells_info.csv')
print('Форма:', df.shape)
# Вывод первых строк
display(df.head())

In [None]:
# Типы данных
df.dtypes

In [None]:
# Метод info показывает общую информацию по датафрейму и всем признакам
df.info()

In [None]:
# Метод describe показывает основные статистические характеристики данных по каждому числовому признаку: 
# число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили
df.describe()

In [None]:
# Метод unique выводит уникальные значения
df['StateName'].unique()

In [None]:
# Метод value_counts подсчитывает количество значений
df['StateName'].value_counts()

# Фильтрация и сортировка

In [None]:
df_ = df[df['CountyName'] == 'WELD']
df_.head()

In [None]:
df[(df['CountyName'] == 'WELD') & (df['BottomHoleLatitude'] > 40.4)]

### Сортировка

In [None]:
# Сортировка по значению
df_ = df.sort_values('LatWGS84')
df_.head()

In [None]:
# Сортировка строк по нескольким значениям
df_ = df.sort_values(['PermitDate', 'LatWGS84'])
df_.head()

In [None]:
# Cортировка по именам колонок
df_ = df.sort_index(axis=1)
df_.head()

In [None]:
df2 = pd.read_csv('data/example.csv', index_col=0)
df2.index = pd.Index(list('qwerty'))
display(df2)

# Сортировка по именам строк (по индексу (Index))
df2 = df2.sort_index(axis=0)
df2

# Работа с индексом

In [None]:
# Выбор колонки для индексации
df_2 = df.set_index('API')
df_2.head()

In [None]:
# Сброс индекса
df_2 = df_2.reset_index()
df_2.head()

### Multiindex

In [None]:
df_2 = df.set_index(['StateName', 'API'])
df_2.head()

In [None]:
# Индексация по первому индексу
df_2.loc['COLORADO'].shape

In [None]:
# Получение строки
df_2.loc[('COLORADO', 5123377130000)]

In [None]:
# Получение значение в ячейке
df_2.loc[('COLORADO', 5123377130000), 'BasinName']  # При использовании Multiindex для указания конкретной строки используется tuple

# Некоторые возможности pandas по работе с данными

In [None]:
# Перевод времени из строк в формат np.datetime64
df['CompletionDate'] = pd.to_datetime(df['CompletionDate'])
df['FirstProductionDate'] = pd.to_datetime(df['FirstProductionDate'])
df['PermitDate'] = pd.to_datetime(df['PermitDate'])
df['SpudDate'] = pd.to_datetime(df['SpudDate'])

df.dtypes

In [None]:
# Построчное применение функции
def fun(row):
    if row['formation'] == 'NIOBRARA':
        return row['BasinName']
    else:
        return 'OTHER'


app_res = df.apply(fun, axis=1)  # при axis=0 функция будет применена к каждой колонке
app_res[6:11]

In [None]:
# Применение функции к каждому элементу столбца
map_res = df['formation'].map(lambda form: 'NIOBRARA' if form == 'NIOBRARA' else 'OTHER')
# df['formation'] выберает ряд
# метод класса Series ".map" применяет переданную функцию ко всем элементам
# Аналогично метод .map можно вызывать от строк DataFrame
map_res[6:11]

In [None]:
# Удаление колонок
df.drop('formation', axis=1).columns

In [None]:
df.drop(['PermitDate', 'SpudDate', 'CompletionDate', 'FirstProductionDate'], axis=1).columns

# Работа со строками

In [None]:
# Операции со строками в pandas находятся в наборе методов .str для Series
df['operatorNameIHS'].head()

In [None]:
# Обращаться к колонкам можно через точку, если имя нужной колонки не содержит пробелов и других специальных символов
df.operatorNameIHS.str.capitalize().head()

In [None]:
df.operatorNameIHS.str.endswith('LLC').head()

In [None]:
words = df.operatorNameIHS.str.split(' ')
words.head()

In [None]:
words.str[-3:].head()

In [None]:
words.str.join('_').head()

# Группировка

In [None]:
df.groupby('formation').mean()

In [None]:
df.groupby('formation').sum()

### Доп информация
> Подробнее про методы над группами можно прочитать [здесь](https://pandas.pydata.org/docs/reference/groupby.html).

### Произвольная функция

In [None]:
# Возвращается Series (строка)
def fun(df):
    out = pd.Series()
    out['MinLatitude'] = df['BottomHoleLatitude'].min()
    out['MinLongitude'] = df['BottomHoleLongitude'].min()
    return out

res = df.groupby('formation').apply(fun)
res

In [None]:
# Возвращается DataFrame
def fun(df):
    df = df.copy()
    df['MinLatitude'] = df['BottomHoleLatitude'].min()
    df['MinLongitude'] = df['BottomHoleLongitude'].min()
    return df

# group_keys=False указывает, что в результате не надо добавлять formation как индекс
df2 = df.groupby('formation', group_keys=False).apply(fun)
df2.sort_index()[6:11]

### Группировка по индексу

In [None]:
df2 = df.set_index(['formation', df.index])
df2.head()

In [None]:
df2.groupby(level=0).mean()

# Операции с несколькими DataFrame

In [None]:
df1, df2 = df.iloc[:4, :3], df.iloc[:4, 3:6]
df3, df4 = df.iloc[4:8, :3], df.iloc[4:8, 3:6]

display(df1.head())
display(df2.head())
display(df3.head())
display(df4.head())

In [None]:
# Объединение нескольких DataFrame
pd.concat([df1, df3])

In [None]:
# Объединение происходит по умолчанию по оси 0
pd.concat([df1, df2])

In [None]:
# Для объединения по столбцам нужно указать ось 1
pd.concat([df1, df2], axis=1)

### Метод merge
Объединение выполняется по столбцам или индексам. При объединении столбцов в столбцах индексы DataFrame будут игнорироваться.

In [None]:
df4['API'] = df3['API']
df4 = df4.reset_index(drop=True)
display(df3)
display(df4)

In [None]:
df3['API']

In [None]:
df4['API']

In [None]:
pd.merge(df3, df4, on='API')

In [None]:
# При совпадении колонок используются указанные суффиксы
df5 = df3.copy()
df5['CompletionDate'] = df2['CompletionDate']

pd.merge(df5, df4, on='API', suffixes=('', '_from4'))

# Работа с пустыми значениями

In [None]:
df = pd.read_csv('data/wells_info_na.csv')
df['CompletionDate'] = pd.to_datetime(df['CompletionDate'])
df['FirstProductionDate'] = pd.to_datetime(df['FirstProductionDate'])
df

In [None]:
# Проверка на пустоту
df.isnull()

In [None]:
# Отбрасывание строк с пустым значением
df.dropna()

In [None]:
# Заполнение значением
df.fillna(0)

In [None]:
# Заполнение прошлым значением
df.fillna(method='ffill')

In [None]:
# Заполнение следующим значением
df.fillna(method='bfill')

In [None]:
# Заполнение определёнными значениями (из Series)
df.fillna(df.mean())

# Сводные таблицы

In [None]:
# Таблица сопряженности
df = pd.read_csv('data/wells_info.csv')
pd.crosstab(df['formation'], df['BasinName'])

In [None]:
# Нормализация
pd.crosstab(df['formation'], df['BasinName'], normalize=True)

In [None]:
# Cводные таблицы
df.pivot_table(values='LatWGS84', index='formation', columns='BasinName', aggfunc='mean')

In [None]:
df.pivot_table(values='LatWGS84', index='formation', columns='BasinName', aggfunc='count')

In [None]:
df.pivot_table(values=['LatWGS84', 'LonWGS84'], index='formation', aggfunc='mean')

In [None]:
df.pivot_table(values='LatWGS84', index='formation', columns='BasinName', aggfunc='median')

# Задания

1. Создайте DataFrame с 5 столбцами и 10 строками, заполненный случайными числами от 0 до 1. По каждой строке посчитайте среднее чисел, которые больше 0.3.
2. Посчитайте, сколько целых месяцев длилась добыча на каждой скважине в файле _wells_info.csv_.
3. Заполните пропущенные числовые значения медианой, а остальные самым часто встречаемым значением  в файле _wells_info_na.csv_.
4. Используя файл _production.csv_ добавьте к каждой скважине в файле _wells_info.csv_ колонку с информацией о суммарной добыче за всё время и за первые 12 месяцев.