<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/%D0%BF%D0%BE%D0%B4%D1%80%D0%BE%D0%B1%D0%BD%D0%B5%D0%B5%20%D0%B8%D0%B7%D1%83%D1%87%D0%B0%D0%B5%D0%BC%20pandas/06_%D0%A0%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%20%D1%81%20%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0%D0%BC%D0%B8.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

### Применение индексов

In [None]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

In [None]:
# создаем DataFame, состоящий из случайных чисел и столбца key
df = pd.DataFrame({'foo':np.random.random(10000), 'key':range(100, 10100)})
df[:5]

In [None]:
# отбираем строку, в которой значение столбца key равно 10099
df[df.key==10099]

In [None]:
# измеряем время выполнения операции отбора
%timeit df[df.key==10099]

In [None]:
# превращаем столбец key в index
df_with_index = df.set_index(['key'])
df_with_index[:5]

In [None]:
# теперь можно найти это значение с помощью индекса
df_with_index.loc[10099]

In [None]:
# и теперь операция выполняется намного быстрее
%timeit df_with_index.loc[10099]

### Основной тип Index

In [None]:
# покажем, что столбцы фактически являются индексом
temps = pd.DataFrame({ "City": ["Москва", "Петербург"],
                       "Температура": [3, 1] })
temps

In [None]:
# мы видим, что столбцы - это индекс
temps.columns

### Индексы Int64Index и RangeIndex, в качестве меток используются целые числа

In [None]:
# явно создаем Int64Index
df_i64 = pd.DataFrame(np.arange(10, 20), index=np.arange(0, 10))
df_i64[:5]

In [None]:
# смотрим индекс
df_i64.index

In [None]:
# по умолчанию мы получаем RangeIndex
df_range = pd.DataFrame(np.arange(10, 15))
df_range[:5]

In [None]:
df_range.index

### Индекс Float64Index, в качестве меток используются числа с плавающей точкой

In [None]:
# индексы, использующие Float64Index
df_f64 = pd.DataFrame(np.arange(0, 1000, 5), np.arange(0.0, 100.0, 0.5))
df_f64.iloc[:5] # потребуется iloc для отбора первых пяти строк

In [None]:
df_f64.index

### Индексирование по датам и времени с помощью DatetimeIndex

In [None]:
# создаем DatetimeIndex на основе диапазона дат
rng = pd.date_range('5/1/2017', periods=5, freq='H')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

In [None]:
ts.index

### Индексирование периодов времени с помощью PeriodIndex

In [None]:
# явно создаем PeriodIndex
periods = pd.PeriodIndex(['2017-1', '2017-2', '2017-3'], freq='M')
periods

In [None]:
period_series = pd.Series(np.random.randn(len(periods)), 
                          index=periods)  # используем индекс в серии
period_series

### Создание и использование индекса в объекте Series или объекте DataFrame

In [None]:
# создаем DatetimeIndex
date_times = pd.DatetimeIndex(pd.date_range('5/1/2017', 
                                            periods=5, 
                                            freq='H'))
date_times

In [None]:
# создаем объект DataFrame, используя индекс
df_date_times = pd.DataFrame(np.arange(0, len(date_times)), 
                             index=date_times)
df_date_times

In [None]:
# задаем индекс датафрейма
df_date_times.index = pd.DatetimeIndex(pd.date_range('6/1/2017', 
                                                     periods=5, 
                                                     freq='H'))
df_date_times

### Отбор значений с помощью индекса

In [None]:
# создаем серию
s = pd.Series(np.arange(0, 5), index=list('abcde'))
s

In [None]:
# ищем по метке индекса
s['b']

In [None]:
# явно ищем по метке индекса
s.loc['b']

In [None]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame([np.arange(10, 12), 
                   np.arange(12, 14)], 
                   columns=list('ab'), 
                   index=list('vw'))
df

In [None]:
df['a'] # эта строка возвращает столбец 'a'

In [None]:
df.loc['w'] # возвращает строку 'w' по метке

In [None]:
s['b':'d'] # создаем срез серии от метки b до метки d

In [None]:
s.loc['b':'d'] # эта строка явно создает срез от метки b до метки d

In [None]:
# ищем строки по метке
s.loc[['a', 'c', 'e']]

### Преобразование данных в индекс и получение данных из индекса 

In [None]:
url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/%D0%BF%D0%BE%D0%B4%D1%80%D0%BE%D0%B1%D0%BD%D0%B5%D0%B5%20%D0%B8%D0%B7%D1%83%D1%87%D0%B0%D0%B5%D0%BC%20pandas/Data/orders.csv"

In [None]:
orders = pd.read_csv(url, index_col='id')
orders.head()

In [None]:
# сбрасываем индекс, помещая значения индекса в столбец
index_moved_to_col = orders.reset_index()
index_moved_to_col[:5]

In [None]:
# а теперь делаем столбец id индексом
index_moved_to_col.set_index('id')[:5]

### Иерархическая индексация

In [None]:
# сначала помещаем символы в столбец
reindexed = orders.reset_index()
# а теперь индексируем датафрейм 
multi_fi = reindexed.set_index(['order_date', 'customer_id'])
multi_fi[:5]

In [None]:
# наш индекс - это MultiIndex
type(multi_fi.index)

In [None]:
# он имеет два уровня
len(multi_fi.index.levels)

In [None]:
# каждый уровень индекса - это индекс
multi_fi.index.levels[0]

In [None]:
# каждый уровень индекса - это индекс
multi_fi.index.levels[1]

In [None]:
# значения в уровне индекса 0
multi_fi.index.get_level_values(0)

In [None]:
multi_fi.xs('2014-03-14')[:5]

In [None]:
# отбираем строки, в которых индекс уровня 0 
# имеет значение 2014-03-14, без удаления уровней
multi_fi.xs('2014-03-14', drop_level=False)[:5]

In [None]:
# скомбинируем уровни индексов
multi_fi.xs('2014-03-14').xs('NF-18475')