### Библиотеки / данные 

импортируем numpy и pandas

In [None]:
import numpy as np
import pandas as pd

настройки pandas

In [None]:
pd.options.display.max_rows = 10

- считываем данные
- используем столбец Symbol в качестве индекса 
- считываем только столбцы ['Symbol', 'Sector', 'Price', 'Book Value']

| Column Name        | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

In [None]:
sp500 = pd.read_csv("../data/sp500.csv",
                    index_col='Symbol', 
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

### Мотивация

создаем DataFame для примера

In [None]:
np.random.seed(123)
df = pd.DataFrame({'value':np.random.random(10000), 'key':range(100, 10100)})
df.head()

Unnamed: 0,value,key
0,0.696469,100
1,0.286139,101
2,0.226851,102
3,0.551315,103
4,0.719469,104


отбираем строку, в котором значение столбца key равно 10099

In [None]:
df[df.key==10099]

Unnamed: 0,value,key
9999,0.613297,10099


измеряем время выполнения операции отбора

In [None]:
%timeit df[df.key==10099]

229 µs ± 1.99 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


превращаем столбец key в index

In [None]:
df_with_index = df.set_index(['key'])
df_with_index.head()

Unnamed: 0_level_0,value
key,Unnamed: 1_level_1
100,0.696469
101,0.286139
102,0.226851
103,0.551315
104,0.719469


теперь можно найти это значение с помощью индекса

In [None]:
df_with_index.loc[10099]

value    0.613297
Name: 10099, dtype: float64

и теперь операция выполняется намного быстрее

In [None]:
%timeit df_with_index.loc[10099]

59 µs ± 1.18 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [None]:
254/59.7

4.254606365159129

<center><font color = 'green'><b>Вывод: использование индекса повышает скорость доступа к данным более чем в 4.25 раз!</b></font>

### Операции

#### сброс

исследуем несколько строк датафрейма data

In [None]:
sp500.head(3)

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954


сбрасываем индекс, помещая значения индекса в столбец

In [None]:
index_moved_to_col = sp500.reset_index()
index_moved_to_col.head()

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954
3,ACN,Information Technology,79.79,8.326
4,ACE,Financials,102.91,86.897


#### установка

а теперь делаем столбец Sector индексом

In [None]:
index_moved_to_col.set_index('Sector').head()

Unnamed: 0_level_0,Symbol,Price,Book Value
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Industrials,MMM,141.14,26.668
Health Care,ABT,39.6,15.573
Health Care,ABBV,53.95,2.954
Information Technology,ACN,79.79,8.326
Financials,ACE,102.91,86.897


#### над множествами

Датафреймы для примера:

In [None]:
data_rnd_part_1 = sp500.sample(100, random_state=333)
data_rnd_part_2 = sp500.sample(100, random_state=777)

In [None]:
data_rnd_part_1.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
NDAQ,Financials,36.45,36.578
FDO,Consumer Discretionary,56.65,14.122
EBAY,Information Technology,52.02,15.477
ECL,Materials,108.05,24.019
LO,Consumer Staples,60.2,-5.953


In [None]:
data_rnd_part_2.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
SRCL,Industrials,112.48,20.802
ADP,Information Technology,78.85,13.729
SPLS,Consumer Discretionary,11.65,9.525
COV,Health Care,71.19,21.219
HRL,Consumer Staples,46.66,13.311


объединение:

In [None]:
ind_union = data_rnd_part_1.index | data_rnd_part_2.index
ind_union

  ind_union = data_rnd_part_1.index | data_rnd_part_2.index


Index(['AA', 'ACT', 'ADBE', 'ADP', 'AEE', 'AFL', 'AIZ', 'ALL', 'ALTR', 'ALXN',
       ...
       'VTR', 'VZ', 'WHR', 'WMB', 'WU', 'XOM', 'XRAY', 'XRX', 'ZMH', 'ZTS'],
      dtype='object', name='Symbol', length=177)

пересечение

In [None]:
ind_intersection = data_rnd_part_1.index & data_rnd_part_2.index
len(ind_intersection)

  ind_intersection = data_rnd_part_1.index & data_rnd_part_2.index


23

разность

In [None]:
ind_diff = data_rnd_part_1.index.difference(data_rnd_part_2.index)
len(ind_diff)

77

### Иерархическая индексация

сначала помещаем символы в столбец

In [None]:
reindexed = sp500.reset_index()

In [None]:
reindexed.head()

Unnamed: 0,Symbol,Sector,Price,Book Value
0,MMM,Industrials,141.14,26.668
1,ABT,Health Care,39.6,15.573
2,ABBV,Health Care,53.95,2.954
3,ACN,Information Technology,79.79,8.326
4,ACE,Financials,102.91,86.897


а теперь индексируем датафрейм data по столбцам Sector и Symbol

In [None]:
multi_fi = reindexed.set_index(['Sector', 'Symbol'])
multi_fi.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Book Value
Sector,Symbol,Unnamed: 2_level_1,Unnamed: 3_level_1
Industrials,MMM,141.14,26.668
Health Care,ABT,39.6,15.573
Health Care,ABBV,53.95,2.954
Information Technology,ACN,79.79,8.326
Financials,ACE,102.91,86.897


наш индекс - это MultiIndex

In [None]:
type(multi_fi.index)

pandas.core.indexes.multi.MultiIndex

он имеет два уровня

In [None]:
len(multi_fi.index.levels)

2

каждый уровень индекса - это индекс

In [None]:
multi_fi.index.levels[1]

Index(['A', 'AA', 'AAPL', 'ABBV', 'ABC', 'ABT', 'ACE', 'ACN', 'ACT', 'ADBE',
       ...
       'XLNX', 'XOM', 'XRAY', 'XRX', 'XYL', 'YHOO', 'YUM', 'ZION', 'ZMH',
       'ZTS'],
      dtype='object', name='Symbol', length=500)

изменение порядка уровней индекса:

In [None]:
multi_fi.reorder_levels([1, 0], axis=0).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Book Value
Symbol,Sector,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


получаем все акции, которые имеют значение Industrials <br> обратите внимание, что в результатах индекс уровня 0 не выводится 

In [None]:
multi_fi.xs('Industrials').head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ALLE,52.46,0.0
APH,95.71,18.315
AVY,48.2,15.616
BA,132.41,19.87


отбираем строки, в которых индекс уровня 1 (Symbol) имеет значение ALLE

In [None]:
multi_fi.xs('ALLE', level=1)

Unnamed: 0_level_0,Price,Book Value
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1
Industrials,52.46,0.0


скомбинируем уровни индексов

In [None]:
multi_fi.xs('Industrials').xs('UPS')

Price         102.73
Book Value      6.79
Name: UPS, dtype: float64

комбинируем уровни индексов, используя кортеж

In [None]:
multi_fi.xs(('Industrials', 'UPS'))

Price         102.73
Book Value      6.79
Name: (Industrials, UPS), dtype: float64

### [Типы](http://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#index-types)

#### Основной тип Index

покажем, что столбцы фактически являются индексом

In [None]:
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [None]:
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

#### Int64Index и RangeIndex

Явно создаем Int64Index

In [None]:
df_i64 = pd.DataFrame(np.arange(10, 20), index=np.arange(0, 10))
df_i64.head()

Unnamed: 0,0
0,10
1,11
2,12
3,13
4,14


смотрим индекс

In [None]:
df_i64.index

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

по умолчанию мы получаем RangeIndex

In [None]:
df_range = pd.DataFrame(np.arange(10, 15))
df_range.head()

Unnamed: 0,0
0,10
1,11
2,12
3,13
4,14


In [None]:
df_range.index

RangeIndex(start=0, stop=5, step=1)

#### Float64Index

индексы, использующие Float64Index

In [None]:
df_f64 = pd.DataFrame(np.arange(0, 1000, 5), 
                      np.arange(0.0, 100.0, 0.5))
df_f64.head()

Unnamed: 0,0
0.0,0
0.5,5
1.0,10
1.5,15
2.0,20


In [None]:
df_f64.index

Float64Index([ 0.0,  0.5,  1.0,  1.5,  2.0,  2.5,  3.0,  3.5,  4.0,  4.5,
              ...
              95.0, 95.5, 96.0, 96.5, 97.0, 97.5, 98.0, 98.5, 99.0, 99.5],
             dtype='float64', length=200)