# Настройка pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 60)

# считываем данные в DataFrame, используя в качестве
# индекса столбец Symbol и записывая только те 
# столбцы, которые имеют позиции 0, 2, 3, 7
sp500 = pd.read_csv("Data/sp500.csv", 
                    index_col='Symbol', 
                    usecols=[0, 2, 3, 7])

# Важность применения индексов

In [2]:
# создаем DataFame, состоящий из случайных чисел и столбца key
np.random.seed(123456)
df = pd.DataFrame({'foo':np.random.random(10000), 'key':range(100, 10100)})
df[:5]

        foo  key
0  0.126970  100
1  0.966718  101
2  0.260476  102
3  0.897237  103
4  0.376750  104

In [3]:
# отбираем строку, в котором значение столбца key равно 10099
df[df.key==10099]

           foo    key
9999  0.272283  10099

In [4]:
# измеряем время выполнения операции отбора
%timeit df[df.key==10099]

544 µs ± 64.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [5]:
# превращаем столбец key в index
df_with_index = df.set_index(['key'])
df_with_index[:5]

          foo
key          
100  0.126970
101  0.966718
102  0.260476
103  0.897237
104  0.376750

In [6]:
# теперь можно найти это значение
# с помощью индекса
df_with_index.loc[10099]

foo    0.272283
Name: 10099, dtype: float64

In [7]:
# и теперь операция выполняется намного быстрее
%timeit df_with_index.loc[10099]

88.5 µs ± 6.68 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


# Основной тип Index

In [8]:
# покажем, что столбцы фактически являются индексом
temps = pd.DataFrame({ "City": ["Missoula", "Philadelphia"],
                       "Temperature": [70, 80] })
temps

           City  Temperature
0      Missoula           70
1  Philadelphia           80

In [9]:
# мы видим, что столбцы - это индекс
temps.columns

Index(['City', 'Temperature'], dtype='object')

# Индексы Int64Index и RangeIndex, в качестве меток используются целые числа

In [10]:
# явно создаем Int64Index
df_i64 = pd.DataFrame(np.arange(10, 20), index=np.arange(0, 10))
df_i64[:5]

    0
0  10
1  11
2  12
3  13
4  14

In [11]:
# смотрим индекс
df_i64.index

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

In [12]:
# по умолчанию мы получаем RangeIndex
df_range = pd.DataFrame(np.arange(10, 15))
df_range[:5]

    0
0  10
1  11
2  12
3  13
4  14

In [13]:
df_range.index

RangeIndex(start=0, stop=5, step=1)

# Индекс Float64Index, в качестве меток используются числа с плавающей точкой

In [14]:
# индексы, использующие Float64Index
df_f64 = pd.DataFrame(np.arange(0, 1000, 5), 
                      np.arange(0.0, 100.0, 0.5))
df_f64.iloc[:5] # потребуется iloc для отбора первых пяти строк

      0
0.0   0
0.5   5
1.0  10
1.5  15
2.0  20

In [15]:
df_f64.index

Float64Index([ 0.0,  0.5,  1.0,  1.5,  2.0,  2.5,  3.0,
               3.5,  4.0,  4.5,
              ...
              95.0, 95.5, 96.0, 96.5, 97.0, 97.5, 98.0,
              98.5, 99.0, 99.5],
             dtype='float64', length=200)

# Представление дискретных интервалов с использованием IntervalIndex

In [16]:
# датафрейм с IntervalIndex
df_interval = pd.DataFrame({ "A": [1, 2, 3, 4]},
                    index = pd.IntervalIndex.from_breaks(
                        [0, 0.5, 1.0, 1.5, 2.0]))
df_interval

            A
(0.0, 0.5]  1
(0.5, 1.0]  2
(1.0, 1.5]  3
(1.5, 2.0]  4

In [17]:
df_interval.index

IntervalIndex([(0.0, 0.5], (0.5, 1.0], (1.0, 1.5], (1.5, 2.0]],
              closed='right',
              dtype='interval[float64]')

# Категории в качестве индекса – CategoricalIndex

In [18]:
# создаем датафрейм со столбцом, имеющим тип Categorical
df_categorical = pd.DataFrame({'A': np.arange(6),
                               'B': list('aabbca')})
df_categorical['B'] = df_categorical['B'].astype('category', 
                                          categories=list('cab'))
df_categorical

ValueError: Got an unexpected argument: categories

In [None]:
# превращаем категориальный столбец в индекс
df_categorical = df_categorical.set_index('B')
df_categorical.index

In [None]:
# ищем значения в категории 'a'
df_categorical.loc['a']

# Индексирование по датам и времени с помощью DatetimeIndex

In [None]:
# создаем DatetimeIndex на основе диапазона дат
rng = pd.date_range('5/1/2017', periods=5, freq='H')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

In [None]:
ts.index

# Индексирование периодов времени с помощью PeriodIndex

In [None]:
# явно создаем PeriodIndex
periods = pd.PeriodIndex(['2017-1', '2017-2', '2017-3'], freq='M')
periods

In [None]:
# используем индекс в серии
period_series = pd.Series(np.random.randn(len(periods)), 
                          index=periods)
period_series

# Создание и использование индекса в объекте Series или объекте DataFrame

In [None]:
# создаем DatetimeIndex
date_times = pd.DatetimeIndex(pd.date_range('5/1/2017', 
                                            periods=5, 
                                            freq='H'))
date_times

In [None]:
# создаем объект DataFrame, используя индекс
df_date_times = pd.DataFrame(np.arange(0, len(date_times)), 
                             index=date_times)
df_date_times

In [None]:
# задаем индекс датафрейма
df_date_times.index = pd.DatetimeIndex(pd.date_range('6/1/2017', 
                                                     periods=5, 
                                                     freq='H'))
df_date_times

# Отбор значений с помощью индекса

In [None]:
# создаем серию
s = pd.Series(np.arange(0, 5), index=list('abcde'))
s

In [None]:
# ищем по метке индекса
s['b']

In [None]:
# явно ищем по метке индекса
s.loc['b']

In [None]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame([ np.arange(10, 12), 
                    np.arange(12, 14)], 
                  columns=list('ab'), 
                  index=list('vw'))
df

In [None]:
# эта строка возвращает столбец 'a'
df['a']

In [None]:
# возвращает строку 'w' по метке
df.loc['w']

In [None]:
# создаем срез серии от метки b до метки d
s['b':'d']

In [None]:
# эта строка явно создает срез от метки b до метки d
s.loc['b':'d']

In [None]:
# ищем строки по метке
s.loc[['a', 'c', 'e']]

# Преобразование данных в индекс и получение данных из индекса 

In [None]:
# исследуем несколько строк датафрейма sp500
sp500[:5]

In [None]:
# сбрасываем индекс, помещая значения 
# индекса в столбец
index_moved_to_col = sp500.reset_index()
index_moved_to_col[:5]

In [None]:
# а теперь делаем столбец Sector индексом
index_moved_to_col.set_index('Sector')[:5]

In [None]:
# делаем переиндексацию, задав метки MMM, ABBV и FOO
reindexed = sp500.reindex(index=['MMM', 'ABBV', 'FOO'])
# обратите внимание, что ABT и ACN удалены, а FOO содержит значения NaN
reindexed

In [None]:
# выполняем переиндексацию столбцов
sp500.reindex(columns=['Price', 
                       'Book Value', 
                       'NewCol'])[:5]

# Иерархическая индексация

In [None]:
# сначала помещаем символы в столбец
reindexed = sp500.reset_index()
# а теперь индексируем датафрейм sp500 по столбцам Sector и Symbol
multi_fi = reindexed.set_index(['Sector', 'Symbol'])
multi_fi[:5]

In [None]:
# наш индекс - это MultiIndex
type(multi_fi.index)

In [None]:
# он имеет два уровня
len(multi_fi.index.levels)

In [None]:
# каждый уровень индекса - это индекс
multi_fi.index.levels[0]

In [None]:
# каждый уровень индекса - это индекс
multi_fi.index.levels[1]

In [None]:
# значения в уровне индекса 0
multi_fi.index.get_level_values(0)

In [None]:
# получаем все акции, которые имеют значение Industrials
# обратите внимание, что в результатах 
# индекс уровня 0 не выводится 
multi_fi.xs('Industrials')[:5]

In [None]:
# отбираем строки, в которых индекс уровня 1 
# (Symbol) имеет значение ALLE
# обратите внимание, что в результатах 
# индекс уровня 1 (Symbol) не выводится 
multi_fi.xs('ALLE', level=1)

In [None]:
# отбираем строки, в которых индекс уровня 0 
# (Sector) имеет значение Industrials, 
# без удаления уровней
multi_fi.xs('Industrials', drop_level=False)[:5]

In [None]:
# скомбинируем уровни индексов
multi_fi.xs('Industrials').xs('UPS')

In [None]:
# комбинируем уровни индексов, используя кортеж
multi_fi.xs(('Industrials', 'UPS'))