# Pandas: индексация

In [1]:
import pandas as pd
from random import choices
import numpy as np

Создадим маленький игрушечный датасет.

In [2]:
n = 100
colors = ['black', 'white', 'brown']
types = ['cat', 'dog', 'snake', 'owl']
index = [f'creature_{i}' for i in range(n)]


df = pd.DataFrame({'type': np.random.choice(types, size=n, replace=True), 'color': np.random.choice(colors, size=n, replace=True), 'weight': np.random.randint(0, 50, n)}, index=index)
df

Unnamed: 0,type,color,weight
creature_0,owl,brown,3
creature_1,dog,brown,49
creature_2,snake,black,3
creature_3,snake,brown,39
creature_4,cat,brown,49
...,...,...,...
creature_95,dog,brown,27
creature_96,owl,white,33
creature_97,cat,black,25
creature_98,owl,brown,18


## Индексация: loc (выбираем по значениям)

In [3]:
df.loc[:, 'color']

creature_0     brown
creature_1     brown
creature_2     black
creature_3     brown
creature_4     brown
               ...  
creature_95    brown
creature_96    white
creature_97    black
creature_98    brown
creature_99    black
Name: color, Length: 100, dtype: object

In [4]:
df.loc[['creature_0', 'creature_67'], ['color', 'type']]

Unnamed: 0,color,type
creature_0,brown,owl
creature_67,white,dog


Можно задавать интервалы между значениями. Разумеется, все будет включительно: здесь нет осмысленного понятия "предыдущий".

In [5]:
df.loc['creature_11': 'creature_17', 'color': 'weight']

Unnamed: 0,color,weight
creature_11,brown,37
creature_12,white,31
creature_13,brown,39
creature_14,brown,1
creature_15,brown,10
creature_16,brown,32
creature_17,black,17


Метод loc позволяет изменять данные или добавлять новые:

In [6]:
df.head()

Unnamed: 0,type,color,weight
creature_0,owl,brown,3
creature_1,dog,brown,49
creature_2,snake,black,3
creature_3,snake,brown,39
creature_4,cat,brown,49


In [7]:
df.loc['creature_0'] = ['snake', 'white', 41]
df.head()

Unnamed: 0,type,color,weight
creature_0,snake,white,41
creature_1,dog,brown,49
creature_2,snake,black,3
creature_3,snake,brown,39
creature_4,cat,brown,49


In [8]:
df.tail()

Unnamed: 0,type,color,weight
creature_95,dog,brown,27
creature_96,owl,white,33
creature_97,cat,black,25
creature_98,owl,brown,18
creature_99,snake,black,20


In [9]:
df.loc[df.shape[0]] = ['cat', 'black', 14]
df.tail()

Unnamed: 0,type,color,weight
creature_96,owl,white,33
creature_97,cat,black,25
creature_98,owl,brown,18
creature_99,snake,black,20
100,cat,black,14


Индекс при этом продолжился просто числами.

Метод loc также позволяет заменять значения, выбранные указанным выше способом:

In [10]:
df.loc['creature_99', 'type'] = 'snake'
df.tail()

Unnamed: 0,type,color,weight
creature_96,owl,white,33
creature_97,cat,black,25
creature_98,owl,brown,18
creature_99,snake,black,20
100,cat,black,14


Можно с помощью этого метода добавляь и целые столбы:

In [11]:
df.loc[:, 'constant'] = 30
df

Unnamed: 0,type,color,weight,constant
creature_0,snake,white,41,30
creature_1,dog,brown,49,30
creature_2,snake,black,3,30
creature_3,snake,brown,39,30
creature_4,cat,brown,49,30
...,...,...,...,...
creature_96,owl,white,33,30
creature_97,cat,black,25,30
creature_98,owl,brown,18,30
creature_99,snake,black,20,30


In [12]:
df.loc[:, 'type_len'] = df.type.apply(lambda x: len(x))
df

Unnamed: 0,type,color,weight,constant,type_len
creature_0,snake,white,41,30,5
creature_1,dog,brown,49,30,3
creature_2,snake,black,3,30,5
creature_3,snake,brown,39,30,5
creature_4,cat,brown,49,30,3
...,...,...,...,...,...
creature_96,owl,white,33,30,3
creature_97,cat,black,25,30,3
creature_98,owl,brown,18,30,3
creature_99,snake,black,20,30,5


И последнее: можно обращаться не по значению, а с помощью буделва массива. Например для столбцов:

In [13]:
df.loc[:, [True, False, True, False, True]]  # Оставили 1, 3 и 5 столбцы

Unnamed: 0,type,weight,type_len
creature_0,snake,41,5
creature_1,dog,49,3
creature_2,snake,3,5
creature_3,snake,39,5
creature_4,cat,49,3
...,...,...,...
creature_96,owl,33,3
creature_97,cat,25,3
creature_98,owl,18,3
creature_99,snake,20,5


Это дает нам возможность отбирать столбцы или строки по названию, когда их много, а нам нужны конкретные (и называются они схожим образом). Например так:

In [14]:
df.index.to_numpy()

array(['creature_0', 'creature_1', 'creature_2', 'creature_3',
       'creature_4', 'creature_5', 'creature_6', 'creature_7',
       'creature_8', 'creature_9', 'creature_10', 'creature_11',
       'creature_12', 'creature_13', 'creature_14', 'creature_15',
       'creature_16', 'creature_17', 'creature_18', 'creature_19',
       'creature_20', 'creature_21', 'creature_22', 'creature_23',
       'creature_24', 'creature_25', 'creature_26', 'creature_27',
       'creature_28', 'creature_29', 'creature_30', 'creature_31',
       'creature_32', 'creature_33', 'creature_34', 'creature_35',
       'creature_36', 'creature_37', 'creature_38', 'creature_39',
       'creature_40', 'creature_41', 'creature_42', 'creature_43',
       'creature_44', 'creature_45', 'creature_46', 'creature_47',
       'creature_48', 'creature_49', 'creature_50', 'creature_51',
       'creature_52', 'creature_53', 'creature_54', 'creature_55',
       'creature_56', 'creature_57', 'creature_58', 'creature_59',
     

In [15]:
mask = [x[-2] == '9' or x[-1] == '3' for x in df.index.astype(str)]
df.loc[mask]

Unnamed: 0,type,color,weight,constant,type_len
creature_3,snake,brown,39,30,5
creature_13,dog,brown,39,30,3
creature_23,cat,white,23,30,3
creature_33,snake,brown,39,30,5
creature_43,owl,black,40,30,3
creature_53,dog,brown,37,30,3
creature_63,snake,black,32,30,5
creature_73,cat,brown,28,30,3
creature_83,cat,white,24,30,3
creature_90,dog,black,11,30,3


Выбрали индексы, заканчивающиеся на тройку или начинающиеся с девятки. Здесь для этого можно было бы приспособить и iloc, но будь они перемешаны - не смогли бы.

## Индексация: iloc

*Все то же самое*, но по номеру. Начинается с нуля, как и положено.

In [16]:
df.head()

Unnamed: 0,type,color,weight,constant,type_len
creature_0,snake,white,41,30,5
creature_1,dog,brown,49,30,3
creature_2,snake,black,3,30,5
creature_3,snake,brown,39,30,5
creature_4,cat,brown,49,30,3


In [17]:
df.iloc[1, 2]

49

In [18]:
df.iloc[0]  # получаем pd.Series

type        snake
color       white
weight         41
constant       30
type_len        5
Name: creature_0, dtype: object

In [19]:
df.iloc[[0]]  # а так датафрейм (с loc аналогично)

Unnamed: 0,type,color,weight,constant,type_len
creature_0,snake,white,41,30,5


Присвоение тоже работает

In [20]:
df.loc[df.shape[0]] = ['dog', 'brown', 1, 1, 3]
df

Unnamed: 0,type,color,weight,constant,type_len
creature_0,snake,white,41,30,5
creature_1,dog,brown,49,30,3
creature_2,snake,black,3,30,5
creature_3,snake,brown,39,30,5
creature_4,cat,brown,49,30,3
...,...,...,...,...,...
creature_97,cat,black,25,30,3
creature_98,owl,brown,18,30,3
creature_99,snake,black,20,30,5
100,cat,black,14,30,3


## Разница между loc и iloc и в особо чувствительных местах

In [21]:
lil_df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]})
lil_df

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


In [22]:
lil_df.loc[1:3]

Unnamed: 0,A,B,C
1,2,6,10
2,3,7,11
3,4,8,12


In [23]:
lil_df.iloc[1:3]

Unnamed: 0,A,B,C
1,2,6,10
2,3,7,11


В данном случае индекс - последовательные целые числа, начинающиеся с 0, то есть по идее выбор по номеру и по значению должен совпадать. Но нет: как было сказано выше, loc включает обе границы интервала, а iloc работает как "нормальный" слайсинг и верхнюю исключает.

В таких примерах для понимания работы loc последовательные числа - "ложные друзья переводчика". На самом деле в примере выше он находит 1, находит 3 и выдает все между ними, *где бы они ни стояли*. Это будет хорошт видно, если числа перемешать: 

In [24]:
new_lil_df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]}, index=[2, 4, 1, 3])
new_lil_df

Unnamed: 0,A,B,C
2,1,5,9
4,2,6,10
1,3,7,11
3,4,8,12


In [25]:
new_lil_df.loc[1:3]

Unnamed: 0,A,B,C
1,3,7,11
3,4,8,12


In [26]:
new_lil_df.iloc[1:3]

Unnamed: 0,A,B,C
4,2,6,10
1,3,7,11


В первом случае мы выбрали две последние строки (с *номерами* 2 и 3), потому что именно там *значения* индекса были равны 1 и 3. Во втором же мы, как и в первый раз, выбрали строки с *номерами* 1 и 2 - не включая верхнюю границы, *значения* индекса в них - 4 и 1.

С индексацией по столбцам все проще: обычно там названия не похожи на числа и перепутать loc и iloc затруднительно.