## Базовая функциональность

In [1]:
import numpy as np
import pandas as pd

### Переиндексация
Для объектов pandas важен метод `reindex`, т.е. возможность создания нового объекта, в котором данные переупорядочены в соответствии с новым индексом.

In [2]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
print(obj, '\n')

obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
print(obj2)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64 

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64


Для упорядоченных данных, например временных рядов, иногда желательно произвести интерполяцию, или восполнение отсутствующих значений в процессе переиндексации. Это позволяет сделать параметр `method`; так, если задать для него значение `ffill`, то вместо отсутствующих значений будут подставлены значения из ближайшей предшествующей строки, имеющейся в индексе:

In [3]:
obj3 = pd.Series(['blue', 'red', 'green'], index=[0, 2, 4])
print(obj3, '\n')
obj4 = obj3.reindex(np.arange(6), method='ffill')
print(obj4)

0     blue
2      red
4    green
dtype: object 

0     blue
1     blue
2      red
3      red
4    green
5    green
dtype: object


В случае объекта DataFrame метод `reindex` может изменять строки, столбцы или то и другое. Если передать ему просто последовательность, то в результирующем объекте переиндексируются строки:

In [None]:
frame = pd.DataFrame(np.arange(9).reshape(3, 3), 
                     index=['a', 'c', 'd'], 
                     columns=['Ohio', 'Texas', 'California'])

frame 

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [6]:
frame2 = frame.reindex(index=['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Столбцы можно переиндексировать, задав ключевое слово `columns`:

In [9]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Другой способ переиндексации по конкретной оси:

In [10]:
frame.reindex(states, axis='columns') 

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8



| Параметр | Описание |
|----------|----------|
| **labels** | То же, что и `index` (устаревшее) |
| **index** | Использовать переданную последовательность в качестве новых меток индекса |
| **columns** | Использовать переданную последовательность в качестве новых меток столбцов |
| **axis** | По какой оси переиндексировать: "index" (строки) или "columns" (столбцы). По умолчанию подразумевается "index". Можно чередовать reindex(index=new_labels) и reindex(columns=new_labels) |
| **method** | Метод интерполяции (восполнения): "ffill" (прямое восполнение – по предыдущей строке) или "bfill" (прямое восполнение – по следующей строке) |
| **fill_value** | Значение, которое должно подставляться вместо отсутствующих значений, появляющихся в результате переиндексации. Если нужно, чтобы для отсутствующих меток принималось значение NaN, то задавайте fill_value="missing" |
| **limit** | При прямом или обратном восполнении максимальная длина восполняемой лакуны (выраженная числом элементов) |
| **tolerance** | При прямом или обратном восполнении максимальная длина восполняемой лакуны (выраженная абсолютным расстоянием) |
| **level** | Сопоставить с простым объектом Index на указанном уровне MultiIndex, иначе выбрать подмножество |
| **copy** | Если True, то всегда копировать данные, даже если новый индекс эквивалентен старому. Если False, то не копировать данные, когда индексы эквивалентны |


*Лакуна - непрерывный участок отсутствующих данных, который нужно обработать*

Еще один популярный способ переиндексировать - с помощью оператора `loc`. Он работает, только если все метки нового индекса уже присутствуют в объекте DataFrame (тогда как `reindex` вставляет отсутствующие данные для новых меток): 

In [11]:
frame.loc[['a', 'd', 'c'], ['California', 'Texas']]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


### Удаление элементов из оси
Чтобы удалить один или несколько элементов из оси без использования сложных конструкций, стоит использовать `drop`. Этот метод возвращает новый объект, в котором указанные значения удалены из оси:

In [15]:
obj = pd.Series(np.arange(5), index=list('abcde'))
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [19]:
new_obj = obj.drop(index=['c', 'd'])
new_obj

a    0
b    1
e    4
dtype: int64

В случае DataFrame указанные в аргументе `index` значения можно удалить из любой оси:

In [20]:
data = pd.DataFrame(np.arange(16).reshape(4, 4), 
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Если вызвать `drop`, указав последовательность меток, то будут удалены строки с такими метками.  
Чтобы удалить столбцы, используйте именованный аргумент `columns`.  
Столбцы можно удалить также, передав параметры `axis=1` (как в NumPy) или `axis="columns"`.

### Доступ по индексу, выборка и фильтрация
Доступ по индексу к объекту Series (`obj[...]`) работает так же, как и для массивов NumPy:

In [21]:
obj = pd.Series(np.arange(4), index=list('abcd'))
obj

a    0
b    1
c    2
d    3
dtype: int64

In [31]:
print('.b => ', obj.b)
print("[c] => ", obj['c'])
print("['b', 'a', 'd'] =>\n", obj[['b', 'a', 'd']])
print('[1, 3] =>\n', obj.iloc[[1, 3]])
print('[obj < 2] =>\n', obj[obj < 2])

.b =>  1
[c] =>  2
['b', 'a', 'd'] =>
 b    1
a    0
d    3
dtype: int64
[1, 3] =>
 b    1
d    3
dtype: int64
[obj < 2] =>
 a    0
b    1
dtype: int64



*Предпочтительнее выбирать значения из индекса с помощью специальных операторов `loc` и `iloc`.*

In [None]:
obj.loc[['a', 'b', 'c']] # loc для меток

a    0
b    1
c    2
dtype: int64

In [None]:
obj.iloc[[0, 1, 2]] # iloc для числовых индексов

a    0
b    1
c    2
dtype: int64

С помощью меток можно также производить вырезание, но оно отличается от обычного вырезания в Python тем, что **конечная точка включается**:

In [38]:
obj.loc['b' : 'c']

b    1
c    2
dtype: int64

Обращение по индексу к DataFrame предназначено для получения одного или нескольких столбцов путем задания одного значения или последовательности:

In [40]:
data = pd.DataFrame(np.arange(16).reshape(4, 4),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [45]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [46]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [47]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [48]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### Выборка из DataFrame с помощью `loc` и `iloc`
Как и Series, объект DataFrame имеют специальные атрибуты `loc` и `iloc` для индексирования метками и целыми числами соответственно. Можно выбрать подмножество и строк, и столбцов одновременно.

In [49]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [50]:
data.loc['Colorado']

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [51]:
data.loc[['Colorado', 'Utah']]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11


Оператор `loc` позволяет выбрать одновременно строки и столбцы:

In [52]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

Аналогично работает и `iloc`:

In [54]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


Обе функции индексирования работают не только с одиночными метками ил списками меток, но и со срезами:

In [55]:
data.loc[:'Utah', 'two']

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

In [56]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


#### Варианты доступа к объекту DataFrame
| Метод | Описание |
|-------|----------|
| **df[column]** | Выбрать один столбец или последовательность столбцов из DataFrame. Частные случаи: булев массив (фильтрация строк), срез (вырезание строк) или булев DataFrame (установка значений в позициях, удовлетворяющих некоторому критерию) |
| **df.loc[rows]** | Выбрать одну строку или подмножество строк из DataFrame по метке |
| **obj.loc[:, cols]** | Выбрать один столбец или подмножество столбцов по метке |
| **df.iloc[rows, cols]** | Выбрать строки и столбцы по целочисленной позиции |
| **df.iloc[rows]** | Выбрать одну строку или подмножество строк из DataFrame по целочисленной позиции |
| **obj.iloc[:, cols]** | Выбрать один столбец или подмножество столбцов по целочисленной позиции |
| **df.loc[rows, cols]** | Выбрать строки и столбцы по метке |
| **df.at[row, col]** | Выбрать одно скалярное значение по меткам строки и столбца |
| **df.iat[row, col]** | Выбрать одно скалярное значение по целочисленным позициям строки и столбца |
| **reindex()** | Выбрать строки или столбцы по меткам |

### Подвохи численного индексирования

In [57]:
ser = pd.Series(np.arange(3))
ser[-1]

KeyError: -1

Такая проблема возникает только с целочисленными индексами, с другими - нет:

In [59]:
ser2 = pd.Series(np.arange(3), index=['a', 'b', 'c'])
ser2.iloc[-1]

np.int64(2)