## Индексация и выборка данных

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [4]:
data['b']

0.5

In [5]:
data[1]

0.5

In [6]:
'a' in data

True

In [7]:
data.keys

<bound method Series.keys of a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64>

In [8]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [9]:
data.items

<bound method Series.items of a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64>

In [10]:
data.items()

<zip at 0x21aa6d7bd80>

In [11]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [12]:
data['e'] = 1.25 # добавление нового значения

In [13]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [14]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [15]:
data[:2]

a    0.25
b    0.50
dtype: float64

In [16]:
data[(data>0.5) & (data<1.0)] # маскирование

c    0.75
dtype: float64

In [17]:
data[['a','e']] # прихотливая индексация

a    0.25
e    1.25
dtype: float64

In [18]:
data[[1,3,4]] # прихотливая индексация

b    0.50
d    1.00
e    1.25
dtype: float64

In [19]:
data = pd.Series(['a', 'b', 'c', 'd', 'e'],
                  index=[1,3,5,7,9])

In [20]:
data.keys()

Int64Index([1, 3, 5, 7, 9], dtype='int64')

In [21]:
data

1    a
3    b
5    c
7    d
9    e
dtype: object

In [22]:
data[1] # явный индекс

'a'

In [23]:
data[1:3] # срез по НЕявному позиционному индексу

3    b
5    c
dtype: object

##### Из-за этой путаници м/у явными и неявными (позиционными) индексами в Pandas предусмотрены специальные 
#### атрибуты-индексаторы 
- позволяющие явным образом применять определенные схемы индексации

In [24]:
# .loc - позволяет выполнять идексации и срезы по ЯВНОМУ индексу

In [25]:
data.loc[1]

'a'

In [26]:
data.loc[1:5]

1    a
3    b
5    c
dtype: object

In [27]:
# .iloc - позволяет выполнять идексации и срезы по НЕЯВНОМУ индексу

In [28]:
data.iloc[1]

'b'

In [29]:
data.iloc[1:3]

3    b
5    c
dtype: object

##### "Явное лучше неявного" Python

## Выборк данных из объекта DataFrame

In [30]:
p_dict ={
    'e': 122,
    'f': 313,
    'c': 932,
    'd': 843,
    'a': 847,
    'b': 764
}

In [31]:
p_series = pd.Series(p_dict)

In [32]:
area_dict = {
    'e': 12200,
    'f': 31300,
    'c': 93200,
    'd': 84300,
    'a': 84700,
    'b': 76400
}

In [33]:
area = pd.Series(area_dict)

In [34]:
data = pd.DataFrame({
    'p_series': p_series,
    'area': area
})

In [35]:
data

Unnamed: 0,p_series,area
e,122,12200
f,313,31300
c,932,93200
d,843,84300
a,847,84700
b,764,76400


In [36]:
data['area']

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
Name: area, dtype: int64

In [37]:
data.area

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
Name: area, dtype: int64

In [38]:
data.area is data['area']

True

##### Добавление аналитического/вычисляемого столбца:

In [39]:
data['density'] = data['area']/(data['p_series']/3)

In [40]:
data

Unnamed: 0,p_series,area,density
e,122,12200,300.0
f,313,31300,300.0
c,932,93200,300.0
d,843,84300,300.0
a,847,84700,300.0
b,764,76400,300.0


### Объекты DataFrame как двумерный массив

In [41]:
data.values

array([[  122., 12200.,   300.],
       [  313., 31300.,   300.],
       [  932., 93200.,   300.],
       [  843., 84300.,   300.],
       [  847., 84700.,   300.],
       [  764., 76400.,   300.]])

In [42]:
# мы можем выполнять множество привычных для массивов действий с DataFrame

In [43]:
# транспонирование:
data.T

Unnamed: 0,e,f,c,d,a,b
p_series,122.0,313.0,932.0,843.0,847.0,764.0
area,12200.0,31300.0,93200.0,84300.0,84700.0,76400.0
density,300.0,300.0,300.0,300.0,300.0,300.0


In [44]:
data

Unnamed: 0,p_series,area,density
e,122,12200,300.0
f,313,31300,300.0
c,932,93200,300.0
d,843,84300,300.0
a,847,84700,300.0
b,764,76400,300.0


In [45]:
data['area']

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
Name: area, dtype: int64

In [46]:
data['area']['c']

93200

In [47]:
data.values[0]

array([  122., 12200.,   300.])

In [49]:
data['area'][2]

93200

##### Явные индексаторы lic, iloc

In [52]:
data.iloc[:4,:2] # как по норм осям в массиве (вниз, вправо)

Unnamed: 0,p_series,area
e,122,12200
f,313,31300
c,932,93200
d,843,84300


In [53]:
data.loc[:'d', :'area'] # по именам (вниз, вправо)

Unnamed: 0,p_series,area
e,122,12200
f,313,31300
c,932,93200
d,843,84300


In [56]:
# комбинированный индекс .ix - устарел, комбинированный индекс - реализован по умолчанию
data.ix[:3, :'area']

AttributeError: 'DataFrame' object has no attribute 'ix'

In [58]:
data.ix?

Object `data.ix` not found.


In [59]:
# сочетание маски и прихотливой индексации:
data.loc[data.density > 100, ['p_series', 'area']]

Unnamed: 0,p_series,area
e,122,12200
f,313,31300
c,932,93200
d,843,84300
a,847,84700
b,764,76400


In [61]:
# явные индексы можно использовать для присваивания значений
data.iloc[0, 2] = 90

In [62]:
data

Unnamed: 0,p_series,area,density
e,122,12200,90.0
f,313,31300,300.0
c,932,93200,300.0
d,843,84300,300.0
a,847,84700,300.0
b,764,76400,300.0


#### Если индексы - относятся к стобцам, срезы - относятся к строкам

In [65]:
data['area']

e    12200
f    31300
c    93200
d    84300
a    84700
b    76400
Name: area, dtype: int64

In [66]:
data[1:3]

Unnamed: 0,p_series,area,density
f,313,31300,300.0
c,932,93200,300.0


In [67]:
data['f':'d']

Unnamed: 0,p_series,area,density
f,313,31300,300.0
c,932,93200,300.0
d,843,84300,300.0


In [68]:
# маски также относятся к строкам
data[data.density > 100]

Unnamed: 0,p_series,area,density
f,313,31300,300.0
c,932,93200,300.0
d,843,84300,300.0
a,847,84700,300.0
b,764,76400,300.0
