In [1]:
import pandas as pd
import numpy as np

In [70]:
from IPython.core.display import display, HTML # Расширить рабочее поле ноутбука на весь экран
display(HTML("<style>.container { width:100% !important; }</style>"))

# Объект Index

## Можно рассматривать как неизменяемый массив

In [2]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [3]:
ind[1]

3

In [4]:
ind[1:3]

Int64Index([3, 5], dtype='int64')

In [5]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [6]:
print("ind.size: ", ind.size)
print("ind.shape: ", ind.shape)
print("ind.ndim: ", ind.ndim)
print("ind.dtype: ", ind.dtype)

ind.size:  5
ind.shape:  (5,)
ind.ndim:  1
ind.dtype:  int64


In [7]:
ind[0] = 0

TypeError: Index does not support mutable operations

#### Неизменяемость делает безопаснее совместное использование индексов несколькими объектами DataFrame и массивами, исключая возможность побочных эффектов в виде случайной модификации индекса по неосторожности

## Можно рассматривать как упорядоченное множество 

In [8]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [9]:
indA.intersection(indB) # пересечение

Int64Index([3, 5, 7], dtype='int64')

In [10]:
indA.union(indB) # объединение

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [11]:
indA.symmetric_difference(indB) # симметричная разность

Int64Index([1, 2, 9, 11], dtype='int64')

# Индексация и выборка данных

## Выборка данных из объекта Series

### Объект Series как словарь

In [31]:
series = pd.Series([0.25, 0.5, 0.75, 1.0], 
                 index=['a','b','c','d'])
series

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [32]:
series['b']

0.5

In [33]:
'a' in series

True

##### Для просмотра ключей / индексов и значений выражения можно использовать методы языка python, аналогичным таковым для словарей.
##### Или использовать встроенные методы

In [34]:
series.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [35]:
series.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [36]:
list(series.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [37]:
series.values

array([0.25, 0.5 , 0.75, 1.  ])

##### Объекты Series можно модифицировать как словари

In [38]:
series['e'] = 1.25
series

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

##### И на тот же момент, удалять значеия

In [39]:
del series['e']
series

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

##### Можно удалить сразу несколько значений с помощью метода .drop() https://pandas.pydata.org/docs/reference/api/pandas.Series.drop.html

In [42]:
series = series.drop(labels=['b', 'c'])
series

a    0.25
d    1.00
dtype: float64

### Объект Series как одномерный массив - срезы, маскирование и "прихотливая" индексация

In [45]:
series = pd.Series({
    'a': 0.25,
    'b': 0.50,
    'c': 0.75,
    'd': 1.00,
    'e': 1.25
})

series

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

#### Срез посреднством явного индекса 

In [53]:
series['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

#### Срез посредством неявного целочислкееого индекса

In [47]:
series[0:2]

a    0.25
b    0.50
dtype: float64

Обратите внимание, что при выполнении среза с помощью явного индекса ( data['a':'c'] ) значение соответствующее последнему индексу, **включается** в срез, а при срезе неявным индексом ( data[0:2] ) - **не включается**

#### Маскирование

In [49]:
mask = (series > 0.3) & (series < 0.8)
series[mask]

b    0.50
c    0.75
dtype: float64

#### Прихотливая индексация

In [51]:
series[['a','c','e']]

a    0.25
c    0.75
e    1.25
dtype: float64

## Индексаторы: loc и iloc

Подобные обозначения для срезов и индексации могут привести к путаннице. Например, при наличиии у объеткта Series явного целочисленного индекса операция индексации ( data[1] ) будет использовать явные индексы а операция среза ( data[1:3] ) - неявный индекс в стиле языка  Python 

In [63]:
series = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
series

1    a
3    b
5    c
dtype: object

#### Использование явного индекса при индексации

In [64]:
series[1]

'a'

#### Использование неявного индекса при срезе

In [65]:
series[1:3]

3    b
5    c
dtype: object

Из-за этой потенциальной путаницы в случае целочисленных индексов в библиотеке Pandas предусмотрены специальные атрибуты-индексаторы, позволяющие явным образом применять определенные схемы индексации. Они являются не функциональными методами, а именно атрибутами, представляющими для данных из объекта Series определенный интерфейс для выполнения срезов.

### loc
#### - позволяет выполнить индексацию и срезы с использованием явного индекса

In [66]:
series.loc[1]

'a'

In [67]:
series.loc[1:3]

1    a
3    b
dtype: object

### iloc
#### - дает возможность выполнить индексацию и срезы, применяя неявный индекс в стиле языка Python 

In [68]:
series.iloc[1]

'b'

In [69]:
series.iloc[1:3]

3    b
5    c
dtype: object

## Выборка данных из объекта DataFrame

### Объект DataFrame как словарь

In [206]:
area = pd.Series({
    'California': 423967,
    'Texas': 695662,
    'New York': 141297,
    'Florida': 170312,
    'Illinois': 149995
})

pop  = pd.Series({
    'California': 38332521,
    'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135
})

df = pd.DataFrame({'area': area, 'pop': population})
df

Unnamed: 0,area,pop
California,423967,38332521.0
Florida,170312,
Illinois,149995,
New York,141297,19651127.0
Texas,695662,26448193.0


К отдельным объектам Series, составляющим столбы объекта DataFrame, можно обращаться посредствоам такой же индексации, как идл я словарей, по имени столбца:

In [207]:
df['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

А можно обращаться к данным с помощью атрибутов, используя в их качестве строковые имена столбцов

In [208]:
df.area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

Оба варианта иденитичны

In [209]:
df.area is df['area']

True

Однако, обращение к атрибутам не будет работать, если имена столбцов конфликтуют с методами объекта DataFrame. Например, у объекта DataFrame есть метод .pop()

In [210]:
df.pop is df['pop']

False

Имейте это в виду, когда придумываеет названия для своих колонок. 

Не поддавайтесь искушению присваивать значения столбцов посредством атрибутов. Лучше использовать выражение data['pop'] = вместо data.pop = z.

Словарный синтаксис можно применять для модификации объекта, например добавления еще одного столбца:

In [211]:
df['density'] = df['pop'] / df['area']
df

Unnamed: 0,area,pop,density
California,423967,38332521.0,90.413926
Florida,170312,,
Illinois,149995,,
New York,141297,19651127.0,139.076746
Texas,695662,26448193.0,38.01874


### Объект DataFrame как двумерный массив 

Обект DataFrame можно рассматривать как двумерный массив с расширенными возможностями. Мы можем выполнить множество привычных для массивов действий

Получить доступ к массиву данных с помощью атрибута .values

In [212]:
df.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [1.70312000e+05,            nan,            nan],
       [1.49995000e+05,            nan,            nan],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01]])

Транспонировать DataFrame (поменять местами строки и столбцы)

In [213]:
df.T

Unnamed: 0,California,Florida,Illinois,New York,Texas
area,423967.0,170312.0,149995.0,141297.0,695662.0
pop,38332520.0,,,19651130.0,26448190.0
density,90.41393,,,139.0767,38.01874


#### iloc[ строки, столбцы ] - неявно индексировать исходный массив с сохранением в результирующих данных меток объекта для индекса и столбцов

In [214]:
df.iloc[:3, 2]

California    90.413926
Florida             NaN
Illinois            NaN
Name: density, dtype: float64

Взять столбец через одного, в транспонированом датафреме

In [217]:
df.T.iloc[:, ::2]

Unnamed: 0,California,Illinois,Texas
area,423967.0,149995.0,695662.0
pop,38332520.0,,26448190.0
density,90.41393,,38.01874


#### loc[ строки, столбцы ] - явно индексировать исходный массив с сохранением меток для индекса и столбцов

In [129]:
df.loc[:'New York', 'density']

California     90.413926
Texas          38.018740
New York      139.076746
Name: density, dtype: float64

При желании можно комбинировать оба подхода. Но с использованием дополнительных атрибутов

In [130]:
df.loc[df.index[:3], :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [131]:
df.iloc[:3, df.columns.get_indexer(['area', 'pop'])]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


При индексации мы также можем использовать маскирование и "прихотливую индексацию", но только с атрибутом .loc

In [132]:
df.loc[df.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


#### Изменение значений с помощью индексации

In [133]:
df.iloc[0, 2] = 90
df

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [134]:
df.loc['New York', 'pop'] = 10000000
df

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,10000000,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [119]:
df.loc[['Florida', 'Illinois'], ['pop', 'density']] = [['?','?'], ['?','?']]
df

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,10000000,139.076746
Florida,170312,?,?
Illinois,149995,?,?


### Дополнил синтаксис для индексации

По отношению к строкам, можно применять срезы

In [139]:
df['Florida': 'Illinois'][['area', 'pop']]

Unnamed: 0,area,pop
Florida,170312,19552860
Illinois,149995,12882135


In [144]:
df[1:3][['pop', 'density']]

Unnamed: 0,pop,density
Texas,26448193,38.01874
New York,10000000,139.076746


Непосредственные операции маскирования также интерпретируются построчно, а не по столбцам

In [145]:
df[df.density > 100]

Unnamed: 0,area,pop,density
New York,141297,10000000,139.076746
Florida,170312,19552860,114.806121
