## Настройка pandas

In [2]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

## Создание объекта Series с помощью питоновских списков и словарей

Создаем серию значений из питоновского списка:

In [3]:
s = pd.Series([10, 11, 12, 13, 14])
s

0    10
1    11
2    12
3    13
4    14
dtype: int64

Получаем значение, записанное в метке индекса 3:

In [3]:
s[3]

13

Создаем серию строковых значений:

In [5]:
pd.Series(['Динамо', 'Спартак', 'Зенит'])

0     Динамо
1    Спартак
2      Зенит
dtype: object

Создаем объект Series из словаря:

In [6]:
pd.Series({'Михаил': 'Отец', 
           'Мария': 'Мать', 
           'Игорь': 'Сын', 
           'Шарик': 'Пес' })

Михаил    Отец
Мария     Мать
Игорь      Сын
Шарик      Пес
dtype: object

## Создание объекта Series с помощью функций NumPy

Создаем последовательность целочисленных значений от 4 до 8:

In [8]:
pd.Series(np.arange(4, 9))

0    4
1    5
2    6
3    7
4    8
dtype: int64

Создаем серию из 5 нормально распределенных случайных чисел:

In [10]:
pd.Series(np.random.normal(size=5))

0   -0.204708
1    0.478943
2   -0.519439
3   -0.555730
4    1.965781
dtype: float64

## Свойства .index и .values

Получаем значения в объекте Series:

In [7]:
s = pd.Series([1, 2, 3])
s.values

array([1, 2, 3])

Показываем, что результат - это массив NumPy:

In [14]:
type(s.values)

numpy.ndarray

Получаем индекс объекта Series:

In [15]:
s.index

RangeIndex(start=0, stop=3, step=1)

## Размер и форма объекта Series

In [9]:
s = pd.Series([0, 1, 2, 3])

Определяем размерность серии:

In [9]:
print(len(s))
print(s.size)
print(s.shape)

4
4
(4,)


## Установка индекса во время создания объекта Series

In [10]:
labels = ['Михаил', 'Мария', 'Игорь', 'Шарик']
role = ['Отец', 'Мать', 'Сын', 'Пес']
s = pd.Series(labels, index=role)
s

Отец    Михаил
Мать     Мария
Сын      Игорь
Пес      Шарик
dtype: object

In [11]:
s.index

Index(['Отец', 'Мать', 'Сын', 'Пес'], dtype='object')

In [12]:
s['Отец']

'Михаил'

## Использование  методов .head(), .tail() и .take() для вывода значений

Создаем объект Series из 9 элементов:

In [16]:
s = pd.Series(np.arange(1, 10), index=list('abcdefghi'))
s

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64

Выводим первые 5 строк:

In [17]:
s.head()

a    1
b    2
c    3
d    4
e    5
dtype: int64

Выводим первые 3 строки:

In [24]:
s.head(n=3) # еще можно применить s.head(3)

a    1
b    2
c    3
dtype: int64

Выводим последние 5 строк:

In [18]:
s.tail() # или выводим последние 3 строки с помощью s.tail(3)

e    5
f    6
g    7
h    8
i    9
dtype: int64

Отобрать строки, соответствующие позициям 1, 5 и 8:

In [19]:
s.take([1, 5, 8])

b    2
f    6
i    9
dtype: int64

## Поиск по метке с помощью операторов [] и .ix[]

In [20]:
s1 = pd.Series(np.arange(10, 15), index=list('abcde'))
s1

a    10
b    11
c    12
d    13
e    14
dtype: int64

In [22]:
s1['a']

10

In [23]:
s1[['d', 'b']] # указываем метки

d    13
b    11
dtype: int64

In [31]:
s1[[3, 1]] # указываем позиции

d    13
b    11
dtype: int64

In [24]:
s2 = pd.Series([1, 2, 3, 4], index=[10, 11, 12, 13])
s2

10    1
11    2
12    3
13    4
dtype: int64

In [25]:
s2[[13, 10]] # поиск по метке, а не по позиции

13    4
10    1
dtype: int64

## Явный поиск по позиции с помощью свойства .iloc[]

In [34]:
s1.iloc[[0, 2]]

a    10
c    12
dtype: int64

## Явный поиск по меткам с помощью свойства .loc[]

In [36]:
s1.loc[['a', 'd']]

a    10
d    13
dtype: int64

## Создание срезов объекта Series

Создаем объект Series, который будем использовать для формирования срезов. 
Используем метки индекса, начинающиеся не с 0, чтобы продемонстрировать, как можно создать срез, используя позиции:

In [26]:
s = pd.Series(np.arange(100, 110), index=np.arange(10, 20))
s

10    100
11    101
12    102
13    103
14    104
15    105
16    106
17    107
18    108
19    109
dtype: int64

In [27]:
s[1:6] # срез, содержащий элементы с позиции 1 по 5

11    101
12    102
13    103
14    104
15    105
dtype: int64

In [28]:
s.iloc[[1, 2, 3, 4, 5]] # выбор с помощью списка позиций

11    101
12    102
13    103
14    104
15    105
dtype: int64

In [30]:
s = pd.Series(np.arange(0, 5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0
b    1
c    2
d    3
e    4
dtype: int64

Создаем срез на основе позиций, поскольку индекс использует символы:

In [31]:
s[1:3]

b    1
c    2
dtype: int64

Создаем срез по строковым меткам индекса:

In [32]:
s['b':'d']

b    1
c    2
d    3
dtype: int64

## Выравнивание данных по меткам индекса

In [3]:
s1 = pd.Series([1, 2], index=['a', 'b'])
s1

a    1
b    2
dtype: int64

In [4]:
s2 = pd.Series([4, 3], index=['b', 'a'])
s2

b    4
a    3
dtype: int64

In [5]:
s1 + s2 # складываем две серии

a    4
b    6
dtype: int64

Создаем серию на основе скалярного значения 2, но с индексом серии s1:

In [6]:
t = pd.Series(2, s1.index)
t

a    2
b    2
dtype: int64

In [7]:
s1 * t # умножаем s1 на t

a    2
b    4
dtype: int64

In [8]:
s3 = pd.Series([5, 6], index=['b', 'c'])
s3

b    5
c    6
dtype: int64

Серии s1 и s3 имеют разные метки индексов для a и c будут получены значения NaN:

In [9]:
s1 + s3

a    NaN
b    7.0
c    NaN
dtype: float64

Создадим серию, где встречаются повторяющиеся метки 'a':

In [10]:
s1 = pd.Series([1.0, 2.0, 3.0], index=['a', 'a', 'b'])
s1

a    1.0
a    2.0
b    3.0
dtype: float64

In [11]:
s2 = pd.Series([4.0, 5.0, 6.0, 7.0], index=['a', 'a', 'c', 'a'])
s2

a    4.0
a    5.0
c    6.0
a    7.0
dtype: float64

### Как это работает????

In [12]:
s1 + s2

a    5.0
a    6.0
a    8.0
a    6.0
a    7.0
a    9.0
b    NaN
c    NaN
dtype: float64

## Логический отбор

Какие строки имеют значения больше или равно 3?

In [17]:
s = pd.Series(np.arange(0, 5), index=list('abcde'))
s

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [15]:
logical_results = s >= 3
logical_results

a    False
b    False
c    False
d     True
e     True
dtype: bool

Отобрать строки со значением True:

In [16]:
s[logical_results]

d    3
e    4
dtype: int64

In [20]:
s[s > 2] # более краткий вариант

d    3
e    4
dtype: int64

Несколько условий одновременно:

In [21]:
s[(s >=2) & (s < 5)]

c    2
d    3
e    4
dtype: int64

Все ли элементы >= 0?

In [71]:
(s >= 0).all()

True

In [22]:
s[s >= 0].all() #????

False

Есть ли элемент < 2?

In [72]:
s[s < 2].any()

True

Сколько значений < 2?

In [23]:
(s < 2).sum() #????

2

## Переиндексация объекта Series

In [24]:
s = pd.Series(np.random.randn(5)) # создаем случайную серию из 5 элементов
s

0   -0.544148
1   -0.015324
2    0.369482
3    0.502909
4   -1.463583
dtype: float64

In [25]:
s.index = ['a', 'b', 'c', 'd', 'e'] # изменяем индекс
s

a   -0.544148
b   -0.015324
c    0.369482
d    0.502909
e   -1.463583
dtype: float64

In [26]:
s1 = pd.Series(np.random.randn(4), ['a', 'b', 'c', 'd'])
s1

a    1.861354
b   -1.150903
c    0.379676
d    1.202808
dtype: float64

Индексируем заново, используя другое количество меток. 

В итоге некоторые строки удалены и/или получены значения NaN:

In [77]:
s2 = s1.reindex(['a', 'c', 'g'])
s2

a    0.469112
c   -1.509059
g         NaN
dtype: float64

Использование разных типов для одних и тех же меток порождает большие проблемы:

In [27]:
s1 = pd.Series([0, 1, 2], index=[0, 1, 2])
s2 = pd.Series([3, 4, 5], index=['0', '1', '2'])
s1 + s2

0   NaN
1   NaN
2   NaN
0   NaN
1   NaN
2   NaN
dtype: float64

Заново индексируем, согласовав типы меток, и получаем нужный результат:

In [28]:
s2.index = s2.index.values.astype(int)
s1 + s2

0    3
1    5
2    7
dtype: int64

Заполняем отсутствующее значение нулем вместо NaN:

In [29]:
s2 = s.copy()
s2.reindex(['a', 'f'], fill_value=0)

a   -0.544148
f    0.000000
dtype: float64

Создаем пример, чтобы продемонстрировать варианты заполнения:

In [30]:
s3 = pd.Series(['red', 'green', 'blue'], index=[0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

In [31]:
s3.reindex(np.arange(0, 7), method='ffill') # пример прямого заполнения

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object

In [33]:
s3.reindex(np.arange(0, 7), method='bfill') # пример обратного заполнения

0      red
1    green
2    green
3    green
4     blue
5     blue
6      NaN
dtype: object

## Модификация объекта Series на месте

In [34]:
s = pd.Series(np.random.randn(3), index=['a', 'b', 'c'])
s

a   -2.240918
b    0.084429
c    0.095254
dtype: float64

In [35]:
s['d'] = 100 # добавляем значение в серию
s

a     -2.240918
b      0.084429
c      0.095254
d    100.000000
dtype: float64

In [36]:
s['d'] = -100 # модифицируем на месте
s

a     -2.240918
b      0.084429
c      0.095254
d   -100.000000
dtype: float64

In [37]:
del(s['a']) # удаляем строку/элемент
s

b      0.084429
c      0.095254
d   -100.000000
dtype: float64

In [38]:
copy = s.copy() # сохраняем s
slice_s = copy[:2] # создаем срез с первыми двумя строками
slice_s

b    0.084429
c    0.095254
dtype: float64

In [39]:
# меняем значение в метке 'b' нашего среза
slice_s['b'] = 0
# и смотрим исходную серию
copy

b      0.000000
c      0.095254
d   -100.000000
dtype: float64