# Настройка pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

### Свойства .index и .values

In [2]:
# получаем значения в объекте Series
s = pd.Series([1, 2, 3])
s.values

array([1, 2, 3], dtype=int64)

In [3]:
# показываем, что результат - это массив NumPy
type(s.values)

numpy.ndarray

In [4]:
# получаем индекс объекта Series
s.index

RangeIndex(start=0, stop=3, step=1)

### Размер и форма объекта Series

In [5]:
# создаем серию
s = pd.Series([0, 1, 2, 3])
len(s)

4

In [6]:
# .size также позволяет узнать о количестве 
# элементов в объекте Series
s.size

4

In [7]:
# .shape - это кортеж с одним значением
s.shape

(4,)

### Использование методов .head(), .tail() и .take() для вывода значений

In [8]:
# cоздаем объект Series из 9 элементов
s = pd.Series(np.arange(1, 10), 
              index=list('abcdefghi'))

In [9]:
# выводим первые 5 строк
s.head()

a    1
b    2
c    3
d    4
e    5
dtype: int32

In [10]:
# выводим первые 3 строки
s.head(n = 3) # еще можно применить s.head(3)

a    1
b    2
c    3
dtype: int32

In [11]:
# выводим последние 5 строк
s.tail()

e    5
f    6
g    7
h    8
i    9
dtype: int32

In [12]:
# выводим последние 3 строки
s.tail(n = 3) # еще можно применить s.tail(3)

g    7
h    8
i    9
dtype: int32

In [13]:
# отобрать строки, соответствующие
# позициям 1, 5 и 8
s.take([1, 5, 8])

b    2
f    6
i    9
dtype: int32

### Явный поиск по позиции с помощью свойства .iloc[]

In [14]:
# создадим серию для проверки 
# различных способов поиска
s1 = pd.Series(np.arange(10, 15), index=list('abcde'))
s1

a    10
b    11
c    12
d    13
e    14
dtype: int32

In [15]:
# ищем явно по позиции
s1.iloc[[0, 2]]

a    10
c    12
dtype: int32

In [16]:
# ищем явно по позиции
s1.iloc[[3, 2]]

d    13
c    12
dtype: int32

### Явный поиск по меткам с помощью свойства .loc[]¶

In [17]:
# ищем явно по меткам
s1.loc[['a', 'd']]

a    10
d    13
dtype: int32

### Переиндексация объекта Series

In [18]:
# создаем случайную серию из 5 элементов
np.random.seed(123456)
s = pd.Series(np.random.randn(5))
s

0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4    1.212112
dtype: float64

In [19]:
# изменяем индекс
s.index = ['a', 'b', 'c', 'd', 'e']
s

a    0.469112
b   -0.282863
c   -1.509059
d   -1.135632
e    1.212112
dtype: float64

In [20]:
# индексируем заново, используя другое количество меток
# в итоге некоторые строки удалены и/или получены значения NaN
s2 = s.reindex(['a', 'c', 'g'])
s2

a    0.469112
c   -1.509059
g         NaN
dtype: float64

In [21]:
# создаем пример, чтобы продемонстрировать
# варианты заполнения
s3 = pd.Series(['red', 'green', 'blue'], index=[0, 3, 5])
s3

0      red
3    green
5     blue
dtype: object

In [22]:
# пример прямого заполнения
s3.reindex(np.arange(0,7), method='ffill')

0      red
1      red
2      red
3    green
4    green
5     blue
6     blue
dtype: object

In [None]:
# пример обратного заполнения
s3.reindex(np.arange(0,7), method='bfill')