## Глава 2. Объекты Series

**Series** - одномерный маркированный массив однородных данных. *Массив (array)* - это упорядоченный набор значений (где данные одного типа). Каждому значению соответствует *метка (label)* - индетификатор, с помощью которого можно сослаться на это значение. Также Series присуща *упорядоченность* - позиция по номеру (начинается с 0). 

In [10]:
# Назначим псевдонимы библиотекам. Далее можно обращаться через них к атрибумат библиотеки:
# pd.атрибут
# np.атрибут

import pandas as pd
import numpy as np

**Класс (Class)** - это схема объекта Python. Класс pd.Series представляет собой шаблон, так как далее нам нужно создать конкретный его экзампляр. Мы создаем эеземпляр (объект) класса с помощью скобок.

In [11]:
# Создадим объект Series на основе класса Series:

pd.Series()

  pd.Series()


Series([], dtype: float64)

C результатом мы получим предупреждение в красной прямоугольнике. Оно обращает внимание на то, что мы не указали никаких сохраняемых значений, бибилиотека pandas  не делает никаких выводов о типе хранимых этим Series значений.


**Наполним Series значениями:**

Для создания объекта из класса служит специальный тип метода - *конструктор (construstor)*. При создании объекта нужно задать начальное состояние, путем передачи аргументов. *Аргумент* - это передаваемое методу входное значение. Первый аргумет конструктора Series - это итерируемый объект, значениями из которого и будет наполняться объект Series.

In [12]:
# Присвоим список переменной и передадим его в конструктор Series (Пример 1)

ice_cream_flavors = [
    'Chocolate',
    'Vanilla',
    'Strawberry',
    'Rum Raisin'
]

pd.Series(ice_cream_flavors)

0     Chocolate
1       Vanilla
2    Strawberry
3    Rum Raisin
dtype: object

**!**

*Параметр (parameter)* - название, присваиваемое входному значению функции или метода.

Получить документацию с параметрами и аргументами по умолчанию можно, нажав **Shift + tab** с курсором внутри скобок нужного аргумента

Например, в конструкторе Series описано шесть параметров: data, index, name, copy, fastpath. Первый аргуметр *data* должен содержать объект, значениями которого будет заполняться объект Series.



In [13]:
# Второй вариант заполнения data в Примере 1

pd.Series(data = ice_cream_flavors)

0     Chocolate
1       Vanilla
2    Strawberry
3    Rum Raisin
dtype: object

Набор целых чисел слева - *индексы (index)*. Они служат для обозначения и описания как наора идентификаторов, так и отдельного индетификатора.

Мы может задать собстренные индекты, например, не числа:

In [14]:
days_of_week = ('Monday', 'Wednesday', 'Friday', 'Saturday')

pd.Series(data = ice_cream_flavors, index = days_of_week)
# Идентично: pd.Series(ice_cream_flavors, days_of_week)

Monday        Chocolate
Wednesday       Vanilla
Friday       Strawberry
Saturday     Rum Raisin
dtype: object

**Создание объекта Series с пропущенными значениями**

**NaN** - not a number, нечисловое значение, то есть условный объект обозначающий пустое или отсутствующее значение.

In [15]:
temperatures = [94, 100, np.nan, 91]
pd.Series(temperatures)

0     94.0
1    100.0
2      NaN
3     91.0
dtype: float64

**Создание объектов Series на основе объектов Python**

*Ассоциативный массив, словарь (dictionary)* - набор ключ-значение.

*Кортеж (tuple)* - неизменяемый список. После создания кортежа добавлять, удалять или заменять его элементы нельзя.

*Множество (set)* - неупорядоченный набор уникальныъ значений. **Если попытаться передать множество в конструктор Series, то получим ошибку TypeErrror, поскольку для множеств не определены порядок (как у списка), так и связь (как у словаря)

In [16]:
# Пример словаря

calorie_info = {
    'Apple': 75,
    'Cereal': 125,
    'Chocolate': 405
}

diet = pd.Series(calorie_info)
diet

Apple         75
Cereal       125
Chocolate    405
dtype: int64

In [17]:
# Пример кортежа

Color_tuple = ('Red', 'Black', 'Blue', 'Green')

pd.Series(data = Color_tuple)

0      Red
1    Black
2     Blue
3    Green
dtype: object

In [18]:
# Пример ошибки множества

my_set = {'Rick', 'Bob', 'Alex'}

pd.Series(my_set)

TypeError: 'set' type is unordered

### Атрибуты Series

*Атрибут -* это относящийся к объекты элемент данных. Они ракрывают информацию о внутреннем состоянии объекта. Значение атрибута может представлять собой другой объект.

**.values** - атрибут позволяет общаться к объекту ndarray, в котором хранятся значения.

**type()** - вернет класс (тип), экземпляром которого является данный объект.

**.index** - возвращает объекты Index с метками Series.

**.dtype** - возвращает тип данных значений объекта Series.

**.size** - количество значений в объекте Series.

**.shape** - возвращает кортеж с размерностями структуры данных. Для одномерного объекта Series единственное значение этого кортежа совпадает с размером этого Series.

**.is_unique** - возвращает True, если все значения Series уникальны.

**.is_monotonic** - возвращает True, если каждое значение объекта Series больше предыдущего или равно ему. 

In [19]:
diet.values

array([ 75, 125, 405], dtype=int64)

In [20]:
type(diet.values)

numpy.ndarray

In [21]:
diet.index

Index(['Apple', 'Cereal', 'Chocolate'], dtype='object')

In [22]:
diet.dtype

dtype('int64')

In [23]:
diet.size

3

In [24]:
diet.shape

(3,)

In [25]:
diet.is_unique

True

In [26]:
pd.Series(data = [3, 3, 3]).is_unique

False

In [27]:
pd.Series(data = [1, 2, 3]).is_monotonic

  pd.Series(data = [1, 2, 3]).is_monotonic


True

In [28]:
pd.Series(data = [10, 2, 33]).is_monotonic

  pd.Series(data = [10, 2, 33]).is_monotonic


False

*Атрибут -* это какие-либо относящиеся к объекту данные

*Метод -* это относящиеся к объекты функции, то есть какие-либо действия или команда, которые должны выполниться.

Атрибуты определяют *состояние* объекта, а методы - его *поведение*.

**Методы**

**.head(n)** - возвращает строки из начала набора данных. По умолчанию 5 или же можно задать n.

**.tail()** - аналогично строки с конца набора.

In [29]:
# Создадим объект из диапазона чисел от 0 до 500 с шагом 5

values = range(0, 500, 5)
nums = pd.Series(data = values)
nums

0       0
1       5
2      10
3      15
4      20
     ... 
95    475
96    480
97    485
98    490
99    495
Length: 100, dtype: int64

In [30]:
nums.head(3)

# nums.head(n = 3)

0     0
1     5
2    10
dtype: int64

In [31]:
nums.tail(7)

93    465
94    470
95    475
96    480
97    485
98    490
99    495
dtype: int64

### Математические операции

**.count()** - служит для подсчета числа непустых значений.

**.sum()** - суммирует значения объекта Series. 

**.sum(skipna = False)** - Большинство математических методов по умолчанию игнорирует отсутствующие значения. Чтобы включить их в расчеты, можно передать аргумет False для параметра skipna.

**.sum(min_count = n)** - задает минимальное количество допустимых значений для подсчета суммы объекта.

**.product()** - перемножает все значения объекта Series. Данный метод использует аргументы skipna и min_count.


In [32]:
# Создадим объект Series на основе списка чисел

numbers = pd.Series([1, 2, 3, np.nan, 4, 5])
numbers

0    1.0
1    2.0
2    3.0
3    NaN
4    4.0
5    5.0
dtype: float64

In [33]:
numbers.count()

5

In [34]:
numbers.sum()

15.0

In [35]:
numbers.sum(skipna = False)

nan

In [36]:
numbers.sum(min_count = 3)

15.0

In [37]:
# Получим ошибку, если зададим бОльшее количество минимальных значений

numbers.sum(min_count = 30)

nan

In [38]:
numbers.product()

120.0

In [39]:
numbers.product(skipna = False)

nan

In [40]:
numbers.product(min_count = 2)

120.0

**.cumsum()** - нарастающая сумма. Возвращает *новый объект Series*, содержащий скользящую сумму.

* Нарастающая сумма на позиции с индексом 0 равна 1.0 - первому значению из объекта Series. Складывать его пока не с чем.
* Далее нарастающая сумма складывает значения
* Суммировать со значением nan невозможно, поэтому далее возвращается nan
* После суммирование продолжается

**.cumsum(skipna = False)** - сумма будет отражаться до индекса, по которому встречается первое отсутствующее значение, для остальных выведется nan

**.pct_change()** - процентное изменение. оно возвращает процентную разницу между последовательными значениями объекта. По умолчанию метод реализует стратегию заполнения предыдущим значением (forward-fill) для отсутствующих значений, то есть nan заменяется последним из встреченных допустимых значений.

* Значение с индексом 0 еще не имеет числа для сравнения, поэтому получаем результат NaN
* Далее сравниваются первое значние 1.0 и второе 2.0. Их разница 100%, то есть в два раза. Поэтому получаем результат 1.0
* При встречи с NaN оно заменяется на предыдущее, то есть 3.0 сравнивается с 3.0. Разница равна 0%

**.pct_change(fill_method = '')** - данный параметр позволяет задавать способ замены значений NaN. По умолчанию он заменяется на предыдущее значение - это значения аргуметов 'pad' и 'ffill'. Можно также задать заполнение *последующим значением* = 'bfill'

**.mean()** - возвращает среднее значение

**.median()** - возвращает медиану, то есть число по середине

**.std()** - стандартное отклонение, то есть меру отклонения данных от среднего значения

**.min()** и **.max()** - минимальное и максимальное значения, соответственно

**describe()** - получить всю сводную информацию по данным параметрам

**.sample(n)** - случайный набор значений из объекта. n - количество объектов

**.unique()** - возвращает NumPy-объект array, содержащий уникальные значения

**.nunique()** - возвращает количество уникальных значений

In [41]:
numbers.cumsum()

0     1.0
1     3.0
2     6.0
3     NaN
4    10.0
5    15.0
dtype: float64

In [42]:
numbers.cumsum(skipna = False)

0    1.0
1    3.0
2    6.0
3    NaN
4    NaN
5    NaN
dtype: float64

In [43]:
numbers.pct_change()

0         NaN
1    1.000000
2    0.500000
3    0.000000
4    0.333333
5    0.250000
dtype: float64

In [44]:
numbers.pct_change(fill_method = 'bfill')

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.000000
5    0.250000
dtype: float64

In [45]:
numbers.mean()

3.0

In [46]:
numbers.median()

3.0

In [47]:
numbers.std()

1.5811388300841898

In [48]:
numbers.min()

1.0

In [49]:
numbers.max()

5.0

In [50]:
numbers.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

In [51]:
numbers.sample(3)

1    2.0
2    3.0
5    5.0
dtype: float64

In [52]:
num = pd.Series(
    [1, 1, 2, 3, 3, 3, 4, 1, 2, 3, 4]
)
num.unique()

array([1, 2, 3, 4], dtype=int64)

In [53]:
num.nunique()

4

### Арифметические операции



In [54]:
# Создадим объект Series с целочисленными хначениями и одним отсутствующим значением

s1 = pd.Series(
    data = [5, np.nan, 15], index = ['A', 'B', 'C']
)

s1

A     5.0
B     NaN
C    15.0
dtype: float64

In [56]:
# s1 + 3
s1.add(3)

A     8.0
B     NaN
C    18.0
dtype: float64

In [59]:
# s1 - 5
# s1.sub(5)
s1.subtract(5)

A     0.0
B     NaN
C    10.0
dtype: float64

In [60]:
# s1 * 2
# s1.mul(2)
s1.multiply(2)

A    10.0
B     NaN
C    30.0
dtype: float64

In [61]:
# s1 / 2
# s1.div(2)
s1.divide(2)

A    2.5
B    NaN
C    7.5
dtype: float64

In [62]:
# s1 // 4 - деление с округлением до целого вниз
s1.floordiv(4)

A    1.0
B    NaN
C    3.0
dtype: float64

In [63]:
# s1 % 3 - возвращение остатка от деления
s1.mod(3)

A    2.0
B    NaN
C    0.0
dtype: float64

**Транслирование** - вычисление массива на основе другого массива. Например, синтаксис *s1 + 3* означает, что нужно применить одну и ту же операцию (прибавление 3) к каждому объекту Series. Все объекты получают одно сообщение, как слушатели радиостанции, поэтому используется термин "транслирование".

In [64]:
# Считает количество объектов, включая NaN

cities = pd.Series(
    data = ['Moscow', 'Tver', np.nan, 'Omsk']
)

len(cities)

4

In [65]:
# Функция возвращает список атрибутов и методов объекта

dir(cities)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__redu

In [66]:
# Можно превратить объект Series в список

list(cities)

['Moscow', 'Tver', nan, 'Omsk']

In [68]:
# или в словарь

dict(cities)

{0: 'Moscow', 1: 'Tver', 2: nan, 3: 'Omsk'}

С помощью ключевого слова **in** проверить вхождение в объект. Особенность состоит в том, что при проверки вхождения в объект Series мы проверяем индексы, а чтобы проверить значение, то стоит использовать атрибут **.values**.

Аналогичное использование **not in**.

In [69]:
'Moscow' in cities

False

In [70]:
2 in cities

True

In [71]:
'Moscow' in cities.values

True