## 3.1 Первое знакомство с Series

In [8]:
import pandas as pd # импорт библиотеки

Numpy хорошо работает с числовыми данными - для этого он и создавался. Но на практике таблицы содержат не только числа, но и текст. Поэтому пришлось создавать другие контейнеры данных, которые хорошо будут работать с другими типами.

**Series (серия или по простому ряд значений)** - контейнер в библиотеке Pandas, который создан для хранения одномерного массива данных. В нее нельзя погрузить матрицу или трехмерный массив. Серия может унести только одномерный массив. Именно серия будет хранить содержимое наших столбцов и строк поэтому давайте посмотрим на нее подробнее. Сейчас запомните, что серия это фундамент будущей Pandas таблицы!

Серия состоит из двух очень важных компонентов:

1) хранилище наших значений (именно эти значения мы видим в столбце/строке)

2) хранилище индексов. Индексы могут быть как числовые так и строковые. Обращаясь к серии через индекс мы просим серию вернуть из хранилища значений элемент, который связан с индексом. Очень похоже на словарь! 

Индексы и значения жестко связаны между собой.

Чтобы создать серию вам надо обратиться к библиотеке pandas и у неё спросить серию: **pandas.Series()**. В скобки передайте одномерный список или массив. Кстати, словарь тоже сработает! Pandas примет ваш массив/словарь и создаст на их основе серию.

При попытке распечатать на экране серию, питон печатает две колонки: левая - индексы, правая - наши значения.

Через свойство **.index** вы получите одномерный numpy массив индексов

Через свойство **.values** вы получите одномерный numpy массив с нашими значениями

In [16]:
import pandas as pd

s1 = pd.Series([1, 3, -5, 12])

print(s1, end='\n\n') # серия
print(s1.values, end='\n\n') # значения
print(s1.index) # индексы

0     1
1     3
2    -5
3    12
dtype: int64

[ 1  3 -5 12]

RangeIndex(start=0, stop=4, step=1)


Если при создании серии вы не задаёте индексы, то серия автоматически создает их для себя. Вы можете задать свои индексы, для этого в конструктор серии передайте значения, которые надо хранить в серии и индексы для них.

In [18]:
import pandas as pd

s2 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])

print(s2, end='\n\n') # серия
print(s2.values, end='\n\n') # значения
print(s2.index) # индексы

a     1
b     3
c    -5
d    12
dtype: int64

[ 1  3 -5 12]

Index(['a', 'b', 'c', 'd'], dtype='object')


Для доступа к элементу серии в скобках укажите индекс, который связан с этим элементом. Если индекс числовой, то в квадратных скобках укажите число: **s[1]**. Если индексы строковые, то укажите в кавычках: **s['c']** (можно одинарные, можно двойные).

In [22]:
import pandas as pd

s3 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])

print(s3['c']) # доступ по строковому индексу
print(s3[3]) # доступ по числовому индексу

-5
12


Вы можете создавать серию как на основе списка, так и на основе numpy массива - результат будет одинаковый). Для получения доступа к нескольким элементам серии передайте список индексов: **s[['a', 'b', 'c']]**

In [28]:
import pandas as pd

s4 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])

s4['b'] = 100 # замена значения в исходной серии

print(s4[['b', 'a', 'c']]) # доступ по строковому индексу к нескольким значениям

b    100
a      1
c     -5
dtype: int64


## Задачи урока 3.1

1. Создайте серию, которая будет содержать элементы 1, 2, 3, 4, 5. Функция должна вернуть серию.

In [None]:
import pandas as pd

def solution():
    return pd.Series(range(1, 6))

2. На вход функции подаётся серия. Доработайте функцию так чтобы она возвращала индексы серии

In [None]:
import pandas as pd

def solution(s1):
    return s1.index

3. Создайте серию, которая будет содержать элементы 1, 2, 3, 4, 5 и индексы a, b, c, d, e. Функция должна вернуть серию.

In [31]:
import pandas as pd
import string

def solution():
    return pd.Series(range(1, 6), list(string.ascii_lowercase[:5])

4. На вход функции подаётся серия. Вытяните из нее элементы с индексами a и с. Функция должна вернуть серию.

In [None]:
import pandas as pd

def solution(s1):
    return s1[['a', 'c']]

5. На вход функции подаётся серия. Замените элемент по индексу c на 0. Функция должна вернуть серию с измененным элементом по индексу с.

In [None]:
import pandas as pd

def solution(s1):
    s1['c'] = 0
    return s1

6. На вход функции подаётся серия. Доработайте функцию так чтобы она возвращала numpy массив, который содержит значения серии

In [None]:
import pandas as pd
import numpy as np

def solution(s1):
    return np.array(s1.values)

## 3.3 Поподробнее про серии: идексы, сложение, проверка на NaN

1) При фильтрации серии индексы остаются, а не пересоздаются.  
2) Арифметические операции не распространяются на индексы

In [50]:
import pandas as pd

s1 = pd.Series([1, 3, -5, 12], index=['a', 'b', 'c', 'd'])
s1 = s1 + 100

print(s1[s1 > 100])

a    101
b    103
d    112
dtype: int64


Серию можно создавать не только на основе списка. Еще один распространённый сценарий это создание серии из словаря. В этом случае ключи словаря перейдут в индексы серии.

In [56]:
import pandas as pd

d = {'Moscow': 100, 'Murmansk': 200, 'Ufa': 300}
s2 = pd.Series(d)

print(s2, end='\n\n')
print('Moscow' in s2, end='\n\n')
print(s2 + s2)

Moscow      100
Murmansk    200
Ufa         300
dtype: int64

True

Moscow      200
Murmansk    400
Ufa         600
dtype: int64


1) Вы можете задавать индексы на этапе создания серии  
2) Не обязательно чтобы индексы шли по порядку  
3) Если вы создаёте серию на основе словаря и указали индекс, которого не существует в словаре, то pandas добавит в серию такой индекс, но значение будет равно NaN (пропуск)  
4) Если вы создаете серию на основе словаря и не передали все индексы, то никакой ошибки не будет. Пандас добавит в серию только те значения, которые вы указали в индексе

In [59]:
import pandas as pd

d = {'Moscow': 100, 'Murmansk': 200, 'Ufa': 300}
s3 = pd.Series(d, index=['Murmansk', 'Moscow', 'Vladivostok', 'Ufa']) # задаём собственный порядок отображения

print(s3)

Murmansk       200.0
Moscow         100.0
Vladivostok      NaN
Ufa            300.0
dtype: float64


Чтобы проверить серию на NaN, можно использовать функцию **isnull**. Существует обратная функции **notnull**

In [63]:
import pandas as pd

d = {'Moscow': 100, 'Murmansk': 200, 'Ufa': 300}
s3 = pd.Series(d, index=['Murmansk', 'Moscow', 'Vladivostok', 'Ufa']) # задаём собственный порядок отображения

print(s3.isnull(), end='\n\n')
print(s3.notnull())

Murmansk       False
Moscow         False
Vladivostok     True
Ufa            False
dtype: bool

Murmansk        True
Moscow          True
Vladivostok    False
Ufa             True
dtype: bool


**Важно запомнить, что при сложении серий:**

1) не обязательно чтобы они были одинаковой длины  
2) сложение будет происходить по индексам  
3) если в одной из серий есть индекс, которого нет в другой серии, то индекс добавляется в результирующую серию, но значение присваивается NaN  

In [65]:
import pandas as pd

s1 = pd.Series({'Moscow': 100, 'Murmansk': 200, 'Ufa': 300})
s2 = pd.Series({'Moscow': 500, 'Murmansk': 200, 'Vladivostok': 300})

print(s1 + s2)

Moscow         600.0
Murmansk       400.0
Ufa              NaN
Vladivostok      NaN
dtype: float64


В случае если необходимо изменить индексы у уже существующей серии, то аглоритм таков:

In [68]:
import pandas as pd

s = pd.Series([5, 10, 20, 30 , 40, 50])

print(s, end='\n\n')

s.index = ['a', 'b', 'c', 'd', 'e', 'f'] # меняем индексы

print(s)

0     5
1    10
2    20
3    30
4    40
5    50
dtype: int64

a     5
b    10
c    20
d    30
e    40
f    50
dtype: int64


У каждой серии есть своё имя. Задать или прочитать имя можно через свойство **name**. Имя используется при работе с хранилищем серий - DataFrame (про него смотрите дальше, но сначала тест).

In [69]:
import pandas as pd

s = pd.Series([5, 10, 20, 30 , 40, 50])

s.name = 'values'
print(s)

0     5
1    10
2    20
3    30
4    40
5    50
Name: values, dtype: int64


## Задачи урока 3.3

1. На вход функции подаётся серия из 7 значений. Известно, что она хранит количество посещенных сайтов некоторого пользователя за первую неделю:

![1](https://ucarecdn.com/624e853b-0065-4f4d-977c-5173040f0168/)

Известно, что за вторую неделю пользователь посетил в два раза больше сайтов  
![2](https://ucarecdn.com/1985976f-ed26-4bf9-bdb8-6ce2fb1a93c9/)

Определите сколько сайтов посетил пользователь в сумме за две недели в разрезе по дням недели. Функция должна вернуть только те дни, где количество посещенных сайтов больше 20:

![3](https://ucarecdn.com/c89026ec-0080-4671-a61e-2e47f4cf314a/)

In [None]:
import pandas as pd

def solution(ser1):
    result = ser1 + ser1 * 2
    return result[result > 20]

2. На вход поступает некоторая серия. Проверьте, есть ли в ней индекс 'Пятница'. Верните True если есть иначе False.

In [None]:
import pandas as pd

def solution(ser1):
    return 'Пятница' in ser1

## 3.4 Практика: тонкости при работе с сериями

1. На вход функции подаётся словарь. Постройте из него серию и умножьте каждое значение серии на 2. Функция должна вернуть серию. 

In [None]:
import pandas as pd

def solution(d):
    return pd.Series(d) * 2

2. На вход функции подаётся словарь. Постройте из него серию так чтобы индексы были расположены в порядке: e, a, c, b, d

In [None]:
import pandas as pd

def solution(d):
    return pd.Series(d, ['e', 'a', 'c', 'b', 'd'])

3. На вход функции подаётся словарь. Постройте из него серию и добавьте еще один индекс g. Индексу g присвойте значение 10. Функция должна вернуть серию.

In [None]:
import pandas as pd

def solution(d):
    s = pd.Series(d)
    s['g'] = 10
    return s

4. Проверьте, все ли значения серии заполнены? Верните одно значение False - если не все; True - если все заполнены

In [None]:
import pandas as pd

def solution(s1):
    return all(s1.isnull())

5. На вход вам подаётся серия. Разверните индексы в обратном направлении:

![1](https://ucarecdn.com/618e5198-6834-43fd-b4c5-c8b8eaad97c0/)

In [75]:
import pandas as pd

def solution(s1):
    result = pd.Series(s1.values, s1.index[::-1])
    return result

s1 = pd.Series([6, 5, 4])
solution(s1)

2    6
1    5
0    4
dtype: int64