# 1. Введение

## Импорт библиотеки Pandas

In [13]:
import pandas as pd
pd.__version__

'1.3.4'

In [3]:
pip install pandas

Collecting pandas
  Downloading pandas-1.3.4-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (11.5 MB)
[K     |████████████████████████████████| 11.5 MB 3.7 MB/s 
Installing collected packages: pandas
Successfully installed pandas-1.3.4
Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandas as pd
pd.__version__

'1.3.4'

In [3]:
print(pd.__name__)

pandas


# 2. Pandas.Series

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

Эту структуру можно сравнить со списком: каждому элементу ставится в соответствие индекс, однако, в отличие от списка, индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

Пример объекта Series:

Img

→ Series в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.

Перейдём от сухой теории к практике — научимся создавать серии и работать с ними.

## Создание Series

→ Для создания объекта Series используется команда pd.Series().

Рассмотрим несколько способов создания Series на примере со списком названий стран.

Способ 1 — из списка с использованием параметров функции pd.Series():

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

Img
Открыть примечание

В результате выполнения кода выше мы получаем объект Series. При его выводе на экран можно увидеть заданные в параметре index метки — коды стран, соответствующие им значения (названия стран), которые мы задали в параметре data. Также с помощью аргумента name мы явно задали имя для Series.

Внизу, под выводом содержимого, можно увидеть тип данных объектов, хранимых в Series. Типом данных object в Pandas обозначаются строки и смешанные типы данных (кортежи, списки, текст, смешанный с числами, и т. д.).
Открыть примечание

Примечание. Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов, например:

countries = pd.Series(
    ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан']
)
display(countries)

Img

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

Img

In [2]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index= ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name='countries'
)

In [3]:
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [4]:
ountries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

### Доступ к данным в Series

Доступ к элементам осуществляется с использованием loc или iloc.

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

Например, для получения названия страны по коду "US" можно выполнить следующий код:

print(countries.loc['US'])
# США

Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

print(countries.loc[['US', 'RU', 'UK']])

Img
Открыть примечание

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

print(countries.iloc[6])
# Казахстан

Получим срез из исходной Series с первого по третий элемент:

print(countries.iloc[1:4])

Img
Открыть примечание

На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

✍ Мы с вами познакомились с одним из составных элементов, на которых основана библиотека Pandas, — объектом Series. Предлагаем вам закрепить пройденный материал, выполнив задания ниже ↓

In [6]:
print(countries.loc['US'])

США


In [9]:
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


In [10]:
print(countries.iloc[6])

Казахстан


In [12]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object
