## SERIES КАК СТРУКТУРА ДАННЫХ

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы)

Для создания объекта Series используется команда pd.Series()

In [2]:
import pandas as pd

In [3]:
'Способ 1'
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Функция display() является аналогом функции print() в файлах формата .ipynb (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Здесь и в дальнейшем функция display() используется для более красивого вывода таблиц в файлах формата .ipynb.

Обратите внимание, что если вы пишете код в файлах с расширением .py, функция display() не будет вам доступна.

Также стоит отметить, что в файлах формата .ipynb результат работы последней строки в ячейке автоматически выводится на экран.

В результате выполнения кода выше мы получаем объект Series. При его выводе на экран можно увидеть заданные в параметре index метки — коды стран, соответствующие им значения (названия стран), которые мы задали в параметре data. Также с помощью аргумента name мы явно задали имя для Series.

Внизу, под выводом содержимого, можно увидеть тип данных объектов, хранимых в Series. Типом данных object в Pandas обозначаются строки и смешанные типы данных (кортежи, списки, текст, смешанный с числами, и т. д.).

Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов

In [6]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    
    name = 'countries'
)
display(countries)

0       Англия
1       Канада
2          США
3       Россия
4      Украина
5     Беларусь
6    Казахстан
Name: countries, dtype: object

In [8]:
#Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:'
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

# ДОСТУП К ДАННЫМ В SERIES

Доступ к элементам осуществляется с использованием loc или iloc

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов.

In [9]:
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


Обратите внимание, что в случае обращения по одному индексу возвращается строка. Если же обратиться по нескольким элементам, возвращается объект Series.

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

In [10]:
print(countries.iloc[6])

Казахстан


Получим срез из исходной Series с первого по третий элемент:

In [11]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


Важно, что в последнем примере конечное значение диапазона не включается в результат (берутся элементы с порядковыми номерами от 1 до 4, не включая последний).

На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

In [14]:
'Task 1'
import pandas as pd


def create_medications(names, counts):
    """
    Напишите функцию create_mediactions(names, counts), которая  создает Series medications,
    индексами которой являются названия лекарств names, а значениями - их количество в поставке counts
    """
    medications = pd.Series(index=names, data=counts)
    return medications
    
    

   

def get_percent(medications, name):
    
    """
    А также напишите функцию get_percent(medications, name), которая возвращает долю количества товара
    с именем name от общего количества товаров в поставке в процентах.
    """
   
    return(medications.loc[name]/sum(medications) * 100)
    
    


if __name__ == '__main__':
    names=['chlorhexidine', 'cyntomycin', 'afobazol']
    counts=[15, 18, 7]
    medications = create_medications(names, counts)
    print(get_percent(medications, "chlorhexidine")) #37.5

37.5
