## Pandas. Series

Для работы с табличными данными чаще всего используют библиотеку pandas

In [1]:
# pandas – это модуль/библиотека для работы с табличными данными
import pandas as pd

In [2]:
# Series – это тип, который определен в библиотеке pandas,
# который позволяет сохранять/обрабатывать одномерную последовательность данных
# К элементам последовательности можно получить доступ с помощью индекса

# Series – это тип, который очень похож на встроенный тип list и dictionary одновременно
# В таблицах Series – это колонка с данными

In [3]:
# пример создания Series из списка

# создаем список
students = ["artem", "sergey", "rustam", "anna"]

# конвертируем список в Series
seq = pd.Series(students)
print(seq)

# Пояснить почему Series – это всего одна колонка, но мы тут видим сразу две колонки
# Нужно обратить внимание что вторая колонка – это и есть данные, а первая колонка это индекс
# Указать, что это по факту ничем не отличается от списка расмотренного ранее

0     artem
1    sergey
2    rustam
3      anna
dtype: object


In [4]:
# видно, что Series визуализируется двумя колонками, где первая колонка это индекс, а вторая колонка хранит значения
# можно получить доступ к значению через индекс
print(seq[0])
print(seq[1])

artem
sergey


In [5]:
# Series можно создавать не только из списка строк, но и из списка чисел
# слева – это инекс, справа – данные/значения
pd.Series([10, 20, 30, 40])

0    10
1    20
2    30
3    40
dtype: int64

In [6]:
# В последовательности могут быть пропуски, т.е. отсутствующие значения
# None – это специальное значение, которое является отсутствующим значением
# Прямым аналогом является пустой укзатель nil в Pascal или null в C
pd.Series([1, 2, 3, None, 5])

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
dtype: float64

In [7]:
# Нужно обратить внимание на значение dtype. 
# Во всех примерах выше они были разные
# В двух последних примерах это список из чисел, где
# в одном случае мы получили последовательность с типом int64, а в другом с типом float64.
# Вопрос: почему так получилось?
# Ответ будет понятен только тем, кто не прогуливал программирование в школе:
# тип int64 – это тип который хранит только целые числа и размер такого хранилища 64 бита
# тип int64 не предусматривает хранение "не числа", а float64 может хранить число со значением NaN – not a number

# Вывод: если вы ожидали, что в колонке будут только целые числа, но получили тип float64, то скорее всего там есть отсутствующие значения

In [8]:
# Создание Series из словаря
data = { "russia": "moscow", "france": "paris", "ukraine": "kyiv" }
capitals = pd.Series(data)
print(capitals)

# Обратить внимание на индекс. Тут индекс это строки, которые были ключами словаря

russia     moscow
france      paris
ukraine      kyiv
dtype: object


In [9]:
# Получить индекс в явном виде
capitals.index

Index(['russia', 'france', 'ukraine'], dtype='object')

## Использование индекса для доступа к элементу

In [10]:
# доступ через index location
# Series похож на list
print(capitals.iloc[0])
print(capitals.iloc[1])
print(capitals.iloc[2])

# эквивалентная запись
# print(capitals[0])
# print(capitals[1])
# print(capitals[2])

moscow
paris
kyiv


In [11]:
# доступ через index label
# Series похож на dictionary
print(capitals.loc["russia"])
print(capitals.loc["france"])
print(capitals.loc["ukraine"])

# эквивалентная запись
# print(capitals["russia"])
# print(capitals["france"])
# print(capitals["ukraine"])

moscow
paris
kyiv


In [12]:
# Вопрос: зачем использовать iloc или loc когда можно использовать []
# Ответ: может быть ситуация, когда index label тоже будет числом
#        что в этом случае должен использовать pandas iloc или loc?

classes = {100: "Математический анализ", 101: "Линейная алгебра", 102: "Теория вероятности"}
seq = pd.Series(classes)

print(seq)

# Как pandas будет интерпретировать запись ниже?
# print(seq[0])
# print(seq.iloc[0])
# print(seq.loc[0])

100    Математический анализ
101         Линейная алгебра
102       Теория вероятности
dtype: object


In [13]:
# Задание
# Создать Series из 100000 случайных целых чисел от 0 до 100, после чего найти среднее арифметическое значение
N = 100000

# Ожидаем получить от студентов следующий код
import random
data = [] # создаем пустой список
for i in range(N):
    data.append(random.randint(0, 100))

# конвертируем список в Series
seq = pd.Series(data)

total = 0
for item in seq:
    total += item

print(total/len(seq))

49.92695


In [14]:
# У типа Series есть удобный метод head, который выводит несколько первых значений из соследовательности
# У списка или словаря этого метода нет.
seq.head()
# seq.head(10)

0    81
1    66
2     1
3    43
4    61
dtype: int64

In [15]:
# Перепишем код выше, чтобы он использовал только библиотечные функции
import numpy as np # библиотека численных методов
data = np.random.randint(0, 100, N)
seq = pd.Series(data)
np.sum(seq)/len(seq)

# Какой код предпочтительнее и почему?
# На мой личный взгляд второй вариант короче, поэтому мне нравится больше
# К тому же мы используем библиотечные функции => пишем меньше кода => не создаем багов
# Аргументы все еще не убедительны? Ок. давайте измерять производительность

49.48928

In [16]:
%%timeit -n 100  # запустим код ниже 100 раз и засечем время выполнения

total = 0
for item in seq:
    total += item
total/len(seq)

7.75 ms ± 234 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [17]:
%%timeit -n 100
np.sum(seq)/len(seq)

519 µs ± 99.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
