20сен23
# Начало Pandas. Series, Index, Array.
* Что такое функция?
* Что такое библиотека?
* Почему Pandas мне пригодится? В нем что, есть какие-то полезные функции?
* Чем Series отличается от обычного списка?
* А NumPy тут при чем?

## Немного теории
Функция в программировании – это своеобразная часть кода, совокупность команд, которая необходима для решения поставленной задачи. Я бы описал функцию как черный ящик, в который можно что-то положить (или не класть), а он что-то вернет или сделает.

Например, "готовка яичницы" это функция. Нам понадобится: сковородка, яйца, соль, сосиски, нож (чтобы порезать сосиски), тарелка и столовые приборы, чтобы подать на стол, – это входные данные. В результате выполнение функции "готовка яичницы" мы получим грязные сковородку и нож, но самое важное – готовую яичницу на тарелке, – это все выходные данные.

Библиотека — это готовый набор функций и обьектов (что такое обьекты, я расскажу сильно позже) для какого-либо языка программирования. Обычно такие наборы обьединены назначением или сферой использования, например математические библиотеки или веб-библиотеки. Программисты пользуются ими, чтобы ускорять и упрощать свою работу.

Например, я хочу написать программу, которая рассчитает положение планеты относительно звезды в конкретный день. Я точно не обойдусь без физических формул и расчетов. Но я не хочу прописывать все эти формулы с нуля, куда лучше будет взять уже готовую библиотеку с этими формулами. Как сделал <html><a href="https://habr.com/ru/companies/otus/articles/758526/" target="_blank">**этот парень**</a></html>.

## Библиотека Pandas
Библиотека Pandas – основная библиотека, с которой мы будем работать в этом курсе по анализу данных. Я пока не нашел границ возможностей этой библиотеки относительно работы с таблицами. Основное, что мы будем в нем использовать – его типы данных: DataFrame и Series. DataFrame это двумерная таблица, но если взять только один столбец из этой таблицы, это уже будет тип данных Series. О нем в основном мы сегодня и будем говорить.


In [1]:
# импорт типа данных
from pandas import Series

# конечно, можно импортировать pandas целиком, но пожалей свое и мое железо
# весь pandas это сильно больше, чем нужно

## Series
Полную документацию можно найти по <a href="https://pandas.pydata.org/docs/reference/series.html" target="_blank">**ссылке**</a>. Я расскажу только то, что на мой взгляд больше всего понадобится.

In [2]:
# так создается переменная типа Series
chess1 = Series([2758, 2760, 2777, 2754])
chess1

0    2758
1    2760
2    2777
3    2754
dtype: int64

Я, кажется, не рассказывал раньше о таком способе вывода, он на самом деле есть и просто так в питоне, но только в консоли. В ноутбуке им очень часто пользуются, потому что это проще, чем каждый раз писать print().

Так вот, что нам выдал код. Левый столбец – индексы, правый столбец – значения, чуть ниже написан тип данных (int64). Это значит, что все числа целые и каждое задается 64 байтами памяти.

In [3]:
# другой способ присвоения
chess2 = Series([2839, 2786, 2780, 2780, 2771], 
           index = ["Магнус Карлсен", "Фабиано Каруана",
                    "Хикару Накамура", "Дин Лижэнь", "Ян Непомнящий"])
chess2

Магнус Карлсен     2839
Фабиано Каруана    2786
Хикару Накамура    2780
Дин Лижэнь         2780
Ян Непомнящий      2771
dtype: int64

Список слева стал списком значений, а список справа стал списком индексов

In [4]:
# теперь к элементам этого массива можно обращаться по слову
chess2["Ян Непомнящий"] += 10
chess2["Ян Непомнящий"]

2781

In [5]:
# но и обращение по индексу (номеру) не отменяется
chess2[-1] -= 10
chess2[-1]

2771

Получается, у Series есть много общего не только со списком, но и со словарем.

In [6]:
# настолько много, что Series можно создавать прямо из словаря
chess1 = Series({"Гукеш Доммараджу":2758,
                 "Алиреза Фируджа":2777,
                 "Аниш Гири":2760,
                 "Вишванатан Ананд":2754,
                 "Ян Непомнящий":2771})
chess1

Гукеш Доммараджу    2758
Алиреза Фируджа     2777
Аниш Гири           2760
Вишванатан Ананд    2754
Ян Непомнящий       2771
dtype: int64

In [7]:
# можно добавить один элемент так же, как и в словарь
chess1["Магнус Карлсен"] = 2839
chess1

Гукеш Доммараджу    2758
Алиреза Фируджа     2777
Аниш Гири           2760
Вишванатан Ананд    2754
Ян Непомнящий       2771
Магнус Карлсен      2839
dtype: int64

In [8]:
# Series можно складывать обычным оператором +
# причем значения сложатся, если возможно, если нет – будет NaN (not a number)
chess = chess1 + chess2
chess

Алиреза Фируджа        NaN
Аниш Гири              NaN
Вишванатан Ананд       NaN
Гукеш Доммараджу       NaN
Дин Лижэнь             NaN
Магнус Карлсен      5678.0
Фабиано Каруана        NaN
Хикару Накамура        NaN
Ян Непомнящий       5542.0
dtype: float64

In [9]:
# если не хочется, чтобы пропали значения, можно воспользоваться методом add
# он так же будет их складывать, если возможно
chess = chess1.add(chess2, fill_value=0)
chess

Алиреза Фируджа     2777.0
Аниш Гири           2760.0
Вишванатан Ананд    2754.0
Гукеш Доммараджу    2758.0
Дин Лижэнь          2780.0
Магнус Карлсен      5678.0
Фабиано Каруана     2786.0
Хикару Накамура     2780.0
Ян Непомнящий       5542.0
dtype: float64

In [10]:
# так можно узнать размер 
chess.size

9

In [11]:
# так можно преобразовать Series обратно в список, при этом строчные индексы потеряются
chess_list = chess.to_list()
chess_list

[2777.0, 2760.0, 2754.0, 2758.0, 2780.0, 5678.0, 2786.0, 2780.0, 5542.0]

In [12]:
# так можно посчитать сумму элементов (если это числа, конечно)
chess.sum()

30615.0

In [13]:
# обьект типа Series можно отсортировать по значениям в порядке возрастания
chess1 = chess1.sort_values()
chess1

Вишванатан Ананд    2754
Гукеш Доммараджу    2758
Аниш Гири           2760
Ян Непомнящий       2771
Алиреза Фируджа     2777
Магнус Карлсен      2839
dtype: int64

In [14]:
# а можно и в порядке убывания
chess1.sort_values(ascending=False)

Магнус Карлсен      2839
Алиреза Фируджа     2777
Ян Непомнящий       2771
Аниш Гири           2760
Гукеш Доммараджу    2758
Вишванатан Ананд    2754
dtype: int64

In [15]:
# можно так же сортировать по индексам
chess1.sort_index()

Алиреза Фируджа     2777
Аниш Гири           2760
Вишванатан Ананд    2754
Гукеш Доммараджу    2758
Магнус Карлсен      2839
Ян Непомнящий       2771
dtype: int64

Теперь посмотрим, что будет, если попробовать вытащить из Series индексы и значения по отдельности

In [16]:
chess.index

Index(['Алиреза Фируджа', 'Аниш Гири', 'Вишванатан Ананд', 'Гукеш Доммараджу',
       'Дин Лижэнь', 'Магнус Карлсен', 'Фабиано Каруана', 'Хикару Накамура',
       'Ян Непомнящий'],
      dtype='object')

In [17]:
chess.values

array([2777., 2760., 2754., 2758., 2780., 5678., 2786., 2780., 5542.])

Мы только что получили два неизвестных нам ранее типа данных: Index и array.

## Index
Полная документация <a href="https://pandas.pydata.org/docs/reference/api/pandas.Index.html" target="_blank">**здесь**</a>.

Это вспомогательный тип данных в библиотеке pandas. Как ни удивительно, он нужен для индексации остальных типов данных, таких как Series или DataFrame (о нем мы поговорим позже). В общем-то почти полный аналог списка в python, если я все правильно понял (:

При необходимости обьект типа Series можно переиндексировать.

In [18]:
# сначала импортирую
from pandas import Index

print(chess2)

# создаю обьект типа Index
new_index = Index(["first", "second", "third", "fourth", "fifth"])

# переиндексирую
chess2.index = new_index
chess2

Магнус Карлсен     2839
Фабиано Каруана    2786
Хикару Накамура    2780
Дин Лижэнь         2780
Ян Непомнящий      2771
dtype: int64


first     2839
second    2786
third     2780
fourth    2780
fifth     2771
dtype: int64

## Array
В общем-то еще один вид массива. Он-то точно тебе понравится!

Я советую пользоваться типом array из библиотеки NumPy, потому что в этой библиотеке так же есть много математических функций, которые позже очень сильно пригодятся.

In [19]:
# импортирую тип данных
from numpy import array, zeros, ones

# такой функцией задается массив из нулей
arr = zeros((5, 5)) # в скобках задаются размеры
arr

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [20]:
# очень удобно задавать трехмерный массив
# такая функция создает массив из единиц
arr = ones((3, 3, 3))
arr

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

Как можно видеть на примерах выше, обьект типа array не имеет такой сложности с выводом, как список, он всегда нагляден и понятен.

In [21]:
# так работает добавление элемента в array
from numpy import append
arr1 = array([1, 2, 3])
arr1 = append(arr1, 4)
arr1

array([1, 2, 3, 4])

In [22]:
# это можно делать с любой вложенностью
arr1 = append(arr1, [[5, 6, 7], [8, 9, 10]])
arr1

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [23]:
# так можно узнать длину массива array
arr1.size

10

Главная же идея array заключается в том, что NumPy позволяет проделывать с ним операции поэлементного сложения/вычитания/умножения/деления матриц.

In [24]:
arr1 = array([[1, 2, 3], [4, 5, 6]]) # двумерный массив
arr2 = array([5, 3, 6]) # одномерный массив
arr1[0] += arr2 # прибавили к первой строке первого массива второй массив
arr1

array([[6, 5, 9],
       [4, 5, 6]])

In [25]:
# теперь arr2 тоже двумерный массив такого же размера, как arr1
arr2 = array([[9, 8, 7], [6, 5, 4]])
arr = arr1 * arr2
arr

array([[54, 40, 63],
       [24, 25, 24]])

Замечу, что умножились они поэлементно.

А вот эта функция умножает матрицы по-настоящему (обычному правилу умножения матриц). Если ты еще не знаешь, что такое умножение матриц, желаю тебе счастливо провести все то время, которое тебе осталось до этого рокового момента.

In [26]:
arr2 = array([[9, 8], [7, 6], [5, 4]])
arr = arr1.dot(arr2)
arr

array([[134, 114],
       [101,  86]])

### Особенности индексации массива array
Как и у списка, у array есть возможность делать срезы элементов. Но есть и дополнительные функции, например итеративный обход.

In [27]:
arr = array([[1, 2, 3, 4], 
             [5, 6, 7, 8], 
             [9, 10, 11, 12], 
             [13, 14, 15, 16]])
arr[:, 1::2] # я только что перебрал каждый второй элемент по всем строкам

array([[ 2,  4],
       [ 6,  8],
       [10, 12],
       [14, 16]])

In [28]:
# это работает ровно как функция range(), только глубина ограничена лишь измерениями массива
arr[::3, ::2]

array([[ 1,  3],
       [13, 15]])

Продемонстрирую удобство такой индексации на примере задачи.

## <a href="https://informatics.msk.ru/mod/statements/view.php?id=4898&chapterid=111198#1" target="_blank">Задача "Квадраты - 1"</a>

In [29]:
n = int(input())
arr = ones((n, n)) * (n - 1)
for i in range(n - 1, -1, -1):
    arr[:i, :i] = ones((i, i)) * (i - 1)
arr
# я не делал вывод, лишь правильно заполнил массив

7


array([[0., 1., 2., 3., 4., 5., 6.],
       [1., 1., 2., 3., 4., 5., 6.],
       [2., 2., 2., 3., 4., 5., 6.],
       [3., 3., 3., 3., 4., 5., 6.],
       [4., 4., 4., 4., 4., 5., 6.],
       [5., 5., 5., 5., 5., 5., 6.],
       [6., 6., 6., 6., 6., 6., 6.]])

---
## Задачи для самостоятельного выполнения
Дедлайн 26сен23 23:59.
1. <a href="https://informatics.msk.ru/mod/statements/view.php?id=4535&chapterid=3752#1" target="_blank">Встречалось ли число раньше</a>
2. <a href="https://informatics.msk.ru/mod/statements/view.php?id=4535&chapterid=3757#1" target="_blank">Полиглоты</a>
3. <a href="https://informatics.msk.ru/mod/statements/view.php?id=4898&chapterid=111202#1" target="_blank">Квадраты - 2</a>

В первой задаче для ввода чисел в одну строку предпочтительно использовать следующее:

In [30]:
arr = array(list(map(int, input().split())))
arr

1 4 2 6 3 5


array([1, 4, 2, 6, 3, 5])

При решении этих задач **обязательно** использовать типы данных, пройденных на этом уроке (не обязательно все).