# Программирование для всех<br>(основы работы с Python)

*Алла Тамбовцева*

## Массивы NumPy, последовательности и датафреймы Pandas

Прежде, чем переходить к работе с таблицами, вспомним о массивах и библиотеке `NumPy`.

Библиотека NumPy (сокращение от *Numeric Python*) часто используется в задачах, связанных с анализом данных и машинным обучением. Если вы уже устанавливали Anaconda, то библиотека NumPy также была установлена на ваш компьютер, в Google Colab тоже библиотека есть. Импортируем ее с сокращенным названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – общепринятое, его часто можно увидеть в документации или официальных тьюториалах:

In [1]:
import numpy as np

Если библиотека не установлена, на конструкцию с `import` будет выведена ошибка вида `ImportError: No module named ...`. Если вы переустанавливали Anaconda или обновляли библиотеки, которые зависят от `numpy`, при импорте тоже могут возникнуть проблемы. Самое универсальное решение подобных проблем – переустановить `numpy`, запустив в Jupyter команду:

    pip install numpy --upgrade
    
Сама команда `pip install` запустит скачивание необходимых для установки библиотеки файлов, а затем распакует их и выполнит установку. Опция `--upgrade` гарантирует переустановку библиотеки (установку новой версии) в случае, если ранее библиотека уже была установлена. Без этой опции команда `pip install` не запустит установку в случае, если на компьютере уже есть более старая (или новая, но «криво» вставшая) версия библиотеки.

Основным объектом NumPy является `Ndarray` – это n-мерный массив (от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо целые числа, либо числа с плавающей точкой, либо строки, либо логические значения `True` и `False`. Массивы могут быть многомерными (например, двумерные массивы – матрицы или таблицы) или одномерными, визуально ничем не отличимыми от простых списков значений.

Зачем изучать массивы? Во-первых, с массивами гораздо приятнее работать, чем со списками, плюс, они занимают меньше памяти. Во-вторых, особенности массивов позволят нам лучше понять, как устроены столбцы в датафреймах (таблицах с данными), с которыми нам предстоит работать дальше.

Для иллюстрации свойств массивов создадим два массива целых чисел. Пусть это будет количество монет, которые в течение трех часов собрали два нюхлера, нюхлер Ниф и нюхлер Наф:

In [2]:
nif_nif = np.array([83, 73, 65]) 
nif_naf = np.array([34, 56, 40])

В отличие от списков, операции на массивах *векторизованы* – они применяются сразу ко всем элемента массива. Например, если нам потребуется узнать, сколько монет в сумме нюхлеры собрали за каждый час, нам достаточно будет сложить два массива:

In [3]:
total = nif_nif + nif_naf
print(total)

[117 129 105]


Операция сложения была применена поэлементно, первый элемент массива `nif_nif` сложился с первый элементом `nif_naf`, второй – со вторым, и так далее. Такие действия в данном случае допустимы, поскольку массивы состоят из одинакового числа элементов:

In [4]:
# помимо функции len() можно запросить атрибут .size

print(nif_nif.size, nif_naf.size)
print(nif_nif.size == nif_naf.size)

3 3
True


Аналогичным образом можем оценить продуктивность первого нюхлера в процентах от общего числа собранных монет:

In [5]:
perc = (nif_nif / total * 100).round(2)
print(perc)

[70.94 56.59 61.9 ]


Снова операции деления, умножения и округления применились ко всем элементам сразу. Убедимся, что все элементы массивов одного типа:

In [6]:
print(total.dtype) # массив из целых чисел
print(perc.dtype) # массив из вещественных чисел

int64
float64


Типы `int` и `float` мы видели и в базовом Python. Теперь давайте посмотрим на пример массива из строк.  Продолжая волшебную тему, пусть это будет массив названий фантастических существ:

In [7]:
creatures = np.array(["niffler", "kneazle", "puffskein"])
print(creatures)

['niffler' 'kneazle' 'puffskein']


Проверим тип элементов:

In [8]:
print(creatures.dtype)

<U9


Получили таинственную запись. Но все просто. Буква `U` здесь означает *Unicode* (в этом формате [кодируются](https://ru.wikipedia.org/wiki/%D0%AE%D0%BD%D0%B8%D0%BA%D0%BE%D0%B4) строки), а 9 – это максимальное число символов в строке внутри массива. Поэтому можем считать это строковым типом, где все строки не длиннее 9 символов.

Итак, можем считать, что массив – «улучшенная» версия списка, структура, которая умеет хранить элементы только одного типа, и за счет этого ограничения на тип позволяющая выполнять операции со всеми элементами сразу. Перейдем к объектам внутри библиотеки `pandas` и посмотрим, в свою очередь, на «улучшенные» версии массива.

Библиотека `pandas` – библиотека для более удобной работы с данными в табличном виде, загруженных, например, из файлов Excel или CSV. Импортируем ее, тоже с сокращенным названием:

In [9]:
import pandas as pd

Рассмотрим структуру данных, которая называется `pandas Series` или *последовательность `pandas`*. Эта структура является своеобразным звеном между массивом и датафреймом (таблицей). Датафрейм `pandas` – это набор объектов типа `pandas Series`, а `pandas Series` – это один столбец в таблице.

Создадим последовательность со значениями числа очков, которые набрали члены одной команды по квиддичу за одну игру:

In [10]:
scores = pd.Series([150, 0, 20, 0, 30, 20, 0])
scores

0    150
1      0
2     20
3      0
4     30
5     20
6      0
dtype: int64

`Series` – объект, который связан с массивом NumPy и который наследует многие его атрибуты и методы. Так, если у массива были атрибуты `.dtype` и `.size`, значит, у `Series` тоже такие атрибуты будут. Проверим:

In [11]:
print(scores.dtype)
print(scores.size)

int64
7


Однако последовательность `Series` похож не только на массив. Помимо самих значений вы видим их индексы от 0 до 6, которые нельзя исключить. Получается, внутри последовательности хранятся пары *индекс-значение*. А это уже очень напоминает словарь! И, действительно, последовательность тоже можно разделить на части, только вместо ключей и значений здесь будут *индексы* и *значения*, хранящиеся в атрибутах `.index` и `.values`:

In [12]:
# отдельно индексы

print(scores.index)

RangeIndex(start=0, stop=7, step=1)


In [13]:
# отдельно значения

print(scores.values)

[150   0  20   0  30  20   0]


Поскольку числовые индексы элементам присвоились автоматически, они имеют особый тип `RangeIndex`, последовательность, которая очень похожа на стандартный тип `range`, набор целых от 0 до 7 (исключая правую границу) с шагом 1, который мы в явном виде не видим.

Чтобы стало совсем похоже на те словари, которые мы обсуждали, вместо абстрактных индексов добавим имена игроков. Добавим аргумент `index`, в котором перечислим новые названия:

In [14]:
scores = pd.Series([150, 0, 20, 0, 30, 20, 0], 
                   index = ["Harry", "Fred", "Alicia", 
                            "George", "Katie", "Angelina", "Oliver"])
print(scores)

Harry       150
Fred          0
Alicia       20
George        0
Katie        30
Angelina     20
Oliver        0
dtype: int64


Теперь в `.index` хранятся обычные строки (строковый тип в `pandas` называется `object`, не `str`):

In [15]:
print(scores.index)

Index(['Harry', 'Fred', 'Alicia', 'George', 'Katie', 'Angelina', 'Oliver'], dtype='object')


Теперь перейдем к самому главному – к датафреймам или таблицам. Самый простой способ получить датафрейм – считать данные из файла и сохранить их как датафрейм. Однако часто приходится выполнять и обратную задачу – создать датафрейм «с нуля», а затем экспортировать его в файл.

Создадим словарь `data_dict`, где ключами являюся текстовые названия, а значениями – списки одинаковой длины:

In [16]:
data_dict = {"Name" : ["Harry", "Fred", "Alicia", 
                       "George", "Katie", "Angelina", "Oliver"],
            "Score" : [150,   0,  20,   0,  30,  20,   0],
            "Status": ["seeker", "beater", "chaser", 
                       "beater", "chaser", "chaser", "keeper"]}

Нетрудно заметить, что из такого словаря может получиться таблица из трех столбцов `Name`, `Score` и `Status`. Преобразуем словарь в датафрейм с помощью функции `DataFrame()`:

In [17]:
tab = pd.DataFrame(data_dict)
tab

Unnamed: 0,Name,Score,Status
0,Harry,150,seeker
1,Fred,0,beater
2,Alicia,20,chaser
3,George,0,beater
4,Katie,30,chaser
5,Angelina,20,chaser
6,Oliver,0,keeper


Теперь можем выгрузить полученную таблицу в файл Excel:

In [18]:
tab.to_excel("example.xlsx")

В рабочей папке (рядом с текущим ipynb-файлом) появился файл `example.xlsx`. Если появились ошибки `OptionError` и `ValueError`, сообщающая `No engine for filetype`, проверьте написание расширения файла, метод `.to_excel()` работает только с корректными названиями файлов, заканчивающимися на `.xls` или `.xlsx`. Если расширение файла точно верно, тут возможны варианты, надо читать ошибку и в зависимости от проблемы, обновить или установить некоторые модули, которые активируются внутри `pandas` (см. начало конспекта, часть про `pip install...`.

В заключение посмотрим, из каких еще структур можно получить датафрейм. До этого мы обзорно знакомились с датафреймами – преобразовывали список списков с новостями в таблицу и выгружали ее в файл CSV. Один список внутри более большого списка – это одна строка таблицы. Проделаем такое на небольших списках:

In [19]:
info = [["player01", 0, 20, 10], 
        ["player02", 10, 30, 40]]

pd.DataFrame(info)

Unnamed: 0,0,1,2,3
0,player01,0,20,10
1,player02,10,30,40


Добавим названия столбцов:

In [20]:
pd.DataFrame(info, columns = ["name", "s1", "s2", "s3"])

Unnamed: 0,name,s1,s2,s3
0,player01,0,20,10
1,player02,10,30,40


Рассмотрим пример еще одного списка, но немного другого по структуре:

In [21]:
L = [[150, 0, 20, 0, 30, 20, 0], 
     ["seeker", "beater", "chaser", 
      "beater", "chaser", "chaser", "keeper"]]

pd.DataFrame(L)

Unnamed: 0,0,1,2,3,4,5,6
0,150,0,20,0,30,20,0
1,seeker,beater,chaser,beater,chaser,chaser,keeper


Здесь логика построения списка принципиально другая: один список – это один столбец, а не строка. Однако функция `DataFrame()` значения записывает по строкам. Чтобы это поправить, можем транспонировать полученный датафрейм – поменять местами строки и столбцы:

In [22]:
# T – транспонирование

pd.DataFrame(L).T

Unnamed: 0,0,1
0,150,seeker
1,0,beater
2,20,chaser
3,0,beater
4,30,chaser
5,20,chaser
6,0,keeper


Со списком кортежей будет та же история:

In [23]:
L2 = [(150, 0, 20, 0, 30, 20, 0), 
      ("seeker", "beater", "chaser", 
       "beater", "chaser", "chaser", "keeper")]

In [24]:
pd.DataFrame(L2).T

Unnamed: 0,0,1
0,150,seeker
1,0,beater
2,20,chaser
3,0,beater
4,30,chaser
5,20,chaser
6,0,keeper


Наконец, датафрейм можно получить из списка словарей. Здесь важно, чтобы ключи внутри каждого словаря были одинаковы:

In [25]:
D = [{"name" : "Anna", "age" : 23},
     {"name" : "Katie", "age" : 27}]

pd.DataFrame(D)

Unnamed: 0,name,age
0,Anna,23
1,Katie,27


Итак, на что похожи столбцы датафрейма и как создать датафрейм «с нуля», мы обсудили. Можем перейти к загрузке данных из файла и их описанию.