## Модуль pandas

Тут мы изучим назначение и базовые возможности модуля pandas для обработки и анализа табличных структур данных.
Раннее мы познакомились с библиотекой numpy и узнали, что она позволяет существенно ускорить вычисления в Python. А сейчас мы рассмотрим библиотеку pandas, которая применяется для обработки и анализа табличных данных. В этой библиотеке используется numpy для удобного хранения данных и вычислений.
Для установки pandas выполним команду:

In [None]:
!pip install pandas

Во всех примерах предполагается, что библиотеки numpy и pandas импортированы следующим образом:

In [None]:
import numpy as np
import pandas as pd

В библиотеке pandas определены два класса объектов для работы с данными:

`Series` — одномерный массив, который может хранить значения любого типа данных;

`DataFrame` — двумерный массив (таблица), в котором столбцами являются объекты класса `Series`.

Создать объект класса `Series` можно следующим образом:

In [None]:
s = pd.Series(data, index=index)

В качестве data могут выступать: массив numpy, словарь, число. В аргумент index передаётся список меток осей. Метка может быть числом, но чаще используются метки-строки.


Если data является массивом numpy, то index должен иметь такую же длину, как и data. Если аргумент index не передаётся, то по умолчанию для index автоматически назначается список [0, ..., len(data) - 1]:


In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print(s)
print()
s = pd.Series(np.linspace(0, 1, 5))
print(s)

Из вывода программы видно, что Series фактически является аналогом словаря, так как вместо числовых индексов может использовать метки в виде строк.
Если data задаётся словарём, а index не передаётся, то в качестве индекса используются ключи-словари. Если index передаётся, то его длина может не совпадать с длиной словаря data. В таком случае по индексам, для которых нет ключа с соответствующим значением в словаре, будут храниться значения NaN — стандартное обозначение отсутствия данных в библиотеке pandas.

In [None]:
d = {"a": 10, "b": 20, "c": 30, "g": 40}
print(pd.Series(d))
print()
print(pd.Series(d, index=["a", "b", "c", "d"]))

Если data задаётся числом, то index нужно обязательно передать. Количество элементов в Series будет равно числу меток в index, а значения будут равны data:

In [None]:
index = ["a", "b", "c"]
print(pd.Series(5, index=index))

Для Series доступно взятие элемента по индексу, срезы, поэлементные математические операции аналогично массивам numpy.

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print("Выбор одного элемента")
print(s["a"])
print("Выбор нескольких элементов")
print(s[["a", "d"]])
print("Срез")
print(s[1:])
print("Поэлементное сложение")
print(s + s)

Для Series можно применять фильтрацию данных по условию, записанному в качестве индекса:

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print("Фильтрация")
print(s[s > 2])

Объекты Series имеют атрибут name со значением имени набора данных, а также атрибут index.name с именем для индексов:

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
s.name = "Данные"
s.index.name = "Индекс"
print(s)

Объект класса DataFrame работает с двумерными табличными данными. Создать DataFrame проще всего из словаря Python следующим образом:

In [None]:
students_marks_dict = {"student": ["Студент_1", "Студент_2", "Студент_3"],
                       "math": [5, 3, 4],
                       "physics": [4, 5, 5]}
students = pd.DataFrame(students_marks_dict)
print(students)

У объекта класса DataFrame есть индексы по строкам (index) и столбцам (columns):

In [None]:
print(students.index)
print(students.columns)

Для индекса по строке по умолчанию задаётся числовое значение. Значения индекса можно заменить путём записи списка в атрибут index:

In [None]:

students.index = ["A", "B", "C"]
print(students)

Для доступа к записям таблицы по строковой метке используется атрибут loc. При использовании строковой метки доступна операция среза:

In [None]:

print(students.loc["B":])

Здесь остановимся и прорешаем задачи из ЯндексХэндбука
- A
- B