# Pandas (Часть 1)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.5.0` 

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.21.2 pandas==1.5.0` 


## Содержание

* [Создание объекта таблицы](#Создание-объекта-таблицы)
  * [Задание - моя первая таблица!](#Задание---моя-первая-таблица)
* [Создание фрейма из словарей](#Создание-фрейма-из-словарей)
* [Типы данных](#Типы-данных)
* [Обзор данных](#Обзор-данных)
* [Обращение к данным](#Обращение-к-данным)
  * [Задание - выделяем часть](#Задание---выделяем-часть)


В этом ноутбуке:
- Что за тип такой - Dataframe
- Из словарей в таблицу
- Подробнее о типах данных, используемых для создания Dataframe
- Что делать в первую очередь с таблицей? Полезные функции для первого впечатления
- Обращение к данным (индексация [ ], loc/iloc и т.д.)

Pandas - это библиотека для работы с табличными данными. Просто незаменимая в нашей последующей работе

<img src="https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/assets/logo/pd-white-logo.svg" height="150px"></img>

**Pandas ≡ Таблицы**

Как всегда, [официальный сайт](https://pandas.pydata.org/) предоставляет самую актуальную и полезную информацию. Доки по функциям и классам [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/index.html).

Импорт библиотеки с устоявшимся сокращением:

In [None]:
import pandas as pd
import numpy as np

## Создание объекта таблицы

Начнём с простого создания объекта основного класса в pandas - `DataFrame`. 

Фреймы в pandas представляют собой двумёрные массивы (матрицы) данных. Для применения в машинном обучении визуально можно представить данные следующим образом:

$$
X = 
\begin{bmatrix}
x^{(1)}_1 & \dots & x^{(1)}_{m-1} & x^{(1)}_m \\
x^{(2)}_1 & \dots & x^{(2)}_{m-1} & x^{(2)}_m \\
\vdots & \ddots &  \vdots & \vdots  \\
x^{(n)}_1 & \dots & x^{(n)}_{m-1} & x^{(n)}_m \\
\end{bmatrix}
$$

где $n$ - количество записей (сэмплов/рядов) в данных, $m$ - количество признаков (предикторов/фич) в данных.

> **Признаки** в данных - это те данные, на основе которых производится анализ данных, обучение модели и предсказание. В реальной задаче признаками могут быть "цена", "пол", "группа крови", "текст в заявке" и т.д. [Колонки в таблице]

> **Записи** в данных - сущности, каждая из которых имеет свой набор значений признаков. В базе данных банка это могут быть отдельные транзакции. Все транзакции имеют одинаковые признаки, но значения этих признаков у каждой записи свои. [Строки в таблице]

Создание `DataFrame` возможно разными способами, для начала попробуем создать фрейм из двумерного массива:

In [None]:
arr = np.random.randint(0, 10, size=(5, 3))
print(arr)

In [None]:
# Создание фрейма - просто вызвать конструктор
df = pd.DataFrame(data=arr)
# Фреймы удобнее отображать с помощью встроенных средств Jupyter
df

В представленном фрейме важно отметить две особенности:
- Колонки (признаки) имеют имена, но так как мы их (имена) не задали, то они создались автоматически;
- Каждая строка (запись) имеет **уникальный** индекс, тоже создались сами, так как мы не передавали своих индексов.

Для задания имен колонок используется аргумент в конструкторе `columns`, в который передаёся список имён по количеству признаков. 

Для задания индексов аргумент `index`, в который передаётся список индексов по количеству записей в массиве.

### Задание - моя первая таблица!

Создайте фрейм с именами колонок `'col_1', 'col_2', 'col_3'` и индексами по алфавиту (`'A', 'B', 'C', ...` или `'A', 'Б', 'В', ...`).

In [None]:
import pandas as pd
import numpy as np
# TODO
arr = np.random.randint(0, 10, size=(5, 3))
index = ('A', 'B', 'C', 'D', 'E')
columns = ('col_1', 'col_2', 'col_3')
df = pd.DataFrame(data = arr, index = index, columns = columns)
# Фреймы удобнее отображать с помощью встроенных средств Jupyter
print(df)

## Создание фрейма из словарей

Другим способом создания фрейма является конструктор на основе словаря с данными:

In [None]:
# Создаётся словарь, в котором ключи будут названиями колонок,
#   а значения - данные по этим колонкам
data = {
    'test_1_mark': [4.6, 3.8, 5.0, 4.5],
    'test_2_mark': [5.0, 3.9, 4.7, 4.5]
}

pd.DataFrame(data)

Альтернативой использования словарей является создание массива словарей:

In [None]:
# Создается список записей, каждая запись представлена словарем
# В словаре ключи - названия колонок
# При создании фрейма pandas просмотри все возможные ключи словарей в списке
#   и создаст колонок по их названиям
data = [
    {
        'test_1_mark': 4.6,
        'test_2_mark': 5.0
    },
    {
        'test_1_mark': 3.8,
        'test_2_mark': 3.9
    },
    {
        'test_1_mark': 5.0
    },
]

pd.DataFrame(data)

Обратите внимание, в одной записи отсутствовало значение для колонки и во фрейме такое значение обозначено как `NaN`.

> **NaN** (Not a Number) - представление пропусков во фрейме.

Пропуски в данных явление достаточно распространённое. Например, если данные собираются путём анкетирования, то опциональный вопрос может не иметь ответа, поэтому такие записи пропускаются. При разработке моделей машинного обучения с пропусками ведётся отдельная работа, но для сырых данных - это нормальное явление.

## Типы данных

Как и в numpy, pandas поддерживает различные типы данных. Для примера создадим фрейм, в котором колонки имеют разные типы данных:

In [None]:
df = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20130102'),
                   'C': np.array([2.] * 4, dtype='float32'),
                   'D': np.array([3] * 4, dtype='int32'),
                   'E': pd.Categorical(["test", "train", "test", "train"]),
                   'F': 'foo'})
df

Как видите, создаётся фрейм, в котором каждая колонка имеет свой тип. Из них для нас имеются два новых типа:
- `Timestamp` - конструктор для временного типа в pandas (`datetime64`);
- `Categorical` - категориальный тип, который в большинстве своём является альтернативой численным данным.

> **Категориальные данные** - данные, значения которых ограничены списком категорий (одно из возможных значений);

> **Численные данные** - данные, которые имеют численное значение (вещественное или целочисленное).

Для просмотра информации о фрейме полезно использовать метод `DataFrame.info()`:

In [None]:
df.info()

Если тип данных не задан явно как категориальный, то строки будут иметь тип `object`, как универсальный тип данных.

## Обзор данных

Начало любого анализа данных происходит с того, что мы должны разобраться, с чем имеем дело, поэтому возможности быстрого обзора данных - то, что нужно:

In [None]:
df = pd.DataFrame(
    data=np.random.randint(-10, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# Функция получения первых записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.head(4)

In [None]:
# Функция получения последних записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.tail(4)

In [None]:
# Функция отображения основной информации о фрейме:
#   Количество записей
#   Типы колонок
#   Количество ненулевых значений
#   Тип индекса
df.info()

In [None]:
# Функция отображения статистики по численным колонкам
df.describe()

In [None]:
# Атрибут получения индексов фрейма
df.index

In [None]:
# Или чтобы представить в виде списка
list(df.index)

In [None]:
# Атрибут получения имён колонок фрейма
df.columns

In [None]:
# Атрибут размерности фрейма
df.shape

In [None]:
# Преобразование к двумерному массиву numpy
df.to_numpy()

In [None]:
# Получение транспонированного представления
# Колонки -> ряды, ряды -> колонки
df.T

# (*) Транспонирование вряд ли часто понадобится при анализе, но учитывать стоит

## Обращение к данным

Так как данные представлены в виде двумерного массива, то обращение к ним является важным инструментом.

Начнём с того, чтобы обращаться к конкретной колонке:

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)

df

In [None]:
print(df['x1'])
print(type(df['x1']))

Индексация во фрейме по колонкам производится по имени колонок. 

В результате создаётся объект `Series` (ряд), который является одномерным массивом. В случае индексации по колонкам каждая запись в ряду имеет индекс из основного фрейма. 

Аналогичный тип данных создаётся, когда мы обращаемся к конкретной записи в данных. Кстати, просто так не обратиться, поэтому для индексации по записям используются методы `DataFrame.iloc[]` и `DataFrame.loc[]`.

Взгляните на разницу:

In [None]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

In [None]:
df.iloc[2]

In [None]:
df.loc['C']

In [None]:
df.iloc[2, 1]

In [None]:
df.loc['C', 'feature2']

Если разница не явна, то обсудим:
> `.iloc[]` используется для обращения по индексам как рядов, так и колонок;

> `.loc[]` используется для обращения по именованиям как рядов, так и колонок.

В индексации можно применять как слайсы, подобно тем, что научились применять в numpy, так и массивы в качестве индексов.

При индексации по единственной строке создается объект `Series`, но уже с индексами в виде колонок.


### Задание - выделяем часть

Выведите часть фрейма со второго ряда по девятый (индексы с 'C' по 'I') и только `feature1` и `feature3`:

In [None]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
subset = df.loc['C':'I', ['feature1', 'feature3']]
print(subset)
df.head()


In [None]:
# TODO - выделите часть фрейма с помощью .loc[]

In [None]:
# TODO - выделите часть фрейма с помощью .iloc[]