# Pandas (Часть 1)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3`

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2, pandas==1.3.3`

Pandas - это библиотека для работы с табличными данными.

Как всегда, [официальный сайт](https://pandas.pydata.org/) предоставляет самую актуальную и полезную информацию. Доки по функциям и классам [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/index.html).

Импорт библиотеки с устоявшимся сокращением:

In [2]:
import pandas as pd
import numpy as np

# Создание объекта таблицы <a name="table"></a>

Начнём с простого создания объекта основного класса в pandas - `DataFrame`. 

Фреймы в pandas представляют собой двумёрные массивы (матрицы) данных. Для применения в машинном обучении визуально можно представить данные следующим образом:

$$
X = 
\begin{bmatrix}
x^{(1)}_1 & \dots & x^{(1)}_{m-1} & x^{(1)}_m \\
x^{(2)}_1 & \dots & x^{(2)}_{m-1} & x^{(2)}_m \\
\vdots & \ddots &  \vdots & \vdots  \\
x^{(n)}_1 & \dots & x^{(n)}_{m-1} & x^{(n)}_m \\
\end{bmatrix}
$$

где $n$ - количество записей (сэмплов/рядов) в данных, $m$ - количество признаков (предикторов/фич) в данных.

> **Признаки** в данных - это те данные, на основе которых производится анализ данных, обучение модели и предсказание. В реальной задаче признаками могут быть "цена", "пол", "группа крови", "текст в заявке" и т.д. [Колонки в таблице]

> **Записи** в данных - сущности, каждая из которых имеет свой набор значений признаков. В базе данных банка это могут быть отдельные транзакции. Все транзакции имеют одинаковые признаки, но значения этих признаков у каждой записи свои. [Строки в таблице]

Создание `DataFrame` возможно разными способами, для начала попробуем создать фрейм из двумерного массива:

In [3]:
arr = np.random.randint(0, 10, size=(5, 3))
print(arr)

[[3 5 8]
 [9 0 0]
 [1 0 9]
 [6 7 1]
 [5 5 8]]


In [4]:
# Создание фрейма - просто вызвать конструктор
df = pd.DataFrame(data=arr)
# Фреймы удобнее отображать с помощью встроенных средств Jupyter
df

Unnamed: 0,0,1,2
0,3,5,8
1,9,0,0
2,1,0,9
3,6,7,1
4,5,5,8


В представленном фрейме важно отметить две особенности:
- Колонки (признаки) имеют имена, но так как мы их (имена) не задали, то они создались автоматически;
- Каждая строка (запись) имеет **уникальный** индекс, тоже создались сами, так как мы не передавали своих индексов.

Для задания имен колонок используется аргумент в конструкторе `columns`, в который передаёся список имён по количеству признаков. 

Для задания индексов аргумент `index`, в который передаётся список индексов по количеству записей в массиве.

## Задание

Создайте фрейм с именами колонок `'col_1', 'col_2', 'col_3'` и индексами по алфавиту (`'A', 'B', 'C', ...` или `'A', 'Б', 'В', ...`).

In [8]:
# TODO
arr = np.random.randint(0, 10, size=(5, 3))
col = ['col_1', 'col_2', 'col_3']
alf = ['A', 'B', 'C', 'D', 'E']
df = pd.DataFrame(data=arr, index=alf, columns=col )
df

Unnamed: 0,col_1,col_2,col_3
A,1,9,7
B,9,5,3
C,2,7,3
D,8,6,2
E,2,0,1


# Создание фрейма из словарей <a name="dict"></a>

Другим способом создания фрейма является конструктор на основе словаря с данными:

In [9]:
# Создаётся словарь, в котором ключи будут названиями колонок,
#   а значения - данные по этим колонкам
data = {
    'test_1_mark': [4.6, 3.8, 5.0, 4.5],
    'test_2_mark': [5.0, 3.9, 4.7, 4.5]
}

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,4.7
3,4.5,4.5


Альтернативой использования словарей является создание массива словарей:

In [10]:
# Создается список записей, каждая запись представлена словарем
# В словаре ключи - названия колонок
# При создании фрейма pandas просмотри все возможные ключи словарей в списке
#   и создаст колонок по их названиям
data = [
    {
        'test_1_mark': 4.6,
        'test_2_mark': 5.0
    },
    {
        'test_1_mark': 3.8,
        'test_2_mark': 3.9
    },
    {
        'test_1_mark': 5.0
    },
]

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,


Обратите внимание, в одной записи отсутствовало значение для колонки и во фрейме такое значение обозначено как `NaN`.

> **NaN** (Not a Number) - представление пропусков во фрейме.

Пропуски в данных явление достаточно распространённое. Например, если данные собираются путём анкетирования, то опциональный вопрос может не иметь ответа, поэтому такие записи пропускаются. При разработке моделей машинного обучения с пропусками ведётся отдельная работа, но для сырых данных - это нормальное явление.

# Типы данных <a name="type"></a>

Как и в numpy, pandas поддерживает различные типы данных. Для примера создадим фрейм, в котором колонки имеют разные типы данных:

In [11]:
df = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20130102'),
                   'C': np.array([2.] * 4, dtype='float32'),
                   'D': np.array([3] * 4, dtype='int32'),
                   'E': pd.Categorical(["test", "train", "test", "train"]),
                   'F': 'foo'})
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,2.0,3,test,foo
1,1.0,2013-01-02,2.0,3,train,foo
2,1.0,2013-01-02,2.0,3,test,foo
3,1.0,2013-01-02,2.0,3,train,foo


Как видите, создаётся фрейм, в котором каждая колонка имеет свой тип. Из них для нас имеются два новых типа:
- `Timestamp` - конструктор для временного типа в pandas (`datetime64`);
- `Categorical` - категориальный тип, который в большинстве своём является альтернативой численным данным.

> **Категориальные данные** - данные, значения которых ограничены списком категорий (одно из возможных значений);

> **Численные данные** - данные, которые имеют численное значение (вещественное или целочисленное).

Для просмотра информации о фрейме полезно использовать метод `DataFrame.info()`:

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   A       4 non-null      float64       
 1   B       4 non-null      datetime64[ns]
 2   C       4 non-null      float32       
 3   D       4 non-null      int32         
 4   E       4 non-null      category      
 5   F       4 non-null      object        
dtypes: category(1), datetime64[ns](1), float32(1), float64(1), int32(1), object(1)
memory usage: 384.0+ bytes


Если тип данных не задан явно как категориальный, то строки будут иметь тип `object`, как универсальный тип данных.

# Обзор данных <a name="review"></a>

Начало любого анализа данных происходит с того, что мы должны разобраться, с чем имеем дело, поэтому возможности быстрого обзора данных - то, что нужно:

In [13]:
df = pd.DataFrame(
    data=np.random.randint(-10, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# Функция получения первых записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.head(4)

Unnamed: 0,x1,x2,x3
0,0,8,2
1,3,2,-7
2,-8,-2,-8
3,8,-10,2


In [17]:
# Функция получения последних записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.tail(4)

Unnamed: 0,x1,x2,x3
11,-8,4,-6
12,-10,-10,0
13,-10,0,8
14,-4,-3,5


In [15]:
# Функция отображения основной информации о фрейме:
#   Количество записей
#   Типы колонок
#   Количество ненулевых значений
#   Тип индекса
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   x1      15 non-null     int32
 1   x2      15 non-null     int32
 2   x3      15 non-null     int32
dtypes: int32(3)
memory usage: 308.0 bytes


In [18]:
# Функция отображения статистики по численным колонкам
df.describe()

Unnamed: 0,x1,x2,x3
count,15.0,15.0,15.0
mean,-3.066667,0.666667,-0.133333
std,6.181385,5.752846,5.125102
min,-10.0,-10.0,-8.0
25%,-8.0,-3.0,-4.0
50%,-4.0,2.0,0.0
75%,3.0,4.5,3.0
max,8.0,8.0,8.0


In [19]:
# Атрибут получения индексов фрейма
df.index

RangeIndex(start=0, stop=15, step=1)

In [20]:
# Или чтобы представить в виде списка
list(df.index)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

In [21]:
# Атрибут получения имён колонок фрейма
df.columns

Index(['x1', 'x2', 'x3'], dtype='object')

In [22]:
# Атрибут размерности фрейма
df.shape

(15, 3)

In [23]:
# Преобразование к двумерному массиву numpy
df.to_numpy()

array([[  0,   8,   2],
       [  3,   2,  -7],
       [ -8,  -2,  -8],
       [  8, -10,   2],
       [  3,  -3,   0],
       [ -3,   4,  -4],
       [ -9,   7,   1],
       [ -8,   5,  -4],
       [ -8,   4,   4],
       [  4,   7,   8],
       [  4,  -3,  -3],
       [ -8,   4,  -6],
       [-10, -10,   0],
       [-10,   0,   8],
       [ -4,  -3,   5]])

In [24]:
# Получение транспонированного представления
# Колонки -> ряды, ряды -> колонки
df.T

# (*) Транспонирование вряд ли часто понадобится при анализе, но учитывать стоит

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
x1,0,3,-8,8,3,-3,-9,-8,-8,4,4,-8,-10,-10,-4
x2,8,2,-2,-10,-3,4,7,5,4,7,-3,4,-10,0,-3
x3,2,-7,-8,2,0,-4,1,-4,4,8,-3,-6,0,8,5


# Обращение к данным <a name="data"></a>

Так как данные представлены в виде двумерного массива, то обращение к ним является важным инструментом.

Начнём с того, чтобы обращаться к конкретной колонке:

In [25]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)

dfdf = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)

df

Unnamed: 0,x1,x2,x3
0,8,0,4
1,2,8,4
2,7,4,2
3,8,2,6
4,2,1,7


In [28]:
print(df['x1'])
print(type(df['x1']))


0    8
1    2
2    7
3    8
4    2
Name: x1, dtype: int32
<class 'pandas.core.series.Series'>


Индексация во фрейме по колонкам производится по имени колонок. 

В результате создаётся объект `Series` (ряд), который является одномерным массивом. В случае индексации по колонкам каждая запись в ряду имеет индекс из основного фрейма. 

Аналогичный тип данных создаётся, когда мы обращаемся к конкретной записи в данных. Кстати, просто так не обратиться, поэтому для индексации по записям используются методы `DataFrame.iloc[]` и `DataFrame.loc[]`.

Взгляните на разницу:

In [30]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [31]:
df.iloc[2]

feature1           2
feature2    1.428571
feature3      string
Name: C, dtype: object

In [32]:
df.loc['C']

feature1           2
feature2    1.428571
feature3      string
Name: C, dtype: object

In [33]:
df.iloc[2, 1]

1.4285714285714286

In [34]:
df.loc['C', 'feature2']

1.4285714285714286

Если разница не явна, то обсудим:
> `.iloc[]` используется для обращения по индексам как рядов, так и колонок;

> `.loc[]` используется для обращения по именованиям как рядов, так и колонок.

В индексации можно применять как слайсы, подобно тем, что научились применять в numpy, так и массивы в качестве индексов.

При индексации по единственной строке создается объект `Series`, но уже с индексами в виде колонок.


## Задание

Выведите часть фрейма со второго ряда по девятый (индексы с 'C' по 'I') и только `feature1` и `feature3`:

In [35]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [36]:
# TODO - выделите часть фрейма с помощью .loc[]
df.loc['C':'I','feature1':'feature2']

Unnamed: 0,feature1,feature2
C,2,1.428571
D,3,2.142857
E,4,2.857143
F,5,3.571429
G,6,4.285714
H,7,5.0
I,8,5.714286


In [38]:
# TODO - выделите часть фрейма с помощью .iloc[]
df.iloc[2:9, 0:2]

Unnamed: 0,feature1,feature2
C,2,1.428571
D,3,2.142857
E,4,2.857143
F,5,3.571429
G,6,4.285714
H,7,5.0
I,8,5.714286
