# Pandas (Часть 1)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2 pandas==1.3.3` 


## Содержание

* [Создание объекта таблицы](#Создание-объекта-таблицы)
  * [Задание - моя первая таблица!](#Задание---моя-первая-таблица)
* [Создание фрейма из словарей](#Создание-фрейма-из-словарей)
* [Типы данных](#Типы-данных)
* [Обзор данных](#Обзор-данных)
* [Обращение к данным](#Обращение-к-данным)
  * [Задание - выделяем часть](#Задание---выделяем-часть)


В этом ноутбуке:
- Что за тип такой - Dataframe
- Из словарей в таблицу
- Подробнее о типах данных, используемых для создания Dataframe
- Что делать в первую очередь с таблицей? Полезные функции для первого впечатления
- Обращение к данным (индексация [ ], loc/iloc и т.д.)

Pandas - это библиотека для работы с табличными данными. Просто незаменимая в нашей последующей работе

<img src="https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/assets/logo/pd-white-logo.svg" height="150px"></img>

**Pandas ≡ Таблицы**

Как всегда, [официальный сайт](https://pandas.pydata.org/) предоставляет самую актуальную и полезную информацию. Доки по функциям и классам [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/index.html).

Импорт библиотеки с устоявшимся сокращением:

In [1]:
import pandas as pd
import numpy as np

## Создание объекта таблицы

Начнём с простого создания объекта основного класса в pandas - `DataFrame`. 

Фреймы в pandas представляют собой двумёрные массивы (матрицы) данных. Для применения в машинном обучении визуально можно представить данные следующим образом:

$$
X = 
\begin{bmatrix}
x^{(1)}_1 & \dots & x^{(1)}_{m-1} & x^{(1)}_m \\
x^{(2)}_1 & \dots & x^{(2)}_{m-1} & x^{(2)}_m \\
\vdots & \ddots &  \vdots & \vdots  \\
x^{(n)}_1 & \dots & x^{(n)}_{m-1} & x^{(n)}_m \\
\end{bmatrix}
$$

где $n$ - количество записей (сэмплов/рядов) в данных, $m$ - количество признаков (предикторов/фич) в данных.

> **Признаки** в данных - это те данные, на основе которых производится анализ данных, обучение модели и предсказание. В реальной задаче признаками могут быть "цена", "пол", "группа крови", "текст в заявке" и т.д. [Колонки в таблице]

> **Записи** в данных - сущности, каждая из которых имеет свой набор значений признаков. В базе данных банка это могут быть отдельные транзакции. Все транзакции имеют одинаковые признаки, но значения этих признаков у каждой записи свои. [Строки в таблице]

Создание `DataFrame` возможно разными способами, для начала попробуем создать фрейм из двумерного массива:

In [2]:
arr = np.random.randint(0, 10, size=(5, 3))
print(arr)

[[3 7 0]
 [6 1 2]
 [5 9 4]
 [6 8 4]
 [0 6 0]]


In [3]:
# Создание фрейма - просто вызвать конструктор
df = pd.DataFrame(data=arr)
# Фреймы удобнее отображать с помощью встроенных средств Jupyter
df

Unnamed: 0,0,1,2
0,3,7,0
1,6,1,2
2,5,9,4
3,6,8,4
4,0,6,0


В представленном фрейме важно отметить две особенности:
- Колонки (признаки) имеют имена, но так как мы их (имена) не задали, то они создались автоматически;
- Каждая строка (запись) имеет **уникальный** индекс, тоже создались сами, так как мы не передавали своих индексов.

Для задания имен колонок используется аргумент в конструкторе `columns`, в который передаёся список имён по количеству признаков. 

Для задания индексов аргумент `index`, в который передаётся список индексов по количеству записей в массиве.

### Задание - моя первая таблица!

Создайте фрейм с именами колонок `'col_1', 'col_2', 'col_3'` и индексами по алфавиту (`'A', 'B', 'C', ...` или `'A', 'Б', 'В', ...`).

In [6]:
# TODO
arr = np.random.randint(0, 10, size=(5, 3))
frame = pd.DataFrame(data=arr, columns=['col_1', 'col_2', 'col_3'], index=['A', 'B', 'C', 'D', 'E'])
frame

Unnamed: 0,col_1,col_2,col_3
A,5,1,3
B,0,3,0
C,0,9,0
D,9,6,7
E,0,9,4


## Создание фрейма из словарей

Другим способом создания фрейма является конструктор на основе словаря с данными:

In [7]:
# Создаётся словарь, в котором ключи будут названиями колонок,
#   а значения - данные по этим колонкам
data = {
    'test_1_mark': [4.6, 3.8, 5.0, 4.5],
    'test_2_mark': [5.0, 3.9, 4.7, 4.5]
}

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,4.7
3,4.5,4.5


Альтернативой использования словарей является создание массива словарей:

In [8]:
# Создается список записей, каждая запись представлена словарем
# В словаре ключи - названия колонок
# При создании фрейма pandas просмотри все возможные ключи словарей в списке
#   и создаст колонок по их названиям
data = [
    {
        'test_1_mark': 4.6,
        'test_2_mark': 5.0
    },
    {
        'test_1_mark': 3.8,
        'test_2_mark': 3.9
    },
    {
        'test_1_mark': 5.0
    },
]

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,


Обратите внимание, в одной записи отсутствовало значение для колонки и во фрейме такое значение обозначено как `NaN`.

> **NaN** (Not a Number) - представление пропусков во фрейме.

Пропуски в данных явление достаточно распространённое. Например, если данные собираются путём анкетирования, то опциональный вопрос может не иметь ответа, поэтому такие записи пропускаются. При разработке моделей машинного обучения с пропусками ведётся отдельная работа, но для сырых данных - это нормальное явление.

## Типы данных

Как и в numpy, pandas поддерживает различные типы данных. Для примера создадим фрейм, в котором колонки имеют разные типы данных:

In [9]:
df = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20130102'),
                   'C': np.array([2.] * 4, dtype='float32'),
                   'D': np.array([3] * 4, dtype='int32'),
                   'E': pd.Categorical(["test", "train", "test", "train"]),
                   'F': 'foo'})
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,2.0,3,test,foo
1,1.0,2013-01-02,2.0,3,train,foo
2,1.0,2013-01-02,2.0,3,test,foo
3,1.0,2013-01-02,2.0,3,train,foo


Как видите, создаётся фрейм, в котором каждая колонка имеет свой тип. Из них для нас имеются два новых типа:
- `Timestamp` - конструктор для временного типа в pandas (`datetime64`);
- `Categorical` - категориальный тип, который в большинстве своём является альтернативой численным данным.

> **Категориальные данные** - данные, значения которых ограничены списком категорий (одно из возможных значений);

> **Численные данные** - данные, которые имеют численное значение (вещественное или целочисленное).

Для просмотра информации о фрейме полезно использовать метод `DataFrame.info()`:

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   A       4 non-null      float64       
 1   B       4 non-null      datetime64[ns]
 2   C       4 non-null      float32       
 3   D       4 non-null      int32         
 4   E       4 non-null      category      
 5   F       4 non-null      object        
dtypes: category(1), datetime64[ns](1), float32(1), float64(1), int32(1), object(1)
memory usage: 384.0+ bytes


Если тип данных не задан явно как категориальный, то строки будут иметь тип `object`, как универсальный тип данных.

## Обзор данных

Начало любого анализа данных происходит с того, что мы должны разобраться, с чем имеем дело, поэтому возможности быстрого обзора данных - то, что нужно:

In [11]:
df = pd.DataFrame(
    data=np.random.randint(-10, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# Функция получения первых записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.head(4)

Unnamed: 0,x1,x2,x3
0,9,-2,-10
1,5,-2,-7
2,-4,-6,5
3,7,-3,5


In [12]:
# Функция получения последних записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.tail(4)

Unnamed: 0,x1,x2,x3
11,-3,-5,-6
12,-10,4,2
13,1,-9,3
14,3,-9,0


In [13]:
# Функция отображения основной информации о фрейме:
#   Количество записей
#   Типы колонок
#   Количество ненулевых значений
#   Тип индекса
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   x1      15 non-null     int32
 1   x2      15 non-null     int32
 2   x3      15 non-null     int32
dtypes: int32(3)
memory usage: 308.0 bytes


In [14]:
# Функция отображения статистики по численным колонкам
df.describe()

Unnamed: 0,x1,x2,x3
count,15.0,15.0,15.0
mean,-1.266667,-2.733333,-0.866667
std,6.776711,4.651677,5.330059
min,-10.0,-9.0,-10.0
25%,-7.0,-6.5,-6.0
50%,-3.0,-3.0,0.0
75%,4.0,0.5,2.5
max,9.0,6.0,6.0


In [15]:
# Атрибут получения индексов фрейма
df.index

RangeIndex(start=0, stop=15, step=1)

In [16]:
# Или чтобы представить в виде списка
list(df.index)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

In [17]:
# Атрибут получения имён колонок фрейма
df.columns

Index(['x1', 'x2', 'x3'], dtype='object')

In [18]:
# Атрибут размерности фрейма
df.shape

(15, 3)

In [19]:
# Преобразование к двумерному массиву numpy
df.to_numpy()

array([[  9,  -2, -10],
       [  5,  -2,  -7],
       [ -4,  -6,   5],
       [  7,  -3,   5],
       [-10,  -1,   2],
       [ -5,   2,   2],
       [ -9,  -4,   0],
       [ -9,   6,   6],
       [  0,  -7,  -9],
       [ -3,   2,  -6],
       [  9,  -7,   0],
       [ -3,  -5,  -6],
       [-10,   4,   2],
       [  1,  -9,   3],
       [  3,  -9,   0]])

In [20]:
# Получение транспонированного представления
# Колонки -> ряды, ряды -> колонки
df.T

# (*) Транспонирование вряд ли часто понадобится при анализе, но учитывать стоит

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
x1,9,5,-4,7,-10,-5,-9,-9,0,-3,9,-3,-10,1,3
x2,-2,-2,-6,-3,-1,2,-4,6,-7,2,-7,-5,4,-9,-9
x3,-10,-7,5,5,2,2,0,6,-9,-6,0,-6,2,3,0


## Обращение к данным

Так как данные представлены в виде двумерного массива, то обращение к ним является важным инструментом.

Начнём с того, чтобы обращаться к конкретной колонке:

In [21]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)

df

Unnamed: 0,x1,x2,x3
0,9,6,7
1,1,6,5
2,4,0,4
3,5,7,9
4,3,7,6


In [24]:
print(df['x1'])
print(type(df['x1']))

0    9
1    1
2    4
3    5
4    3
Name: x1, dtype: int32
<class 'pandas.core.series.Series'>


Индексация во фрейме по колонкам производится по имени колонок. 

В результате создаётся объект `Series` (ряд), который является одномерным массивом. В случае индексации по колонкам каждая запись в ряду имеет индекс из основного фрейма. 

Аналогичный тип данных создаётся, когда мы обращаемся к конкретной записи в данных. Кстати, просто так не обратиться, поэтому для индексации по записям используются методы `DataFrame.iloc[]` и `DataFrame.loc[]`.

Взгляните на разницу:

In [25]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [26]:
df.iloc[2]

feature1           2
feature2    1.428571
feature3      string
Name: C, dtype: object

In [27]:
df.loc['C']

feature1           2
feature2    1.428571
feature3      string
Name: C, dtype: object

In [28]:
df.iloc[2, 1]

1.4285714285714286

In [29]:
df.loc['C', 'feature2']

1.4285714285714286

Если разница не явна, то обсудим:
> `.iloc[]` используется для обращения по индексам как рядов, так и колонок;

> `.loc[]` используется для обращения по именованиям как рядов, так и колонок.

В индексации можно применять как слайсы, подобно тем, что научились применять в numpy, так и массивы в качестве индексов.

При индексации по единственной строке создается объект `Series`, но уже с индексами в виде колонок.


### Задание - выделяем часть

Выведите часть фрейма со второго ряда по девятый (индексы с 'C' по 'I') и только `feature1` и `feature3`:

In [30]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [42]:
# TODO - выделите часть фрейма с помощью .loc[]
df.loc['C':'I', ['feature1','feature3']]

Unnamed: 0,feature1,feature3
C,2,string
D,3,string
E,4,string
F,5,string
G,6,string
H,7,string
I,8,string


In [43]:
# TODO - выделите часть фрейма с помощью .iloc[]
df.iloc[2:9, [0,2]]

Unnamed: 0,feature1,feature3
C,2,string
D,3,string
E,4,string
F,5,string
G,6,string
H,7,string
I,8,string
