<a href="https://colab.research.google.com/github/Ulugbek9403/ml_edu/blob/master/notebooks/06_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas (Часть 1)

# Новый раздел

> 🚀 В этой практике нам понадобятся: `numpy==1.26.4, pandas==2.2.2`

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.26.4 pandas==2.2.2`


## Содержание

* [Создание объекта таблицы](#Создание-объекта-таблицы)
  * [Задание - моя первая таблица!](#Задание---моя-первая-таблица)
* [Создание фрейма из словарей](#Создание-фрейма-из-словарей)
* [Типы данных](#Типы-данных)
* [Обзор данных](#Обзор-данных)
* [Обращение к данным](#Обращение-к-данным)
  * [Задание - выделяем часть](#Задание---выделяем-часть)


В этом ноутбуке:
- Что за тип такой - Dataframe
- Из словарей в таблицу
- Подробнее о типах данных, используемых для создания Dataframe
- Что делать в первую очередь с таблицей? Полезные функции для первого впечатления
- Обращение к данным (индексация [ ], loc/iloc и т.д.)

Pandas - это библиотека для работы с табличными данными. Просто незаменимая в нашей последующей работе

<img src="https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/assets/logo/pd-white-logo.svg" height="150px"></img>

**Pandas ≡ Таблицы**

Как всегда, [официальный сайт](https://pandas.pydata.org/) предоставляет самую актуальную и полезную информацию. Доки по функциям и классам [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/index.html).

Импорт библиотеки с устоявшимся сокращением:

In [1]:
import pandas as pd
import numpy as np

## Создание объекта таблицы

Начнём с простого создания объекта основного класса в pandas - `DataFrame`.

Фреймы в pandas представляют собой двумёрные массивы (матрицы) данных. Для применения в машинном обучении визуально можно представить данные следующим образом:

$$
X =
\begin{bmatrix}
x^{(1)}_1 & \dots & x^{(1)}_{m-1} & x^{(1)}_m \\
x^{(2)}_1 & \dots & x^{(2)}_{m-1} & x^{(2)}_m \\
\vdots & \ddots &  \vdots & \vdots  \\
x^{(n)}_1 & \dots & x^{(n)}_{m-1} & x^{(n)}_m \\
\end{bmatrix}
$$

где $n$ - количество записей (сэмплов/рядов) в данных, $m$ - количество признаков (предикторов/фич) в данных.

> **Признаки** в данных - это те данные, на основе которых производится анализ данных, обучение модели и предсказание. В реальной задаче признаками могут быть "цена", "пол", "группа крови", "текст в заявке" и т.д. [Колонки в таблице]

> **Записи** в данных - сущности, каждая из которых имеет свой набор значений признаков. В базе данных банка это могут быть отдельные транзакции. Все транзакции имеют одинаковые признаки, но значения этих признаков у каждой записи свои. [Строки в таблице]

Создание `DataFrame` возможно разными способами, для начала попробуем создать фрейм из двумерного массива:

In [2]:
arr = np.random.randint(0, 10, size=(5, 3))
print(arr)

[[9 5 1]
 [3 6 8]
 [8 0 5]
 [9 5 3]
 [9 1 4]]


In [3]:
# Создание фрейма - просто вызвать конструктор
df = pd.DataFrame(data=arr)
# Фреймы удобнее отображать с помощью встроенных средств Jupyter
df

Unnamed: 0,0,1,2
0,9,5,1
1,3,6,8
2,8,0,5
3,9,5,3
4,9,1,4


В представленном фрейме важно отметить две особенности:
- Колонки (признаки) имеют имена, но так как мы их (имена) не задали, то они создались автоматически;
- Каждая строка (запись) имеет **уникальный** индекс, тоже создались сами, так как мы не передавали своих индексов.

Для задания имен колонок используется аргумент в конструкторе `columns`, в который передаёся список имён по количеству признаков.

Для задания индексов аргумент `index`, в который передаётся список индексов по количеству записей в массиве.

### Задание - моя первая таблица!

Создайте фрейм с именами колонок `"col_1", "col_2", "col_3"` и индексами по алфавиту (`"A", "B", "C", ...` или `"A", "Б", "В", ...`).

In [4]:
import pandas as pd
import numpy as np

arr = np.random.randint(0, 10, size=(5, 3))


df_eng = pd.DataFrame(arr, columns=['col_1', 'col_2', 'col_3'], index=['A', 'B', 'C', 'D', 'E'])


df_rus = pd.DataFrame(arr, columns=['col_1', 'col_2', 'col_3'], index=['А', 'Б', 'В', 'Г', 'Д'])


print("Фрейм с английскими индексами:")
print(df_eng)
print("\nФрейм с русскими индексами:")
print(df_rus)

arr = np.random.randint(0, 10, size=(5, 3))

Фрейм с английскими индексами:
   col_1  col_2  col_3
A      1      5      9
B      5      5      2
C      7      9      8
D      8      5      8
E      3      2      6

Фрейм с русскими индексами:
   col_1  col_2  col_3
А      1      5      9
Б      5      5      2
В      7      9      8
Г      8      5      8
Д      3      2      6


## Создание фрейма из словарей

Другим способом создания фрейма является конструктор на основе словаря с данными:

In [5]:
# Создаётся словарь, в котором ключи будут названиями колонок,
#   а значения - данные по этим колонкам
data = {
    "test_1_mark": [4.6, 3.8, 5.0, 4.5],
    "test_2_mark": [5.0, 3.9, 4.7, 4.5]
}

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,4.7
3,4.5,4.5


Альтернативой использования словарей является создание массива словарей:

In [6]:
# Создается список записей, каждая запись представлена словарем
# В словаре ключи - названия колонок
# При создании фрейма pandas просмотри все возможные ключи словарей в списке
#   и создаст колонок по их названиям
data = [
    {
        "test_1_mark": 4.6,
        "test_2_mark": 5.0
    },
    {
        "test_1_mark": 3.8,
        "test_2_mark": 3.9
    },
    {
        "test_1_mark": 5.0
    },
]

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,


Обратите внимание, в одной записи отсутствовало значение для колонки и во фрейме такое значение обозначено как `NaN`.

> **NaN** (Not a Number) - представление пропусков во фрейме.

Пропуски в данных явление достаточно распространённое. Например, если данные собираются путём анкетирования, то опциональный вопрос может не иметь ответа, поэтому такие записи пропускаются. При разработке моделей машинного обучения с пропусками ведётся отдельная работа, но для сырых данных - это нормальное явление.

## Типы данных

Как и в numpy, pandas поддерживает различные типы данных. Для примера создадим фрейм, в котором колонки имеют разные типы данных:

In [7]:
df = pd.DataFrame({"A": 1.,
                   "B": pd.Timestamp("20130102"),
                   "C": np.array([2.] * 4, dtype="float32"),
                   "D": np.array([3] * 4, dtype="int32"),
                   "E": pd.Categorical(["test", "train", "test", "train"]),
                   "F": "foo"})
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,2.0,3,test,foo
1,1.0,2013-01-02,2.0,3,train,foo
2,1.0,2013-01-02,2.0,3,test,foo
3,1.0,2013-01-02,2.0,3,train,foo


Как видите, создаётся фрейм, в котором каждая колонка имеет свой тип. Из них для нас имеются два новых типа:
- `Timestamp` - конструктор для временного типа в pandas (`datetime64`);
- `Categorical` - категориальный тип, который в большинстве своём является альтернативой численным данным.

> **Категориальные данные** - данные, значения которых ограничены списком категорий (одно из возможных значений);

> **Численные данные** - данные, которые имеют численное значение (вещественное или целочисленное).

Для просмотра информации о фрейме полезно использовать метод `DataFrame.info()`:

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype        
---  ------  --------------  -----        
 0   A       4 non-null      float64      
 1   B       4 non-null      datetime64[s]
 2   C       4 non-null      float32      
 3   D       4 non-null      int32        
 4   E       4 non-null      category     
 5   F       4 non-null      object       
dtypes: category(1), datetime64[s](1), float32(1), float64(1), int32(1), object(1)
memory usage: 384.0+ bytes


Если тип данных не задан явно как категориальный, то строки будут иметь тип `object`, как универсальный тип данных.

## Обзор данных

Начало любого анализа данных происходит с того, что мы должны разобраться, с чем имеем дело, поэтому возможности быстрого обзора данных - то, что нужно:

In [9]:
df = pd.DataFrame(
    data=np.random.randint(-10, 10, size=(15, 3)),
    columns=["x1", "x2", "x3"]
)

# Функция получения первых записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.head(4)

Unnamed: 0,x1,x2,x3
0,9,3,5
1,8,-8,-6
2,-4,-8,7
3,-6,6,6


In [10]:
# Функция получения последних записей фрейма
# Аргументом задаётся количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.tail(4)

Unnamed: 0,x1,x2,x3
11,3,0,-9
12,-1,5,-9
13,9,2,-2
14,8,4,-10


In [11]:
# Функция отображения основной информации о фрейме:
#   Количество записей
#   Типы колонок
#   Количество ненулевых значений
#   Тип индекса
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   x1      15 non-null     int64
 1   x2      15 non-null     int64
 2   x3      15 non-null     int64
dtypes: int64(3)
memory usage: 488.0 bytes


In [12]:
# Функция отображения статистики по численным колонкам
df.describe()

Unnamed: 0,x1,x2,x3
count,15.0,15.0,15.0
mean,2.0,0.8,-1.0
std,5.291503,5.722137,7.020379
min,-6.0,-10.0,-10.0
25%,-2.0,-2.0,-7.5
50%,1.0,3.0,-2.0
75%,7.0,4.5,5.5
max,9.0,9.0,9.0


In [13]:
# Атрибут получения индексов фрейма
df.index

RangeIndex(start=0, stop=15, step=1)

In [14]:
# Или чтобы представить в виде списка
list(df.index)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

In [15]:
# Атрибут получения имён колонок фрейма
df.columns

Index(['x1', 'x2', 'x3'], dtype='object')

In [16]:
# Атрибут размерности фрейма
df.shape

(15, 3)

In [17]:
# Преобразование к двумерному массиву numpy
df.to_numpy()

array([[  9,   3,   5],
       [  8,  -8,  -6],
       [ -4,  -8,   7],
       [ -6,   6,   6],
       [  6, -10,   0],
       [ -1,   6,   3],
       [ -1,   9,   9],
       [  1,  -2,  -3],
       [  6,   4,  -8],
       [ -3,   3,   9],
       [ -4,  -2,  -7],
       [  3,   0,  -9],
       [ -1,   5,  -9],
       [  9,   2,  -2],
       [  8,   4, -10]])

In [18]:
# Получение транспонированного представления
# Колонки -> ряды, ряды -> колонки
df.T

# (*) Транспонирование вряд ли часто понадобится при анализе, но учитывать стоит

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
x1,9,8,-4,-6,6,-1,-1,1,6,-3,-4,3,-1,9,8
x2,3,-8,-8,6,-10,6,9,-2,4,3,-2,0,5,2,4
x3,5,-6,7,6,0,3,9,-3,-8,9,-7,-9,-9,-2,-10


## Обращение к данным

Так как данные представлены в виде двумерного массива, то обращение к ним является важным инструментом.

Начнём с того, чтобы обращаться к конкретной колонке:

In [19]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)),
    columns=["x1", "x2", "x3"]
)

df

Unnamed: 0,x1,x2,x3
0,3,2,5
1,7,6,5
2,8,1,6
3,2,0,5
4,9,3,2


In [20]:
print(df["x1"])
print(type(df["x1"]))

0    3
1    7
2    8
3    2
4    9
Name: x1, dtype: int64
<class 'pandas.core.series.Series'>


Индексация во фрейме по колонкам производится по имени колонок.

В результате создаётся объект `Series` (ряд), который является одномерным массивом. В случае индексации по колонкам каждая запись в ряду имеет индекс из основного фрейма.

Аналогичный тип данных создаётся, когда мы обращаемся к конкретной записи в данных. Кстати, просто так не обратиться, поэтому для индексации по записям используются методы `DataFrame.iloc[]` и `DataFrame.loc[]`.

Взгляните на разницу:

In [21]:
data = {
    "feature1": np.arange(15),
    "feature2": np.linspace(0, 10, 15),
    "feature3": "string",
}
df = pd.DataFrame(data, index=list("ABCDEFGHIJKLMNO"))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [22]:
df.iloc[2]

Unnamed: 0,C
feature1,2
feature2,1.428571
feature3,string


In [23]:
df.loc["C"]

Unnamed: 0,C
feature1,2
feature2,1.428571
feature3,string


In [24]:
df.iloc[2, 1]

1.4285714285714286

In [25]:
df.loc["C", "feature2"]

1.4285714285714286

Если разница не явна, то обсудим:
> `.iloc[]` используется для обращения по индексам как рядов, так и колонок;

> `.loc[]` используется для обращения по именованиям как рядов, так и колонок.

В индексации можно применять как слайсы, подобно тем, что научились применять в numpy, так и массивы в качестве индексов.

При индексации по единственной строке создается объект `Series`, но уже с индексами в виде колонок.


### Задание - выделяем часть

Выведите часть фрейма со второго ряда по девятый (индексы с "C" по "I") и только `feature1` и `feature3`:

In [26]:
data = {
    "feature1": np.arange(15),
    "feature2": np.linspace(0, 10, 15),
    "feature3": "string",
}
df = pd.DataFrame(data, index=list("ABCDEFGHIJKLMNO"))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [27]:
import pandas as pd
import numpy as np

data = {
    "feature1": np.arange(15),
    "feature2": np.linspace(0, 10, 15),
    "feature3": "string",
}
df = pd.DataFrame(data, index=list("ABCDEFGHIJKLMNO"))
df.head()


print(df.loc['C':'I', ['feature1', 'feature3']])


   feature1 feature3
C         2   string
D         3   string
E         4   string
F         5   string
G         6   string
H         7   string
I         8   string


In [28]:
import pandas as pd
import numpy as np

data = {
    "feature1": np.arange(15),
    "feature2": np.linspace(0, 10, 15),
    "feature3": "string",
}
df = pd.DataFrame(data, index=list("ABCDEFGHIJKLMNO"))
df.head()


print(df.iloc[2:9, [0, 2]])



   feature1 feature3
C         2   string
D         3   string
E         4   string
F         5   string
G         6   string
H         7   string
I         8   string
