# **<center> Introduction to Python for Practical Problems </center>**
# **<center> New Economic School, MAE 2025 </center>**
## **<center> Section 3 </center>**

План:

* NumPy
* Pandas
* Работа с данными и временем

# **1. NumPy**



<center> <img src="https://raw.githubusercontent.com/numpy/numpy/main/branding/logo/primary/numpylogo.svg" width=50%> </center>

**NumPy** - библиотека для работы с многомерными массивами, векторами и матрицами, которая позволяет проводить с ними различные операции.

[Документация](https://numpy.org/doc/)

Основной тип данных - многомерный массив элементов - `numpy.ndarray`. Каждый такой массив имеет несколько измерений (вектор с одним измерением, матрица с двумя и т.д.)

In [1]:
import numpy as np

# Модуль, которые игнорирует ошибки, связанные с оптимизацией и прочими не очень важными вещами, чтобы не засорять 
# выдачу
import warnings
warnings.simplefilter("ignore")

## 1.1. Основные способы задания массивов

**При помощи метода `ndim` можно посмотреть количество измерений массива**

Вектор

In [2]:
vector = np.array([1, 2, 3])

vector

array([1, 2, 3])

In [3]:
vector.ndim 

1

Матрица

In [4]:
matrix = np.array([[5, 7, 4], [4, 5, 9]])

matrix

array([[5, 7, 4],
       [4, 5, 9]])

In [5]:
matrix.ndim

2

In [6]:
matrix = np.matrix([[5, 7, 4], [4, 5, 9]])

matrix

matrix([[5, 7, 4],
        [4, 5, 9]])

In [7]:
matrix.ndim

2

**При помощи метода `shape` можно посмотреть размерность массива**

In [8]:
vector.shape

(3,)

In [9]:
matrix.shape

(2, 3)

**Чтобы посмотреть тип элементов в массиве, можно воспользоваться методом `dtype`**

In [10]:
vector.dtype.name, matrix.dtype.name

('int32', 'int32')

**Создание массивов особых видов**

* массив из нулей
* массив из единиц
* единичная матрица

In [11]:
np.zeros((3, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [12]:
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [13]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

**Для создания последовательностей можно воспользоваться функциями `arange`(левая граница, правая граница, ШАГ) и `linspace`(левая и правая границы, КОЛИЧЕСТВО ЭЛЕМЕНТОВ)**

In [14]:
np.arange(-5, 6, 2) # Правая граница не включается

array([-5, -3, -1,  1,  3,  5])

In [15]:
np.arange(-5, 5, 0.5) # Также может работать и с вещественными числами

array([-5. , -4.5, -4. , -3.5, -3. , -2.5, -2. , -1.5, -1. , -0.5,  0. ,
        0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5])

In [16]:
np.linspace(-5, 5, 11) # Правая граница включается (по умолчанию)

array([-5., -4., -3., -2., -1.,  0.,  1.,  2.,  3.,  4.,  5.])

**А также задать массив можно рандомно при помощи класса `random`, который содержит в себе методы `randint` (рандомные целые числа); `rand` (рандомные числа из равномерного на [0,1) распределения); `normal` (рандомные числа из нормального распределения) и т.д.**

In [17]:
vector1 = np.random.randint(-5, 5, (1, 5))
vector2 = np.random.rand(1, 5)
vector3 = np.random.normal(0, 1, (1, 5))

print(vector1)
print()
print(vector2)
print()
print(vector3)

[[-1 -3 -3 -2 -2]]

[[0.96687371 0.18911468 0.73988471 0.36622669 0.84795161]]

[[-2.21510283 -1.27235997 -0.16070364 -0.33093657  0.67259972]]


**Для изменения размера существующего массива можно воспользоваться функцией `reshape`**

In [18]:
vector = np.arange(9)

print(vector)
print()
print(vector.reshape(3, 3))

[0 1 2 3 4 5 6 7 8]

[[0 1 2]
 [3 4 5]
 [6 7 8]]


Вместо значения длины массива по одному из измерений можно указать **-1** — в этом случае значение будет рассчитано автоматически

In [19]:
vector = np.arange(10)

print(vector)
print()
print(vector.reshape(2, -1))

[0 1 2 3 4 5 6 7 8 9]

[[0 1 2 3 4]
 [5 6 7 8 9]]


Эту функцию также полезно использовать, когда Вы не всегда знаете какой размерности перед Вами сейчас массив, но Вам нужно, например, получить массив размером (Nx1)

In [20]:
matrix = np.array([[1, 2, 3], 
                   [4, 5, 6]])
vector = matrix.reshape(-1, 1)

print(matrix)
print()
print(vector)

[[1 2 3]
 [4 5 6]]

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]]


**Для транспонирования массива можно использовать метод `T`**

In [21]:
matrix = np.array([[1, 2, 3], 
                   [4, 5, 6]])

print(matrix)
print('Размерность:', matrix.shape)
print()
print(matrix.T)
print('Размерность:', matrix.T.shape)

[[1 2 3]
 [4 5 6]]
Размерность: (2, 3)

[[1 4]
 [2 5]
 [3 6]]
Размерность: (3, 2)


**Для повторения строк и/или столбцов массива можно воспользоваться функицей `tile`**

In [22]:
vector = np.arange(4)

print(vector)
print()
print(np.tile(vector, (2, 2)))
print()
print(np.tile(vector, (4, 1)))

[0 1 2 3]

[[0 1 2 3 0 1 2 3]
 [0 1 2 3 0 1 2 3]]

[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]


## 1.2. Арифметические операции над массивами

**Базовые арифметические операции между массивами по умолчанию производятся поэлеметно**

In [23]:
matrix1 = np.random.randint(-5, 5, (3, 3))
matrix2 = np.random.randint(1, 5, (3, 3))

print('Первая матрица:', matrix1, sep='\n')
print()
print('Вторая матрица:', matrix2, sep='\n')
print()
print('Сложение матриц:', matrix1 + matrix2, sep='\n')
print()
print('Перемножение матриц (поэлементное):', matrix1 * matrix2, sep='\n')
print()
print('Деление матриц:', matrix1 / matrix2, sep='\n')
print()
print('Умножение матрицы на число:', 3 * matrix1, sep='\n')
print()

Первая матрица:
[[-4  3  4]
 [-1 -3  2]
 [ 0  3 -2]]

Вторая матрица:
[[2 4 4]
 [2 2 1]
 [4 1 4]]

Сложение матриц:
[[-2  7  8]
 [ 1 -1  3]
 [ 4  4  2]]

Перемножение матриц (поэлементное):
[[-8 12 16]
 [-2 -6  2]
 [ 0  3 -8]]

Деление матриц:
[[-2.    0.75  1.  ]
 [-0.5  -1.5   2.  ]
 [ 0.    3.   -0.5 ]]

Умножение матрицы на число:
[[-12   9  12]
 [ -3  -9   6]
 [  0   9  -6]]



**Для матричного умножения можно использовать знак `@` или функцию `dot` (можно использовать и как метод, примененный к одной из матриц). Обращайте внимание на размерности.**

In [24]:
matrix1 @ matrix2

array([[14, -6,  3],
       [ 0, -8,  1],
       [-2,  4, -5]])

In [25]:
np.dot(matrix1, matrix2)

array([[14, -6,  3],
       [ 0, -8,  1],
       [-2,  4, -5]])

In [26]:
matrix1.dot(matrix2)

array([[14, -6,  3],
       [ 0, -8,  1],
       [-2,  4, -5]])

**Функция `outer` позволяет Вам посчитать outer product**

In [27]:
matrix3 = np.random.randint(-5, 5, (1, 4))
matrix4 = np.random.randint(-5, 5, (3, 1))

np.outer(matrix3, matrix4)

array([[-1,  0,  1],
       [-5,  0,  5],
       [-5,  0,  5],
       [ 2,  0, -2]])

## 1.3. Другие операции над массивами

**Некоторые операции над массивами (например, вычисления минимума, максимума, суммы элементов) выполняются над всеми элементами вне зависимости от формы массива, однако при указании оси выполняются вдоль нее (например, для нахождения максимума каждой строки или каждого столбца)**

In [28]:
matrix = np.random.randint(-5, 5, (3, 3))

print('Матрица:', matrix, sep='\n')
print()
print('Минимум среди всех элементов матрицы:', matrix.min(), sep='\n')
print()
print('Минимумы по элементам столбцов матрицы:', matrix.min(axis=0), sep='\n')
print()
print('Минимумы по элементам строк матрицы:', matrix.min(axis=1), sep='\n')
print()
print('Сумма по всем элементам матрицы:', matrix.sum(), sep='\n')
print()
print('Сумма по элементам столбцов матрицы:', matrix.sum(axis=0), sep='\n')
print()
print('Сумма по элементам строк матрицы:', matrix.sum(axis=1), sep='\n')
print()
print('Индекс максимального элемента по всем элементам матрицы:', matrix.argmax(), sep='\n')
print()
print('Индексы максимального элемента по элементам столбцов матрицы:', matrix.argmax(axis=0), sep='\n')
print()
print('Индексы максимального элемента по элементам строк матрицы:', matrix.argmax(axis=1), sep='\n')
print()

Матрица:
[[-2  1  4]
 [ 3 -3 -3]
 [-5  4  0]]

Минимум среди всех элементов матрицы:
-5

Минимумы по элементам столбцов матрицы:
[-5 -3 -3]

Минимумы по элементам строк матрицы:
[-2 -3 -5]

Сумма по всем элементам матрицы:
-1

Сумма по элементам столбцов матрицы:
[-4  2  1]

Сумма по элементам строк матрицы:
[ 3 -3 -1]

Индекс максимального элемента по всем элементам матрицы:
2

Индексы максимального элемента по элементам столбцов матрицы:
[1 2 0]

Индексы максимального элемента по элементам строк матрицы:
[2 0 1]



**Чтобы взять обратную матрицу от исходной, можно воспользоваться функцией `inv` в классе `linalg`. Для нахождения определителя - функцией `det`. Для нахождения собственных чисел - функцией `eigvals`**

**Кроме того, можно возвести матрицу в степень с помощью функции `matrix_power` или проверить ранг матрицы с помощью функции `matrix_rank`**

In [29]:
print('Матрица:', matrix, sep='\n')
print()
print('Матрица обратная к исходной:', np.linalg.inv(matrix), sep='\n')
print()
print('Матрица в третьей степени:', np.linalg.matrix_power(matrix, 3), sep='\n')
print()
print('Ранг матрицы:', np.linalg.matrix_rank(matrix), sep='\n')
print()

Матрица:
[[-2  1  4]
 [ 3 -3 -3]
 [-5  4  0]]

Матрица обратная к исходной:
[[-0.57142857 -0.76190476 -0.42857143]
 [-0.71428571 -0.95238095 -0.28571429]
 [ 0.14285714 -0.14285714 -0.14285714]]

Матрица в третьей степени:
[[ 114  -90  -85]
 [-105   84    0]
 [  65  -55  139]]

Ранг матрицы:
3



**Некоторые другие полезные операции с матрицами**

\begin{equation} \beta X = y \end{equation}

In [30]:
print('Матрица:', matrix, sep='\n')
print()
print('Коэффициенты, вычисленные при помощи МНК:', np.linalg.lstsq(matrix, np.array([1, 2, 3]))[0], sep='\n')
print()
print('Среднее значение матрицы:', np.mean(matrix), sep='\n')
print()
print('Медианное значение матрицы:', np.median(matrix), sep='\n')
print()
print('Квантиль матрицы:', np.quantile(matrix, 0.95), sep='\n')
print()
print('Дисперсия значений элементов матрицы:', np.var(matrix), sep='\n')
print()
print('Стандартное отклонение значений элементов матрицы:', np.std(matrix), sep='\n')
print()

Матрица:
[[-2  1  4]
 [ 3 -3 -3]
 [-5  4  0]]

Коэффициенты, вычисленные при помощи МНК:
[-3.38095238 -3.47619048 -0.57142857]

Среднее значение матрицы:
-0.1111111111111111

Медианное значение матрицы:
0.0

Квантиль матрицы:
4.0

Дисперсия значений элементов матрицы:
9.87654320987654

Стандартное отклонение значений элементов матрицы:
3.1426968052735442



In [31]:
print('Округление вниз:', np.floor(2.5))
print()
print('Округление вверх:', np.ceil(2.5))
print()
print('Округление до определенного количества знаков после запятой:', np.round(2.54, 1))
print()

Округление вниз: 2.0

Округление вверх: 3.0

Округление до определенного количества знаков после запятой: 2.5



## 1.4. Доступ к элементам массива

Для доступа к элементам может использоваться [много различных способов](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html), рассмотрим основные.

Для индексации могут использоваться конкретные значения индексов и срезы (slice), как и в стандартных типах Python. Для многомерных массивов индексы для различных осей разделяются запятой. Если для многомерного массива указаны индексы не для всех измерений, недостающие заполняются полным срезом (:).

In [32]:
vector = np.arange(10)

print(vector)

[0 1 2 3 4 5 6 7 8 9]


In [33]:
vector[2:5]

array([2, 3, 4])

In [34]:
vector[3:8:2]

array([3, 5, 7])

In [35]:
matrix = np.arange(81).reshape(9, -1)

matrix

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80]])

In [36]:
matrix[2:4] # По строкам

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [37]:
matrix[:, 2:4] # По столбцам

array([[ 2,  3],
       [11, 12],
       [20, 21],
       [29, 30],
       [38, 39],
       [47, 48],
       [56, 57],
       [65, 66],
       [74, 75]])

In [38]:
matrix[2:4, 2:4]

array([[20, 21],
       [29, 30]])

In [39]:
matrix[-2]

array([63, 64, 65, 66, 67, 68, 69, 70, 71])

Также можно в срезы добавлять список индексов по измерениям

In [40]:
matrix[[2, 4, 5], [0, 1, 3]]

array([18, 37, 48])

Можно применять логическую индексацию

In [41]:
matrix % 5 != 3

array([[ True,  True,  True, False,  True,  True,  True,  True, False],
       [ True,  True,  True,  True, False,  True,  True,  True,  True],
       [False,  True,  True,  True,  True, False,  True,  True,  True],
       [ True, False,  True,  True,  True,  True, False,  True,  True],
       [ True,  True, False,  True,  True,  True,  True, False,  True],
       [ True,  True,  True, False,  True,  True,  True,  True, False],
       [ True,  True,  True,  True, False,  True,  True,  True,  True],
       [False,  True,  True,  True,  True, False,  True,  True,  True],
       [ True, False,  True,  True,  True,  True, False,  True,  True]])

In [42]:
matrix[matrix % 5 != 3]

array([ 0,  1,  2,  4,  5,  6,  7,  9, 10, 11, 12, 14, 15, 16, 17, 19, 20,
       21, 22, 24, 25, 26, 27, 29, 30, 31, 32, 34, 35, 36, 37, 39, 40, 41,
       42, 44, 45, 46, 47, 49, 50, 51, 52, 54, 55, 56, 57, 59, 60, 61, 62,
       64, 65, 66, 67, 69, 70, 71, 72, 74, 75, 76, 77, 79, 80])

Также можно использовать логические операции

In [43]:
matrix[np.logical_and(matrix != 7, matrix % 5 != 3)]

array([ 0,  1,  2,  4,  5,  6,  9, 10, 11, 12, 14, 15, 16, 17, 19, 20, 21,
       22, 24, 25, 26, 27, 29, 30, 31, 32, 34, 35, 36, 37, 39, 40, 41, 42,
       44, 45, 46, 47, 49, 50, 51, 52, 54, 55, 56, 57, 59, 60, 61, 62, 64,
       65, 66, 67, 69, 70, 71, 72, 74, 75, 76, 77, 79, 80])

In [44]:
matrix[(matrix != 7) & (matrix % 5 != 3)]

array([ 0,  1,  2,  4,  5,  6,  9, 10, 11, 12, 14, 15, 16, 17, 19, 20, 21,
       22, 24, 25, 26, 27, 29, 30, 31, 32, 34, 35, 36, 37, 39, 40, 41, 42,
       44, 45, 46, 47, 49, 50, 51, 52, 54, 55, 56, 57, 59, 60, 61, 62, 64,
       65, 66, 67, 69, 70, 71, 72, 74, 75, 76, 77, 79, 80])

"Спрямление" матрицы

In [45]:
vector = matrix.flatten()

vector

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80])

Индексы массива, соответствующие определенному значению

In [46]:
np.where(vector % 3 == 0)

(array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48,
        51, 54, 57, 60, 63, 66, 69, 72, 75, 78], dtype=int64),)

In [47]:
vector[np.where(vector % 3 == 0)]

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48,
       51, 54, 57, 60, 63, 66, 69, 72, 75, 78])

Между массивами можно проводить и операцию конкатенации

In [48]:
matrix1 = np.random.randint(0, 5, size = (2, 2))
matrix2 = np.random.randint(-5, 0, size = (2, 2))
matrix3 = np.random.randint(-5, 5, size = (2, 1))

print('Первая матрица:', matrix1, sep='\n')
print()
print('Вторая матрица:', matrix2, sep='\n')
print()
print('Третья матрица:', matrix3, sep='\n')
print()
print('Горизонтальная конкатенация:', np.hstack((matrix1, matrix2, matrix3)), sep='\n')
print()
print('Вертикальная конкатенация:', np.vstack((matrix1, matrix2)), sep='\n')
print()

Первая матрица:
[[0 0]
 [2 4]]

Вторая матрица:
[[-3 -1]
 [-5 -1]]

Третья матрица:
[[-5]
 [ 2]]

Горизонтальная конкатенация:
[[ 0  0 -3 -1 -5]
 [ 2  4 -5 -1  2]]

Вертикальная конкатенация:
[[ 0  0]
 [ 2  4]
 [-3 -1]
 [-5 -1]]



И Вы, наверное, задаётесь логичным вопросом: зачем использовать `NumPy`, если существуют стандартные контейнеры и циклы?

А я Вам отвечу:

* В `NumPy` реализован обширный функционал для работы с данными
* Функционал `NumPy` позволяет более быстро выполнять операции с массивами

Давайте наглядно проверим и сравним скорость работы стандартных операций и операция, предоставляемых `NumPy`, посчитав скалярное произведение двух массивов

In [49]:
SIZE = 10000000

np_vector1 = np.random.normal(size=(SIZE,))
np_vector2 = np.random.normal(size=(SIZE,))

list_1, list_2 = list(np_vector1), list(np_vector2)

Используя list comprehension для двух списков

In [50]:
%%time
res = sum([list_1[i] * list_2[i] for i in range(SIZE)])

CPU times: total: 625 ms
Wall time: 1.29 s


Используя перемножение массивов, а потом суммирование

In [51]:
%%time
ans = np.sum(np_vector1 * np_vector2)

CPU times: total: 15.6 ms
Wall time: 33.4 ms


Используя операцию перемножения массивов

In [52]:
%%time
ans = np_vector1 @ np_vector2

CPU times: total: 0 ns
Wall time: 5.97 ms


In [53]:
%%time
ans = np_vector1.dot(np_vector2)

CPU times: total: 0 ns
Wall time: 4.3 ms


# 2. Pandas

<center> <img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width = 50%> </center>

**Pandas** - библиотека для работы с табличными данными, включающая в себя обращение к данным, их обработку и упорядочивание.


[Документация](https://pandas.pydata.org/docs/user_guide/index.html)

In [54]:
import pandas as pd

## 2.1. Основные способы объявление и чтения датафрейма

**Простейшим способом задачи датафрейма является его задача через список**

**Задается датафрейм через функцию `DataFrame`**

In [55]:
table_list = [['Dima', 2, 3],
              ['Katya', 5, 5],
              ['Volodya', 4, 5]]

table_list

[['Dima', 2, 3], ['Katya', 5, 5], ['Volodya', 4, 5]]

In [56]:
df_table = pd.DataFrame(table_list)

df_table

Unnamed: 0,0,1,2
0,Dima,2,3
1,Katya,5,5
2,Volodya,4,5


Для задания имен колонок необходимо передать такие имена через списко в аргумент `columns`

In [57]:
df_table = pd.DataFrame(table_list, columns=['Name', 'Math', 'Economics'])

df_table

Unnamed: 0,Name,Math,Economics
0,Dima,2,3
1,Katya,5,5
2,Volodya,4,5


**Другим способом задачи датафрейма является его задача через словарь**

In [58]:
table_dict = {'Name': ['Dima', 'Katya', 'Volodya'],
              'Math': [2, 5, 4],
              'Economics': [3, 5, 5]}

table_dict

{'Name': ['Dima', 'Katya', 'Volodya'],
 'Math': [2, 5, 4],
 'Economics': [3, 5, 5]}

In [59]:
df_table = pd.DataFrame(table_dict)

df_table

Unnamed: 0,Name,Math,Economics
0,Dima,2,3
1,Katya,5,5
2,Volodya,4,5


Может быть, использовать имя как индекс в таблице? Давайте попробуем

In [60]:
# Следующие две операции равнозначные. Второй вариант используется для того, чтобы не нагрмождать кучу присваиваний,
# а просто применить метод (например, set_index()) к датафрейму

# df_table = df_table.set_index('Name')

df_table.set_index('Name', inplace=True)

df_table

Unnamed: 0_level_0,Math,Economics
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Dima,2,3
Katya,5,5
Volodya,4,5


Чтобы переименовать, например, какой-то столбец таблицы, можно воспользоваться методом `rename`

In [61]:
df_table.rename(columns={'Math': 'Finance'}, inplace=True)

df_table

Unnamed: 0_level_0,Finance,Economics
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Dima,2,3
Katya,5,5
Volodya,4,5


Таблицу также можно транспонировать. Возможно, удобнее будет работать в других осях

In [62]:
df_table.T

Name,Dima,Katya,Volodya
Finance,2,5,4
Economics,3,5,5


**Теперь давайте загрузим таблицу побольше и попробуем поработать с ней**

## 2.2. Основные возможности таблиц в `Pandas`

**Разбираться с библиотекой `Pandas` лучше всего имея перед глазами какой-то пример таблицы. Мы будем работать со всем известной таблицей с данными о пассажирах Титаника (простите)**

In [63]:
df = pd.read_csv('C:/Users/Popov/Documents/NES_studies/Python/Elementary python/Sections/titanic.csv')

df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Теперь данные хранятся в переменной ```df```, которая имеет тип [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

**DataFrame можно отобразить частично с помощью методов `sample` (случайная подвыборка), `head` (верхняя часть) и `tail` (нижняя часть)**

In [64]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [65]:
df.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [66]:
df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
46,47,0,3,"Lennon, Mr. Denis",male,,1,0,370371,15.5,,Q
62,63,0,1,"Harris, Mr. Henry Birkhardt",male,45.0,1,0,36973,83.475,C83,S
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
201,202,0,3,"Sage, Mr. Frederick",male,,8,2,CA. 2343,69.55,,S
462,463,0,1,"Gee, Mr. Arthur H",male,47.0,0,0,111320,38.5,E63,S


**В DataFrame есть несколько методов для обращения к строкам, столбцам и отдельным элементам таблицы: методы `loc`, `iloc` и через квадратные скобки. Рассмотрим оба варианта**

В метод `loc` можно передать значение индекса (число, которое стоит в колонке index) строки, чтобы получить эту строку

In [67]:
df.loc[2]

PassengerId                         3
Survived                            1
Pclass                              3
Name           Heikkinen, Miss. Laina
Sex                            female
Age                              26.0
SibSp                               0
Parch                               0
Ticket               STON/O2. 3101282
Fare                            7.925
Cabin                             NaN
Embarked                            S
Name: 2, dtype: object

Получили отдельную строчку в виде объекта класса [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)

Чтобы выбрать диапазон строк таблицы, воспользуемся уже знакомыми нам срезами

In [68]:
df.loc[2:4] # Первый и последний элемента ВКЛЮЧАЮТСЯ

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Метод `iloc` действует похожим образом, но он индексирует элементы не по index, а по порядку в таблице (который может отличаться от index). Например:

In [69]:
subset = df.sample(5)
subset

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
687,688,0,3,"Dakic, Mr. Branko",male,19.0,0,0,349228,10.1708,,S
68,69,1,3,"Andersson, Miss. Erna Alexandra",female,17.0,4,2,3101281,7.925,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
499,500,0,3,"Svensson, Mr. Olof",male,24.0,0,0,350035,7.7958,,S


In [70]:
subset.iloc[2]

PassengerId                                 69
Survived                                     1
Pclass                                       3
Name           Andersson, Miss. Erna Alexandra
Sex                                     female
Age                                       17.0
SibSp                                        4
Parch                                        2
Ticket                                 3101281
Fare                                     7.925
Cabin                                      NaN
Embarked                                     S
Name: 68, dtype: object

С помощью `iloc` тоже можно делать срезы, но в них последний элемент не включается (как и в обычных срезах в Python):

In [71]:
df.iloc[2:4] # Первый и последний элемента НЕ ВКЛЮЧАЮТСЯ

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


**Срезы можно брать не только по строкам, но и по столбцам. Обратите внимание на различия индексации столбцов в `loc` и `iloc`**

In [72]:
df.loc[2:4, 'Name':'Embarked']

Unnamed: 0,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [73]:
df.iloc[2:4, 3:]

Unnamed: 0,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


**Более конкретно обращение к элементам таблицы производится следующим образом**

In [74]:
df['Name'].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [75]:
df.Name.head() # Не всегда удобно

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [76]:
df[['Name', 'Sex', 'Age']].head()

Unnamed: 0,Name,Sex,Age
0,"Braund, Mr. Owen Harris",male,22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0


In [77]:
df.loc[2:4, ['Name', 'Sex', 'Age']]

Unnamed: 0,Name,Sex,Age
2,"Heikkinen, Miss. Laina",female,26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,"Allen, Mr. William Henry",male,35.0


Также можно отбирать/фильтровать данные по значениям столбцов через прописывание условия внутри квадратных скобок от исходных данных



In [78]:
df['Age'] >= 25

0      False
1       True
2       True
3       True
4       True
       ...  
886     True
887    False
888    False
889     True
890     True
Name: Age, Length: 891, dtype: bool

In [79]:
df[df['Age'] >= 25].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


Множественную фильрацию можно делать следующим образом 

* ```&``` для условия И (**and**)
* ```|``` для условия ИЛИ (**or**)

In [80]:
df[(df['Age'] >= 25) & (df['Survived'] == 1)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [81]:
df[df['Pclass'].isin([1, 2])].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [82]:
df[(df['Age'] >= 25) | (df['Age'] <= 21)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


Помимо отрицания `!=` можно использовать тильду к логическому выражению `~`

In [83]:
df[(df['Pclass'] != 1) & (df['Pclass'] != 2)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [84]:
df[~(df['Pclass'].isin([1, 2]))].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


**С DataFrame'ами и Series'ами одинаковой структуры можно производить математические операции**

In [85]:
df['Age']**2 * df['Survived'] + df['Age'] - df['Survived'] # В этих вычислениях искать смысл не стоит)

0        22.0
1      1481.0
2       701.0
3      1259.0
4        35.0
        ...  
886      27.0
887     379.0
888       NaN
889     701.0
890      32.0
Length: 891, dtype: float64

Можно создать новую переменную в таблице

In [86]:
df['Age_sq'] = df['Age'] ** 2

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_sq
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,484.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1444.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,676.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1225.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1225.0


Также можно отфильтровать наблюдения, у которых "строковая" переменная содержит какую-то строку.

In [87]:
df[df['Ticket'].str.contains('PC')].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_sq
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1444.0
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C,1600.0
31,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C,
34,35,0,1,"Meyer, Mr. Edgar Joseph",male,28.0,1,0,PC 17604,82.1708,,C,784.0
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C,2401.0


Можно удалять переменные

In [88]:
df.drop(columns = ['Age_sq'], inplace=True)

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Можно заметить, что в некоторых столбцах присутствуют `NaN`'ы. От них можно избавиться при помощи метода `dropna` (в таком случае удаляется все строка, в которой хотя бы раз встречает `NaN`), метода `fillna` или заменить на какое-то значение при помощи метода `replace`**

In [89]:
df.dropna().head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [90]:
df.replace(np.nan, 0).head() # Заменим NaN на 0

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


In [91]:
df.fillna(0).head() # Заменим NaN на 0

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


**Чтобы избавиться от дубликатов в таблце, можно воспользоваться методом `drop_duplicates`**

In [92]:
df.drop_duplicates('Age').head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


Таким образом мы избавились от дубликатов возрастов

## 2.3. Методы для описания данных в таблице

**Чтобы получить описательную статистику для числовых элементов таблицы, можно воспользоваться методом `describe`**

In [93]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


**Другие полезные методы**

In [94]:
print('Доля выживших пассажиров Титаника:', df['Survived'].mean())
print()
print('Максимальный возраст пассажиров Титаника:', df['Age'].max())
print()
print('Список уникальных классов билетов на Титанике:', sorted(df['Pclass'].unique()))
print()
print('Количество пассажиров Титаника:', df['Name'].count())
print()
print('Количество уникальных кают на Титанике:', df['Cabin'].nunique())

Доля выживших пассажиров Титаника: 0.3838383838383838

Максимальный возраст пассажиров Титаника: 80.0

Список уникальных классов билетов на Титанике: [1, 2, 3]

Количество пассажиров Титаника: 891

Количество уникальных кают на Титанике: 147


## 2.4. Нестандартные преобразования элементов таблицы

**Иногда какое-то сложное преобразование невозможно применить к столбцу целиком (например, если мы хотим заменить что-то внутри строки каждой строки столбца), и приходится итеративно заменять элементы при помощи метода `apply`**

Допустим, в столбце **Name** мы хотим заменить все буквы `a` на `@`. Если просто применить метод `replace`, то у нас ничего не получится

In [95]:
df['Name'].replace('a', '@').head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

Ничего не вышло((((

Теперь воспользуемся методом `apply` и лямбда-функцией

In [96]:
df['Name_updated'] = df.apply(lambda x: x['Name'].replace('a', '@'), axis=1).head()

df['Name_updated'].head()

0                              Br@und, Mr. Owen H@rris
1    Cumings, Mrs. John Br@dley (Florence Briggs Th...
2                               Heikkinen, Miss. L@in@
3         Futrelle, Mrs. J@cques He@th (Lily M@y Peel)
4                             Allen, Mr. Willi@m Henry
Name: Name_updated, dtype: object

Ого, все получилось!!!

**Вместо лямбда-функции в методе `apply` можно использовать и обычную функцию, которую мы написали**

**При написании функции обязательно стоит учитывать, что мы пишем функцию, которая будет применяться к строке**

Допустим, мы хотим написать функцию, которая бы для каждого пассажира, который приобрел билет 1-го класса, выводила его имя в формате `BUSINESS_<Name>`. Для пассажиров 2-го и 3-го классов - приставки `PRIORITY` и `ECONOMY` соответственно

In [97]:
def add_prefix(row):
    if row['Pclass'] == 1:
        row['Name_updated'] = 'BUSINESS_' + row['Name']
    elif row['Pclass'] == 2:
        row['Name_updated'] = 'PRIORITY_' + row['Name']
    else:
        row['Name_updated'] = 'ECONOMY_' + row['Name']
        
    return row

In [98]:
df = df.apply(add_prefix, axis=1)

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_updated
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,"ECONOMY_Braund, Mr. Owen Harris"
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,"BUSINESS_Cumings, Mrs. John Bradley (Florence ..."
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,"ECONOMY_Heikkinen, Miss. Laina"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,"BUSINESS_Futrelle, Mrs. Jacques Heath (Lily Ma..."
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,"ECONOMY_Allen, Mr. William Henry"


## 2.5. Группировка данных в таблице

### 2.5.1. Метод `aggregate`, или `agg`

**А что, если мы хотим посмотреть на аггрегированные данные по пассажирам, которые выжили и по пассажирам, которые не выжили? Тогда нам на помощь приходит аггрегация данных в таблице, которая осуществляется через методы `groupby` и `aggregate` (или `agg`)**

Допустим, что мы хотим посмотреть на средний возраст выживших и погибших, а также на долю погибших мужчин и женщин

In [99]:
# Заменим пол на численные переменные
df['Male_dummie'] = df['Sex'].replace('male', 1)
df['Male_dummie'] = df['Male_dummie'].replace('female', 0)

In [100]:
df[['Survived', 'Age', 'Male_dummie']].groupby('Survived').agg('mean')

Unnamed: 0_level_0,Age,Male_dummie
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,30.626179,0.852459
1,28.34369,0.318713


Итак, погибшие пассажиры Титаника, в среднем, были старше выживших на 2.3 года.

Среди погибших 85% - мужчины. Среди выживших мужчин - 32%.

**А теперь посмотрим на то, пассажиров каких классов погибло и выжило больше**

In [101]:
df[['Survived', 'Pclass', 'Name']].groupby(['Survived', 'Pclass']).agg('count').rename(columns={'Name': 'Count'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Count
Survived,Pclass,Unnamed: 2_level_1
0,1,80
0,2,97
0,3,372
1,1,136
1,2,87
1,3,119


То есть вижно, что выживали чаще всего пассажиры 1-го класса. Больше всего погибших было среди пассажиров 3-го класса

**Также для каждой из колонок можно задать свой тип преобразования**

In [102]:
df.groupby('Pclass').agg({'Name': 'count',
                          'Age': 'mean',
                          'Male_dummie': 'mean'})

Unnamed: 0_level_0,Name,Age,Male_dummie
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,216,38.233441,0.564815
2,184,29.87763,0.586957
3,491,25.14062,0.706721


### 2.5.2. Метод `apply`

**Как и раньше, для группировки мы можем применить свою собственную функцию, например, реализованную через лямбда-функцию. Для этого вместе с методом `groupby` нам надо использовать метод `apply`**

Допустим, нам для каких-то целей (сложно представить для каких)))) поднадобилось сгруппировать выборку по столбцу `Survived` с применением функции усреднения перемноженных столбцов `Age` и `Male_dummie`. Реализовать это можно как рас с помощью метода `apply` после применения метода `groupby`

In [103]:
df.groupby('Survived').apply(lambda x: np.mean(x['Age']*x['Male_dummie']))

Survived
0    26.845519
1     8.747138
dtype: float64

In [104]:
df.groupby('Pclass').apply(lambda x: x.nunique())

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_updated,Male_dummie
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,216,2,1,216,2,57,4,4,147,94,133,3,216,2
2,184,2,1,184,2,57,4,4,140,42,7,3,184,2
3,491,2,1,491,2,68,7,7,394,119,7,3,491,2


### 2.5.3. Другое

Иногда (для отсортированных данных) требуется взять первое (или последнее) наблюдение в данных, или первое наблюдение в месяце (или последнее). Можно использовать при группировке методы `first` и `last`

In [105]:
df.sort_values(by='Age').groupby('Survived').first()['Age']

Survived
0    1.00
1    0.42
Name: Age, dtype: float64

In [106]:
df.sort_values(by='Fare').groupby('Survived').first()['Fare']

Survived
0    0.0
1    0.0
Name: Fare, dtype: float64

## 2.6. Объединение таблиц

### 2.6.1. Конкатенация

**Тут ничего сложного. Если есть две таблицы, у которых равное количество строк или столбцов, а также совпадают имена колонок или индексов, то их можно сконкатенировать без условий**

In [107]:
sample1 = pd.DataFrame({'Name': ['Nikita', 'Dima'],
                        'Math': [2, 3],
                        'Economics': [4, 5]})

sample2 = pd.DataFrame({'Name': ['Vasya', 'Alla'],
                        'Math': [4, 5],
                        'Economics': [5, 5]})

In [108]:
sample1

Unnamed: 0,Name,Math,Economics
0,Nikita,2,4
1,Dima,3,5


In [109]:
sample2

Unnamed: 0,Name,Math,Economics
0,Vasya,4,5
1,Alla,5,5


In [110]:
pd.concat([sample1, sample2], axis=1)

Unnamed: 0,Name,Math,Economics,Name.1,Math.1,Economics.1
0,Nikita,2,4,Vasya,4,5
1,Dima,3,5,Alla,5,5


In [111]:
pd.concat([sample1, sample2], axis=0).reset_index(drop=True)

Unnamed: 0,Name,Math,Economics
0,Nikita,2,4
1,Dima,3,5
2,Vasya,4,5
3,Alla,5,5


### 2.6.2. Объединение таблиц с условиями (merge, join)

**Допустим, у нас есть две таблицы, которые мы хотим объединить так, чтобы по элементам какого-то столбца сохранялось отображение. Тогда нам на помощь приходит метод `merge`**

[Документация](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

Наример, у нас есть таблица с данными о пассажирах Титаника. И у нас есть таблица, в которой трем классам билетов соответствуют стринговые форматы (имена) этх классов, и мы хотим их склеить

In [112]:
sample3 = pd.DataFrame({'Pclass': [1, 2, 3],
                        'Pclass_name': ['Economy', 'Priority', 'Business']})

sample3

Unnamed: 0,Pclass,Pclass_name
0,1,Economy
1,2,Priority
2,3,Business


In [113]:
df.merge(sample3, how='left', on='Pclass').head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_updated,Male_dummie,Pclass_name
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,"ECONOMY_Braund, Mr. Owen Harris",1,Business
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,"BUSINESS_Cumings, Mrs. John Bradley (Florence ...",0,Economy
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,"ECONOMY_Heikkinen, Miss. Laina",0,Business
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,"BUSINESS_Futrelle, Mrs. Jacques Heath (Lily Ma...",0,Economy
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,"ECONOMY_Allen, Mr. William Henry",1,Business


Здесь мы мёрджили таблицы по левой таблице (df) по столбцу с именем `Pclass`

Остальные варианты джоинов Вы можете найти в документации (ссылка была выше)

# 3. Работа с данными и временем

Часто является необходимостью обрабатывать переменные дат и времени. Как правило, при прочтении они представлены в строковом формате. Однако для подсчета разинцы между датами, а также для более "приятного" их отображения на осях, требуется переводить их в формат дат.

Даты могут быть даны в разных форматах и с разными разделителями.

Более подробно [здесь](https://docs.python.org/3/library/datetime.html)

## 3.1. В `Pandas`

**Часто бывает так, что приходится работать с данными, упорядоченными по времени. Для этого в `Pandas` реализован функционал для обработки даты и времени**

Например, у нас есть временной ряд для какого-то актива. Допустим, в нашем случае это будет историческое поведение акций компании `Apple`

Есть простой способ импортирования зарубежных акций через модуль `yfinance` (yahoo-finance)

In [114]:
# pip install yfinance

In [115]:
import yfinance as yf

In [116]:
aapl = yf.Ticker("AAPL").history(start="2020-01-01").reset_index()

In [117]:
aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits
0,2020-01-02 00:00:00-05:00,72.059666,73.12023,71.804259,73.059418,135480400,0.0,0.0
1,2020-01-03 00:00:00-05:00,72.281027,73.115365,72.122918,72.349136,146322800,0.0,0.0
2,2020-01-06 00:00:00-05:00,71.463723,72.964557,71.210743,72.925636,118387200,0.0,0.0
3,2020-01-07 00:00:00-05:00,72.935361,73.193203,72.361301,72.582657,108872000,0.0,0.0
4,2020-01-08 00:00:00-05:00,72.283469,74.054311,72.283469,73.750252,132079200,0.0,0.0


In [118]:
aapl.dtypes

Date            datetime64[ns, America/New_York]
Open                                     float64
High                                     float64
Low                                      float64
Close                                    float64
Volume                                     int64
Dividends                                float64
Stock Splits                             float64
dtype: object

Видим, что дата у нас уже в формате `datetime`. Но она могла прийти нам в формате `str`. Чтобы конвертировать дату из строкового формата в временной, необходимо воспользоваться функцией `to_datetime`

In [119]:
aapl['Date'] = pd.to_datetime(aapl['Date'])

Чтобы выделить особый (нужный нам) формат даты, можно сделать следующее

In [120]:
aapl['Date_no_time'] = aapl['Date'].dt.date
aapl['Year'] = aapl['Date'].dt.year
aapl['Month'] = aapl['Date'].dt.month
aapl['Day'] = aapl['Date'].dt.day

aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits,Date_no_time,Year,Month,Day
0,2020-01-02 00:00:00-05:00,72.059666,73.12023,71.804259,73.059418,135480400,0.0,0.0,2020-01-02,2020,1,2
1,2020-01-03 00:00:00-05:00,72.281027,73.115365,72.122918,72.349136,146322800,0.0,0.0,2020-01-03,2020,1,3
2,2020-01-06 00:00:00-05:00,71.463723,72.964557,71.210743,72.925636,118387200,0.0,0.0,2020-01-06,2020,1,6
3,2020-01-07 00:00:00-05:00,72.935361,73.193203,72.361301,72.582657,108872000,0.0,0.0,2020-01-07,2020,1,7
4,2020-01-08 00:00:00-05:00,72.283469,74.054311,72.283469,73.750252,132079200,0.0,0.0,2020-01-08,2020,1,8


Теперь можно удобно аггрегировать данные, например, по году

In [121]:
aapl[['Year', 'Close', 'Volume']].groupby('Year').describe()

Unnamed: 0_level_0,Close,Close,Close,Close,Close,Close,Close,Close,Volume,Volume,Volume,Volume,Volume,Volume,Volume,Volume
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
2020,253.0,93.275342,21.545685,54.706993,75.316757,89.611076,113.400635,134.146637,253.0,157564600.0,69830720.0,46691300.0,110843200.0,138023400.0,187572800.0,426510000.0
2021,252.0,138.846599,14.654847,114.365562,126.562927,139.275887,146.815266,178.065659,252.0,90524630.0,29198060.0,41000000.0,68979100.0,85630550.0,106720100.0,195432700.0
2022,251.0,153.328145,12.75788,125.17968,143.473686,152.572815,164.143456,179.724579,251.0,87910380.0,23656990.0,35195900.0,72297400.0,83737200.0,96937050.0,182602000.0
2023,250.0,171.901759,17.481816,124.166641,161.251785,175.020798,186.939316,197.857529,250.0,59217030.0,17773920.0,24048300.0,47812075.0,55077500.0,65742925.0,154357300.0
2024,56.0,182.634986,6.936733,169.0,179.412502,183.937599,187.222698,194.931259,56.0,62011160.0,20000360.0,40444700.0,48544775.0,55663600.0,70192875.0,136682600.0


Другой способ

In [122]:
# aapl.set_index('Date').resample('Y')[['Close', 'Volume']].describe()

Также иногда бывает нужно прибавить какое-то количество дней/месяцев/годов к имеющейся дате. Чтобы сделать это, нужно воспользоваться функцией `DateOffset`

In [123]:
# aapl['Date'] + pd.DateOffset(days=1)
# aapl['Date'] + pd.DateOffset(months=1)
aapl['Date'] + pd.DateOffset(years=1)

0      2021-01-02 00:00:00-05:00
1      2021-01-03 00:00:00-05:00
2      2021-01-06 00:00:00-05:00
3      2021-01-07 00:00:00-05:00
4      2021-01-08 00:00:00-05:00
                  ...           
1057   2025-03-15 00:00:00-04:00
1058   2025-03-18 00:00:00-04:00
1059   2025-03-19 00:00:00-04:00
1060   2025-03-20 00:00:00-04:00
1061   2025-03-21 00:00:00-04:00
Name: Date, Length: 1062, dtype: datetime64[ns, America/New_York]

**Часто возникает необходимость посчитать изменение цены актива (или чего-то другого) во времени. Тогда нам помогают такие методы, как:**

* `diff(periods=n)` - получение разности между элементами колонки или набора колонок с лагом равным аргументу `period` (`n` может быть как положительным, так и отрицательным)
* `shift(periods=n)` - смещение наблюдений на `n` периодов (`n` может быть как положительным, так и отрицательным)

Допустим, мы хотим посчитать **log-return** цены актива для каждого дня относительно предыдущего

In [124]:
aapl['log_return'] = np.log(aapl['Close']).diff()

aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits,Date_no_time,Year,Month,Day,log_return
0,2020-01-02 00:00:00-05:00,72.059666,73.12023,71.804259,73.059418,135480400,0.0,0.0,2020-01-02,2020,1,2,
1,2020-01-03 00:00:00-05:00,72.281027,73.115365,72.122918,72.349136,146322800,0.0,0.0,2020-01-03,2020,1,3,-0.00977
2,2020-01-06 00:00:00-05:00,71.463723,72.964557,71.210743,72.925636,118387200,0.0,0.0,2020-01-06,2020,1,6,0.007937
3,2020-01-07 00:00:00-05:00,72.935361,73.193203,72.361301,72.582657,108872000,0.0,0.0,2020-01-07,2020,1,7,-0.004714
4,2020-01-08 00:00:00-05:00,72.283469,74.054311,72.283469,73.750252,132079200,0.0,0.0,2020-01-08,2020,1,8,0.015958


Если мы, например, хотим предсказывать на основе сегодняшней цены актива его завтрашнюю цену, то воспользуемся методом `shift` следующим образом

In [125]:
aapl['Close_tomorrow'] = aapl['Close'].shift(-1)

aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits,Date_no_time,Year,Month,Day,log_return,Close_tomorrow
0,2020-01-02 00:00:00-05:00,72.059666,73.12023,71.804259,73.059418,135480400,0.0,0.0,2020-01-02,2020,1,2,,72.349136
1,2020-01-03 00:00:00-05:00,72.281027,73.115365,72.122918,72.349136,146322800,0.0,0.0,2020-01-03,2020,1,3,-0.00977,72.925636
2,2020-01-06 00:00:00-05:00,71.463723,72.964557,71.210743,72.925636,118387200,0.0,0.0,2020-01-06,2020,1,6,0.007937,72.582657
3,2020-01-07 00:00:00-05:00,72.935361,73.193203,72.361301,72.582657,108872000,0.0,0.0,2020-01-07,2020,1,7,-0.004714,73.750252
4,2020-01-08 00:00:00-05:00,72.283469,74.054311,72.283469,73.750252,132079200,0.0,0.0,2020-01-08,2020,1,8,0.015958,75.316757


Тогда таргетом у нас будет являться `Close_tomorrow`, а объясняющей переменной - `Close`

## 3.2. Не в `Pandas`

Однако не всегда работать с датами приходится только в `Pandas`. Для этого есть модуль `datetime`

In [126]:
from datetime import datetime as dt
import datetime
from dateutil.relativedelta import relativedelta

Создадим дату в строковом формате и переведем ее в формат времени. Формат времени также выдает помимо даты часы. Методом ```.date()``` можно оставить только дату.

In [127]:
date = '2024-03-20'

date = dt.strptime(date, '%Y-%m-%d')

print(date)
print(type(date))
print(date.date())
print(date.day)
print(date.month)
print(date.hour)

2024-03-20 00:00:00
<class 'datetime.datetime'>
2024-03-20
20
3
0


In [128]:
date = '2024:Mar:20'

date = dt.strptime(date, '%Y:%b:%d')
print(date)
print(type(date))
print(date.date())
print(date.day)
print(date.month)
print(date.hour)

2024-03-20 00:00:00
<class 'datetime.datetime'>
2024-03-20
20
3
0


In [129]:
mydatetime = '2020-01-13 23:58:00'

mydatetime = dt.strptime(mydatetime, '%Y-%m-%d %H:%M:%S')

mydatetime

datetime.datetime(2020, 1, 13, 23, 58)

In [130]:
mydatetime.hour

23

Можно также добавить день/месяц/год через `relativedelta` к нашей дате

In [131]:
date2 = date.date() + relativedelta(days=1)

print(date2)

2024-03-21


In [132]:
[date.date() + relativedelta(months=i) for i in range(1,13)]

[datetime.date(2024, 4, 20),
 datetime.date(2024, 5, 20),
 datetime.date(2024, 6, 20),
 datetime.date(2024, 7, 20),
 datetime.date(2024, 8, 20),
 datetime.date(2024, 9, 20),
 datetime.date(2024, 10, 20),
 datetime.date(2024, 11, 20),
 datetime.date(2024, 12, 20),
 datetime.date(2025, 1, 20),
 datetime.date(2025, 2, 20),
 datetime.date(2025, 3, 20)]

Для подсчета разницы, надо не забыть применить ```.date()``` к **date** (т.к. пока что там есть еще и время)

In [133]:
tmp = date2 - date.date()

In [134]:
tmp.days

1