In [None]:
import yaml

with open('../config.yaml', 'r') as f:
    cfg = yaml.safe_load(f)

# Numpy

* Пакет для Python, реализующий многомерные массивы
* Массивы **статически типизированные**. Тип элементов определяется при создании массива.
* Массивы эффективно используют память.
* Методы линейной алгебры в numpy реализованы на C и Fortran, что обеспечивает хорошую производительность.
* Пакет numpy активно используется в научных проектах по всему миру.

In [None]:
import numpy as np

## Создание массивов

Существует несколько способов создания новых numpy массивов:
* через списки и кортежи Python
* используя специальные функции numpy такие, как `arange`, `linspace`, и так далее.
* вычитывая данные из файлов

### 1D массивы:

In [None]:
a = np.array([0,1,2,3])
a

In [None]:
type(a), a.dtype

In [None]:
a.ndim, a.shape, len(a)

In [None]:
b = np.array((3, 4, 5))
b

В numpy существует множество функций для генерации массивов:

<p style="font-size:16px"><b>`arange`</p></b>

Генерирует значения в интервале [start, stop) с шагом step. Аналог встроенной функции Python `range`. На уровне типов они, конечно, отличаются. `np.arange` возвращает обычный numpy-массив, в то время как `range` является lazy sequence/lazy iterable и стоит в общем ряду с `list` и `tuple`. Funny fact: `range` не является итератором -- он не "иссякает", для него нельзя вызвать `next()` и можно `len()`, но, в отличие от списка, он lazy

In [None]:
x = np.arange(0, 10, 1) # аргументы: start, stop, step
type(range(10))

In [None]:
x = np.arange(-1, 1, 0.1)
x

<p style="font-size:16px"><b>`linspace` и `logspace`</b></p>

`linspace` Генерирует равномерно распределенные числа, включая конечные точки.

`logspace` То же, но в логарифмической шкале.

In [None]:
np.linspace(0, 10, 10) # аргументы: start, stop, число точек

In [None]:
np.logspace(0.1, 1, 4, base=2)

<p style="font-size:16px"><b>`zeros`, `ones`, `zeros_like` и `ones_like`</b></p>

In [None]:
np.zeros((5,))   # Аргумент должен быть кортежем

In [None]:
a = np.ones((4,))
a

In [None]:
b = np.zeros_like(a)
b

In [None]:
c = np.ones_like(b)
c

Задание 1. Создайте вектор со значениями от 0 до 65

In [None]:
# your code

### Многомерные массивы

In [None]:
# Матрица
m = np.array([[1., 2.], [3., 4.]])
m

In [None]:
type(m), m.dtype

In [None]:
m.ndim, np.shape(m), len(m), np.size(m)

При попытке назначить значение другого типа будет выдана ошибка:

In [None]:
m[0,0] = 'hello' 

<p style="font-size:16px"><b>`zeros`, `ones`, `zeros_like` и `ones_like`</b></p>

In [None]:
a = np.ones((3, 3))
a

In [None]:
b = np.zeros((2, 2))
b

<p style="font-size:16px"><b>Другие функции</b></p>

In [None]:
c = np.eye(3) # единичная матрица
c

In [None]:
d = np.diag(np.arange(4)) # диагональная матрица
d

**Задание**: Создайте матрицу 3х3 со значениями от 0 до 9

In [None]:
# Your code

In [None]:
np.arange(9).reshape((3,3))

**Задание**: создайте матрицу 9 на 9, заполните случайными значениями и найдите максимальный, минимальный элемент и среднее значение.

In [None]:
# Your code
# hint: если не помните, как делать ту или иную часть задачи, смотрите материалы дальше

## Копирование в NumPy

Как мы помним, в Python при присваивании не происходит копирование объектов. 

In [None]:
m = np.array([[1, 2], [3, 4]])
m

In [None]:
n = m

In [None]:
# Изменение N меняет M
n[0, 0] = 10
n

In [None]:
m

Глубокая копия создается в NumPy с помощью функции `copy`:

In [None]:
n = np.copy(m)

In [None]:
# теперь при изменении N M остается нетронутым
n[0,0] = -5
n

In [None]:
m

Какой бы shape ни имел массив, в памяти он хранится как обыкновенный линейный массив. В примере показан C-order хранения многомерного массива ("укладываем" массив по строкам 
 последний индекс является самым быстрым). Такие массивы называют C-contiguous. Альтернативой является Fortran-order, где массив "укладывается" по столбцам 
 первый индекс является самым быстрым. Такие массивы называют Fortran-contiguous. Узнать, является ли массив C-contiguous или Fortran-contiguous, мы можем с помощью атрибута flags. В общем случае numpy используется C-order:

In [None]:
a = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
])
a.flags

In [None]:
a = np.array([
    [1, 4, 7],
    [2, 5, 8],
    [3, 6, 9],
])
a.flags

Линейный массив (он же иногда называется буфером), в котором хранятся данные, хранится в атрибуте data. Более конкретно, в нем хранится указатель на первый элемент массива, поэтому работать с ним напрямую мы не можем:

In [None]:
a.data

Атрибут strides задает шаги в байтах, необходимые для перехода к следующему элементу вдоль того или иного индекса. Например, для двумерного массива типа int16 с shape = (4, 3) и C-contiguous буфером мы получим stride = (3x2, 1x2)

Numpy старается минимизировать количество копирований массивов, в результате чего многие операции, например slicing и в большинстве случаев reshape, возвращают view (представление) массива, а не его копию. Это становится возможным благодаря модификации shape, strides и указателя на первый элемент массива (то есть data). Помня об этом, всегда можно догадаться, произойдет копирование или будет использоваться view: всегда, когда можно построить массив из исходного путем модификации shape, stride и/или сдвига указателя в data, будет использоваться view. Рассмотрим несколько примеров

In [None]:
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8],
    [9, 10, 11],
], dtype=np.int16)
a.strides

Воспользуемся slicing для взятия каждого второго столбца. Это эквивалентно удвоению stride по второму индексу. Следовательно, будет использоваться view без копирования массива

In [None]:
b = a[:, ::2]
b.strides

Проверить, является ли массив view, можно, обратившись к атрибуту base: он равен None для скопированных или вновь созданных массивов и равен исходному массиву для view

In [None]:
b.base

In [None]:
b.copy().base is None

Аналогично можно убедиться, что slicing для взятие каждой второй строки, начиная со второй, так же даст view без какого-либо копирования. В данном случае происходит удвоение stride по первому индексу и сдвиг указателя вперед на один элемент

In [None]:
b = a[1::2, :]
b.strides

In [None]:
b.base

Из этих примеров становится ясно, что все операции slicing-а приводят к появлению view. Более сложная индексация, которую мы рассмотрим ниже, уже приведет к копированию


При изменении представления меняется и изначальный массив:

In [None]:
a = np.arange(10)
a

In [None]:
b = a[::2]
b

In [None]:
b[0] = 12
b

In [None]:
a # (!!)

In [None]:
a = np.arange(10)
b = a[::2].copy() # глубокое копирование
b[0] = 12
a

## Слияние массивов

Функции `vstack`, `hstack` и `concatenate` позволяются составить общий массив из нескольких массивов:

<p style="font-size:22px"><b>`concatenate`</b></p>

In [None]:
a = np.array([[1, 2], [3, 4]])
a

In [None]:
b = np.array([[5, 6]])
b

In [None]:
np.concatenate((a, b), axis=0)

In [None]:
np.concatenate((a, b.T), axis=1)

<p style="font-size:22px"><b>`hstack` и `vstack`</b></p>

In [None]:
np.vstack((a,b))

In [None]:
np.hstack((a,b.T))

## Индексация

Доступ к данным массива организуется с помощью индексов и оператора `[]`.

In [None]:
a = np.arange(10)
a

In [None]:
a[0], a[2], a[-1]

Для многомерных массивов индексами является кортеж целых чисел:

In [None]:
m = np.diag(np.arange(3))
m

In [None]:
m[1, 1]

In [None]:
m[(1, 1)]

Можно использовать "`:`" для получения доступа к целой колонке или строке: 

In [None]:
m[1, :] # строка 1

In [None]:
m[:, 2] # колонка 2

Присваивание новых значений элементам массива:

In [None]:
m[2, 1] = 10
m

In [None]:
m[1, :] = 5
m[: ,2] = -1

In [None]:
m

## Слайсинг

NumPy поддерживает слайсинг, как и списки с кортежами в Python:

In [None]:
a = np.arange(10)
a

Все три параметра слайсинга являются опциональными: по умолчанию `start` равен **0**, `end` равен последнему элемену и `step` равен **1** в `a[start:stop:step]`:

In [None]:
a[::] # все параметры слайсинга имеют значения по умолчанию

In [None]:
a[1:3]

In [None]:
a[:3]

In [None]:
a[3:]

In [None]:
a[2:9:2] 

Отрицательные индексы отсчитываются от конца массива:

In [None]:
a[-1] # последний элемент массива

In [None]:
a[-3:] # последние три элемента

Слайсы являются представлениями массива, а потому являются изменяемыми:

In [None]:
a[1:3] = [-2,-3]
a

**Задание**: разверните массив (1, 2, 3) -> (3, 2, 1)

In [None]:
# Your code

Слайсинг работает точно так же и для многомерных массивов:

In [None]:
m = np.random.randint(1,100, size=(4, 4))
m

In [None]:
m[1:4, 1:4]

In [None]:
m[::2, ::2]

**Задание**: Создайте массив 5х5 и заполните двойками обе диагонали, а нулями все остальное

In [None]:
# your code

**Задание**: Создайте массив с значениями 1,2,3,4 на 1 поддиагонали 

In [None]:
# your code

## Линейная алгебра

Код, написанный на numpy становится эффективным тогда, когда он достаточно векторизован (т.е. векторные и матричные операции используются в бОльшей части программы).

### Поэлементные операции

Все арифметические операции по умолчанию являются поэлементными:

In [None]:
a = np.arange(4)
a + 1

In [None]:
5*a

In [None]:
2**a

In [None]:
j = np.arange(5)
2**(j + 1) - j

### Операции между массивами

In [None]:
a = np.arange(4)
b = np.ones(4) + 3
print('a = ', a)
print('b = ', b)
a - b

In [None]:
a * b

Сравнения:

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
a == b

In [None]:
a > b

Логические операции:

In [None]:
a = np.array([1, 1, 0, 0], dtype=bool)
b = np.array([1, 0, 1, 0], dtype=bool)
np.logical_or(a, b)

In [None]:
a | b

In [None]:
np.logical_and(a, b)

In [None]:
a & b

Использование логических операторов позволяет обращаться к элементам массива через маску:

In [None]:
c = np.array([1, 2, 3, 4], dtype=int)
d = np.array([1, 2, 5, 6], dtype=int)
c[c == d]

**Задание**: найдите ненулевые элементы массива [1,2,0,0,8,0, 4,1]

In [None]:
# Your code

### Матричная алгебра

Перемножение массивов является поэлементным. Для матричного умножения необходимо использовать функцию `dot`:

In [None]:
m = np.array([[1., 2.], [3., 4.]])
m

In [None]:
m * m

In [None]:
m.dot(m)

**Задание**: Создайте 2 массива 2х4, проверьте, что они одинаковы

In [None]:
# your code

### Трансформирование массивов

Для транспонирования матриц используется либо `.T`, либо функция `transpose`:

In [None]:
m

In [None]:
m.T

In [None]:
m.transpose()

Метод reshape позволяет изменить shape массива на произвольный shape, дающий то же число элементов, что и оригинальный shape. 

Понять, каким будет конечный вид массива, легко. Достаточно представить, как текущий массив выглядит в линейной форме в соответствии с C-order или F-order в зависимости от аргумента order, передаваемого в reshape (по умолчанию используется C-order), и переписать его в многомерный вид в соответствии с новым shape, используя тот же order. Рассмотрим пример ниже

In [None]:
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8],
    [9, 10, 11],
], dtype=np.int16)
a.shape

In [None]:
a.reshape(-1)


Допустим теперь, что мы хотим получить shape = (2, 2, 3). В C-order самым быстрым индексом является последний, следовательно, фиксируя первые два индекса, мы должны получить подмассивы a_1 = [0, 1, 2], a_2 = [3, 4, 5], a_3 = [6, 7, 8] и a_4 = [9, 10, 11]. Их "схлопывание" дает снова линейный массив [a_1, a_2, a_3, a_4]. Снова используя C-order и фиксируя первый индекс, мы получаем два подмассива [a_1, a_2] и [a_3, a_4]. Следовательно, финальный массив будет иметь следующий вид:

[
    [
        [0, 1, 2],
        [3, 4, 5],
    ],
    [
        [6, 7, 8],
        [9, 10, 11],
    ],
]

In [None]:
a.reshape(2, 2, 3)

**Задание**: Создайте вектор х длины 5 и матрицу А размера 5х4. Перемножьте их, чтобы получить результаты размера [1,5], [5], [4x5] 

In [None]:
# your code

Другие математические функции:

In [None]:
c = np.matrix([[1j, 2j], [3j, 4j]])
c

In [None]:
np.conjugate(c)

Эрмитово-сопряженная матрица(transpose + conjugate):

In [None]:
c.H

Вещественная и мнимая части могут быть получены с помощью `real` и `imag`:

In [None]:
np.real(c) # то же: c.real

In [None]:
np.imag(c) # то же: c.imag

Модули элементов матрицы:

In [None]:
np.abs(c)

Задание: Извлеките целые части из случайного массива размера 5х5 (с float типом) как минимум 3 разными способами

In [None]:
# your code

In [None]:
# your code

Задание: создайте двумерный массив, а потом добавьте к нему границу толщины 2 (весь исходный массив должен быть в новом)

In [None]:
# Your code
# hint: numpy has special function

Задание: создайте массив 8х8, заполните 0 и 999 в шахматном порядке. 

In [None]:
# your code


Задание: создайте массив 8х8, заполните 0 и 999 в шахматном порядке. Используйте функцию tile

In [None]:
# your code

### Матричные вычисления

<p style="font-size:18px"><b>inverse</b></p>

In [None]:
np.linalg.inv(c) # то же: C.I 

In [None]:
c.I * c

<p style="font-size:18px"><b>determinant</b></p>

In [None]:
np.linalg.det(c)

In [None]:
np.linalg.det(c.I)

Задание: нормализуйте случайный массив

In [None]:
# your code

Задание: Создайте квадратные матрицы A, B. Посчитайте ((A+B)*(-A/2)) без копирования массивов.

In [None]:
# your code

## Векторизация функций

Numpy предлагает средства для создания векторизованных оберток над функциями, которые изначально принимают на вход скалярные значения.

In [None]:
def foo(x):
    if x >= 0:
        return 1
    else:
        return 0

In [None]:
foo(np.array([-3, -2, -1, 0, 1, 2, 3]))

Эта функция работает для скалярных данных. 

Чтобы это функция принимала векторные значения, необходимо провести векторизацию с помощью функии `vectorize`:

In [None]:
foo_vec = np.vectorize(foo)

In [None]:
foo_vec(np.array([-3, -2, -1, 0, 1, 2, 3]))

- Задание: создайте случайный вектор размера 10 и отсортируйте
- Доп.задание: отсортируйте строки двумерной матрицы 6х6

In [None]:
# your code

Задание: Вычтите среднее из строк матрицы.

In [None]:
# your code

Задание: Создайте массив [[1, 0, null, 2, 4, null, 9],[null, 1, 0, -2, null, null, 3]]. Выведите маску, в которой 1 соответствуют null значениям.

In [None]:
# your code

# Matplotlib

* Пакет для Python, используемый для создания качественных 2D визуализацией (есть минимальная поддержка 3D)
* Возможность создавать интерактивные графики
* Добавление множества графиков на один рисунок с кастомным расположением
* Экспорт в различные форматы изображений
* Есть поддержка анимаций

In [None]:
# Позволяет matplotlib отображать графики сразу в notebook.
%matplotlib inline

## Matplotlib API

Импортирование модуля `matplotlib.pyplot` под именем `plt`:

In [None]:
import matplotlib.pyplot as plt

In [None]:
import numpy as np

Простейший пример построения графиков в matplotlib:

In [None]:
x = np.linspace(-2., 2., 128, endpoint=True)
y1 = x**2
y2 = np.exp(x)
plt.plot(x, y1)
plt.plot(x, y2)
plt.xlabel(r'$x \in \mathbb{R}$', fontsize=12)
plt.ylabel(r'$y(x)$', fontsize=12)
plt.show()

Рекомендуется создавать отдельный объект для каждого более-менее сложного графика. Это можно реализоваться, например, с помощью функии `subplots`:

In [None]:
# Сетка графиков -- 1x1. Размер задается с помощью figsize.
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(8, 6))
ax.plot(x, y1, color="blue", linewidth=1.0, linestyle="-")
ax.plot(x, y2, color="green", linewidth=1.0, linestyle="--")
ax.grid()
ax.set_xlabel(r'$x$', fontsize=12)
ax.set_ylabel(r'$y$', fontsize=12)
plt.show()

Множественные графики

In [None]:
# Создаем 2 графика (в 2 колонках)
fig, axes = plt.subplots(1, 2, figsize=(10, 6))
axes[0].plot(x, y1, 'r')
axes[1].plot(x, y2, 'b')
fig.tight_layout()

## Сохранение графиков

Текущий график можно сохранить, вызвав метод `savefig` класса `Figure`:

In [None]:
fig.savefig("filename.png")

Также можно указать DPI и различные форматы:

In [None]:
fig.savefig("filename.pdf", dpi=200)

### Легенды, описания осей и графиков

**Заголовок графика**


`axes.set_title("title")`

**Описания осей**


`axes.set_xlabel("x")
axes.set_ylabel("y")`

**Легенда**

Легенды могут создаваться двумя способами. Первый -- явно через метод `legend`:

`axes.legend(["curve1", "curve2"])`

Второй метод -- использование `label="label text"` при вызове `plot` с последующим вызовом метода `legend`: 

`axes.plot(x, x**2, label="curve1")
axes.plot(x, x**3, label="curve2")
axes.legend()`

Также можно выбрать расположение легенды на графике:

`ax.legend(loc=0) # автовыбор
ax.legend(loc='upper right')
ax.legend(loc='upper left')
ax.legend(loc='lower left')
ax.legend(loc='lower right')`

Пример использования описанного выше:

In [None]:
fig, ax = plt.subplots()
ax.plot(x, x**2, label="y = x**2")
ax.plot(x, x**3, label="y = x**3")
ax.legend(loc='upper left');
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_title('title');

**Задание**:
Дан временной ряд дневной цены некоторого актива:

stock_prices = np.array([100, 102, 101, 105, 107, 110, 108, 109, 112, 115, 114, 116, 118, 120, 119])
1) Постройте временной ряд недельного скользящего среднего, то есть скользящего среднего с окном, равным одной неделе. При построении скользящего среднего ряда игнорируйте ту часть исходного временного ряда, где в окно попадает меньше одной недели.
2) Постройте линейный график исходной цены и цены, полученной с помощью скользящего среднего

In [None]:
# your code

Интерфейс subplots позволяет создавать сетку из множественных графиков

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(8, 4))
axes[0].plot(x, y1, "r")  # в этот раз мы используем fmt для задания цвета
axes[1].plot(x, y2, "b")
for ax in axes:
    ax.set_xlabel(r'$x$', fontsize=12)
    ax.set_ylabel(r'$y(x)$', fontsize=12)
    ax.grid()
fig.tight_layout()
plt.show()

**Задание**: создайте график 2х1, постройте графики sin(x), e**(x). Используйте в графике с e**x логарифмическую шкалу (semilogx, semilogy или loglog).

# Pandas

* Пакет для Python, используемый для представления, манипуляций и анализа табличных данных 
* Строится вокруг эффективно реализованных структур `pd.DataFrame` (таблица) и `pd.Series` (колонка), которые позволяют быстро манипулировать большими датасетами (если они помещаются в памяти, в противном случае необходимо использовать `dask`)
* Поддерживает интерфейс, схожий с numpy массивами, но добавляет поддержку кастомовой табличной индексации
* Часто используется как структура датасета для ML моделей

In [None]:
import pandas as pd

## Создание рядов и датафреймов

Основные манипуляции данными в pandas происходят через `pd.Series` (одномерный массив с кастомной индексацией) и `pd.DataFrame` (двумерный массив с кастомной индексацией и интерпретацией строк и столбцов). В рамках одного столбца (или одного `pd.Series`) тип данных постоянен.

### Создание `pd.Series`

Мы можем создать `pd.Series` напрямую из массива/списка. В этом случае будет создан автоматический индекс от 0 до N - 1, к которому мы всегда можем получить доступ через аттрибут `index`. Сам индекс является отдельным типом, который наследуется от `pd.Index` и представляет immutable последовательность, пригодную для индексации.

In [None]:
a = [1, 3, 5]
s = pd.Series(a)
s

In [None]:
s.index

Мы также можем задать свой собственный индекс, если он у нас имеется. Для удобства можно представлять себе индекс как первичный ключ в терминах SQL

In [None]:
s = pd.Series(a, index=['x', 'y', 'z'])
s

In [None]:
s.index

Создать `pd.Series` мы можем также из словаря, где ключи будут интерпретироваться как индексы.

In [None]:
data = {
    'x': 1,
    'y': 3,
    'z': 5,
}
s = pd.Series(data)
s

### Создание `pd.DataFrame`

Мы можем представить `pd.DataFrame` как набор `pd.Series`, скрепленных общим индексом. Существует множество способов, как мы можем создать `pd.DataFrame`, но проще всего это сделать с помощью словаря.

In [None]:
people = {
    'first_name': ['Anastasiya', 'Anton', 'Boris'],
    'second_name': ['Nikolskaya', 'Pershin', 'Yeltsin'],
    'sex': ['f', 'm', 'm'],
    'gpa': [4.8, 4.5, 3.5],
}
df = pd.DataFrame(people)
df

Мы также можем загрузить данные из файла. Чаще всего для этого используют csv и соответствующую функции `pd.read_csv()`

In [None]:
df_csv = pd.read_csv(cfg['house_pricing']['train_dataset'])
df_csv.head()

## Доступ к данным в датафрейме

Используя индекс и название столбца, мы всегда можем получить доступ к любому набору данных в датафрейме. Общий интерфейс нам предоставляет оператор `[ ]`, примененный к `loc`. Первым аргументом здесь будет индекс, а вторым -- столбец:

In [None]:
df.loc[1, 'first_name']

И первый, и второй аргументы могут последовательностями, что позволяет получить доступ к любому подмножеству датафрейма, который сам является датафреймом:

In [None]:
df.loc[[0, 1], ['first_name', 'second_name']]

Есть несколько упрощений для этого синтаксиса. Начнем с доступа по индексу исключительно. Допустим, мы хотим получить строку с индексом 1:

In [None]:
df.loc[1]

Обратите внимание, что возвращенный объект является инстансом `pd.Series` с индексом `['first_name', 'second_name', 'sex', 'gpa']`:

In [None]:
print(type(df.loc[1]))
df.loc[1].index

Мы также можем получить `pd.Series` по одному из столбцов, используя оператор `[ ]` напрямую:

In [None]:
df['first_name']

Снова можно передать последовательность названий столбцов в `[ ]` для получения подмножества столбцов:

In [None]:
df[['first_name', 'second_name']]

Мы также можем комбинировать `loc()` и `[ ]` для получения доступа к любому подмножеству датафрейма (chained indexing). Это легитимно до тех пор, пока нашей задачей является доступ к данным, а не их изменение

In [None]:
df[['first_name', 'second_name']].loc[[0, 1]]

## Изменение данных в датафрейме

Обратите внимание, что во всех операциях выше возвращался новый инстанс `pd.DataFrame` или `pd.Series`. Возникает естественный вопрос -- происходит в этом случае копирование данных или нет? На этот вопрос нет однозначного ответа -- в одном случае может произойти копирование данных, а в другом будет возвращено их представление. Существуют правила, которые конкретизируют эти случаи [1], но во всех операциях следует использовать наиболее консервативный подход, то есть явные копирования и изменения. Ниже мы рассмотрим частные случаи.

Правило для изменения данных в исходном датафрейме очень простое -- не должно быть никакого chained indexing [2]. В противном случае мы можете получить warning `SettingWithCopy`. Причина состоит в том, что pandas не имеет механизма для отслеживания "представлений в представлениях". После первой индексации будет возвращен датафрейм/ряд, относительно которого нет уверенности -- является ли он копией или представлением.

[1] https://stackoverflow.com/questions/23296282/what-rules-does-pandas-use-to-generate-a-view-vs-a-copy  
[2] https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

Предположим, что мы хотим изменить оценку в исходном датафрейме для индекса 1. Мы можем это сделать, избегая chained indexing, используя `loc`:

In [None]:
df.loc[1, 'gpa'] = 4.6
df

Попытка сделать это через chained indexing может не сработать:

In [None]:
df.loc[1]['gpa'] = 4.5
df

А может и сработать:

In [None]:
df['gpa'][1] = 4.5
df

Именно из-за такой неоднозначности и стоит использовать наиболее явные способы изменения датафреймов.

Еще одним из явных способов является изменение всего столбца через `[ ]`:

In [None]:
df['gpa'] = [5.0, 4.5, 3.2]
df

Если требуется создать копию датафрейма, то следует также создать копию явно: 

In [None]:
df_copy = df.copy()
df_copy.loc[0, 'gpa'] = 4.9
df_copy

## Exploratory data analysis (EDA) 

### Общая информация

Методы `head()` и `tail()` выводят первые (последние соотв.) n строк. Оба метода принимают кол-во выводимых строк как единственный аргумент (по умолчанию 5).

In [None]:
df_csv.head()

In [None]:
df_csv.tail()

Не все столбцы здесь выведены. Их список мы можем получить, используя аттрибут `columns`:

In [None]:
df_csv.columns

Базовую информацию о датафрейме (кол-во строк, кол-во столбцов, типы столбцов, кол-во not NaN значений) мы можем получить, используя метод `info()`:

In [None]:
df_csv.info()

NaN значения регулярно встречаются при работе с реальными датасетами. Как минимум, часто полезно знать их кол-во. Для этого удобно использовать метод `isna()` или `isnull()` (алиас для `isna()`):

In [None]:
df_csv.isna()

Просуммируя столбцы, мы получим кол-во NaN значений в каждом столбце:

In [None]:
df_csv.isna().sum()

Интересно узнать, какие столбцы имеют больше всего NaN значений. Для этого воспользуемся сортировкой:

In [None]:
df_csv.isna().sum().sort_values(ascending=False)

**Задание**: найдите максимальное число пустых значений в строке.

**Задание**: сколько строк вообще не имеют пустых значений? Сколько строк имеет не больше одного?

### Статистическая информация

Основные статистики по столбцам можно получить, вызвав метод `describe()`:

In [None]:
df_csv.describe()

Допустим, что нам интересны статистики только для цены жилья и года постройки:

In [None]:
df_csv[['SalePrice', 'YearBuilt']].describe()

Мы также можем настроить вывод нужных квантилей для лучшего описания распределений, используя ключевое слово `percentiles`:

In [None]:
df_csv[['SalePrice', 'YearBuilt']].describe(percentiles=[0.1, 0.3, 0.5, 0.7, 0.9])

Те же статистики мы можем вычислить отдельно. Например, можно воспользоваться методами `mean()`, `median()`, `std()`

In [None]:
df_csv.mean(numeric_only=True)

In [None]:
df_csv.median(numeric_only=True)

In [None]:
df_csv.std(numeric_only=True)

Эти статистики отлично подходят для численных столбцов, но множество столбцом в данном датасете представляют категориальные переменные. Для каждого такого столбца мы можем изучить распределение принимаемых значений, используя `value_counts()`:

In [None]:
# TA = typical average, Gd = good, Ex = excellent, Fa = fair
df_csv['KitchenQual'].value_counts()

Мы можем использовать аргумент `normalize=True` для построения функции вероятностей:

In [None]:
df_csv['KitchenQual'].value_counts(normalize=True)

Иногда нам необходимо провести анализ внутри подмножеств, полученных группировкой относительно некоторых столбцов. В этом случае полезным оказывается метод `groupby()`:

In [None]:
df_csv.groupby('KitchenQual').mean()

Рассмотрев среднюю цену по группам, мы можем сделать очевидный вывод, что жилье с качественной кухней стоит сильно дороже:

In [None]:
df_csv.groupby('KitchenQual')['SalePrice'].mean()

### Графики

Несмотря на то, что мы уже знакомы с matplotlib и могли бы воспользоваться им для построения графиков, pandas предоставляет встроенные инструменты, которые особенно удобно использовать в jupyter notebook во время EDA.

Например, построив гистрограмму, можно сразу предположить, что стоимость жилья имеет логнормальное распределение (или по крайней мере несимметричное распределение с тяжелым правым хвостом). При этом метод `plot.hist()` может использован только для числовых столбцов.

In [None]:
df_csv['SalePrice'].plot.hist()

Используя два столбца и `plot.scatter()`, мы можем взглянуть на зависимость между ними:

In [None]:
df_csv.plot.scatter(x='YearBuilt', y='OverallQual')

Для категориальных столбцов мы можем вывести распределение значений, используя `value_counts()` и `plot.bar()`. Здесь же мы продемонстрируем, как можно передавать дополнительные аргументы для изменения визуализации

In [None]:
df_csv['KitchenQual'].value_counts().plot.bar(figsize=(12, 6))

**Задание**:
Найдете вме столбцы с  NaN значениями. Отсортируйте по увеличению числа NaN и постройте barplot.

Отличный инструмент для графиков  - seaborn. Это обертка над matplotlib, которая также предоставляет более широкий набор опций

In [None]:
import seaborn as sns
from matplotlib import pyplot as plt
sns.histplot(df_csv['SalePrice'])

**Задание**: Постройте гистограмму, но с 20 бинами.

In [None]:
# Your code

Конечно, гистограммы можно строить сразу для нескольких категорий. Посмотрим на цены и продажи в зависимости от квартала.

**Задание**: постройте гистограммы для кварталов (столбец MoSold).

In [None]:
sns.histplot(x=df_csv['SalePrice'], #yout_code# , element="step")

**Задание**: Постройте scatterplot через seaborn (scatter) для нескольких пар столбцов из датасета

In [None]:
sns.scatterplot(x=df_csv["LotFrontage"], y=df_csv["SalePrice"])

In [None]:
df_csv.head()

Стиль графиков можно менять, например, поменяв палитру:
```
sns.set(style="whitegrid")
sns.set_palette(["#89CFF0", "#FFB6C1"])
```

Полезно строить графики и для категориальных данных. Например, будет полезно посмотреть на характеристики цены для разных LotShape

Пример такого графика: catplot. В зависимости от значения kind то, как точки будут располагаться на осях. Попробуйте не задавать его и задать "kind"
    

In [None]:
sns.catplot(data=df_csv, x="LotShape", y="SalePrice", kind="swarm")

**Задание**: Постройте этот график, но добавив еще одно измерение с двумя категорими. Как это сделать? Тоже через hue.

Есть также и более продвинутые методы. Например, можно построить графики зависимости целевой переменной от других столбцов.

In [None]:
# Выберем все числовые столбцы из датасета, кроме индекса и цены 
numeric_col = list(df_csv.select_dtypes(include=['number']).columns)
numeric_col.remove("Id")
numeric_col.remove("SalePrice")

num_plots = len(numeric_col)
num_columns = 3
num_rows = num_plots // num_columns + (1 if num_plots % num_columns > 0 else 0)

plt.figure(figsize=(16, 4 * num_rows))

for i, col in enumerate(numeric_col):
    plt.subplot(num_rows, num_columns, i + 1)
    sns.regplot(x=df_csv[col], y=df_csv["SalePrice"], scatter_kws={'color': '#89CFF0'}, line_kws={'color': '#FFB6C1'})
    plt.title(f"{col} vs SalePrice")
    plt.xlabel(col)
    plt.ylabel("SalePrice")
    
plt.tight_layout()
plt.show()

Также иногда полезный, а иногда перегруженный график - pairplot. Его можно сделать даже для всего датасета.

**Задание**: сделайте pairplot для нескольких столбцов датасета. Лучше не выбирать больше 5 за раз!