# <center>🤓 Numpy & Изображения 🖼 </center>

В этой тетрадке мы поговорим о том, как хранятся и отображаются изображения в компьютерах, в частности в задачах машинного обучения. Научимся представлять картинки в виде `numpy.ndarray` и познакомимся с такими библиотеками как `opencv`, и `PIL.Image`

## Содержание тетрадки: <a id='b'></a>
<br>

1. [История фотографии или как загрузить изображение в Python](#h1)
> 1.1 [OpenCV](#h11)<br>
> 1.2 [PIL.Image](#h12)<br>

2. [Основные операции над картинками](#h2)
> 2.1 [Изменение масштаба](#h21)<br>
> 2.2 [Обрезка](#h22)<br>
> 2.3 [Сохранение](#h23)<br>

3. [Numpy-операции над изображениями](#h3)
> 3.1 [Конкатенация (np.concatate)](#h31)<br>
> 3.2 [Стек (np.stack)](#h32)<br>
> 3.3 [Добавляем подушку (np.pad)](#h33)<br>

4. [Как получить список файлов в директории](#h4)


## 1. История фотографии или как загрузить изображение в Python <a id='h1'></a>

Вы знали что первая фотография была сделана на асфальте? [Асфальт](https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D0%BC%D0%B5%D1%80%D0%B0-%D0%BE%D0%B1%D1%81%D0%BA%D1%83%D1%80%D0%B0) - это горная смола, растворимая в масле, керосине или бензине, а не поверхность под ногами прохожих 🙂. Еще в 1822 году [Жозеф Ньепс](https://ru.wikipedia.org/wiki/%D0%9D%D1%8C%D0%B5%D0%BF%D1%81,_%D0%9D%D0%B8%D1%81%D0%B5%D1%84%D0%BE%D1%80) поместил светлую пластину, покрытую черным асфальтовым лаком в [камеру-обскура](https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D0%BC%D0%B5%D1%80%D0%B0-%D0%BE%D0%B1%D1%81%D0%BA%D1%83%D1%80%D0%B0), которая представляет из себя черный ящик с небольшим отверствием, пропускающим свет. Свет попадал на пластину с лаком и в тех местах, куда попадали лучи света, асфальт "запекся". После 8-ми часовой выдержки Жозеф Ньепс смыл незапекшиеся участки асфальта с помощью масел и керосина. На месте этих участков проявилась светлая пластина, а остальные участки (на которые не попадал свет) остались темными. Таким образом он получил первую фотографию. 

<br>

С приходом цифровой фотографии принцип фиксирования изображения практически не изменился, изменились только инструменты. Вместо пластины с лаком в цифровых фотоаппаратах находится площадка с множеством фотодиодов - эта площадка называется матрицей. [Фотодиод](https://ru.wikipedia.org/wiki/%D0%A4%D0%BE%D1%82%D0%BE%D0%B4%D0%B8%D0%BE%D0%B4) - это небольшого размера устройство, которое способно создавать ток, при попадании на него света. В зависимости от конструкции фотодиода, он может выдавать большее напряжение при попадании на него именно синего цвета или зеленого, или красного. Например, если на "синий" фотодиод падает синий свет, то напряжение в цепи будет 2 вольта, а если зеленый или красный - 0.1 вольта. Когда вы делаете фотографию, затвор фотоаппарата открывается и пропускает свет на матрицу. В этот короткий промежуток времени фиксируются значения напряжения на каждом фотодиоде и эта информация сохраняется. Если таких фотодиодов миллионов, то разрешение камеры обозначают значением в 1 мегапиксель. В **IPhone 11** каждая камера имеет разрешение в 12 мегапикселей, а в **Samsung s20** - 33 (33 миллиона фотодиодов 😱🤯). На матрице фотодиоды располагаются так, как указано на картинке:

<img id='pic1' src='./images/photo-matrix.jpg'>


          
вы можете заметить, что зеленых фотодиодов больше всего. Причиной тому является тот факт, что человеческий глаз лучше всего различает оттенки именно зеленого цвета. Поэтому камеры должны захватывать как можно больше зеленых лучей.

<br>
<br>

Давайте представим, что мы сделали фотографию и отдельно сохранили  информацию о напряжении на красных, синих и зеленых фотодиодах. Получается у нас есть три отдельные матрицы. Давайте изобразим каждую из них с помощью черно-белой картинки. Каждый пиксель изображения - один фотодиод. Чем белее пиксель на картинке снизу, тем больше красного/зеленого/синего света попало на этот фотодиод.

<br>
<img src='./images/dub_128r.jpg'>
<center><i>матрица <font color='red'>красных</font> фотодиодов</i></center>

<br>
<img src='./images/dub_128g.jpg'>
<center><i>матрица <font color='green'>зеленых</font> фотодиодов</i></center>

<br>
<img src='./images/dub_128b.jpg'>
<center><i>матрица <font color='blue'>синих</font> фотодиодов</i></center>

Вы можете заметить что они различаются по яркости и самая яркая из них - зеленая (так как дерево и трава вокруг зеленого цвета).

А как же эти матрицы превращяются в цветные картинки на экранах наших девайсов? Каждый пиксель на дисплее можно представить в виде трех маленьких лампочек (красная, зеленая и синяя). Когда вы открываете цветную картинку размером 128х128, в ее отображении участвуют 128х128х3 = 49152 лампочки. Красные лампочки дисплея загораются с мощностью в соответствии с красной матрицей, зеленые в соответствии с зеленой, а синие с синей. Световые волны, исходящие от каждого пикселя, смешиваются в пространстве, и вы видите цветное изображение. Таким образом, любая цветная картинка представляет из себя тензор, размером `H x W x C`, где `H` - высота (height), `W` - ширина (width), `C` - цветовые каналы (channels). В цветной картинке, как мы узнали, 3 канала (но бывает и 4, последний канал отвечает за прозрачность каждого пикселя, например, это полезно при работе в фотошопе).

<img src='./images/dub_128.jpg'>

Далее мы поговорим о том, как загрузить изображение в переменную Python 🐍 

<br>
<br>
<br>

### 1.1 OpenCV <a id='h11'></a>
    
[содержание](#b) | [глава](#h1)

[Open Computer Vision](https://ru.wikipedia.org/wiki/OpenCV) - библиотека алгоритмов компьютерного зрения и обработки изображений, реализованная на языке С/С++ и выпущенная официально в 1999 году группой разработчиков из Intel. С ее помощью над изображением можно применить практически все трансформации, которые могут придти к вам в голову: перспективные искажения, размытие, изменение формы, масштабирование, конвертация цветовых каналов и так далее. В Python библиотека носит название `cv2`. Чтобы вывести изображение в jupyter тетрадке нам также понадобится пакет `matplotlib.pyplot` (общепринятое сокращение: `plt`). Строка `%matplotlib inline` - указывает jupyter notebook-у выводить изображения сразу под ячейкой, в которой используется matplotlib (это позволяет нам не вызывать лишнюю функцию `plt.show()` в каждой ячейке, под которой хотим показать картинку).

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import cv2

Как мы выясняли, цветные картинки представляются в виде трех матриц (RGB - по одной на каждую компоненту цвета: red, green, blue), поэтому фраза "считать картинку" означает представить ее в виде тензора, который будет храниться в переменной языка Python (например, это может быть `numpy.ndarray`). Функция, которая выполняет эту задачу: `cv2.imread()` - она принимает путь до картинки, а возвращает тензор

In [None]:
img = cv2.imread('./images/raccoon.jpg') # запишем картинку в переменную img

Посмотрим, какой же тип у переменной img?

In [None]:
type(img)

Да это же знакомый нам numpy.ndarray! Это означет, что теперь мы можем использовать весь функционал библиотеки numpy для работы с изображением и в главе [Numpy-операции над изображениями](#h2) мы поговорим об этом подробнее. А пока давайте хотя бы выведем знакомое нам свойство `shape` и узнаем форму нашего тензора

In [None]:
img.shape

Мы видим, что высота картинки (кол-во пикселей по вертикали) равна 400, ширина (кол-во пикселей по горизонтали) 640, и 3 канала для каждой компоненты цвета (еще это называют глубиной картинки).

Теперь давайте посмотрим на нашу картинку 👀. Для этого воспользуемся функцией `plt.imshow()` (imshow - сокращение от "image show").

In [None]:
plt.imshow(img) # на вход функции подаем тензор

Енот в позднее время суток при холодном освещении? На самом деле цвета в картинке должны выглядеть иначе. По умолчанию, openCV предполагает, что каналы в картинке расположены в порядке Blue Green Red, поэтому каналы в нашей картинке перепутаны (красный на месте синего, а синий на месте красного) и изображение выглядит не естественно. Чтобы конвертировать картинку из BGR в RGB, воспользуемся функцией `cv2.cvtColor()` (convert color). Сейчас нам потребуется лишь переставить каналы местами, но эта функция способна также отображать картинку в отличные от RGB цветовые пространства [HSV](https://ru.wikipedia.org/wiki/HSV_(%D1%86%D0%B2%D0%B5%D1%82%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C)), [LAB](https://ru.wikipedia.org/wiki/LAB), [HSL](https://ru.wikipedia.org/wiki/HSL) и [другие](https://ru.wikipedia.org/wiki/%D0%A6%D0%B2%D0%B5%D1%82%D0%BE%D0%B2%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D1%81%D1%82%D0%B2%D0%BE). Алгоритм конвертации задается с помощью целочисленного значения. Чтобы не запоминать какой алгоритм каким значением закодирован, opencv хранит несколько константных значений и название каждой из констант отражает действие алгоритма, вот несколько примеров:

In [None]:
cv2.COLOR_BGR2RGB, cv2.COLOR_RGB2LAB, cv2.COLOR_RGB2HLS, cv2.COLOR_RGB2GRAY # 2 из-за того что two созвучно с to

In [None]:
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) 
""" 
Параметры:
----------
- src (source) : картинка (тензор) у которой требуется конвертировать каналы
- code : код конвертации (в данном случае: 4 - cv2.COLOR_BGR2RGB это просто константа равная четырем)
"""

plt.imshow(img)

Вот так выглядит более реалистично. Но также вы могли заметить, что рядом с картинкой присутствует ось X и ось Y. Они не являются частью изображения, их добавила функция `plt.imshow()`, так как основное назначение библиотеки matplotlib - рисовать графики, оси являются неотъемлемой частью это библиотеки. Чтобы убрать их, можно вызвать функцию `plt.axis()`, передав в виде параметра строку "off".

In [None]:
plt.imshow(img) # покажем картинку
plt.axis('off'); # удалим оси

<br>
<br>
<br>

### 1.2 PIL.Image <a id='h12'></a>

[содержание](#b) | [глава](#h1)

Python Image Library (также известная как Pillow) - библиотека для манипуляций с изображениями, появившаяся на свет в далеком 1995 году, реализованная на Python и C. Нам, в частности, понадобится пакет `Image`, в котором реализована функция `PIL.Image.open( )`, считавающая изображение в переменную Python.

In [None]:
import PIL
import numpy as np

In [None]:
pil_img = PIL.Image.open('./images/raccoon.jpg')
type(pil_img)

Как можно увидеть, PIL, считывая картинку, не конвертирует ее в numpy.ndarray, а сохраняет в переменную иного, известного только этой библиотеке типа. В отличии от OpenCV, в PIL нет встроенных алгоритмов компьютерного зрения, зато с ее помощью удобнее осуществлять многие преобразования с картинками. Еще один отличительный плюс PIL.Image изображений заключается в том, что их можно отобразить при помощи встроенной функции display( ), которая не сжимает изображение в отличии от `plt.imshow()`

In [None]:
display(pil_img)

Также можно просто вывести переменную и jupyter поймет что вы хотите отобразить картинку

In [None]:
pil_img

Функция `plt.imshow( )` также может принимать PIL изображение

In [None]:
plt.imshow(pil_img)
plt.axis('off');

Чтобы узнать размер картинки, выведем свойство `size` (эта функция не выводит количество каналов, а только ширину и высоту)

In [None]:
pil_img.size

Вы можете быстро конвертировать `PIL` картинку в `numpy.ndarray` и обратно с помощью функций `np.asarray()` и `PIL.Image.fromarray()`

In [None]:
img_np = np.asarray(pil_img)
print(type(img_np), img_np.shape)

In [None]:
pil_img = PIL.Image.fromarray(img_np)
print(type(pil_img), pil_img.size)

Вы могли заметить что теперь PIL картинка имеет тип `PIL.Image.Image`, а не `PIL.JpegImagePlugin.JpegImageFile`, но это не влияет на функционал.

Давайте закрепим:

* OpenCV - работает с картинкой как с `numpy.ndarray`. 

* PIL - считывает картинку как известный только ей тип данных. 

<br>
<br>
<br>

## 2. Основные операции над изображениями <a id='h2'>
     
[содержание](#b)

Теперь познакомимся с основными операциями, которые можно выполнять с помощью `PIL` и `OpenCV`

### 2.1 Изменение масштаба <a id='h21'></a>
    
[содержание](#b) | [глава](#h2)

#### OpenCV

Чтобы изменить масштаб изображения можно воспользоваться функцией `cv2.resize()`, [алгоритмов](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%81%D1%88%D1%82%D0%B0%D0%B1%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F#%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BC%D0%B0%D1%81%D1%88%D1%82%D0%B0%D0%B1%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D0%B1%D1%89%D0%B5%D0%B3%D0%BE_%D0%BD%D0%B0%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D1%8F) масштабирования изображения существует несколько и вы можете выбрать некоторые из них с помощью параметра `interpolation`. Этот параметр принимает на вход целочисленное значение. По аналогии с алгоритмами конвертации цветов, opencv имеет несколько сохраненных константных значений, название каждой из констант отражает алгоритм и вот некоторые примеры:

In [None]:
cv2.INTER_AREA, cv2.INTER_BITS, cv2.INTER_CUBIC, cv2.INTER_LANCZOS4, cv2.INTER_MAX, cv2.INTER_LINEAR

Как вы могли заметить, все эти константы начинаются со слова `INTER`. Алгоритмы масштабирования отличаются друг от друга скоростью выполнения и гладкостью получаемых контуров, мы не будем рассматривать их подробно, но вы можете изучить результаты на практике

In [None]:
img = cv2.imread('./images/raccoon.jpg')
img = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)

scaled_img = cv2.resize(img, (640*2, 400*2), cv2.INTER_AREA)
"""
Параметры:
---------
src - картинка, к которой будет применяться масштабирование
dsize (destination size) - желаемый размер картинки (сначала ширина, потом высота)
interpolation - код алгоритма масштабирования
""" 

# выведем размер изображения после масштабирования
print(scaled_img.shape) 

# конвертируем в PIL картинку, чтобы вывести изображение в оригинальном размере
PIL.Image.fromarray(scaled_img)

<br>
<br>
<br>

#### PIL.Image

Аналог у PIL: метод `resize()`. Именно "метод", потому что эта функция вызывается от переменной с картинкой. 

In [None]:
pil_img = PIL.Image.open('./images/raccoon.jpg')

pil_img_resized = pil_img.resize((640*2, 400*2), PIL.Image.BICUBIC)
"""
Параметры:
---------
size - желаемый размер картинки (сначала ширина, потом высота)
resample - код алгоритма масштабирования
box - область, которую требуется масштабировать (если не указать, то масштабирование применится ко всей картинке)
""" 

pil_img_resized

### 2.2 Обрезка<a id='h22'></a>
    
[содержание](#b) | [глава](#h2)



#### OpenCV

В OpenCV нет встроенной функции для обрезки изображения. Вместо этого мы можем воспользоваться numpy-индексацией (ведь opencv трактует картинку как numpy-тензор, поэтому можно выбросить ненужные части картинки с помощью индексации). Но для этого надо знать в каком порядке хранятся пиксели. Еще раз выведем шейп нашейго тензора

In [None]:
img = cv2.imread('./images/raccoon.jpg')
img = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)

img.shape

В первом измерении массива хранятся "строки" нашего изображения, то есть горизонтальные линии пикселей. Второе измерение отведено для "столбцов", то есть вертикальных линий пикселей, а третье измерение хранит цвета каждого пикселя. Таким образом, чтобы вывести первую горизонтальную линиию пикселей, надо исполнить:

In [None]:
img[0]

Чтобы вывести десятый пиксель в этой линии:

In [None]:
img[0][9]

👆 И вот мы получили значения красного, зеленого и синего соответственно в пикселе по адресу: 0 по горизонтали и 9 по вертикали. Давайте обнулим зеленую и синюю компоненту в этом пикселе и посмотрим как это отразится на изображении (в верхнем левом углу найдите "испорченный" пиксель):

In [None]:
img[0][9][1] = 0 
img[0][9][2] = 0

In [None]:
PIL.Image.fromarray(img)

Давайте теперь применим наши навыки индексирования и обрежем картинку сверху и снизу на 50 пикселей. То есть возьмем из тензора все строки начиная с 50-й и до 50-й с конца. Чтобы не вычислять до какой строки выводить строки можно указать просто значения -50.

In [None]:
img_cropped = img[50:-50, :, :]

plt.imshow(img_cropped)

Чтобы не писать при индексации ` :, :` в конце, можно использовать многоточие `...`

In [None]:
img_cropped = img[50:-50, ...]

plt.imshow(img_cropped)

Мы также можем выбросить из картинки все нечетные строки пикселей (ведь мы работаем с `numpy.ndarray`, значит можем применять любые виды индексации)

In [None]:
img_thin = img[::2, ...]

plt.imshow(img_thin)

Или все четные столбцы

In [None]:
img_thin = img[:, 1::2, :]

plt.imshow(img_thin)

👆 Поэкспериментируйте, оставляя только каждый третий, четвертый или пятый пиксель. По вертикали или горизонтали, или одновременно в двух направлениях.

<br>
<br>
<br>

#### PIL.Image

В PIL есть встроенный метод `.crop()`, который обрезает нужную область и принимает всего один параметр `box` - список из четырех значений: (a) левая граница области, (b) верхняя граница, (c) правая граница и (d) нижняя (начало координат - верхний левый угол)

<img src='./images/raccoon_coordinates.png' width='50%'>

In [None]:
pil_img = PIL.Image.open('./images/raccoon.jpg')

pil_img_cropped = pil_img.crop([100, 100, 500, 300])

pil_img_cropped

Полезное упражнение: обрежьте картинку так, чтобы осталась только мордочка енота (как на изображении выше) - после его выполнения вам будет легче ориентироваться в координатах

<br>
<br>
<br>

### 2.3 Сохранение <a id='h23'></a>
    
[содержание](#b) | [глава](#h2)



#### OpenCv

Чтобы сохранить картинку без искажений цвета, значения в тензоре должны быть целыми числами в диапазоне [0, 255] включительно! В `cv2` для сохранения используем функцию `cv2.imwrite()`. Функция принимает два значения: путь, куда вы будете сохранять картинку и numpy.ndarray. OpenCV сам определит алгоритм записи в файл в зависимости от расширения, которое вы укажете в пути.

In [None]:
cv2.imwrite('./cropped_raccoon.jpg', img_cropped)

Функция возвращает `True` если сохранение прошло успешно, иначе `False`. Давайте теперь сохраним тензор, прибавив к нему 1000. Если вы откроете это изображение через проводник, то увидите что оно залито белым цветом, это потому что все значения больше 255 в тензоре приравняются к 255, все что меньше 0 приравняются к 0.

In [None]:
cv2.imwrite('./cropped_raccoon_bad.jpg', img_cropped + 1000)

#### PIL.Image

В `PIL.Image` для сохранения отведен метод `.save()`. По умолчанию алгоритм записи в файл также определяется автоматически, но вы можете указать алгоритм отдельно с помощью параметра `format`

In [None]:
pil_img_cropped.save('./cropped_racoon_pil.png')

<br>
<br>
<br>

## 3. Numpy-операции над изображениями <a id='h3'>
     
[содержание](#b)

Мы уже знаем, что `cv2.imread()` считывает файл-изображение с вашего компьютера и сохраняет пиксели как целочисленные значения в `numpy.ndarray`. В этой главе тетрадки мы с вами научимся преобразовывать изображения с помощью numpy, подготавливая данные для обучения нейросети.

### 3.1 Конкатенация (np.concatenate) <a id='h31'>
    
[содержание](#b) | [глава](#h3)

Первый полезный навык при подготовке данных: конкатенация картинок. Конкатенация - это операция склеивания (строк, картинок, векторов). Давайте сначала посмотрим как это работает на векторах, конкатенируем вектора `a`, `b` и `c` с помощью функции `np.concatenate()`. Первый ее параметр - список векторов/матриц/тензоров которые надо склеить.

In [None]:
a = np.array([1,2,3])
b = np.array([4,5,6,7,8])
c = np.array([9, 10, 11, 12, 13, 14, 15])

np.concatenate([a, b, c])

Если вы хотите склеить матрицы (двумерный массив), то у вас есть два варианта склейки: по столбцам и по строкам. Для того чтобы указать какой вариант вам необходим, функция `np.concatenate()` имеет параметр `axis`, который принимает измерение, вдоль которого вы будете производить склейку. Посмотрим на примере

In [None]:
m1 = np.ones(8).reshape((4, 2))
m2 = np.zeros(12).reshape((4, 3))

print(m1)
print()
print(m2)

У обеих матриц четыре строки, но у первой два столбца, а у второй три. Таким образом мы можем склеить столбцы, но не можем склеить строки. Так как будем склеивать столбцы, указываем параметр `axis = 1`

In [None]:
np.concatenate([m1, m2], axis=1)

Теперь склеим строки

In [None]:
m3 = np.zeros(6).reshape((3, 2))

print(m3)

In [None]:
np.concatenate([m1, m3], axis=0)

Если мы хотим склеить трехмерный массив (тензор), тогда у нас есть целых три варианта склейки (по вертикали, горизонтали и глубине). Склеим две картинки с енотом по вертикали и горизонтали (по глубине склеивать картинки мы не будем, зачем нам 6 каналов в изображении?)

In [None]:
img = cv2.imread('./images/raccoon.jpg')
img = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)

img_concat_v = np.concatenate([img, img], axis=1)
plt.imshow(img_concat_v)

In [None]:
img_concat_h = np.concatenate([img, img], axis=0)
plt.imshow(img_concat_h)

### 3.2 Стек (np.stack) <a id='h32'>
    
[содержание](#b) | [глава](#h3)

Иногда нам требуется соединить несколько изображений, создав новое измерение. Проще понять если сразу перейти к примеру: пусть у нас есть три строки матрицы, хранящиеся в разных переменных 

In [None]:
row_1 = np.array([1,1,1,1])
row_2 = np.array([2,2,2,2])
row_3 = np.array([3,3,3,3])

Как их все соединить, чтобы получилась матрица из строк? В этом нам поможет функция `np.stack()`, которая принимает список векторов/матриц/тензоров и соединяет их вдоль оси, которую вы укажете. 

In [None]:
np.stack([row_1, row_2, row_3], axis=0)

In [None]:
np.stack([row_1, row_2, row_3], axis=1)

Чтобы понять как это применимо к изображениям, давайте разобьем нашу картинку на три матрицы: красную, зеленую и синюю компоненты

In [None]:
r = img[..., 0]
g = img[..., 1]
b = img[..., 2]

print(r.shape, g.shape, b.shape)

А теперь соберем каналы обратно с помощью `np.stack()`. Попробуйте перепутать каналы местами, и посмотреть что из этого получится

In [None]:
img_stacked = np.stack([r, g, b], axis=2)

plt.imshow(img_stacked)

Также `np.stack` полезен, когда мы хотим сделать 4-мерный массив из нескольких картинок. Таким массивы называют **батчами**. Батч картинок - это массив, первое измерение которого хранит отдельно картинки, второе строки, третье столбцы, а четвертое цветовые каналы. То есть если батч картинок - это переменная `batch`, то третья картинка в нем извлекается по индексу `batch[2]`, если вы хотите вывести пятую строку этой картинки, то выполняете `batch[2][4]`, если вам нужен 9 столбец в этой строке `batch[2][4][9]` и если вас интересует значение именно красного пикселя `batch[2][4][9][0]` или `batch[2, 4, 9, 0]`. Давайте создадим батч картинок из енотов. 

<font color='red'>**Важное замечание: размеры картинок (ширина, высота, количество каналов) должно совпадать, чтобы из них можно было создать батч!**</font>

In [None]:
batch = np.stack([img, img, img, img, img], axis=0)

batch.shape

Теперь выведем третью картинку из батча

In [None]:
plt.imshow(batch[2])

И значение красного пикселя в 5-ом ряду пикселей, 10-ом столбце

In [None]:
batch[2][4][9][0]

или

In [None]:
batch[2, 4, 9, 0]

<br>
<br>
<br>

### 3.3 Добавляем подушку (np.pad) <a id='h33'>
    
[содержание](#b) | [глава](#h3)

Подушкой (pad) называют значения, обрамляющие вектор/матрицу/тензор с двух сторон какого-либо измерения. Чтобы понять о чем речь, опять же сразу перейдем к примеру

In [None]:
a = np.array([1,2,3,4])

print(a)

Добавим к этому массиву подушку из нулей толщиной 3 с каждой стороны

In [None]:
a_with_pad = np.pad(a, pad_width=3, constant_values=0)
"""
Параметры:
---------
array - numpy.ndarray
pad_width - толщина подушки
mode - режим ('constant', 'edge', 'maximum', 'mean') 
constant_values - этот параметр задается только при mode='constant' и указывает каким значением заполнить подушку
""" 

a_with_pad

Если мы хотим слева добавить 3 значения, а справа 1, тогда в `pad_width` можно передать пару значений

In [None]:
np.pad(a, pad_width=(3, 1), constant_values=0)

Теперь давайте добавим подушку к матрице. В матрице мы можем добавить подушку как по бокам, так и сверху/снизу. Поэтому при работе с матрицей мы можем передать две пары значений, задающих толщину: (сверху, снизу), (слева, справа) . Добавим подушку толщиной 1 сверху, 2 снизу, 3 слева и 4 справа

In [None]:
m = np.ones(8).reshape((4,2)) * 4

m

In [None]:
np.pad(m, pad_width=((1,2), (3,4)))

Теперь добавим черные пиксели к нашей картинке с енотом таким образом, чтобы сделать из нее квадратное изображение. Мы знаем что ширина равна 640, высота 400. Значит надо добавить сверху и снизу картинки по 120 черных пикселей, тогда размер будет 640x640. Черный пиксель - это значение 0 для каждой компоненты, поэтому `constant_values=0`. Так как мы будем "падить" трехмерный массив, то параметр `pad_width` принимает 3 пары чисел (сколько падить по горизонтали, сколько по вертикали, и сколько по глубине). Если мы будем падить по глубине, то каналов в картинке станет больше, а мы этого не хотим, нам надо использовать падинг лишь по горизонтали.

In [None]:
img = cv2.imread('./images/raccoon.jpg')
img = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)

img_square = np.pad(img, pad_width=((120, 120), (0, 0), (0, 0)), constant_values=0)

plt.imshow(img_square)

<br>
<br>
<br>

## 4 Как получить список картинок в директории<a id='h4'>
    
[содержание](#b)

Эта глава будет очень короткой. В ней мы познакомимся с библиотекой glob, от которой нам понадобится лишь одна функция: glob (вот такой вот каламбур)

In [None]:
from glob import glob

`glob` принимает строку-паттерн и возвращает все файлы, которые ей соответствуют. Таким образом вы можете получить список не только картинок, но и любых других файлов или даже папок. Паттерн - это строка, в которой символ `*` означает **"здесь может стоять любая последовательность символов любой длины"**, а символ `?` означает **"здесь может стоять один любой символ"**. Например, вы хотите получить пути ко всем картинкам из папки *images*, в названии которых на первом месте стоит латинская буква *r*, тогда выполните:

In [None]:
glob('./images/r*')

Дословно паттерн можно трактовать как: выведи все файлы, путь которых начинается на `./images/r`, а дальше в пути могут находиться любые символы в любом количестве. Попробуйте по аналогии вывести вообще все фотографии из этой папки или только те, у которых расширение `.jpg`