# Introduction to Computer Vision

Pada notebook ini, kita akan belajar tentang:
* Definisi *Computer Vision*
* Aplikasi *Computer Vision*
* Pemrosesan gambar pada komputer dengan OpenCV dan Pillow

## Definisi *Computer Vision*

![](https://www.ruparupa.com/blog/wp-content/uploads/2021/08/Screen-Shot-2021-08-16-at-11.19.50.png)

<!-- ```{figure} https://www.ruparupa.com/blog/wp-content/uploads/2021/08/Screen-Shot-2021-08-16-at-11.19.50.png
:name: cat-image
:alt: cat
:width: 50%

Gambar apa yang kamu lihat? ([ref](https://www.ruparupa.com/blog/cara-merawat-anak-kucing-tanpa-induk/))
``` -->

Kita dengan mudahnya mengenali gambar di atas, yaitu gambar kucing. Sebaliknya, komputer akan kesulitan untuk mengenali gambar tersebut dan gambar lainnya secara langsung. __*Computer vision* adalah sebuah usaha untuk membuat komputer memiliki kemampuan untuk melihat, membaca, dan memahami gambar__.

Computer Vision - [from IBM](https://www.ibm.com/topics/computer-vision#:~:text=a%20field%20of%20artificial%20intelligence%20(AI)%20that%20enables%20computers%20and%20systems%20to%20derive%20meaningful%20information%20from%20digital%20images%2C%20videos%20and%20other%20visual%20inputs%20%E2%80%94%20and%20take%20actions%20or%20make%20recommendations%20based%20on%20that%20information.)
: a field of artificial intelligence (AI) that enables computers and systems to derive meaningful information from digital images, videos and other visual inputs — and take actions or make recommendations based on that information


## Aplikasi *Computer Vision*

Sangat banyak aplikasi *computer vision* yang sudah kita rasakan. Sebagai contoh:
* Aplikasi Google Translate dapat menerjemahkan teks melalui kamera secara real time
* Self-driving car
* Deteksi masker wajah (*face mask detection*)
* Dan lainnya

Beberapa aplikasi tersebut mengimplementasikan beberapa jenis *task* dalam *computer vision* seperti {cite:p}`ibm-cv`:
* **Image Classification** yang memproses sebuah gambar dan bisa mengklasifikasikan ke dalam beberapa jenis gambar (kucing, apel, wajah orang, dll.)
* **Object Detection** juga menggunakan *image classification* yang kemudian mendeteksi dan membuat sebuah kotak pembatas pada objek tersebut dalam gambar atau video.
* **Image Retrieval** menggunakan *computer vision* untuk menelusuri, mencari, dan mengambil gambar dari sekumpulan data gambar yang sangat besar, berdasarkan konten pada gambar yang ingin dicari.


## Image Processing

Sebuah gambar digital dapat diinterpretasikan sebagai sebuah matriks atau array, yang disebut dengan **pixel**, berisikan nilai yang merepresentasikan **intensitas warna gambar**. Untuk gambar *grayscale*, nilai tersebut merepresentasikan intensitas *gray level*. Sedangkan, untuk gambar berwarna, nilai tersebut merepresentasikan intensitas masing-masing *channel* warna (merah, hijau, dan biru atau yang disingkat RGB).

![](../../../../assets/images/pixel-value.jpeg)

<!-- ```{figure} ../../../../assets/images/pixel-value.jpeg
:name: pixel-value

Intensity value of grayscale color ([ref](https://medium.com/javarevisited/converting-rgb-image-to-the-grayscale-image-in-java-9e1edc5bd6e7))
``` -->

### Load Image using Pillow and OpenCV

Sekarang, mari kita coba untuk memuat sebuah gambar berikut.

![](../../../../assets/images/barbara.png)

<!-- ```{figure} ../../../../assets/images/barbara.png
:name: barbara.png
:alt: barbara

Contoh gambar grayscale
``` -->

````{note}
Sebelum memuat gambar tersebut, kita memerlukan beberapa *library*, seperti Pillow dan/atau OpenCV. Jika belum tersedia, silakan install terlebih dahulu menggunakan perintah berikut.

```
pip install Pillow opencv-python
```
````

Berikut adalah code yang digunakan untuk memuat gambar menggunakan Pillow ataupun OpenCV.

````{tabbed} Pillow
```python
from PIL import Image

image = Image.open("path to image")
```
````

````{tabbed} OpenCV
```python
import cv2

image = cv2.imread("path to image")
```
````

Pertama, mari kita *import library* yang akan kita gunakan dalam notebook ini.

In [None]:
import cv2
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image, ImageOps

In [None]:
# load image using Pillow
pil_image = Image.open("../../../data/barbara.png")
type(pil_image)

In [None]:
pil_image

```{warning}
Jika kita dalam environment Jupyter, kita bisa menampilkan gambar `pil_image` secara langsung. Akan tetapi, normalnya, kita perlu menggunakan metode `.show`: `pil_image.show()`.

Metode ini akan membuka aplikasi gambar default masing-masing.
```

In [None]:
cv2_image = cv2.imread("../../../data/barbara.png")
type(cv2_image)

In [None]:
cv2_image

Bisa kita lihat bahwa `Pillow` memuat gambar ke dalam format `PIL.PngImagePlugin.PngImageFile`, sedangkan `OpenCV` memuat gambar ke dalam format `numpy.ndarray`.

In [None]:
# pil_image.show()

Kita juga bisa menggunakan `matplotlib` untuk menampilkan gambar yang sudah dimuat tersebut.

In [None]:
plt.figure(figsize=(6, 6))
plt.imshow(pil_image, cmap="gray")
plt.show()

In [None]:
plt.figure(figsize=(6, 6))
plt.imshow(cv2_image)
plt.show()

```{admonition} Kuis
:class: note

Sekarang, coba *load* gambar apapun yang ingin menurut kamu menarik, menggunakan `Pillow` dan `OpenCV`
```

In [None]:
# KETIK DI SINI


### RGB Image

Sekarang kita akan coba *load* gambar berwarna berikut.

![](../../../../assets/images/cat.jpeg)

<!-- ```{figure} ../../../../assets/images/cat.jpeg
:name: cat.jpeg
:width: 50%
:alt: cat image

Gambar berwarna ([ref](https://www.theguardian.com/lifeandstyle/2020/sep/05/what-cats-mean-by-miaow-japans-pet-guru-knows-just-what-your-feline-friend-wants))
``` -->

In [None]:
pil_cat = Image.open("../../../data/cat.jpeg")
cv2_cat = cv2.imread("../../../data/cat.jpeg")

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(12, 6))
for axis, img in zip(ax, [pil_cat, cv2_cat]):
    axis.imshow(img)
    axis.set_title(type(img))

Terlihat bahwa gambar yang dimuat oleh `Pillow` bisa ditampilkan dengan warna yang sesuai dengan gambar. Akan tetapi, berbeda halnya dengan gambar yang dimuat oleh `OpenCV`. Ini dikarenakan `cv2.imread` secara default menghasilkan urutan channel warna BGR, bukan RGB. Oleh karena itu, kita perlu mengubahnya menjadi RGB menggunakan fungsi `cv2.cvtColor`.

In [None]:
cv2_cat_rgb = cv2.cvtColor(cv2_cat, cv2.COLOR_BGR2RGB)

plt.figure(figsize=(5, 6))
plt.imshow(cv2_cat_rgb)
plt.title(type(cv2_cat_rgb))
plt.show()

Khusus untuk `Pillow`, kita bisa mengecek mode channel warna yang dimuat dengan atribut `.mode` seperti di bawah ini.

In [None]:
print(pil_cat.mode)

Karena setiap gambar direpresentasikan oleh array pixel, kita bisa mengecek ukuran dari array tersebut.

````{tabbed} Pillow
```python
print(pil_cat.size)
```
````

````{tabbed} OpenCV
```python
print(cv2_cat_rgb.shape)
```
````

In [None]:
print("Image from Pillow:", pil_cat.size)
print("Image from OpenCV:", cv2_cat_rgb.shape)

Karena gambar kucing di atas memiliki 3 channel warna, maka ukuran array yang dihasilkan juga memiliki 3 channel. Perhatikan bahwa ukurang gambar yang dihasilkan `Pillow` dan `OpenCV` berbeda urutannya antara *height* dan *weight*.

````{tabbed} Pillow
```python
width, height = pil_cat.size
```
````

````{tabbed} OpenCV
```python
height, width, channel = cv2_cat_rgb.shape
```
````

Untuk setiap pixel pada gambar `Pillow`, kita bisa mengakses nilai pixel setelah kita mengambil data array pixel dengan metode `.load` berikut.

In [None]:
cat = pil_cat.load()

x = 0
y = 1
cat[x, y], type(cat[x, y])

Sedangkan pada gambar `OpenCV`, karena sudah dalam bentuk `numpy.ndarray`, kita bisa langsung mengakses nilai pixel seperti mengakses nilai pada array.

In [None]:
cv2_cat_rgb[x, y], type(cv2_cat_rgb[x, y])

### Grayscale Image

Di awal kita telah memuat gambar *grayscale* yang memiliki 1 channel warna saja. Kita bisa cek menggunakan `Pillow` dengan metode `mode`.

In [None]:
pil_image.mode

Kita juga bisa mengubah gambar berwarna menjadi *grayscale* menggunakan `Pillow` ataupun `OpenCV`.

````{tabbed} Pillow
```python
from PIL import ImageOps

pil_cat_gray = ImageOps.grayscale(pil_cat)
```

Modul `ImageOps` berfungsi untuk melakukan beberapa pemrosesan gambar dan masih bersifat eksperimental {cite:p}`clark2015pillow`.
````

````{tabbed} OpenCV
```python
cv2_cat_gray = cv2.cvtColor(cv2_cat, cv2.COLOR_BGR2GRAY)
```

Transformasi warna pada `OpenCV` menggunakan fungsi `cv2.cvtColor`.
````

In [None]:
pil_cat_gray = ImageOps.grayscale(pil_cat)
cv2_cat_gray = cv2.cvtColor(cv2_cat, cv2.COLOR_BGR2GRAY)

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(12, 6))
for axis, img in zip(ax, [pil_cat_gray, cv2_cat_gray]):
    axis.imshow(img, cmap="gray")
    axis.set_title(type(img))

In [None]:
print("Grayscale image from Pillow:", pil_cat_gray.size)
print("Grayscale image from OpenCV:", cv2_cat_gray.shape)

In [None]:
x = 400
y = 1000
image_gray = pil_cat_gray.load()

print("Pillow:", image_gray[x, y])
print("OpenCV:", cv2_cat_gray[y, x])

Karena hanya terdiri dari 1 channel warna saja, ukurang matriks pixel gambar pun hanya terdiri dari 1 channel saja.

```{note}
Ingat bahwa metode `size` pada `Pillow` menghasilkan (W, H) dan ukuran matriks pada `OpenCV` menghasilkan (H, W).
```

### Channel Warna

Kita juga bisa mengakses masing-masing channel warna, yaitu merah, hijau, dan biru. Sekarang, misalkan kita gunakan gambar di bawah ini.

![](../../../../assets/images/burger.jpg)

<!-- ```{figure} ../../../../assets/images/burger.jpg
:name: burger.jpg
:width: 50%
:alt: burger image
Photo by <a href="https://unsplash.com/@claybanks?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Clay Banks</a> on <a href="https://unsplash.com/t/food-drink?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
``` -->

In [None]:
def get_concat_h(im1, im2):
    """Concatenate 2 images horizontally
    
    https://note.nkmk.me/en/python-pillow-concat-images/
    """
    dst = Image.new('RGB', (im1.width + im2.width, im1.height))
    dst.paste(im1, (0, 0))
    dst.paste(im2, (im1.width, 0))
    return dst

In [None]:
pil_burger = Image.open("../../../assets/images/burger.jpg")
cv2_burger = cv2.imread("../../../assets/images/burger.jpg")

fig, ax = plt.subplots(1, 2, figsize=(12, 6))
for axis, img in zip(ax, [pil_burger, cv2_burger]):
    size = img.size
    if isinstance(img, np.ndarray):
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        size = img.shape
    axis.imshow(img)
    axis.set_title(f"{type(img)} ukuran: {size}")

Kita bisa definisikan variabel untuk masing-masing channel warna.

````{tabbed} Pillow
```python
pil_burger_red, pil_burger_green, pil_burger_blue = pil_burger.split()
```

Metode `split` akan memecah gambar sesuai dengan jumlah channel warnanya.
````

````{tabbed} OpenCV
```python
cv2_burger_blue, cv2_burger_green, cv2_burger_red = cv2_burger[..., 0], cv2_burger[..., 1], cv2_burger[..., 2]
```
````

In [None]:
pil_burger_red, pil_burger_green, pil_burger_blue = pil_burger.split()
cv2_burger_blue, cv2_burger_green, cv2_burger_red = cv2_burger[..., 0], cv2_burger[..., 1], cv2_burger[..., 2]

Untuk `Pillow`, kita akan menggunakan bantuan fungsi berikut untuk menampilkan gambar.

```python
def get_concat_h(im1, im2):
    """Concatenate 2 images horizontally
    
    https://note.nkmk.me/en/python-pillow-concat-images/
    """
    dst = Image.new('RGB', (im1.width + im2.width, im1.height))
    dst.paste(im1, (0, 0))
    dst.paste(im2, (im1.width, 0))
    return dst
```

In [None]:
fig, ax = plt.subplots(3, 1, figsize=(12, 21))
for axis, img, color in zip(ax, [pil_burger_red, pil_burger_green, pil_burger_blue], ["Red", "Green", "Blue"]):
    axis.imshow(get_concat_h(pil_burger, img))
    axis.set_title(f"{color} Channel")

Begitu halnya dengan `OpenCV`, kita bisa menampilkan masing-masing channel warnanya yang hasilnya tentu saja sama dengan `Pillow`

In [None]:
burger_bgr = cv2.vconcat([cv2_burger_blue, cv2_burger_green, cv2_burger_red])

plt.figure(figsize=(10,10))
plt.subplot(121)
plt.imshow(cv2.cvtColor(cv2_burger, cv2.COLOR_BGR2RGB))
plt.title("RGB image")
plt.subplot(122)
plt.imshow(burger_bgr, cmap='gray')
plt.title("Different color channels  blue (top), green (middle), red (bottom)  ")
plt.show()

Untuk memudahkan pemrosesan gambar, kita perlu mengubah objek gambar pada `Pillow` menjadi `numpy.ndarray`.

```{note}
Kita tidak perlu mengubah objek gambar pada `OpenCV` karena sudah dalam bentuk `numpy.ndarray`.
```

Kita bisa menggunakan fungsi `np.asarray` untuk mengubah objek gambar pada `Pillow` menjadi `numpy.ndarray`.

In [None]:
arr_burger = np.asarray(pil_burger)
print("shape from Pillow:", arr_burger.shape)
print("shape from OpenCV:", cv2_burger.shape)

x = 1500
y = 2000
print(f"Channels at [{x}, {y}] from Pillow:", arr_burger[x, y])
print(f"Channels at [{x}, {y}] from OpenCV:", cv2_burger[x, y])

Setelah mentransformasi objek `Pillow` menjadi `numpy.ndarray`, ukuran array yang dihasilkan secara default adalah `(h, w, c)`. Hal ini berbeda dengan `size` dari gambar `Pillow` yang berukuran `(w, h, c)`.

```{note}
Perhatikan bahwa hasil dari `Pillow` dan `OpenCV` terbalik karena mode dari `Pillow` adalah RGB, sedangkan `OpenCV` adalah BGR.
```

Dalam bentuk array, kita bisa melakukan indexing pada gambar dan menampilkannnya dengan `imshow`. Misalkan, kita ingin memotong gambar menjadi setengah.

In [None]:
max_width = 2000

In [None]:
plt.imshow(arr_burger[:max_width, ...])
plt.show()

In [None]:
plt.imshow(arr_burger[max_width:, ...])
plt.show()

Untuk `OpenCV`, kita perlu mengubah objek gambar menjadi RGB terlebih dahulu.

In [None]:
cv2_burger_rgb = cv2.cvtColor(cv2_burger, cv2.COLOR_BGR2RGB)

In [None]:
plt.imshow(cv2_burger_rgb[:max_width, ...])
plt.show()

In [None]:
plt.imshow(cv2_burger_rgb[max_width:, ...])
plt.show()

```{admonition} Kuis
Coba potong gambar, menggunakan `Pillow` dan `OpenCV`, sedemikian hingga memuat objek burger saja tanpa ada dominasi background.
```

In [None]:
# KETIK DI SINI

### Image Transformation

Dalam pemrosesan gambar, terkadang kita perlu untuk melakukan transformasi gambar dengan tujuan menambah keragaman gambar pada data. Hal ini bisa menambah jumlah data yang kita miliki, meskipun dengan konten yang mirip, tapi dengan orientasi yang berbeda.

#### Flip

In [None]:
plt.imshow(arr_burger.transpose(1, 0, -1))
plt.show()

Selain secara manual, kita bisa gunakan `ImageOps` dari `Pillow` untuk mengubah orientasi gambar menjadi terbalik (*flip*). Atau dengan menggunakan fungsi `flip` dari `OpenCV`.

In [None]:
pil_burger_flip = ImageOps.flip(pil_burger)
plt.imshow(pil_burger_flip)
plt.show()

In [None]:
cv2_burger_flip = cv2.flip(cv2_burger_rgb, flipCode=0)
plt.imshow(cv2_burger_flip)
plt.show()

Kita juga bisa menggunakan metode `transpose` dari objek gambar `Pillow` berikut.

```python
plt.imshow(pil_burger.transpose(Image.FLIP_TOP_BOTTOM))
plt.show()
```

Atau, menggunakan fungsi `cv2.rotate` dari `OpenCV` berikut.

```python
plt.imshow(cv2.rotate(cv2_burger_rgb, cv2.ROTATE_180))
plt.show()
```

#### Mirror

Kita bisa gunakan fungsi `mirror` dari `ImageOps` untuk mengubah orientasi gambar secara horizontal atau menggunakan `cv2.flip` dengan nilai `flipCode` lebih dari 0.

In [None]:
pil_burger_mirror = ImageOps.mirror(pil_burger)
plt.imshow(pil_burger_mirror)
plt.show()

Kita juga bisa menggunakan metode `transpose` dari objek gambar `Pillow` berikut.

```python
plt.imshow(pil_burger.transpose(Image.FLIP_LEFT_RIGHT))
plt.show()
```

In [None]:
cv2_burger_mirror = cv2.flip(cv2_burger_rgb, flipCode=1)
plt.imshow(cv2_burger_mirror)
plt.show()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=2223ede1-8efb-486f-85ff-5fb31b0e703e' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>