# Digitale billeder

Digitale billeder er repræsentation af visuel information (f.eks. et foto, en tegning osv.) på en måde, der kan gemmes og behandles af computere. Ordet *digital* betyder, at billederne er repræsenteret ved tal (cifre). 

I første del af kurset vil vi lære grundlæggende om digital billedbehandling og hvordan Python kan bruges til at oprette og manipulere billeder. Planen er som følger:

1. Pixels og opløsning
2. Gråtonebilleder som numeriske 2D-arrays
3. Farvebilleder som numeriske 3D-arrays
4. Indlæs og gem billeder i filer
5. Tag billeder fra kamera
6. Billedtransformationer
7. Batchbehandling (transformer mange filer ad gangen)

Lad os starte med det grundlæggende.

## Pixels og opløsning

I modsætning til traditionelle fotos eller malerier består digitale billeder af små enheder kaldet *[pixels](https://da.wikipedia.org/wiki/Pixels). Hver pixel har en specifik farve eller intensitet, som er kodet med et eller flere tal. Så man kan tænke på et *digitale billede* som en tabel fyldt med disse tal. Cellerne i disse tabeller er pixels. En computer eller en anden enhed med en skærm omsætter disse tal til farver. Jo flere pixels du har, jo mindre er de på skærmen, og jo flere fine detaljer kan man se.

Her er en simpel illustration fra Wikipedia:

![Pixels](illustrations/Pixel-example.png)

Antallet af kolonner i en sådan tabel er bredden af billedet, og antallet af rækker er dens højde. For eksempel betyder et billede af størrelsen 800x600, at der er 800 kolonner og 600 rækker (480.000 pixels).

Antallet af pixels kaldes en billedes opløsning. For eksempel producerer et kamera på en iPhone 14 smartphone fotos med størrelsen 2532 x 1170 – næsten 3 millioner pixels. Et kamera på en iPhone 14 Plus producerer fotos med størrelsen 2778 x 1284 – næsten 3,5 millioner pixels. Professionelle fotokameraer såsom Canon EOS 1500D kan tage fotos med størrelsen 6000 x 4000, hvilket svarer til 24 millioner pixels. I dette tilfælde forkortes tallet ofte til 24 Mp (millioner pixels).

Her er et eksempel på et lavopløsnings digitale billede, zoomet ind så pixels er synlige for det blotte øje:

![Bird](illustrations/Bird.jpg)

I nogle specifikke tilfælde, f.eks. når vi taler om en skærms opløsning, bruger vi kun antallet af pixels, der passer til skærmens bredde. For eksempel kan 4K-skærme have omkring 4000 pixels langs bredden (normalt 3840 pixels).

## Gråtonebilleder

Den enkleste digitale billede består af pixels, som er karakteriseret ved et enkelt tal, dens *intensitet*. Normalt bruges et helt tal mellem 0 og 255 i dette tilfælde. En computer (eller enhver anden enhed, f.eks. smartphone eller tablet) viser 0 som en sort farve, 255 som en hvid farve, og alle tal derimellem vises som gråtoner. Derfor kaldes sådanne billeder normalt *grayscale*.

Åbn den første ark af [denne Excel-fil](../mlcourse.xlsm) (aktiver makroer når du åbner den), som demonstrerer ideen om gråtonebilledet, og leg med intensiteterne.

I Python vil vi bruge et specielt bibliotek til at oprette tabeller med pixelintensiteter, som kaldes [NumPy](https://numpy.org). Dette bibliotek er specielt udviklet til at arbejde med *arrays* — dette er en måde at kalde tabeller og andre lignende strukturer, som kun består af tal, i matematikken. *Array* er et alsidigt ord for rektangulære strukturer med tal, som tabeller, kuber, osv. Hvis en array repræsenterer en tabel, kaldes det en to-dimensionel (2D) array eller en *matrix*.

Du kan installere NumPy ved at køre følgende kode (du behøver kun at gøre det en gang og derefter enten fjerne det fra denne notebook eller tilføje symbolet `#` foran denne linje for at deaktivere den). Denne kode installerer også et andet nyttigt bibliotek, [matplotlib](https://matplotlib.org), som vi også vil bruge i denne klasse.

In [None]:
! pip install numpy matplotlib

Koden nedenfor viser, hvordan man indlæser NumPy-biblioteket, og bruger det til at generere en tabel (2D-array) med 50 rækker og 100 kolonner fyldt med værdier af 255.

In [None]:
# load numpy library and give it a short name "np"
import numpy as np

# generate simple array (sa) with 5 rows and 10 columns filled with zeros
sa = np.zeros((5, 10), dtype=int)
sa

In [None]:
# fill the values with 255
sa.fill(255)
sa

In [None]:
# load numpy library and give it a short name "np"
import numpy as np

# generate array with 50 rows and 100 columns filled with 0
# dtype=int tells python that you want to work with integer (whole) numbers without decimals
img = np.zeros((50, 100), dtype=int)

# show size of array
img.shape

In [None]:
# fill array with 255
img.fill(255)

# show value at first (0) row and first (0) column
img[0, 0]

In [None]:
# show values from the first 3 rows and first 5 columns of the array
img[0:3, 0:5]

Du kan se, at tallene i arrayet er placeret inden i "beholdere", som er afgrænset af firkantede parenteser, `[` og `]`, som `[255, 255, 255]`. Værdier for hver række har sin egen beholder, og derefter kombineres rækkerne sammen ved hjælp af den ydre beholder.

Hvis du vil få adgang til en bestemt værdi, skal du bruge array-navnet du har angivet (i vores tilfælde `img`) og de firkantede parenteser også. For eksempel vil `img[0, 0]` give dig et tal, som er placeret i den første række og den første kolonne i arrayet med navnet `img`. I Python starter alle indekser med 0, derfor har det første element (første række eller kolonne) et indeks på 0 i stedet for 1.

I NumPy kan du også specificere en sekvens af indekser inden i de firkantede parenteser, som f.eks. `0:3`. Dette betyder værdier fra 0 til 3, men den sidste er ikke inkluderet (så det ender i en sekvens af indekser `[0, 1, 2]`). Derfor fortæller denne kode `img[0:3, 0:5]` NumPy at vælge rækker fra 0 til 2 (3 rækker i alt) og kolonner fra 0 til 4 (5 kolonner).

Hvis du vil vise dette array som et billede, har du brug for et andet bibliotek, `matplotlib`. Dette bibliotek bruges til at lave forskellige plot, men vi vil primært bruge det til at vise billeder. Her er hvordan du gør det:

In [None]:
# import the plotting engine of library matplotlib and give it a short name "plt"
import matplotlib.pyplot as plt

# show image as a plot using gray scales
plt.imshow(img, cmap="gray", clim=(0, 255))

Som du kan se, ligner det bare en hvid rektangel omgivet af en sort boks og akser. Tallene langs akserne (ticks) svarer til pixels' indekser (husk at vi har 100 pixels i bredden og 50 i højden).

Nu lad os oprette et nyt billede, hvor intensiteten af pixels vil være lig med 127 og vise det.

In [None]:
# create 2D array with 50 rows and 100 columns, fill it with 0 and then fill it with 127
img2 = np.zeros((100, 100), dtype=int)
img2.fill(127)

# show the array as an image
plt.imshow(img2, cmap="gray", clim=(0, 255))

Som du kan se, ligner billedet en grå rektangel. Leg med koden ovenfor og brug tal, der er mindre eller større end 127, og se, hvordan det påvirker gråtonen på billedet.

Nu lad os lave noget mere komplekst. Først opretter vi en 2D-array fyldt med 0, men denne gang vil antallet af kolonner være 256. Derefter tager vi hver kolonne og fylder den med forskellige tal — fra 0 til 255. For at gøre dette bruger vi et specielt kodesystem, som kaldes en *løkke*.

In [None]:
# simple loop example
for i in [1, 10, 100]:
    print(i ** 2)

In [None]:
# generate range of numbers
r = range(0, 5)
r

In [None]:
# show range as a list
list(r)

In [None]:
# loop with range
for i in range(0, 5):
    print(i ** 2)

In [None]:
# create 2D array filled with zeros
img3 = np.zeros((50, 256), dtype=int)

In [None]:
# run a loop where variable "i" goes from 0 to 255. And use this loop to change
# intensity values in different columns of the array
for i in range(0, 256):
    img3[:, i] = i

# show the first 3 rows and 5 columns of the new array
img3[0:3, 0:5]

Som du kan se, består hver række af arrayet nu af en sekvens af tal fra 0 til 255. Lad os vise disse tal som et billede:

In [None]:
plt.imshow(img3, cmap="gray", clim=(0, 255))

Nu kan du se alle 256 nuancer af grå farve fra 0 (sort) til 255 (hvid). Men det er selvfølgelig svært at adskille de individuelle kolonner, da pixels er relativt små, og forskellen mellem to nærliggende niveauer af grå er knap nok bemærkelsesværdig.

Hvis du kigger tilbage på koden med `for`-løkken, kan du se, at koden indeni løkken er forskudt mod højre. For Python er det meget vigtigt, at indrykning skal bruges til løkker, betingelser, funktioner osv., som du vil se nedenfor. Python "forstår", hvornår løkken slutter, når den "ser" en kode uden indrykning.

Ved at forstå programmeringsprincipperne og ideen om at repræsentere et billede som en række af tal kan man skabe ethvert billede. For eksempel ligner billedet nedenfor det danske flag, men i sort-hvid repræsentation. Vi opretter simpelthen et sort billede (række fyldt med 0) og ændrer derefter pixels i 40 kolonner og 30 rækker placeret i midten til hvid.

>**Bemærkning til læreren:**<br> diskuter hvordan man viser billeder ved hjælp af andre farvegradienter (f.eks. `spring`, `cool`, `summer`) og hvordan man tilføjer farvepalete-legen.

In [None]:
# create 2D array with 300 rows and 400 columns filled with zeros
# it will correspond to black image of size 300x400 pixels
flag_bw = np.zeros((300, 400), dtype=int)

plt.imshow(flag_bw, cmap="gray", clim=(0, 255))

In [None]:
# fill the 30 rows in the middle with white color
flag_bw[135:165, :] = 255

plt.imshow(flag_bw, cmap="gray", clim=(0, 255))

In [None]:
# fill the 40 columns in the middle with white color
flag_bw[:, 180:220] = 255

plt.imshow(flag_bw, cmap="gray", clim=(0, 255))

Endelig, hvis du vil vise et billede uden nogen akser eller kasser, kan du fjerne dem, som vist nedenfor.

In [None]:
# show the result and remove axes
plt.imshow(flag_bw, cmap="gray", clim=(0, 255))
plt.axis("off")

Du kan også ændre pixels ved at tage hensyn til begge koordinater — rækken og kolonnen. I dette tilfælde skal du bruge indlejrede løkker - et for rækker og et for kolonner. I det næste eksempel bruger vi en indlejret løkke til at ændre pixels på en måde, der danner en hvid trekant.

In [None]:
nrows = 100 # height
ncols = 100 # width


img_diag = np.zeros((nrows, ncols), dtype=int)

>**Bemærkning til læreren:**<br> Lav en tabel på tavlen, der viser, hvordan denne løkke og betingelse fungerer for r = 0, 1, 2 og 10, og et billede af en mindre størrelse (f.eks. 5 x 5 eller 10 x 10). Forklar, at det faktisk ikke er nødvendigt at lave en løkke over alle pixel i dette tilfælde, og vis hvordan man gør det korrekt.

In [None]:
for r in range(0, nrows):
    for c in range(0, ncols):
        if c > r and c < ncols -  r:
            img_diag[r, c] = 255

In [None]:

plt.imshow(img_diag, cmap="gray", clim=(0, 255))

Som du kan se, bruger vi en ny kodestruktur her, `if`, som tjekker om en bestemt betingelse er opfyldt og kører en kode kun hvis denne betingelse er sand.

I dette tilfælde kontrollerer den, om den aktuelle kolonnenummer `c` er mellem to værdier. Den ene er den aktuelle rækkenummer `r` og den anden er placeret fra højre side af billedet med `r` pixels til venstre. For eksempel, hvis `r = 10`, vil betingelsen være sand for alle kolonneindeks mellem 10 og 90. Kun hvis denne betingelse er sand, vil koden `img_diag[r, c] = 255` blive udført.

Bemærk indrykningerne i denne kode. Den anden `for` løkke er indlejret indeni den første, så vi skifter denne linje. Derefter skal `if`-udtalelsen køres inden i den anden `for` og har derfor en anden indrykning. Endelig skal `img_diag[r, c] = 255` kun udføres, hvis betingelsen er sand, så det skal indlejres inden i `if`-udtalelsen. Normalt har en kode linje, som indebærer indrykning, et kolon (`:`) symbol i slutningen af linjen.

Prøv at lege med denne kode og se, om den virker, når bredden er større end højden eller omvendt. Prøv også at øge størrelsen på billedet og se, hvordan det påvirker størrelsen af pixelerne. Så vil "trappe" mønsteret på de diagonale pixels forsvinde på et tidspunkt.

Endelig, bare for sjov, kan vi også generere billeder som en sæt af tilfældige tal. Hver gang du klikker på "kør" i næste kodecelle, vil du få et nyt billede.

In [None]:
nrows = 100 # height
ncols = 100 # width

rand_img = np.random.randint(0, 255, (nrows, ncols))
plt.imshow(rand_img, cmap="gray", clim=(0, 255))

I dette tilfælde kan du tydeligt se de individuelle pixels. Prøv at forstørre størrelsen på billedet, indtil du ikke kan skelne pixels længere. Du vil hurtigt finde ud af, at på et tidspunkt vil billedet bare se ud som et gråt billede, fordi gennemsnitsintensiteten af alle pixels er 127. **Pas på med alt for stor størrelse, koden kan blive langsom.**

### Funktioner

Som du har set ovenfor, genbruger vi nogle af kode-mønstrene igen og igen. For eksempel, for at oprette et nyt billede skal vi kalde `np.zeros()` og angive ikke kun billedets størrelse, men også typen af tallene (`int`). Det samme gælder for plots, hvor vi altid tilføjer `cmap` og `clim` værdier. Dette kan undgås ved at oprette vores egne funktioner og genbruge dem. Her er et eksempel:

In [None]:
def make_grim(nrows, ncols, fill = 0):
    """ Creates a grayscale image with given size and fill it with a given value """
    img = np.zeros((nrows, ncols), dtype=int)
    img.fill(fill)
    return img

def show_grim(img):
    """ Plot grayscale image assuming that intensities vary from 0 to 255 """
    plt.imshow(img, cmap="gray", clim=(0, 255))
    plt.axis("off")

Kør koden ovenfor for at indlæse funktionerne i hukommelsen. Nu kan vi genbruge dem:

In [None]:
new_img = make_grim(100, 500, 120)
show_grim(new_img)

### Øvelser

Tid til at øve. Skriv en kode, der genererer et sort billede med 300 x 300 pixels og opretter en hvid cirkel med radius på 50 pixels i midten fyldt med en hvid farve. Tænk på, hvordan du kan lave en cirkel uden at fylde indersiden, så billedet kun indeholder en omkreds af cirklen.

For at løse denne opgave skal du behandle alle pixels på billedet og kontrollere, om en pixel er inden i cirklen eller ej. Du kan gøre dette ved at beregne afstanden mellem denne pixel og centrum af cirklen og sammenligne denne afstand med radiusen. Her er en illustration for et 150x150 pixels billede og en cirkel med radius 50 med centrum placeret på række (y) 75 og søjle (x) 75:

<img src="illustrations/circle.png" style="width:90%">

Tænk på, hvordan du kan implementere det i Python, og skriv din kode i celle nedenfor:

In [None]:
# place your code for the first exercise here


Nu skal vi gøre det lidt sværere. Skriv en funktion `make_circle(nrows, ncols, cx, cy, r)`, som vil oprette et sort billede med størrelsen `nrows x ncols` og lave en cirkel med radius `r` med et centerum placeret i punktet med koordinaterne `(cx, cy)`.

In [None]:
# place your function and test code here


Hvis du ønsker at udfordre dig selv endnu mere, så overvej, om du skal behandle alle pixels på billedet, eller om du kan begrænse deres område? Hvordan? Hvor hurtig vil denne kode være?

Prøv at tilføje en kontrol, hvis cirklen delvist er placeret uden for billedet, og behandl kun de pixels, der er indenfor.

## Farvebilleder

Farver i digitale billeder repræsenteres ved hjælp af RGB (Rød, Grøn, Blå) modellen. Ideen bag denne model er simpel. Hvis du tager tre lyskilder (f.eks. LED eller små lamper), hvor den ene udsender rødt lys, den anden grønt og den tredje blåt. Og hvis du placerer disse tre lamper tæt på hinanden, så vil det være svært at skelne de individuelle farver på afstand, de vil blande sig til en enkelt farve. Ved at ændre intensiteten af lyset kan man lave enhver farve ud fra disse tre. For eksempel vil blanding af rød og grøn give dig gul.

Billedet nedenfor (taget fra Wikipedia) illustrerer denne effekt. Tre lyskilder er projiceret mod en væg og du kan se, at hvor to lyspletter overlapper opstår en ny farve. Når alle tre lysstråler overlapper, ser det ud som hvidt lys.   

<img src="./illustrations/RGB_illumination.jpg" style="max-width:800px"/>

Derfor, for at vise pixels som farver har hver pixel tre værdier - intensitet af grøn, blå og rød farver. De er normalt kodede som et tal mellem 0 og 255.

For eksempel, en pixel med RGB-værdier `(255, 0, 0)` er fuldt rød, mens `(0, 255, 0)` er fuldt grønt, og `(0, 0, 255)` er blå. Kombinationen af fuld intensitet i alle tre kanaler, `(255, 255, 255)`, resulterer i en hvid farve, mens fravær af intensitet i alle kanaler, `(0, 0, 0)`, resulterer i sort.

Farvebilleder kræver mere lagerplads og computermæssige ressourcer på grund af tilstedeværelsen af tre kanaler for hver pixel. Gråtonebilleder kræver generelt mindre lagerplads og computermæssige ressourcer, hvilket gør det mere effektivt til visse anvendelser.

Man kan tænke på et farvebillede som tre gråtonebilleder kombineret som lag, som vist på billedet nedenfor

<img src="./illustrations/3-channel-1-channel.png" style="max-width:800px">

Derfor kan vi oprette et farvebillede ved blot at oprette tre gråtonebilleder og stable dem sammen som "lag" af en 3D-array ved hjælp af NumPy.

Åbn den anden ark i [Excel-filen](../mlcourse.xlsm) og leg med RGB-eksemplerne, og kom tilbage.

Her er et eksempel på, hvordan man laver røde, grønne og gule billeder og viser dem alle på én gang.

In [None]:
nrows = 100
ncols = 100

# create red image
ch_red = make_grim(nrows, ncols, 255) # 100x100 2D array filled with 255 - red channel
ch_green = make_grim(nrows, ncols, 0) # 100x100 2D array filled with 0 - green channel
ch_blue = make_grim(nrows, ncols, 0) # 100x100 2D array filled with 0 - blue channel

img_red = np.dstack((ch_red, ch_green, ch_blue)) # stack the channels into 3D array

# show the shape
img_red.shape

In [None]:
# show 5x5 pixels from top left corner
img_red[0:5, 0:5, :]

In [None]:
# show the resulted array as an image
plt.imshow(img_red)

In [None]:
# create green image
ch_red = make_grim(nrows, ncols, 0)
ch_green = make_grim(nrows, ncols, 255)
ch_blue = make_grim(nrows, ncols, 0)

img_green = np.dstack((ch_red, ch_green, ch_blue))

plt.imshow(img_green)

In [None]:
# create yellow image
ch_red = make_grim(nrows, ncols, 255)
ch_green = make_grim(nrows, ncols, 255)
ch_blue = make_grim(nrows, ncols, 0)

img_yellow = np.dstack((ch_red, ch_green, ch_blue))

plt.imshow(img_yellow)

In [None]:
# show all images in the same figure by using sub plots

plt.subplot(1, 3, 1)
plt.imshow(img_red)
plt.axis("off")

plt.subplot(1, 3, 2)
plt.imshow(img_yellow)
plt.axis("off")

plt.subplot(1, 3, 3)
plt.imshow(img_green)
plt.axis("off")

Dette kan også gøres på en enklere måde, ligesom vi gjorde med de gråtonede billeder, men denne gang skal vi give alle tre intensiteter:

In [None]:
# first we create 3D array of 100x100x3 size and fill it with 0
img_yellow = np.zeros((100, 100, 3), dtype=int)

# then we assign new values — 255 (first slice) 255 (second slice) 0 (third slice)
img_yellow[...] = [255, 255, 0]

plt.imshow(img_yellow)

Nu kan vi også se, hvad der sker, hvis vi blander de primære farver. Lad os oprette et andet billede, hvor hver kanal vil blive repræsenteret af en firkant af ikke-nul pixels. Lad os først gøre det individuelt for hver kanal:

In [None]:
nrows = 100
ncols = 100

# create a 3D array with three channels (black image)
red_square = np.zeros((nrows, ncols, 3), dtype=int)

# fill the red channel of this image with 255
# but only pixels located in rows from 19 to 59 and in columns from 19 to 59
red_square[20:60, 20:60, :] = [255, 0, 0]
plt.imshow(red_square)

In [None]:

# create a 3D array with three channels (black image)
green_square = np.zeros((nrows, ncols, 3), dtype=int)

# fill the green channel of this image with 255
# but only pixels located in rows from 14 to 54 and in columns from 44 to 84
green_square[15:55, 45:85, :] = [0, 255, 0]
plt.imshow(green_square)

In [None]:

# create a 3D array with three channels (black image)
blue_square = np.zeros((nrows, ncols, 3), dtype=int)

# fill the blue channel of this image with 255
# but only pixels located in rows from 39 to 79 and in columns from 29 to 69
blue_square[40:80, 30:70, :] = [0, 0, 255]
plt.imshow(blue_square)

In [None]:
# show all three images together

plt.subplot(1, 3, 1)
plt.imshow(red_square)

plt.subplot(1, 3, 2)
plt.imshow(green_square)

plt.subplot(1, 3, 3)
plt.imshow(blue_square)

Selvom vi ser dem som røde, grønne og blå, er et hvert billede en farvebillede med tre kanaler (slices). Lad os nu tage den første kanal fra det røde billede, den anden fra det grønne og den tredje fra det blå og kombinere dem sammen:

In [None]:
# stack first (0) slice from red image, second (1) slice from green and third (2) slice
# from the blue image into a new RGB image
merged = np.dstack(
    (
        red_square[:, :, 0],
        green_square[:, :, 1],
        blue_square[:, :, 2]
    )
)

plt.imshow(merged)

In [None]:
# show values from different parts of the image
merged[40:50, 50:55, :]

In [None]:
# show channels separately as shades of gray
show_grim(merged[:, :, 2])
plt.colorbar()

Dette billede gengiver eksemplet fra Wikipedia, som vi tidligere diskuterede. Ved at kombinere de tre primærfarver med forskellige intensiteter kan man generere næsten enhver farve, som er synlig for det blotte øje. I vores tilfælde har vi $256^3 = 16.777.216$ kombinationer, hvilket resulterer i mere end 16 millioner forskellige farver.

Til sidst vil vi gentage eksperimentet med tilfældigt genererede billeder, men denne gang for farvebilleder:

In [None]:
nrows = 100
ncols = 100

# generate random intensities for each channel
red_channel = np.random.randint(0, 255, (nrows, ncols))
green_channel = np.random.randint(0, 255, (nrows, ncols))
blue_channel = np.random.randint(0, 255, (nrows, ncols))

# combine/stack the matrices as slices of an RGB image and show it
rand_img = np.dstack((red_channel, green_channel, blue_channel))
plt.imshow(rand_img)

### Øvelser

Tid til nye øvelser. Først og fremmest skal du oprette en kode, der genererer de nationale flag fra Danmark, Sverige og Norge. Søg efter information om de korrekte farver på internettet.

In [None]:
# place your code here


Næste øvelse er at gentage eksemplet med overlappende kvadrater, men gør dem i stedet til cirkler. Prøv at genbruge din kode fra den lignende gråtoneøvelse.

In [None]:
# place your code here


Endelig lad os oprette et billede af størrelsen 256 x 256, som vil vise alle kombinationer af blå og røde farver. Gør det samme for de to andre farvepar, rød og grøn, og blå og grøn. Den tredje farve i hvert tilfælde kan sættes til 0.

In [None]:
# place your code here


## Indlæs og gem billeder som filer

På en computer, gemmes billeder i forskellige filformater som PNG, JPEG, GIF eller BMP, hvor hvert format har sin egen metode til at kode og komprimere pixelinformationerne. Normalt bruges JPEG til fotos og PNG til alle andre grafikker (f.eks. diagrammer, skitser, tegneserier osv.). Dog er PNG på det seneste blevet en universel grafisk format på internettet.

Hvis du ønsker at indlæse billeder fra filer, manipulere dem og gemme resultaterne i en ny fil, skal du bruge et specifikt bibliotek. Python har to meget gode: [PIL/Pillow](https://pillow.readthedocs.io/en/stable/) og [OpenCV](https://docs.opencv.org/4.x/d6/d00/tutorial_py_root.html). Det sidste er meget kraftfuldt, mens det første er mere simpelt og lettere at starte med, så vi vil bruge PIL til denne klasse.

Lad os først installere det.

In [None]:
! pip install pillow

>*PIL* står for *Python Image Library*. Udviklerne af denne bibliotek stoppede deres aktiviteter, men efterfølgere overtog deres projekt og fortsatte udviklingen under et nyt navn *Pillow*. Dog har biblioteket stadig sit originale navn, PIL, inden for Python.

Nu skal vi generere et tilfældigt farvebillede og gemme det på en disk som en PNG-fil. Vi vil genbruge koden, vi tidligere skrev til generering. Lad os først se, hvordan du kan konvertere et array af tal til PIL-billedet:

In [None]:
nrows = 100
ncols = 100

# generate random intensities for each channel
red_channel = np.random.randint(0, 255, (nrows, ncols))
green_channel = np.random.randint(0, 255, (nrows, ncols))
blue_channel = np.random.randint(0, 255, (nrows, ncols))

In [None]:
# combine/stack the matrices as slices of an RGB image and show it
rand_img = np.dstack((red_channel, green_channel, blue_channel))
plt.imshow(rand_img)

In [None]:

# load class Image from the library
from PIL import Image

# convert the array to PIL image
img = Image.fromarray(np.uint8(rand_img), mode="RGB")

# show types of variables "img" and "rand_img"
(type(img), type(rand_img))

In [None]:
# show image
display(img)

>**Bemærkning til en lærer:**<br>forklar hovedforskellen på at bruge `display()` og `plt.imshow()`.

Som du kan se, for at konvertere et array til et PIL-billede objekt, skal du først "fortælle" Python, at dataene du har i arrayet `rand_img` er usigneret heltal data kodet med 8 bits (dette er præcis betydningen af `uint8`).

Hvad betyder det? Usigneret betyder ingen tegn, så alle tal er positive. Heltal betyder hele tal, uden decimaler. Og 8 bits betyder, at hver værdi er kodet af en sekvens på 8 binære cifre, 0 og 1. For eksempel er 0 i binær format `00000000` og 255 er `11111111`. Værdien 64 er kodet som `01000000`. Og så videre.

Du behøver ikke at kende disse detaljer, men det er præcis hvad der sker indeni denne blok af kode: `np.uint8(rand_img)`. Det lader Python vide, at tallene inde i dette array har denne formatering.

Efter dette tager PIL-funktionen `fromarray()` dette array og returnerer et specielt objekt, PIL-billedet. Til sidst bruger vi `display()`-funktionen fra PIL-biblioteket til at vise billedet, og det vises korrekt som standard uden nogen akser, margener osv.

Nu kan vi gemme resultatet i en fil, lad os bruge PNG-format i dette tilfælde.

In [None]:
img.save("mysuperimage.png")

Efter at have kørt denne kode, se på venstre panel af VSCode, hvor det viser alle filer. Ser du den nye fil med dette navn? Klik på den, og du vil se billedet. Alternativt kan du navigere til denne mappe i din Windows- eller Mac-stifinder og finde filen der.

På samme måde kan du indlæse billeder fra filen ind i dit Python-program og se det som en NumPy-array. Vi har forberedt nogle billeder til dig, de er placeret i mappen 'datasets'. Lad os indlæse billedet fra filen 'Apples.jpg' placeret i denne mappe.

In [None]:
img = Image.open("datasets/Apples.jpg")
display(img)

Faktisk behøver du ikke engang at bruge `display()` i Jupyter notebook- du skal bare skrive navnet på billedvariablen og køre cellen:

In [None]:
img

Ser godt ud! Lad os se nogle oplysninger om billedet, som størrelse og farvetilstand.

In [None]:
(img.size, img.mode)

Endelig kan du konvertere billedet til en NumPy array og se, hvad der er indeni:

In [None]:
arr = np.array(img)
arr[0:5, 0:5, :]

Som du kan se, i disse pixels er der mere rød end de to andre farver, hvilket passer til det, vi ser i hjørnet af billedet (røde æbler).

Her er størrelsen (formen) af billedarrayet versus størrelsen af billedet:

In [None]:
(img.size, arr.shape)

Som du kan se, når det kommer til billedstørrelse, vises bredden først (800 pixels) og derefter højden (600 pixels). Men når det kommer til størrelsen af en array, vises antallet af rækker først, hvilket svarer til billedets højde. Og derefter vises antallet af kolonner (billedets bredde). Husk dette, når du arbejder direkte med arrays.

Vi kan nu opdele billedet i kanaler og vise intensiteterne separat:

In [None]:
plt.subplot(1, 3, 1)
plt.imshow(arr[:, :, 0], cmap="gray", clim=[0, 255])
plt.title("Red")

plt.subplot(1, 3, 2)
plt.imshow(arr[:, :, 1], cmap="gray", clim=[0, 255])
plt.title("Green")

plt.subplot(1, 3, 3)
plt.imshow(arr[:, :, 2], cmap="gray", clim=[0, 255])
plt.title("Blue")

Denne opdeling viser tydeligt, at der er mere rødt i venstre del af billedet, mere grønt i højre del, og der er næsten intet blåt i hele billedet, bortset fra de små hvide pletter (husk at hvid er når rød, grøn og blå farver har størst intensitet).

## Tag billeder fra computerkameraet

Du kan også optage billeder direkte fra dit computers (eller anden enheds) kameraer. For at gøre dette vil vi bruge et andet meget kraftfuldt bibliotek til at arbejde med digitale billeder og videoer - [OpenCV](https://docs.opencv.org/4.x/d6/d00/tutorial_py_root.html).

Først og fremmest, lad os installere det. Kør følgende kode én gang og tilføj derefter symbolet `#` foran koden for at undgå at køre den igen.

In [None]:
! pip install opencv-python

For at optage videoframes skal du forbinde din Python-session til et kamera. Nogle computere har adskillige kameraer, så du skal specificere, hvilket kamera du vil forbinde til. Prøv bare med 0 eller 1, og det burde virke.

Her er en kode til at oprette forbindelse til kameraet. Når du kører det, vil dit system (Windows eller Mac) bede om tilladelse, som du skal give. Herefter vil du se et lys på din computerskærm, hvilket indikerer, at kameraet fungerer.

Hvis du stopper koden, genstarter eller lukker notesbogen, vil forbindelsen automatisk blive lukket. Du vil lære nedenfor, hvordan du manuelt lukker forbindelsen til kameraet. Lad os oprette forbindelse:

In [None]:
import cv2
camera = cv2.VideoCapture(0)
camera.isOpened()

Hvis du ser kameraindikatoren lyser, fungerer det. Du bør også få `True` som resultat af funktionen `isOpened()` ovenfor.

Nu lad os lære, hvordan man fanger videoframes og viser dem. Her er en simpel kode, der gør dette. Hver gang du klikker på *Kør*-knappen, tages et billede, og det vises på skærmen som et billede.

In [None]:
ret, frame = camera.read()
plt.imshow(frame)

Hvis du kigger ind i `frame`, vil du finde ud af, at det bare er en NumPy-array, ligesom dem, vi allerede har arbejdet med før.

In [None]:
frame

Så du kan gøre med de indfangede billeder alt det, som du gør med billeder, du oprettede manuelt eller indlæste fra filer.

Her er hvordan du lukker forbindelsen til kameraet:

In [None]:
camera.release()

## Billede transformationer

Billedtransformation betyder at producere et nyt billede baseret på det nuværende. Python gør det let at udføre grundlæggende transformationer på digitale billeder enten manuelt, ved at lave manipulationer med arrays, eller ved at bruge metoder fra dedikerede biblioteker.

Nogle almindelige operationer inkluderer:

**Geometriske transformationer** - ændrer positionen (geometriske koordinater) af pixelerne på et nyt billede.
- Beskæring, spejlvending, sammenlægning
- Ændring af størrelse
- Rotation
- Fordrejninger

**Intensitetstransformationer** - uden at ændre pixlernes position, ændres deres farveintensitet.
- Farvekonvertering
- Kontrastforbedring
- Filtrering

Vi vil først lære, hvordan man laver nogle af transformationerne ved at manipulere arrays for at få fat i det grundlæggende, men derefter skifte til PIL-biblioteket, da det gør det hurtigere og lettere.

### Billedtransformationer ved arraymanipulationer

Lad os starte med beskæring. *Beskæring* indebærer fjernelse af dele af billedet for at fokusere på et bestemt interesseområde, ofte brugt til at fjerne uønskede elementer i billedet. Beskæring er nemt at gøre ved at underinddele rækker og kolonner i arrayet med farveintensiteter.

Lad os indlæse æblebilledet igen og konvertere det til en NumPy-array:

In [None]:
img = Image.open("datasets/Apples.jpg")
img_arr = np.array(img)
img_arr.shape

Vi deler billedet i to, så det første indeholder kun de røde æbler, og det andet indeholder kun de grønne.

Vi ved, at bredden på det originale billede er 800 pixels (arrayet har 800 kolonner), så vi kan blot tage en delmængde af kolonnerne:

In [None]:
# take columns with indices from 0 to 399 (first 400 columns)
red_apples = img_arr[:, 0:400]
(img_arr.shape, red_apples.shape)

In [None]:

# take columns with indices from 400 to 799 (last 400 columns)
green_apples = img_arr[:, 400:800]

# show the cropped images
plt.subplot(1, 2, 1)
plt.imshow(red_apples)
plt.title("Red")

plt.subplot(1, 2, 2)
plt.imshow(green_apples)
plt.title("Green")

Det virker, men vi kan se nogle røde æbler blandt de grønne. Lad os beskære billedet startende fra kolonne 500 i stedet, plus springe de første 150 rækker over. Lad os gøre det samme også for de røde æbler for at få begge billeder til at have samme størrelse:

In [None]:
# take rows with indices from 150 to 599 and columns with indices from 0 to 299 (first 300 columns)
red_apples = img_arr[150:600, 0:300]

# take columns with indices from 500 to 799 (last 300) and the same rows
green_apples = img_arr[150:600, 500:800]

# show the cropped images
plt.subplot(1, 2, 1)
plt.imshow(red_apples)
plt.title("Red")

plt.subplot(1, 2, 2)
plt.imshow(green_apples)
plt.title("Green")

Ser bedre ud! Faktisk, hvis et indeks involverer den sidste række eller den sidste kolonne, kan vi springe den over og lade dens plads være tom. Det samme gælder, hvis et indeks starter med den første (nul) række eller kolonne:

In [None]:
# same operation but without explicit declaration of the last row and the first column
red_apples = img_arr[150:, :300]

# same operation but without explicit declaration of the last row and the last column
green_apples = img_arr[150:, 500:]

# show the cropped images
plt.subplot(1, 2, 1)
plt.imshow(red_apples)
plt.title("Red")

plt.subplot(1, 2, 2)
plt.imshow(green_apples)
plt.title("Green")

Nu kan vi også *vende* billederne lodret eller vandret (eller begge dele) ved at ændre rækkefølgen af rækker og kolonner. I dette tilfælde skal vi give et ekstra element i sekvensen af indekser, som vil være trinnet. Hvis vi bruger trin -1 tager vi den sidste række og gør den til den første, derefter tager vi rækken foran den sidste og gør den til den anden osv.

Her er hvordan det fungerer med rækker:

In [None]:
# flip image vertically by reordering rows of pixels in reverse order
red_apples_vf = red_apples[::-1, :]

# show the vertically flipped image of red apples
plt.subplot(1, 2, 1)
plt.imshow(red_apples)
plt.title("Red (original)")

plt.subplot(1, 2, 2)
plt.imshow(red_apples_vf)
plt.title("Red (flipped vertically)")

Skriv en kode, der også vil vende røde æbler vertikalt og både vertikalt og horisontalt. Vis en figur med alle fire billeder sammen - det originale og de tre vendte billeder (vertikalt, horisontalt og begge).

In [None]:
# flip image vertically and horizontally by reordering rows and columns of pixels in reverse order
red_apples_vf = red_apples[::-1, :]
red_apples_hf = red_apples[:, ::-1]
red_apples_bf = red_apples[::-1, ::-1]

plt.figure(figsize=(6, 8))

# show the cropped images
plt.subplot(2, 2, 1)
plt.imshow(red_apples)
plt.title("Red (original)")

plt.subplot(2, 2, 2)
plt.imshow(red_apples_vf)
plt.title("Red (flipped vertically)")

plt.subplot(2, 2, 3)
plt.imshow(red_apples_hf)
plt.title("Red (flipped horizontally)")

plt.subplot(2, 2, 4)
plt.imshow(red_apples_bf)
plt.title("Red (flipped both ways)")

Hvis to (eller flere) billeder er repræsenteret af arrays med det samme antal rækker, kolonner eller begge dele, kan de sammenlægges til et nyt billede. Du kan sammenlægge arrays (og dermed de tilsvarende billeder) ved at stable dem lodret eller vandret. Du kan lave en sekvens af stakke. Her er et eksempel:

In [None]:
# make the crops again
red_apples = img_arr[150:, :300]
green_apples = img_arr[150:, 500:]

# flip the images both vertically and horizontally
red_apples_flipped = red_apples[::-1, ::-1]
green_apples_flipped = green_apples[::-1, ::-1]

# stack the images horizontally
img_top = np.hstack((red_apples, green_apples_flipped))
img_bottom = np.hstack((green_apples, red_apples_flipped))

# stack the previous results vertically
img = np.vstack((img_top, img_bottom))

# show the result
plt.imshow(img)

# show the dimension of the new image
img.shape

In [None]:
red_apples.shape
more_apples = np.hstack((red_apples, red_apples, red_apples))

even_more_apples = np.vstack((more_apples, more_apples))
plt.imshow(even_more_apples)

Her er en kode i Python, som bruger biblioteket OpenCV til at vende et billede af æble lodret, vandret og både lodret og vandret:

In [None]:
import cv2
import numpy as np

# Load and flip the image
image = cv2.imread('datasets/Apples.jpg')
flipped_vertical = cv2.flip(image, 0)
flipped_horizontal = cv2.flip(image, 1)
flipped_both = cv2.flip(image, -1)

# Combine and show the images into a 2x2 grid
top_row = np.hstack((image, flipped_vertical))
bottom_row = np.hstack((flipped_horizontal, flipped_both))
all_images = np.vstack((top_row, bottom_row))
all_images = cv2.resize(all_images, (600, 600))

# show the flipped images
cv2.imshow('All Flipped Images', all_images)
cv2.waitKey(0)
cv2.destroyAllWindows()

Dette vil vise et vindue med fire billeder side om side: originalt billede, vertikalt flip, horisontalt flip og begge flip.

Endelig kan du også transponere et billede ved at flippe det langs dens hoveddiagonale. Her er en illustration fra [Wikipidea](https://en.wikipedia.org/wiki/Transpose):

<img src="illustrations/Matrix_transpose.gif" style="width:200px" >

Transponering kan også udføres ved at rotere billedet med 90 grader og vende kolonnerne om. Med andre ord omdanner det simpelthen rækker til kolonner og kolonner til rækker.

Da vi har et 3D array (med tre farvekanaler), er vi nødt til at fortælle NumPy eksplicit, hvordan det skal transponeres. Da rækker er den første dimension (med indeks 0), kolonner er den anden dimension (med indeks 1) og farvekanaler er den tredje dimension (med indeks 2), definerer vi den nye transponering af rækker og kolonner ved at bytte om på deres indekser:

In [None]:
# transpose image array
img_transposed = img.transpose((1, 0, 2))
img_transposed.shape

In [None]:
# show the result
plt.imshow(img_transposed)

Prøv at ændre koden ovenfor for at beskære billedet med fokus på de grønne æbler i stedet.

### Billedtransformationer i PIL

Nu vil vi lære hvordan man laver transformationer i PIL. Alle transformationer kan faktisk laves manuelt ved at bruge NumPy arrays, men det vil kræve en masse kode. Derfor vil vi genbruge koden allerede skrevet af PIL/Pillow-udviklerne.

Først og fremmest kan du udføre alle de operationer vi har diskuteret tidligere i PIL også. Lad os indlæse æblebilledet igen og beskære det for at fokusere på den del med de røde æbler.

In [None]:
img = Image.open("datasets/Apples.jpg")

# defining the bounding box (left, upper, right, lower) for red apples part
box_red = (0, 0, 300, 600)

# crop the image into new ones)
img_red = img.crop(box_red)

# show the cropped image
display(img_red)

Du kan også vende billeder i PIL som vist i koden nedenfor:

In [None]:
img_flipped = img.transpose(Image.FLIP_LEFT_RIGHT)
display(img_flipped)

Her er, hvordan du ændrer størrelsen på billedet.

In [None]:
# defining the new size in pixels (width, height)
new_size = (400, 300)

resized_img = img.resize(new_size)
display(resized_img)

Husk, at ændring af størrelsen ikke bevarer det korrekte størrelsesforhold, det er dit ansvar. Ellers kan du lave nogle forvrængninger som følgende.

In [None]:
# defining the new size which does not keep the correct aspect ratio
new_size = (400, 100)

resized_img = img.resize(new_size)
display(resized_img)

Rotation ændrer orienteringen af et billede med en angivet vinkel, hvilket tillader justeringer af billedets orientering eller justering. Det er nyttigt til at rette skæve billeder eller opnå ønskede visuelle effekter.

In [None]:
# Rotation the image by 40 degrees clockwise
rotated_image = img.rotate(40)
display(rotated_image)

Som du kan se, har det roterede billede samme størrelse som originalen. Du kan ændre dette, hvis du tilføjer en ekstra argument til `rotate()` funktionen:

In [None]:
# Rotation the image by 40 degrees clockwise and resize
rotated_image = img.rotate(40, expand=1)
display(rotated_image)

Du kan også forvrænge billederne ved at anvende geometrisk transformation, som ændrer pixelkoordinaterne, så de ikke passer til den originale koordinatgrid. Et eksempel på en sådan forvrængning er *skævning*.

Skævning forvrænger formen på et billede langs en akse ved at flytte hvert punkt med en mængde, der er proportional med dets afstand fra en bestemt akse. Denne transformation introducerer et "skævet" udseende, der er nyttigt til at skabe unikke visuelle effekter eller korrigere perspektivforvridninger.

In [None]:
# Defining the shearing factor
shear_factor = 0.7

# Shearing the image horizontally
sheared_image = img.transform(img.size, Image.AFFINE, (1, shear_factor, 0, 0, 1, 0))

display(sheared_image)

Prøv at lege med skærefaktoren og se, hvordan det påvirker resultatet.

Du spekulerer nok på, hvorfor fordreje billederne? Faktisk bruges disse former for transformationer mest til at gøre det modsatte — fjerne forvrængningen indført f.eks. af kameraet eller andre forhindringer. Men nogle gange er forvrængning også en måde at berige billedsættet på for at træne en god model, hvilket vi vil diskuterer det i den sidste klasse.

De tre transformationer, vi diskuterede: rotation, spejling og skæring, er en del af en mere generel klasse af geometriske transformationer af billedpixels — [*affine transformationer*](https://www.graphicsmill.com/docs/gm/affine-and-projective-transformations.htm). Man kan tænke på en affin transformation som en matematisk udtryk, der tager koordinaterne for hvert pixel, f.eks. (10, 20), og derefter beregner nye koordinater for dette pixel og får disse nye koordinater til at passe til billedplanet.

### Transformation af intensiteter

Den simpleste transformation med intensiteter er en konvertering mellem forskellige farvemodeller. For eksempel kan du tage et farvebillede repræsenteret af RGB (Rød, Grøn, Blå) modellen og gøre det til gråtone. Det bruges ofte til at forenkle billeder eller forberede dem til behandlingstasker.

Her er et eksempel

In [None]:
# Converting an image to grayscale
grayscale_img = img.convert("L")
display(grayscale_img)

Andre måder at arbejde med intensiteter inkluderer punkt- eller områdefunktioner. Punktoperationer kan anvendes på hver pixel.

For eksempel i koden nedenfor udfører vi en tærskelværdi-operation — vi sammenligner intensiteten af hver pixel i et gråtonebillede med 128 og returnerer enten 0 (hvis intensiteten er under eller lig med 128) eller 255 (hvis den er derover) som resultat.

In [None]:
# compare intensity of every pixel with 128 and return either 255 or 0
bw_img = grayscale_img.point(lambda p: 255 if p > 128 else 0)
display(bw_img)

Og her er et eksempel på at øge kontrasten i intensiteterne:

In [None]:
new_img = grayscale_img.point(lambda p: 255 * p / 200)
new_img

Plottet nedenfor viser, hvad der skete. Den tager alle pixels med en intensitet på 200 eller derover og får dem alle til at have en intensitet på 255. Så variationen i intensiteterne vil være større. Prøv at lege med denne kode og skab en anden kontrast.

In [None]:
plt.subplot(2, 1, 1)
plt.bar(range(0, 256), grayscale_img.histogram())

plt.subplot(2, 1, 2)
plt.bar(range(0, 256), new_img.histogram())


En anden måde at ændre intensiteten af pixels på er at gøre dem afhængige af deres naboer. Denne transformation kaldes *filtrering*. Der er mange filtre tilgængelige, nogle af dem har praktisk betydning, f.eks. at fjerne støj på billeder, mens nogle primært bruges til at skabe sjove effekter.

En af de mest almindelige filterfamilier er *udviskning* filtre - de udvisker fine detaljer på et billede. En af de enkleste er medianfilteret, som beregner den nye intensitet af hvert pixel ved at tage medianen af intensiteterne af dets naboer.

Åbn den tredje ark i [Excel-filen](../mlcourse.xlsm) og leg med filtrerings-eksemplet, og kom så tilbage.

Her er et eksempel med en filterstørrelse på 7 x 7, så medianintensiteten vil blive beregnet for et givet pixel og dets 48 naboer omkring det:

In [None]:
# load class which contains all filters from PIL
from PIL import ImageFilter

# apply median filter with window 7x7
blurred_img = img.filter(ImageFilter.MedianFilter(size=7))
display(blurred_img)

Du kan naturligvis kombinere filtre i en sekvens.

In [None]:
img = Image.open('datasets/Apples.jpg')
blurred_img = img.filter(ImageFilter.MedianFilter(size=11))
edges_img = blurred_img.filter(ImageFilter.FIND_EDGES)
display(edges_img)

## Batch-behandling

Selvfølgelig kan du anvende enhver af handlingerne, du har lært ovenfor, sammen og på et stort antal billeder samtidig. Dette kaldes normalt *batchbehandling*. For at gøre det skal du følge retningslinjerne:

1. Opret en funktion, der anvender alle de transformationer, du har brug for, på ét enkelt billede.
2. Placer alle billeder, du vil transformere, i en dedikeret mappe.
3. Opret en tom mappe til de transformerende billeder.

Efter dette kan du lade Python gøre arbejdet for dig. Den har et bestemt bibliotek, `os`, som kan arbejde med filer, læse en liste over filer fra en mappe osv.

Inden i `dataset`-mappen (du kan se den i højre panel i din VSCode eller i stifinder på dit system) har vi forberedt en mappe med nogle lagerfarvebilleder af naturen. De har forskellige størrelser, formater osv. Lad os skrive en kode, der vil gøre følgende:

1. Indlæser hvert billede fra mappen
3. Ændrer størrelsen til samme størrelse på 300 x 200 pixels (eller en anden)
2. Gør det sløret med en medianfiltreringsstørrelse på 5x5
4. Gemmer resultatet i en ny mappe

Lad os begynde med at oprette en funktion, som vil udføre alle transformationer for et inputbillede og returnere resultatet som et PIL-billede. Læs koden og kør derefter cellen. Den vil ikke gøre noget, men indlæse funktionen i hukommelsen, så du kan bruge den senere.

In [None]:
from PIL import ImageFilter

def transform(img, new_size = (300, 200)):
    # resize
    img = img.resize(new_size)
    # blur
    img = img.filter(ImageFilter.MedianFilter(size=5))
    # return the result
    return img

Nu skal vi lære, hvordan man bruger biblioteket `os` til at få alle filer fra en bestemt mappe:

In [None]:
import os

# defining a directory containing images
img_dir = "datasets/images/"

# listing all files in the directory
img_files = os.listdir(img_dir)

img_files

Som du kan se, returnerer metoden `os.listdir()` en liste over alle filer placeret inde i denne mappe. Nu kan vi løbe igennem filerne og udføre batchbehandling:

In [None]:
from PIL import Image
import os

# Specifying your input and output folders
input_folder = "datasets/images/"
output_folder = "datasets/processed-images/"

# specifying the new size for the images
new_size = (300, 200)

# making sure the output folder exists, or create it
os.makedirs(output_folder, exist_ok=True)


In [None]:

files = os.listdir(input_folder)

# looping through each file in the input folder
for filename in files:

    # make full path to the input and output image
    input_path = os.path.join(input_folder, filename)
    output_path = os.path.join(output_folder, filename)

    # read the image from file
    img = Image.open(input_path)

    # apply transformations
    new_img = transform(img, new_size)

    # save the transformed image to the output folder
    new_img.save(output_path)

Kør det, og du vil se, at du har fået en ny mappe inde i `datasets` — `processed-images`. Den indeholder de samme filer som i `images`, men hvis du sammenligner dem, vil du se, at alle filer i den nye mappe indeholder de transformerede billeder.

### Øvelse

Ændr batch-processen, så den udfører følgende transformationer:

1. Den ændrer billedets størrelse, så det bliver 50% mindre (størrelsesforholdet skal være det samme).
2. Hvis billedets højde er større end dets bredde, roterer den billedet mod uret (med større størrelse).
3. Den konverterer billeder til gråtoneformat.
4. Den anvender kantdetektionsfilteret.

Kør proceduren, og kontroller outputmappen, så du kan se, at det virker korrekt.