# Bewerkingen met bits

Afbeeldingen en compressie

## Tot hoeveel kan je tellen?


|         | Binair             | Decimaal  |
|---------|--------------------|-----------|
| 1 bit   | `1`                | 1         |
| 2 bits  | `11`               | 3         |
| 3 bits  | `111`              | 7         |
| 4 bits  | `1111`             | 15        |
| 5 bits  | `11111`            | 31        |
| 6 bits  | `111111`           | 63        |
| 7 bits  | `1111111`          | 127       |
| 8 bits  | `11111111`         | 255       |
| 16 bits | `1111111111111111` | 65535     |
| n bits  | ...                | $2^n - 1$ |


Het patroon dat je ziet is dat met elke extra bit de waarde wordt verdubbeld, waar de maximale waarde wordt bepaald door $2^n - 1$.

## Sheep overflow

Of eigenlijk een *integer* overflow!

![can sleep](images/10/cant_sleep.png)

Hoeveel <strike>schapen</strike> bits kunnen hier maximaal worden geteld?

Afhankelijk van onder andere de taal en het systeem kan, wanneer de *hoogst* mogelijke waarde wordt bereikt, deze waarde overgaan (overflowen) naar de *laagst* mogelijke waarde die kan worden bewaard. In dit geval is sprake van een *signed integer*, een integer waarde die zowel positief als negatief kan zijn. De aantallen impliceren een 16 bit ruimte (van -32768 tot en met 32767 betekent 65535 mogelijke waarden). Terzijde, met één schaap per seconde, hoe lang werden hier schapen geteld tot de overflow?

### Python?

In [1]:
max_sheep = 32767

In [2]:
max_sheep + 1

32768

Gelukkig, integers zijn voor Python groter dan 16 bits! Maar hoe groot kunnen integers dan wél zijn?

### Googol!

In [3]:
g = 10**100

In [4]:
import sys

sys.maxsize

9223372036854775807

Met `sys.maxsize` vraag je de woord grootte op en je zal zien dat deze gelijk is aan 64 bits (althans, op mijn systeem).

In [5]:
g > sys.maxsize

True

Getallen kunnen voor Python groter zijn dan 64 bits! We weten dat 64 bits een fysieke grens kan zijn (bijvoorbeeld als de woord grootte van een architectuur) en kunnen hier uit afleiden dat Python dit intern (in software, met algoritmen!) oplost. Voor Python kunnen op deze manier getallen zo groot zijn als het geheugen van jouw systeem dit toelaat (maar is dus nog steeds begrensd!).

## Ariane 5

![Arianne 1996](images/10/Explosion_of_first_Ariane_5_flight_June_4_1996.jpg)

`HumanError`

Geen `IndexError` of `TypeEror` maar een `HumanError`. Door een software fout werd een 64 bit waarde (nieuw in Ariane 5!) omgezet naar een 16 bit waarde (wat in Ariane 4 werd gebruikt...). In 1996 moest na 37 seconden de eerste vlucht van Ariane 5 worden afgebroken omdat een integer overflow error de navigatie onbruikbaar maakte.

![Boeing Dreamliner](images/10/boeing_dreamliner.png)

![Boeing Dreamliner](images/10/boeing_dreamliner_engadget.png)

> This condition is caused by a software counter internal to the GCUs that will overflow after 248 days of continuous power. We are issuing this AD to prevent loss of all AC electrical power, which could result in loss of control of the airplane.

`HumanError`

Een heel serieuze waarschuwing in 2015! Dit zou heel goed een 32 bit signed integer overflow kunnen zijn geweest. 2<sup>31</sup> is het aantal seconden in 248 dagen vermenigvuldigd met 100, dus waarschijnlijk ging het hier om een teller die tijd tot honderdsten van seconden nauwkeurig bijhoudt.

### `WeNeverThoughtError`

![Youtube 32bit](images/10/youtube_gangnam_32bit.png)

![Youtube](images/10/youtube_bigger_numbers.png)

PSY [Gangnam Style](https://en.wikipedia.org/wiki/Gangnam_Style), de [video](https://www.youtube.com/watch?v=9bZkp7q19f0) met meer dan 4 miljard views. Tot voor de Youtube upgrade naar 64 bits bleef de teller staan op het maximaal aantal views dat met 32 bits mogelijk is. Zie verder ook deze [blast from the past](https://www.youtube.com/watch?v=51Mfh6gPL2U)!

## Afbeeldingen zijn ook bits

![Kirkjufell](images/10/iceland-waterfall.png)

Al zou je dit soms vergeten ... een afbeelding van de Kirkjufell berg, IJsland.

### Representatie

Pixels en kleuren

![RGB](images/10/640px-LCD_RGB.jpg)

Een fijne psychedelische afbeelding! Dit is iets wat je zou kunnen zien als je met een vergrootglas jouw beeldscherm gaat bekijken. Let ook op dat dit een rasterpatroon is met rijen en kolommen van
pixels.

### Kleurkanalen

Een pixel is een samenstelling van hoeveelheden

- <font color="red">Rood</font>
- <font color="green">Groen</font>
- <font color="blue">Blauw</font>

![ZP7](images/10/zp7_pixel.png)

Pixel op positie 42, 42

- <font color="red">Rood</font> = 216 (van 255)
- <font color="green">Groen</font> = 234 (van 255)
- <font color="blue">Blauw</font> = 254 (van 255)


![ZP7 inverted](images/10/zp7_inverted_pixel.png)

Nieuwe pixel op positie 42, 42

- <font color="red">Rood</font> = 39 (was 216)
- <font color="green">Groen</font> = 21 (was 234)
- <font color="blue">Blauw</font> = 1 (was 254)

Welke handeling is hier toegepast?

### Bits

- <font color="red">Rood</font> 255 maximaal
- <font color="green">Groen</font> 255 maximal
- <font color="blue">Blauw</font> 255 maximaal

Hoeveel bits is een *enkel* kleurkanaal (rood, groen of blauw)?

### Een pixel

Is een list!

```python
[R, G, B]
```

```python
[39, 21, 1]
```

### Een rij pixels

Is een `LoL`!

```python
[ [39, 21, 1], [39, 18, 2], ... ]
```

De breedte van de afbeelding...

### Een afbeelding

Is een ... `LoLoL`?

```python
[
    [ [39, 21, 1], [39, 18, 2], ... ],
    [ [38, 21, 1], [39, 18, 1], ... ],
    [ [38, 21, 2], [39, 17, 1], ... ]
]
```

De breedte én hoogte van een afbeelding!

## Compressie

Te veel bits!

![Office original](images/10/office_original.png)

![iOS resize](images/10/ios_resize.png)

Van 3.0 MB naar 64.4KB!

![Office alien](images/10/office_alien.png)

... gooi 98% van het *oppervlakte* weg?

### Informatiereductie

Hoe *kan* je 98% van data verwijderen?

![Office](images/10/office.png)

![Office detail](images/10/office_detail.png)

### Compressietypen

Lossless

- *geen* verlies van informatie of kwaliteit
- kan naar de oorspronkelijke data worden omgezet

![GIF](images/10/GIF_29666.png)

Lossy

- verlies van informatie of kwaliteit
- kan *niet* naar de oorspronkelijke data worden omgezet

![JPEG](images/10/JPEG_29712.png)

## Afbeeldingen zijn bits

In het bijzonder *binaire* afbeeldingen!

![Patroon 1](images/10/pattern_1.png)

Een 8x8 binaire afbeelding encoderen

```console
10101010
01010101
10101010
01010101
10101010
01010101
10101010
01010101
```

Een encodering als ruwe bits, een reeks van 64 bits in totaal

```python
"1010101001010101101010100101010110101010010101011010101001010101"
```

Dit zijn veel bits! Hoe zouden we dit kunnen comprimeren? Daar hebben we een strategie voor nodig!

## De strategie

**Run-length encoding (RLE)**

Een *strategie* voor het (lossless) comprimeren van data

```console
alliiiiiieeeensssssssssssssssss
```

```console
a|ll|iiiiii|eeee|n|sssssssssssssssss
```

```console
a1l2i6e4n1s17
```

Van 31 naar 13 karakters, dit is een heel succesvolle compressie zonder verlies aan data!

![Space](images/10/space.png)

We zullen zien dat deze afbeelding ook heel goed te comprimeren valt.

![Patroon 2](images/10/pattern_2.png)

Een afbeelding als aaneengesloten reeksen van bits

```console
00000000
00000000
11111111
11111111
00000000
00000000
00000000
00001111
```

```python
"0000000000000000111111111111111100000000000000000000000000001111"
```

De bovenstaande 8x8 *binaire* afbeelding als een reeks bits waar 0 staat voor wit en 1 voor zwart.

## Lossless compressie

```python
"0000000000000000111111111111111100000000000000000000000000001111"
```

Hoe kan een reeks meer efficient, maar nog steeds **binair**, worden weergegeven?

### Encodering

```python
"0000000000000000|1111111111111111|0000000000000000000000000000|1111"
```

Een mogelijke binaire oplossing?

```console
bit + aantal herhalingen | bit + aantal herhalingen | ...
```

Let op, we hebben hier | voor de duidelijkheid als scheidingsteken gebruikt, deze zijn natuurlijk geen onderdeel van de reeks!

### De eerste reeks

16 keer 0

```python
"0000000000000000"
```

16 decimaal is 10000 binair

```python
"010000"
```

```console
bit + aantal herhalingen
```

### De gehele reeks

```python
"0000000000000000|1111111111111111|0000000000000000000000000000|1111"
```

```python
"010000"
```

Zestien keer 0

```python
"010000" + "110000"
```

Zestien keer 0 plus zestien keer 1 

```python
"010000" + "110000" + "011100"
```

Zestien keer 0 plus zestien keer 1 plus achtentwintig keer 0

```python
"010000" + "110000" + "011100" + "1100"
```

Zestien keer 0 plus zestien keer 1 plus achtentwintig keer 0 plus vier keer 1

Resultaat

```python
"0100001100000111001100"
```

Als je goed kijkt lopen de coderingen soms in elkaar over. Het resultaat is onduidelijk, we kunnen niet met zekerheid achterhalen wat de oorspronkelijk bits en lengte van de reeksen waren.

## Encodering met vaste lengte

Een beter algoritme: blokken met vaste lengte!

```python
"0000000000000000|1111111111111111|0000000000000000000000000000|1111"
```

Blokken van **8 bits** (1 byte)

```python
"0**10000"
```

```python
"0**10000" + "1**10000" + "0**11100" + "1****100"
```

### Padding

Wat te doen met de lege `*` plekken? *Vullen met nullen*!

```python
"00010000" + "10010000" + "00011100" + "10000100"
```

Resultaat

```python
"00010000100100000001110010000100"
```

Vullen met nullen, of soms ook wel voorloopnullen genoemd.

### Nullen vullen

In [6]:
4 * "0"

'0000'

Bedenk dat je Python strings kan vermenigvuldigen en in dit geval kan dat heel goed van pas komen!

## Tot hoeveel kan je tellen

In een 8 bits blok is het *eerst bit* de "initiële pixel" en de resterende *7 bits* om het aantal herhalingen aan te geven

- Wat is de langste herhaling die met 7 bits kan worden vastgelegd?

Het maximum aantal herhalingen is $2^7 - 1 = 127$.

- Wat kan je doen als de herhaling langer is dan 7 bits?

Begin vanaf de 128e pixel een nieuw 8 bits blok!

## De functie

```python
def compress(I):
    """Returns the RLE of the input binary image, I
    """
```

Input: een binaire afbeelding `I`

```python
"0000000000001111111111111111111100000000000000000000011111111111"
```

Output: de RLE gecomprimeerde afbeelding

```python
"00001100100101000001010110001011"
```

## Quiz

### Vraag 1

De volgende reeks bits

```python
"0000000000000000000000000000000000000000001111111111111111111111111111111"
```

heeft 42 opeenvolgende *nullen* en 31 opeenvolgende *enen*

- Wat is de RLE gecomprimeerde waarde (of met andere woorden, de output van `compress(I)`)? 

### Oplossing

```python
"00101010|10011111"
```

### Vraag 2

Een hulpfunctie voor het vinden van het EERSTE geval

```python
def front_num(s):
    """Returns the # of times the first
       element of the input s appears
       consecutively at the start of s
    """
    if len(s) <= 1:  # base case
        return ...
    elif ...:        # recursive case
        return ...
    else:            # not a sequence
        return ...
```

Bijvoorbeeld

```python
assert front_num("1111010") == 4
assert front_num("00110010") == 2
```


### Oplossing

In [7]:
def front_num(s):
    """Returns the # of times the first
       element of the input s appears
       consecutively at the start of s
    """
    if len(s) <= 1:     # base case
        return len(s)
    elif s[0] == s[1]:  # recursive case
        # add 1 to the rest
        return 1 + front_num(s[1:])
    else:               # not a sequence
        return 1


In [8]:
assert front_num("1111010") == 4
assert front_num("00110010") == 2

## Beste en slechtste compressie

![Pattern 4](images/10/pattern_4.png)

Tot hoeveel bits kan deze 8x8 binaire afbeelding worden gecomprimeerd?

Deze afbeelding kan tot een enkel blok worden gecomprimeerd (een enkel blok van 8 bits).

![Pattern 4](images/10/pattern_3.png)

Tot hoeveel bits kan deze 8x8 binaire afbeelding worden gecomprimeerd?

Deze afbeelding kan niet efficiënt worden gecomprimeerd en zal 512 bits groot zijn (8x8 blokken van elk 8 bits).

## Alles bits!

Afbeeldingen, tekst, geluid, data

Zelfs de string `vier*twee` wordt gerepresenteerd als een sequentie van bits...

```python
"vier*twee"
```

9 ASCII karakters, elk 1 byte groot is 72 bits in totaal

```python
"01110110011010010110010101110010|00101010|01110100011101110110010101100101"
```