# Introduktion til NumPy

[Numpy](https://numpy.org/doc/stable/index.html) er et Python-bibliotek til oprettelse og manipulation af matricer, den primære datastruktur, der bruges af maskinlæringsalgoritmer. [Matricer](https://da.wikipedia.org/wiki/Matrix_(matematik)) er matematiske objekter, der bruges til at gemme værdier i rækker og kolonner. I kender dem nok fra mange andre sprog og strukturen i en SQL database. Derfor er det også nemt at få data fra en central SQL-database og bruge det til machinelearning.

I Python kaldes matricer *lists*, NumPy kalder dem *arrays*, og TensorFlow kalder dem *tensors*. Python repræsenterer matricer med datatypen [liste](https://docs.python.org/3/library/stdtypes.html#lists).

NumPy er et stort bibliotek som bruges i flere grene, vi kommer ikke til at gå i dybden med NumPy, men vi skal have en grundlæggende forståelse for at kunne bruge det til resten af vores 10 dages ML kursus.

Mange af operationerne kender I nok fra andre sprog, men så har I også muligheden for at vende jer lidt til Python syntaxen


## Import NumPy module

Vi skal installere NumPy modulet for at kunne bruge det senere

In [2]:
import numpy as np

## Populate arrays with specific numbers

Skriv `np.array` for at lave en NumPy array, med værdi som du selv vælger. Her er et eksempel med `np.array` som laver en 8-elementer langt en dimensionelt array:

In [3]:
one_dimensional_array = np.array([1.2, 2.4, 3.5, 4.7, 6.1, 7.2, 8.3, 9.5])
print(one_dimensional_array)

[1.2 2.4 3.5 4.7 6.1 7.2 8.3 9.5]


Du kan også bruge `np.array` til at oprette en todimensionel matrix. For at oprette en todimensionel matrix skal du angive en ekstra lag af firkantede parenteser. For eksempel opretter følgende kald en 3x2 matrix:

In [6]:
two_dimensional_array = np.array([[6, 5], [11, 7], [4, 8]])
print(two_dimensional_array)

zeroes_array = np.zeros((3,2,), dtype=int)
print(zeroes_array)

[[ 6  5]
 [11  7]
 [ 4  8]]
[[0 0]
 [0 0]
 [0 0]]


For at udfylde en matrix rene nuller, kald `np.zeros`. For at udfylde en matrix med rene ettere, kald `np.ones`.


## Udfyld arrays med sekvenser af tal

Du kan udfylde et array med en sekvens af tal:


In [9]:
sequence_of_integers = np.arange(5, 12)
print(sequence_of_integers)

[ 5  6  7  8  9 10 11]


Bemærk, at `np.arange` genererer en sekvens, der inkluderer den nedre grænse (5), men ikke den øvre grænse (12).
Altså [5,12)


## Udfyld arrays med tilfældige tal

NumPy giver forskellige funktioner til at udfylde arrays med tilfældige tal inden for visse intervaller. For eksempel genererer `np.random.randint` tilfældige heltal mellem en lav og en høj værdi. Følgende kald udfylder et array med 6 elementer med tilfældige heltal mellem 50 og 100.




In [10]:
random_integers_between_50_and_100 = np.random.randint(low=50, high=101, size=(6))
print(random_integers_between_50_and_100)

[61 51 88 91 78 58]


Bemærk, at det højeste genererede heltal ved brug af `np.random.randint` er én mindre end argumentet `high`.


For at oprette tilfældige decimaltal mellem 0.0 og 1.0, kald `np.random.random`. For eksempel:

In [11]:
random_floats_between_0_and_1 = np.random.random([6])
print(random_floats_between_0_and_1)

[0.62749429 0.38410391 0.13799739 0.44231248 0.57119184 0.90851404]


## Matematiske operationer på NumPy-operand

Hvis du ønsker at lægge to arrays sammen eller trække dem fra hinanden, kræver lineær algebra, at de to operander har de samme dimensioner. Derudover, hvis du ønsker at multiplicere to arrays, pålægger lineær algebra strenge regler for den dimensionelle kompatibilitet af operanderne. Heldigvis bruger NumPy en teknik kaldet [**broadcasting**](https://developers.google.com/machine-learning/glossary/#broadcasting) til at virtuelt udvide den mindre operand til dimensioner, der er kompatible med lineær algebra. For eksempel bruger følgende operation broadcasting til at tilføje 2.0 til værdien af hvert element i arrayet, der blev oprettet i den foregående kodecelle:


In [14]:
random_floats_between_2_and_3 = random_floats_between_0_and_1 + 2.0
print(random_floats_between_2_and_3)

[2.62749429 2.38410391 2.13799739 2.44231248 2.57119184 2.90851404]


Den følgende operation afhænger også af broadcasting for at multiplicere hvert element i et array med 3:


In [15]:
random_integers_between_150_and_300 = random_integers_between_50_and_100 * 3
print(random_integers_between_150_and_300)

[183 153 264 273 234 174]


## Opgave 1: Opret et lineært datasæt

Dit mål er at oprette et simpelt datasæt bestående af en enkelt funktion (feature) og en etiket (label) som følger:

1. Tildel en sekvens af heltal fra 6 til 20 (inklusiv) til et NumPy-array kaldet `feature`.
2. Tildel 15 værdier til et NumPy-array kaldet `label` på følgende måde:

```
   label = (3)(feature) + 4
```
For eksempel skal den første værdi for `label` være:

```
  label = (3)(6) + 4 = 22
 ```

In [21]:
feature = np.arange(6, 21) # write your code here
print(feature)
label = (feature * 3) + 4   # write your code here
print(label)

[ 6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[22 25 28 31 34 37 40 43 46 49 52 55 58 61 64]


In [22]:
#@title Double-click to see a possible solution to Task 1.
feature = np.arange(6, 21)
print(feature)
label = (feature * 3) + 4
print(label)

[ 6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[22 25 28 31 34 37 40 43 46 49 52 55 58 61 64]


## Opgave 2: Tilføj lidt støj til datasættet

For at gøre dit datasæt lidt mere realistisk, skal du indsætte lidt tilfældig støj i hvert element i det `label`-array, du allerede har oprettet. Præcist sagt, skal du ændre hver værdi, der er tildelt `label`, ved at tilføje en *forskellig* tilfældig decimalværdi mellem -2 og +2.

Stol ikke på broadcasting. Opret i stedet et `noise`-array med samme dimension som `label`.


In [38]:
noise = (np.random.random([15]) * 4) - 2    # write your code here
print(noise)
label = label + noise    # write your code here
print(label)

[-1.18818051 -1.03297756 -0.02944212 -0.94883805  0.20088817  1.0496836
  1.97801529  0.45143796  1.30309414  1.90006685  1.28023341 -0.93010065
  1.80612769  1.17131491  0.78119242]
[15.83954679 24.41570165 19.18422732 27.85253536 30.19962399 37.14151307
 39.34508241 39.22914484 43.35445309 50.08829137 52.6769899  54.81308403
 57.21902609 58.74083701 59.60518683]


In [37]:
#Løsning til Task 2

noise = (np.random.random([15]) * 4) - 2
print(noise)
label = label + noise
print(label)

[ 0.6571396  -0.9485766  -1.64274417 -0.60951479 -0.22790738 -0.37745364
 -0.34721158 -0.52449726 -1.12914514  0.35683602 -1.25919502  0.81813793
  1.09798487 -0.2611414  -1.19698595]
[17.0277273  25.44867922 19.21366944 28.80137341 29.99873582 36.09182948
 37.36706711 38.77770689 42.05135894 48.18822452 51.39675649 55.74318468
 55.41289841 57.56952211 58.82399441]
