# Data

I denne øvelsen vil vi se hvordan du kan manipulere datasett med `numpy` og `pandas`. I data science bruker vi ofte store datasett og det er derfor avgjørende å manipulere datasett på en god måte. 

I de følgende oppgavene må du alltid erstatte `___` med kode som gjør hva oppgaven spør om. 

## Grunnlegende om numpy 

Målet med denne oppgaven er å lære de grunnleggende egenskapene til numpy arrayer og hvordan du effektivt bruker dem i arbeidet ditt. 

Vi begynner å laste inn `numpy` pakken som `np`. 

In [27]:
import numpy as np

### Lage numpy array

Det kan være nyttig å vite hvordan du lager en numpy array fra bunnen av for å teste koden din. For eksempel, når du gjør matematikk med store flerdimensjonale arrays, er det fint å sjekke om matematikken fungerer som forventet på små test arrays før du bruker koden på de større arrayene. numpy har mange alternativer for å lage mindre syntetiske matriser.

Lag og skriv ut en numpy array som har to rader og fire kolonner fylt med nuller. Tips: Du kan bruke [numpy.zeros](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html) for å gjøre det på en linje. 

In [28]:
# numpy array med nuller
zeros_array = np.zeros(shape=(2, 4))
print(zeros_array)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


Lag og skriv ut en numpy array som har tre rader og seks kolonner fylt med uniformt fordelte tilfeldige tall mellom 0 og 1. Tips: Du kan bruke [numpy.random.uniform](https://numpy.org/doc/stable/reference/random/generated/numpy.random.uniform.html) for å gjøre det på en linje. 

In [29]:
# numpy array med tilfeldige tall
random_array = np.random.uniform(low=0.0, high=1.0, size=(3, 6))
print(random_array)

[[0.14717789 0.71153564 0.38382584 0.95352593 0.14901926 0.57352234]
 [0.48383849 0.76023158 0.53585001 0.55392585 0.44265188 0.67438147]
 [0.50750478 0.19971171 0.36098013 0.79607952 0.02104772 0.86734133]]


Lag et 1-dimensjonal numpy array som inneholder 8 jevnt fordelte tall fra 0.3 til 1.7. Tips: Du kan bruke enten [`numpy.arange`](https://numpy.org/doc/stable/reference/generated/numpy.arange.html) eller [`numpy.linspace`](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html) for denne oppgaven. 

In [30]:
# numpy array med tall mellom 0.3 og 1.7
range_array = np.arange(0.3, 1.7, 0.18)
print(range_array)

[0.3  0.48 0.66 0.84 1.02 1.2  1.38 1.56]


### Dimensjon av numpy array

Numpy arrayer har en rekke egenskaper, som størrelsen og antall dimensjoner. Vi må kunne finne de egenskapene. Noen ganger trenger vi også å endre formen på numpy arrayer. 

Skriv ut formen av `range_array` som du har laget. Tips: Du kan bruke [`shape`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.shape.html) for å lese formen av en numpy array. 

In [31]:
# formen av range_array
array_shape = range_array.shape
print(array_shape)

(8,)


Endre dimensjonen til `range_array` sånn at du får et array med 2 kolonner. Målet er å få en array som har tall [0.3, 0.5, 0.7, 0.9] i første kolonnen og tall [1.1, 1.3, 1.5, 1.7] i andre kolonnen. Tips: Du kan løse oppgaven ved å kun bruke [`numpy.reshape`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html). Alternativt kan du kombinere [`numpy.reshape`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) med [`numpy.transpose`](https://numpy.org/doc/stable/reference/generated/numpy.transpose.html) eller med [`numpy.swapaxes`](https://numpy.org/doc/stable/reference/generated/numpy.swapaxes.html) for denne oppgaven. 

Skriv ut den nye numpy arrayen og dimensjonen av den nye numpy arrayen. 

In [32]:
# endre formen
reshaped_range_array = np.reshape(range_array, (2,4))
print(reshaped_range_array)
# formen av den nye arrayen
reshaped_array_shape = reshaped_range_array.shape
print(reshaped_array_shape)

[[0.3  0.48 0.66 0.84]
 [1.02 1.2  1.38 1.56]]
(2, 4)


Bruk [`numpy.flatten`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.flatten.html) for å lage en 1-dimensjonal numpy array ut av `reshaped_range_array`. Skriv den ut. Er det des samme som `range_array` du begynte med?

In [37]:
# flatten
flattened_range_array = np.ndarray.flatten(reshaped_range_array)
print(flattened_range_array)
# Ja, det er samme array som range_array.

[0.3  0.48 0.66 0.84 1.02 1.2  1.38 1.56]


### Kombinere flere array

Når vi har data fra forskjellige kilder er det ofte viktig å kunne kombinere de. Her lærer du hvordan å gjøre det med `numpy`. 

Først lager jeg to matrisser som eksempler. 

In [38]:
# eksempel matriser
mat1 = np.ones(shape=(3, 4))
mat2 = np.arange(2, 14).reshape(3, 4)
print(mat1)
print()
print(mat2)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]


Det er mange måter å kombinere de matrissene. Her prøver vi det ut på tre forskjellige måter. Kombiner `mat1` med `mat2`, slik at du får
- en ny matrisse med 6 rader og 4 kolonner (Tips: Bruk [`numpy.vstack`](https://numpy.org/doc/stable/reference/generated/numpy.vstack.html)), 
- en ny matrisse med 3 rader og 8 kolonner (Tips: Bruk [`numpy.hstack`](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html)), 
- en ny 3-dimensjonal numpy array med form (2, 3, 4) (Tips: Bruk [`numpy.stack`](https://numpy.org/doc/stable/reference/generated/numpy.stack.html)). 

Det er også et valg hvilken av mat1 og mat2 skal komme først i kombinasjonen. Her tar vi alltid mat1 før mat2. 

In [39]:
# kombinere slik at det blir 6 rader og 4 kolonner
combined_6x4 = np.vstack([mat1, mat2])
print(combined_6x4)
print(combined_6x4.shape)

[[ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]
 [ 2.  3.  4.  5.]
 [ 6.  7.  8.  9.]
 [10. 11. 12. 13.]]
(6, 4)


In [40]:
# kombinere slik at det blir 3 rader og 8 kolonner
combined_3x8 = np.hstack([mat1, mat2])
print(combined_3x8)
print(combined_3x8.shape)

[[ 1.  1.  1.  1.  2.  3.  4.  5.]
 [ 1.  1.  1.  1.  6.  7.  8.  9.]
 [ 1.  1.  1.  1. 10. 11. 12. 13.]]
(3, 8)


In [41]:
# kombinere slik at det blir en array med shape (2, 3, 4)
combined_2x3x4 = np.stack([mat1, mat2], axis=0)
print(combined_2x3x4)
print(combined_2x3x4.shape)

[[[ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]
  [ 1.  1.  1.  1.]]

 [[ 2.  3.  4.  5.]
  [ 6.  7.  8.  9.]
  [10. 11. 12. 13.]]]
(2, 3, 4)


### Undermatriser

Når vi har store numpy arrayer, så vil vi ofte kun se på en liten del om gangen. For å gjøre det må vi kunne ta ut undermatrisser. For å velge ut rader og kolonner bruker vi indeksering. Se [`numpy` dokumentasjonen](https://numpy.org/doc/stable/user/basics.indexing.html#basics-indexing) for en god introduksjon til indeksering. 

Skriv ut følgende undermatriser av `mat2`: 
  - A: De første to kolonnene
  - B: De første to radene og de to første kolonnene. 
  - C: De siste to radene og kolonnene 0 og 2. 
  - D: Radene 1 og 2 og kolonnene 0 og 3

In [52]:
# De første to kolonnene
matA = mat2[:, :2]
print(matA)

[[ 2  3]
 [ 6  7]
 [10 11]]


In [53]:
# De første to radene og de to første kolonnene. 
matB = mat2[:2, :2]
print(matB)

[[2 3]
 [6 7]]


In [60]:
# De siste to radene og kolonnene 0 og 2. 
matC = mat2[-2:, [0, 2]]
print(matC)

[[ 6  8]
 [10 12]]


In [62]:
# Radene 1 og 2 og kolonnene 0 og 3
matD = mat2[1:3, [0, 3]]
print(matD)

[[ 6  9]
 [10 13]]


### Endre data

Når vi har gitt data, så vil vi noen ganger endre på det. For eksempel kan det være at vi har verdier i data som er fysisk umulig, så vi vil sette de til den største mulige verdien.

Endre `mat2` slik at alle tall mindre enn 5 blir satt til 5 og tall større enn 10 blir satt til 10. Tips: Du kan bruke [`numpy.clip`](https://numpy.org/doc/stable/reference/generated/numpy.clip.html).

In [63]:
# mat2 med verdier mellom 5 og 10
clipped_mat2 = np.clip(mat2, 5, 10)
print(clipped_mat2)

[[ 5  5  5  5]
 [ 6  7  8  9]
 [10 10 10 10]]


I `mat2`, bytt ut alle oddetallene med verdien 1. 

In [64]:
# bytte ut alle oddetallene med verdien 1
odd_mat2 = mat2.copy() # kopier mat2 til en ny numpy array odd_mat2
oddetall = (odd_mat2 % 2 != 0)
odd_mat2[oddetall] = 1
print(odd_mat2)

[[ 2  1  4  1]
 [ 6  1  8  1]
 [10  1 12  1]]


Merk at alle tall i `mat2` er lagret som integer. Gjør de om til `float`. Tips: Bruk [numpy.astype](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.astype.html). 

In [67]:
# gjør om til float
mat2_float = np.ndarray.astype(mat2, dtype=np.float64)
print(mat2_float)
print(mat2.dtype)
print(mat2_float.dtype)

[[ 2.  3.  4.  5.]
 [ 6.  7.  8.  9.]
 [10. 11. 12. 13.]]
int32
float64


Når vi skriver det ut så ser vi at float skrives med `2.` mens int skrives `2` uten punktum. 

### Matematikk med numpy 

Multipliser alle elementene i `mat2` med `2`. Tips: Ikke bruk løkker, du kan bruke `*` med numpy arrayer. 

In [68]:
# 2 ganger mat2
mat_2x2 = mat2*2
print(mat_2x2)

[[ 4  6  8 10]
 [12 14 16 18]
 [20 22 24 26]]


Regn ut summen av `mat1` og `mat2`. Tips: du kan bruke vanlig `+`. 

In [69]:
# summen
mat_sum = mat1+mat2
print(mat_sum)

[[ 3.  4.  5.  6.]
 [ 7.  8.  9. 10.]
 [11. 12. 13. 14.]]


Regn ut logaritmen av alle elementene i `mat2`. Tips: Bruk [`numpy.log`](https://numpy.org/doc/stable/reference/generated/numpy.log.html).

In [70]:
# logaritmen
log_mat = np.log(mat2)
print(log_mat)

[[0.69314718 1.09861229 1.38629436 1.60943791]
 [1.79175947 1.94591015 2.07944154 2.19722458]
 [2.30258509 2.39789527 2.48490665 2.56494936]]


Regn ut maksimalverdien i `mat2`. Tips: Bruk [`numpy.max`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.max.html).

In [71]:
# maximum
mat_max = np.max(mat2)
print(mat_max)

13


For hver kolonne i `mat2`, regn ut summen. Tips: Bruk [`numpy.sum`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.sum.html) med `axis`-argumentet.

In [72]:
# summe per kolonne
mat_sums = np.sum(mat2, axis=0)
print(mat_sums)

[18 21 24 27]


### Kombiner det du har lært

Så lenge fikk du beskjed på hvert steg hva du skal gjøre og hva slags funksjon som du kan bruke. Nå skal vi prøve å kombinere de forskjellige ting du har lært. 

1. Lag en numpy-array `mat` som består av tre kolonner og 100 rader. Den første kolonnen skal inneholde jevnt fordelte tall fra 0 til 2. Den andre kolonnen skal inneholde uniformt fordelte tilfeldige tall mellom 0 og 5. Den tredje kolonnen skal inneholde et 2-tall hvis den andre kolonnen er større enn 4 og et 0-tall ellers. 
2. Skriv ut de første 10 radene av `mat`. 
3. Finn ut hvor mange av radene har en verdi i andre kolonnen som er større enn 4. 
4. Regn ut maximalverdien av den andre kolonnen. 
5. Regn ut summen av alle den andre kolonnen for alle rad der den andre kolonnen er større enn 4. 
6. Endre alle datapunkter som var større enn 4 til 4. Hvordan har resultatene av spørsmål 4 og 5 forandret seg? 

In [76]:
# din kode her
#1
kol1 = np.linspace(0, 2, 100)
kol2 = np.random.uniform(0, 5, 100)
kol3 = np.where(kol2 > 4, 2, 0)
#2
mat = np.column_stack((kol1, kol2, kol3))
print(mat[:10])



[[0.         2.39822524 0.        ]
 [0.02020202 4.13768363 2.        ]
 [0.04040404 4.16194625 2.        ]
 [0.06060606 3.67131254 0.        ]
 [0.08080808 3.69574041 0.        ]
 [0.1010101  0.86408466 0.        ]
 [0.12121212 1.09588353 0.        ]
 [0.14141414 2.3388741  0.        ]
 [0.16161616 3.31565849 0.        ]
 [0.18181818 1.27072361 0.        ]]


In [78]:
#3
storre4 = np.sum(mat[:,1]>4)
print(storre4)

23


In [80]:
#4
maks_v  =np.max(mat[:,1])
print(maks_v)

4.995458370390534


In [81]:
#5
sum_storre4 = np.sum(mat[mat[:,1]>4,1])
print(sum_storre4)

102.19020373051055


In [83]:
#6 
mat[:,1] = np.where(mat[:,1]>4, 4, mat[:,1])
ny_maks = np.max(mat[:,1])
ny_sum = np.sum([mat[mat[:,1]>4,1]])

print(f'{ny_maks} {ny_sum}')

4.0 0.0


Maks endret seg til 4 siden det er grensen.
Summen ble 0 ettersom ingen tall er større enn 4, og den regner fra alt som er større enn 4