# Priprava podatkov

## Knjižnica `numpy`

Knjižnica [`numpy`](https://numpy.org/) omogoča numerično računanje v jeziku Python. Vsebuje učinkovite implementacije podatkovnih struktur kot so vektorji, matrike in polja. Vse podatkovne strukture izhajajo iz podatkovnega tipa polje ($\texttt{array}$). 

### Ustvarjanje polj
Polje lahko ustvarimo na različne načine:

*  s pretvorbo Pythonovih seznamov ali terk,
*  z uporabo funkcij $\texttt{arange}$, $\texttt{linspace}$ in podobnih,
*  z branjem podatkov iz datotek.

In [1]:
import numpy as np

#### Pretvorba seznamov v večdimenzionalna polja

Konstruktor $\texttt{array}$ uporabimo neposredno tako, da podamo seznam.
Če podamo seznam števil, dobimo vektor:

In [2]:
v = np.array([1, 2, 3, 4])
v

array([1, 2, 3, 4])

Če podamo seznam seznamov, dobimo matriko:

In [3]:
M = np.array([[1, 2], [3, 4]])
M

array([[1, 2],
       [3, 4]])

Neglede na obliko, sta objekta $\texttt{v}$ in $\texttt{M}$ tipa $\texttt{ndarray}$.

In [4]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

Razlika je v njunih dimenzijah. Objekt $\texttt{v}$ je vektor s štirimi elementi, $\texttt{M}$ pa matrika `2 x 2`.

In [5]:
v.shape

(4,)

In [6]:
M.shape

(2, 2)

Podobno lahko izpišemo število elementov v celotnem seznamu.

In [7]:
M.size

4

##### Vprašanje 1-1-1

Sestavimo lahko polja poljubnih dimenzij. Poskusi sestaviti seznam-seznamov-seznamov(-seznamov, ...) in preveri, kakšne so njegove dimenzije!

In [8]:
X = np.array([[1,2],[3,4]])
X.shape

(2, 2)

[Odgovor](201-1.ipynb#Odgovor-1-1-1)

#### Funkcije za ustvarjanje polj

Knjižica `numpy` vsebuje funkcije za ustvarjanje pogostih tipov polj. Poglejmo nekaj primerov.

**Razpon `arange`**

Funkcija `arange` vrne polje z enakomerno razporejenimi vrednostmi znotraj podanega intervala. 
```python
np.arange([od, ]do, [korak])
```
* `od`: neobvezno, prva vrednost polja. Privzeto je 0
* `do`: konec intervala, ni vključen
* `korak`: neobvezno, razmik med vrednostmi. Privzeto je 1

In [9]:
np.arange(0, 10, 1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
np.arange(-1, 1, 0.1)

array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01])

**Razpona `linspace` in `logspace`**

Tudi funkciji `linspace` in `logspace` vrneta polje z enakomerno razporejenimi vrednostmi znotraj podanega intervala. Tokrat namesto koraka, določimo število elementov v polju.
```python
np.linspace(od, do, [število])
np.logspace([start, ]stop, [num])
```
* `od`: prva vrednost polja
* `do`: konec intervala, **vključen**
* `število`: neobvezno, razmik med vrednostmi. Privzeto je 50

Pri funkciji `logspace` lahko s parametrom `base` določimo logaritmsko osnovo.

In [11]:
np.linspace(0, 10, 25)

array([ 0.        ,  0.41666667,  0.83333333,  1.25      ,  1.66666667,
        2.08333333,  2.5       ,  2.91666667,  3.33333333,  3.75      ,
        4.16666667,  4.58333333,  5.        ,  5.41666667,  5.83333333,
        6.25      ,  6.66666667,  7.08333333,  7.5       ,  7.91666667,
        8.33333333,  8.75      ,  9.16666667,  9.58333333, 10.        ])

In [12]:
np.logspace(0, 10, 11, base=np.e)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03, 2.20264658e+04])

**Ničle in enice -  `zeros`, `ones`**

Obe funkciji vrneta polje določene velikosti, napolnjeno z ničlami oziroma enicami.

In [13]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [14]:
np.ones((4, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

V splošnem lahko uporabimo `full` za polje, napolnjeno z isto vrednostjo.

In [15]:
np.full((4,5), 7)

array([[7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7]])

**Generator naključnih števil**

Generator lahko ustvarimo s funkcijo `default_rng([seme])`. Kot parameter lahko vpiše seme, kar nam zagotovi enake rezultate ob večkratnem poganjanju.

In [16]:
rng = np.random.default_rng(42)

Enakomerno porazdeljena cela števila v poljubnem intervalu v polju poljubne velikosti.

In [17]:
rng.integers(20)

1

In [18]:
rng.integers(20, size=20)

array([15, 13,  8,  8, 17,  1, 13,  4,  1, 10, 19, 14, 15, 14, 15, 10,  2,
       16,  9, 10], dtype=int64)

In [19]:
rng.integers(10, 20, size=(2,5), dtype=np.uint8)

array([[15, 16, 19, 13, 16],
       [15, 17, 11, 13, 14]], dtype=uint8)

Enakomerno porazdeljene vrednosti v pol-odprtem intervalu [0,1):

In [20]:
rng.random()

0.6438651200806645

In [21]:
rng.random((2,5))

array([[0.82276161, 0.4434142 , 0.22723872, 0.55458479, 0.06381726],
       [0.82763117, 0.6316644 , 0.75808774, 0.35452597, 0.97069802]])

Normalno porazdeljene vrednosti s povprečno vrednostjo 0 in odklonom 1:

In [22]:
rng.normal(size=(2, 5))

array([[-0.15452948, -0.42832782, -0.35213355,  0.53230919,  0.36544406],
       [ 0.41273261,  0.430821  ,  2.1416476 , -0.40641502, -0.51224273]])

##### Vprašanje 1-1-2

Funkcija `randn` predpostavlja sredino $\mu = 0$ in standardni odklon $\sigma = 1$. Kako bi modelirali poljubno sredino in standardni odklon, npr. $\mu=5$ in $\sigma=0.5$?

[Odgovor](201-1.ipynb#Odgovor-1-1-2)

#### Branje podatkov iz datotek

Knjižnica NumPy ponuja priročne funkcije za nalaganje podatkov iz datotek. Pogosto uporabljeni funkciji sta `loadtxt()` in `genfromtxt()`, ki lahko obdelujeta datoteke z numeričnimi podatki. Ti funkciji omogočata določanje ločil, podatkovnih tipov in `genfromtxt()` lahko tudi obravnava manjkajočih vrednosti.

In [23]:
data = np.loadtxt('../data/stockholm.csv', delimiter=",", skiprows=1)
data

array([[ 1.756e+03,  1.000e+00,  1.000e+00, -8.700e+00],
       [ 1.756e+03,  1.000e+00,  2.000e+00, -9.200e+00],
       [ 1.756e+03,  1.000e+00,  3.000e+00, -8.600e+00],
       ...,
       [ 2.025e+03,  6.000e+00,  1.300e+01,  1.590e+01],
       [ 2.025e+03,  6.000e+00,  1.400e+01,  1.880e+01],
       [ 2.025e+03,  6.000e+00,  1.500e+01,  2.150e+01]])

### Razlike med seznami in polji

Struktura  `numpy.ndarray` še vedno izgleda kot seznam-seznamov(-seznamov ...). V čem je razlika?

Nekaj hitrih dejstev:
* Način naslavljanja vrednosti
* Tipiziranje
    * Pythonovi seznami lahko vsebujejo poljuben tip objektov, ki se znotraj seznama lahko razlikujejo (**dinamično tipiziranje**). 
    * Polja so **statično tipizirana** in **homogena**. Podatkovni tip elementov je določen ob nastanku.
* Seznami ne podpirajo  matematičnih operacij. Implementacija takih opracij nad seznamom bi bila zelo neučinkovita. Za polja je večina računsko zahtevnih operacij implementiranih v nižjenivojskih jezikih (Fortran, C). 

Posledično so polja pomnilniško učinkovita, saj zasedajo zvezen prostor v pomnilniku.

#### Naslavljanje

Elemente naslavljamo z uporabo oglatih oklepajev, podobno kot pri seznamih.

`v` je vektor; naslavljamo ga po njegovi edini dimenziji.

In [24]:
v = np.array([1, 2, 3, 4, 5])
v[0]

1

Matriko `data` naslavljamo z dvema podatkoma - naslov je sedaj terka 

In [25]:
data[1,1]

1.0

Naslavljanje po eni dimenziji vrne najprej vrstice.

In [26]:
data[1]

array([ 1.756e+03,  1.000e+00,  2.000e+00, -9.200e+00])

Z uporabo `:` povemo, da bi radi vse elemente v pripadajoči dimenziji. Vrstica:

In [27]:
data[1, :]

array([ 1.756e+03,  1.000e+00,  2.000e+00, -9.200e+00])

Kako bi dostop do celotnega prvega stolpca implementirali s seznami? Potrebnih bi bilo nekaj zank `for`. Sintaksa naslavljanja to bistveno poenostavi.

In [28]:
data[:, 1]

array([1., 1., 1., ..., 6., 6., 6.])

Posamezne elemente lahko spreminjamo s prireditvenimi stavki.

In [29]:
M = np.array([[1, 2], [3, 4]])
M[0, 0] = 9
M

array([[9, 2],
       [3, 4]])

Lahko jih nastavljamo po celotni dimenziji.

In [30]:
M[1, :] = 0
M[:, 1] = -1
M

array([[ 9, -1],
       [ 0, -1]])

Vsakemu elementu v izbrani dimenziji lahko nastavimo drugačno vrednost, vendar moramo pri tem paziti na velikost dimenzije.

In [31]:
M[0] = [2, 3]
M

array([[ 2,  3],
       [ 0, -1]])

In [32]:
M[:, 0] = [2, 3, 4]

ValueError: could not broadcast input array from shape (3,) into shape (2,)

##### Rezanje
Rezanje polj je pogost koncept. Poljubno pod-polje dobimo z naslavljanjem `M[od:do:korak]`.

* `od`: začetni naslov polja. Privzeta vrednost je 0
* `do`: končni naslov polja, ni vključen. Privzeta vrednost je dolžina polja
* `korak`: velikost koraka. Privzeta vrednost je 1

In [33]:
A = np.array([1, 2, 3, 4, 5])
A

array([1, 2, 3, 4, 5])

In [34]:
A[1:3]

array([2, 3])

Naslovljena pod-polja lahko tudi spreminjamo.

In [35]:
A[1:3] = [-2, -3]
A

array([ 1, -2, -3,  4,  5])

Katerikoli od parametrov rezanja je lahko tudi izpuščen. Pri tem se uporabi privzete vrednosti.

In [36]:
A[::]

array([ 1, -2, -3,  4,  5])

Vsak drugi element:

In [37]:
A[::2]

array([ 1, -3,  5])

Prvi trije elementi:

In [38]:
A[:3]

array([ 1, -2, -3])

Elementi od tretjega naprej:

In [39]:
A[3:]

array([4, 5])

Negativni indeksi se nanašajo na *konec* polja:

In [40]:
A[-1]

5

Zadnji trije elementi:

In [41]:
A[-3:]

array([-3,  4,  5])

Polje lahko enostavno obrnemo:

In [42]:
A[-1::-1]

array([ 5,  4, -3, -2,  1])

Rezanje deluje tudi pri večdimenzionalnih poljih.

In [43]:
A = np.array([[n+m*10 for n in range(5)] for m in range(5)])
A

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [44]:
A[1:4, 1:4]

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

Elemente lahko preskakujemo.

In [45]:
A[::2, ::2]

array([[ 0,  2,  4],
       [20, 22, 24],
       [40, 42, 44]])

##### Naslavljanje polja s pomočjo druge strukture
Polje naslavljamo tudi s pomočjo drugih polj ali seznamov.

In [46]:
row_indices = [1, 2, 3]
A[row_indices]

array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34]])

In [47]:
col_indices = [1, 2, -1]
A[row_indices, col_indices]

array([11, 22, 34])

Uporabljamo tudi *maske*. Le-te so strukture s podatki tipa `bool`, ki nakazujejo, ali bo element na pripadajočem mestu izbran ali ne.

In [48]:
B = np.array([n for n in range(5)])
B

array([0, 1, 2, 3, 4])

In [49]:
row_mask = np.array([True, False, True, False, False])
B[row_mask]

array([0, 2])

Malenkost drugačen način določanja maske.

In [50]:
row_mask = np.array([1, 0, 1, 0, 0], dtype=bool)
B[row_mask]

array([0, 2])

Način lahko uporabimo za pogojno naslavljanje elementov glede na njihovo vsebino.

In [51]:
x = np.array([0, 4, 2, 2, 3, 7, 10, 12, 15, 28])
x

array([ 0,  4,  2,  2,  3,  7, 10, 12, 15, 28])

In [52]:
mask = (5 < x) * (x < 12.3)
mask

array([False, False, False, False, False,  True,  True,  True, False,
       False])

In [53]:
x[mask]

array([ 7, 10, 12])

##### Vprašanje 1-1-3

Preizkusi kombinacije vseh do sedaj omenjenih načinov naslavljanja naenkrat. Hkrati naslavljaj, npr., vrstice z rezanjem, stolpce pa s pogojnim naslavljanjem. Ustvari več kot dvo-dimenzionalne strukture. Preveri, ali razumeš rezultat vsakega od naslavljanj.

[Odgovor](201-1.ipynb#Odgovor-1-1-3)

#### Tipizacija
Ugotovimo tip elementov v trenutnem polju:

In [54]:
M.dtype

dtype('int32')

Vstavljanje podatkov poljubnih tipov v polje lahko vodi do težav. Poskusi:

In [55]:
M[0,0] = "hello"

ValueError: invalid literal for int() with base 10: 'hello'

Nastavimo podatkovni tip ob ustvarjanju polja, n.pr., kompleksna števila:

In [56]:
M = np.array([[1, 2, 3], [1, 4, 9]], dtype=complex)
M

array([[1.+0.j, 2.+0.j, 3.+0.j],
       [1.+0.j, 4.+0.j, 9.+0.j]])

Med izvanjanjem spremenimo tip zapisov v polju:

In [57]:
M = M.astype(float)
M

  M = M.astype(float)


array([[1., 2., 3.],
       [1., 4., 9.]])

Uporabimo lahko podatkovne tipe: `int`, `float`, `complex`, `bool`, `object`.

Velikosti, v bitih, lahko podamo eksplicitno: `int64`, `int16`, `float128`, `complex128`.

### Osnovne računske operacije

Ključno pri uporabi iterpretiranih jezikov je, da kar najbolj izkoriščamo vektorske operacije. Izogibajmo se odvečni uporabi zank. Karseda veliko operacij implementiramo kot operacije med matrikami in vektorji, npr., kot vektorsko ali matrično množenje.

#### Operacije polja s skalarjem

Uporabimo običajne aritmetične operacije za množenje, seštevanje in deljenje s skalarjem.

In [58]:
v1 = np.arange(0, 5)

In [59]:
v1 * 2

array([0, 2, 4, 6, 8])

In [60]:
v1 + 2

array([2, 3, 4, 5, 6])

In [61]:
A * 2, A + 2

(array([[ 0,  2,  4,  6,  8],
        [20, 22, 24, 26, 28],
        [40, 42, 44, 46, 48],
        [60, 62, 64, 66, 68],
        [80, 82, 84, 86, 88]]),
 array([[ 2,  3,  4,  5,  6],
        [12, 13, 14, 15, 16],
        [22, 23, 24, 25, 26],
        [32, 33, 34, 35, 36],
        [42, 43, 44, 45, 46]]))

####  Operacije polje-polje (po elementih)

Operacije med več polji se privzeto obravnavajo po elementih. Na primer, množenje po elementih dosežemo z uporabo operatorja `*`.

In [62]:
A * A

array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [63]:
v1 * v1

array([ 0,  1,  4,  9, 16])

Pozor, dimenzije polj se morajo ujemati.

In [64]:
A.shape, v1.shape

((5, 5), (5,))

In [65]:
A * v1

array([[  0,   1,   4,   9,  16],
       [  0,  11,  24,  39,  56],
       [  0,  21,  44,  69,  96],
       [  0,  31,  64,  99, 136],
       [  0,  41,  84, 129, 176]])

### Iteracija po elementih polja

Skušamo se držati načela, da se izogibamo uporabi zank preko elementov polja. Razlog je počasna implementacija zank v intepretiranih jezikih, kot je Python.
Včasih pa se zankam ne moremo izogniti. Zanka `for` je smiselna rešitev.  

In [66]:
v = np.array([1,2,3,4])

for element in v:
    print(element)

1
2
3
4


In [67]:
M = np.array([[1,2], [3,4]])

for row in M:
    print("row", row)
    
    for element in row:
        print(element)

row [1 2]
1
2
row [3 4]
3
4


Generator `enumerate` uporabimo kadar želimo iteracijo po elementih in morebitno spreminjanje njihovih vrednosti.

In [68]:
for i, row in enumerate(M):
    print("row index", i, "row", row)
    
    for j, element in enumerate(row):
        print("col index", j, "element", element)
       
        # Kvadriramo vsakega od elementov 
        M[i, j] = element ** 2

row index 0 row [1 2]
col index 0 element 1
col index 1 element 2
row index 1 row [3 4]
col index 0 element 3
col index 1 element 4


Dobimo polje, kjer je vsak element kvadrat prvotne vrednosti.

In [69]:
M

array([[ 1,  4],
       [ 9, 16]])

### Primer: temperature v Stockholmu

Knjižnico `numpy` uporabimo na primeru podatkov dnevne temperature v Stockholmu. Podatki obsegajo meritve za vsak dan med leti 1800 in 2011. Shranjeni so v datoteki, kjer vrstice predstavljajo meritve. Posamezni podatki - leto, mesec, dan in izmerjena temperatura - so ločeni z vejico.

Ponovno naložimo podatke o povprečnih dnevnih temperaturah v švedskem glavnem mestu.

In [70]:
data = np.loadtxt('../data/stockholm.csv', delimiter=",", skiprows=1)

Preverimo velikost podatkov: število vrstic (_meritve_, _vzorci_) in število stolpcev (_atributov_).

In [71]:
data.shape

(98409, 4)

Stolpci hranijo podatke v tem vrstnem redu: `leto`, `mesec`, `dan` in `temperatura`. 

Poglejmo si vse meritve, ki so bile narejene v letu 2011. Ustvarimo binarni vektor `data[:, 0] == 2011`, ki vsebuje vrednost `True` nas ustreznih mestih ter ga uporabimo za naslavljanje podatkov.

In [72]:
data[data[:, 0] == 2011]

array([[ 2.011e+03,  1.000e+00,  1.000e+00, -2.300e+00],
       [ 2.011e+03,  1.000e+00,  2.000e+00, -3.600e+00],
       [ 2.011e+03,  1.000e+00,  3.000e+00, -6.900e+00],
       ...,
       [ 2.011e+03,  1.200e+01,  2.900e+01,  4.900e+00],
       [ 2.011e+03,  1.200e+01,  3.000e+01,  6.000e-01],
       [ 2.011e+03,  1.200e+01,  3.100e+01, -2.600e+00]])

##### Vprašanje 1-1-4

Izpišite temperaturo na poljuben dan.

[Odgovor](201-1.ipynb#Odgovor-1-1-4)

#### Procesiranje podatkov

Na tej točki nastopijo operacije, ki nam povedo nekaj o podatkih. Izračunali bomo nekaj osnovnih statistik.

##### Povprečje, aritmetična sredina

Dnevna temperatura je v stolpcu z indeksom 3 (četrti stolpec). Izračunamo povprečje vseh meritev.

In [73]:
np.mean(data[:,3])

6.26429086770519

Ugotovimo, da je bila povprečna dnevna temperatura v Stockholmu v preteklih 270 letih prijetnih 6,2° C. 

##### Vprašanje 1-1-5

Kakšna je povprečna temperatura januarja (mesec s številko 1)?

[Odgovor](202-1.ipynb#Odgovor-1-1-5)

#### Standardni odklon in varianca

In [74]:
np.std(data[:,3]), np.var(data[:,3])

(8.38204530528587, 70.25868349986487)

#### Najmanjša in največja vrednost

Preverimo razpon let, ki jih imamo v podatkih.

In [75]:
y = data[:, 0]
y_min = y.min()
y_max = y.max()
print("%i–%i" % (y_min, y_max))
print(int(y_max - y_min))

1756–2025
269


Poiščimo najnižjo dnevno temperaturo:

In [76]:
data[:,3].min()

-27.7

Poiščimo najvišjo dnevno temperaturo:

In [77]:
data[:,3].max()

28.3

##### Vprašanje 1-1-6

V katerem mesecu je odklon temperature največji? 

[Odgovor](201-1.ipynb#Odgovor-1-1-6)

##### Vprašanje 1-1-7

Pošči mesec in leto, ko so zabeležili največjo temperaturo.

[Odgovor](201-1.ipynb#Odgovor-1-1-7)

#### Vsota, produkt

Temperatur ponavadi ne množimo. Pa vendar, izkoristimo priložnost za prikaz funkcij vsote in produkta.

In [78]:
data[:, 3].sum() 

616462.6000000001

In [79]:
data[:, 3].sum() / data.shape[0] 

6.26429086770519

In [80]:
np.prod(data[0, :])

-15277.199999999999

#### Globalno segrevanje?

Po Stockholmu krožijo govorice, da se temperatura iz leta v leto povečuje. Preverimo, če to drži.

Najprej izračunamo povprečno temperaturo za vsako leto posebej. Pri tem uporabimo pogojno naslavljanje polja.

In [81]:
years = np.unique(data[:, 0])[:-1].astype(int)
yearly_avg = np.array([data[data[:, 0] == year, 3].mean() for year in years])

In [82]:
hottest_idx = np.argmax(yearly_avg)
coldest_idx = np.argmin(yearly_avg)
print("Hottest year:", int(years[hottest_idx]), "Avg temp:", yearly_avg[hottest_idx])
print("Coldest year:", int(years[coldest_idx]), "Avg temp:", yearly_avg[coldest_idx])

Hottest year: 2020 Avg temp: 9.75464480874317
Coldest year: 1867 Avg temp: 3.2309589041095896


##### Vprašanje 1-1-8

Izpiši leta, ko je povprečna temperatura višja od prejšnjega leta.

[Odgovor](201-1.ipynb#Odgovor-1-1-8)

##### Vprašanje 1-1-9

Poišči 10 najtoplejših let.

[Odgovor](201-1.ipynb#Odgovor-1-1-9)

Poglejmo še, kako so se povprečja daljših časovnih obdobij spreminjala skozi čas.

In [83]:
avg_before_1900 = np.mean(yearly_avg[years < 1900])
avg_after_2000 = np.mean(yearly_avg[years >= 2000])
diff = avg_after_2000 - avg_before_1900

print(f"Average temp before 1900: {avg_before_1900:.2f}")
print(f"Average temp after 2000: {avg_after_2000:.2f}")
print(f"Change: {diff:.2f}°C")


Average temp before 1900: 5.75
Average temp after 2000: 8.20
Change: 2.45°C


In [84]:
intervals = np.arange(1750, 2051, 50)
for i in range(len(intervals) - 1):
    start = intervals[i]
    end = intervals[i + 1]
    mask = (data[:, 0] >= start) & (data[:, 0] < end)
    avg_temp = data[mask, 3].mean()
    print(f"Avg temp {start}–{end}: {avg_temp:.2f} °C")

Avg temp 1750–1800: 5.94 °C
Avg temp 1800–1850: 5.64 °C
Avg temp 1850–1900: 5.69 °C
Avg temp 1900–1950: 6.26 °C
Avg temp 1950–2000: 6.78 °C
Avg temp 2000–2050: 8.16 °C


S knjižnico `numpy` lahko tudi poiščemo polinom želene stopnje, ki se čim bolj prilega našim podatkom in pogledamo v prihodnost.

In [85]:
from numpy.polynomial import Polynomial as P
p = P.fit(years, yearly_avg, 3).convert()
print(f"Predicted average in 2100: {p(2100):.2f}°C")

Predicted average in 2100: 12.62°C
