# Knjižnica pandas - zaporedja in podatkovni tipi

Za začetek uvozimo knjižnico `pandas`. Da nam ni treba ob vsaki uporabi funkcij iz knjižnice pred njimi pisati celega imena knjižnice, jo ponavadi uvozimo kar pod imenom `pd`.

_Namig: uporabi obliko `import <knjiznica> as <ime>`._

In [2]:
import pandas as pd
import random
import math

Ustvari seznam kvadratov števil od 10 do 41. Pomagaj si z izpeljanimi seznami.

Iz seznama nato ustvari podatkovno zaporedje (_Series_) in ga izpiši.

In [3]:
seznam = [i**2 for i in range(10,42)]
s1 = pd.Series(seznam)
s1.index = [i for i in range(10,42)]
print(s1)
#

10     100
11     121
12     144
13     169
14     196
15     225
16     256
17     289
18     324
19     361
20     400
21     441
22     484
23     529
24     576
25     625
26     676
27     729
28     784
29     841
30     900
31     961
32    1024
33    1089
34    1156
35    1225
36    1296
37    1369
38    1444
39    1521
40    1600
41    1681
dtype: int64


### Indeksiranje

Izpiši kvadrat števila 21:

In [5]:
print(s1[21])

441


Popravi indekse zaporedja, da bo na indeksu $i$ kvadrat števila $i$: `s1[i]` $\rightarrow$ $i^2$:

In [6]:
s1.index = seznam

Na dva načina izpiši kvadrate števil med 10 in 20 (vključno). Najprej uporabi lastnost `loc`, nato pa še `iloc`.

In [7]:
print(s1.iloc[0:11])
print(s1.loc[10**2:20**2])

100    100
121    121
144    144
169    169
196    196
225    225
256    256
289    289
324    324
361    361
400    400
dtype: int64
100    100
121    121
144    144
169    169
196    196
225    225
256    256
289    289
324    324
361    361
400    400
dtype: int64


Izpiši kvadrate sodih števil iz zaporedja. Rezultat pretvori v Pythonovski seznam:

In [8]:
sodi = s1.iloc[::2]
print(sodi)
seznam2 = sodi.index.tolist()
print(seznam2)

100      100
144      144
196      196
256      256
324      324
400      400
484      484
576      576
676      676
784      784
900      900
1024    1024
1156    1156
1296    1296
1444    1444
1600    1600
dtype: int64
[100, 144, 196, 256, 324, 400, 484, 576, 676, 784, 900, 1024, 1156, 1296, 1444, 1600]


### Tipi elementov
#### Kategorije


Ustvari zaporedje vsaj 15 hišnih ljubljenčkov `ljubljencki` (npr. pes, mačka, hrček, pes, papagaj, hrček, ...) - pomagaj si z naključnim vzorčenjem. Zaporedje izpiši. Kakšnega tipa so vrednosti?

In [9]:
hisni_ljubljencki = ['pes','macka','hrcek','papagaj']
zap = pd.Series([random.choice(hisni_ljubljencki) for _ in range(16)])
print(zap)

#vrednosti so tipa string


0       macka
1     papagaj
2       hrcek
3     papagaj
4     papagaj
5         pes
6       hrcek
7       hrcek
8         pes
9     papagaj
10        pes
11      hrcek
12        pes
13      macka
14    papagaj
15    papagaj
dtype: object


Kaj se zgodi sedaj, če poskusimo na 8. mesto vpisati neveljavno vrsto hišnega ljubljenčka (npr. `"peš"`)?

In [10]:
zap[8] = 'peš'
print(zap)

#nič se ne zgodi


0       macka
1     papagaj
2       hrcek
3     papagaj
4     papagaj
5         pes
6       hrcek
7       hrcek
8         peš
9     papagaj
10        pes
11      hrcek
12        pes
13      macka
14    papagaj
15    papagaj
dtype: object


Ustvari še zaporedje `ljubljencki_kat` tako, da bo nabor možnih vrednosti omejen - zaporedje naj bo kategorija.

In [11]:
ljubljencki_kat = pd.Series([random.choice(hisni_ljubljencki) for _ in range(16)],dtype="category")

Nabor možnih vrednosti pretvori v navaden seznam in ga izpiši.

In [12]:
seznam = ljubljencki_kat.cat.categories.tolist()
print(seznam)

['hrcek', 'macka', 'papagaj', 'pes']


Kaj se zgodi sedaj, če poskusimo na 8. mesto vpisati neveljavno vrsto hišnega ljubljenčka (npr. `"peš"`)?

In [13]:
ljubljencki_kat[8] = 'peš'

#vrne TypeError

TypeError: Cannot setitem on a Categorical with a new category (peš), set the categories first

Odstrani eno izmed vrednosti kategorije (npr. papagaj). Kaj se zgodi s papagaji v zaporedju?

In [14]:
ljubljencki_kat = ljubljencki_kat.cat.remove_categories('papagaj')
print(ljubljencki_kat)

0     hrcek
1     macka
2     macka
3     hrcek
4       NaN
5       pes
6       NaN
7     hrcek
8     hrcek
9       pes
10      NaN
11    macka
12      pes
13    macka
14      NaN
15    hrcek
dtype: category
Categories (3, object): ['hrcek', 'macka', 'pes']


Dodaj novo vrednost kategorije (npr. zlata ribica). Zapiši zlato ribico na mesto, kjer je bil prej papagaj (oziroma pripadnik izbrisane kategorije).

In [15]:
ljubljencki_kat = ljubljencki_kat.cat.add_categories('zlata ribica')
ljubljencki_kat = ljubljencki_kat.fillna('zlata ribica')
print(ljubljencki_kat)

0            hrcek
1            macka
2            macka
3            hrcek
4     zlata ribica
5              pes
6     zlata ribica
7            hrcek
8            hrcek
9              pes
10    zlata ribica
11           macka
12             pes
13           macka
14    zlata ribica
15           hrcek
dtype: category
Categories (4, object): ['hrcek', 'macka', 'pes', 'zlata ribica']


#### Urejene kategorije

Ustvari zaporedje `ocene`, ki vsebuje 20 naključnih števil med 20 in 100.

In [16]:
ocene = pd.Series([random.randint(20,100) for _ in range(20)])
print(ocene)

0     62
1     32
2     51
3     50
4     99
5     67
6     61
7     97
8     84
9     58
10    91
11    44
12    51
13    78
14    68
15    51
16    28
17    48
18    50
19    66
dtype: int64


Ocene predstavljajo doseženo število točk na testu v osnovni šoli. Kriterij za pretvorbo odstotkov v oceno je sledeč:

0% – 49,5% = nezadostno \
50% – 60,5% = zadostno \
61% – 75,5% = dobro \
76% – 89,5 % = prav dobro \
90% – 100% = odlično

Ustvari novo zaporedje `ocene`, kjer so ocene predstavljene kot kategorija z možnimi vrednostmi odlično, prav dobro, dobro, zadostno in nezadostno. Vrednosti kategorije naj bodo urejene: nezadostno < zadostno < dobro < prav dobro < odlično.

_Namig: najprej definiraj seznama z mejami in imeni ocen._

In [17]:
meje = [49.5,60.5,75.5,89.5,100]
ime_ocene = ['nezadostno','zadostno','dobro','prav dobro','odlično']
for idx, oc in enumerate(ocene):
    for i in range(len(meje)):
        if oc <= meje[i]:
            ocene.iloc[idx] = ime_ocene[i]
            break

print(ocene)

0          dobro
1     nezadostno
2       zadostno
3       zadostno
4        odlično
5          dobro
6          dobro
7        odlično
8     prav dobro
9       zadostno
10       odlično
11    nezadostno
12      zadostno
13    prav dobro
14         dobro
15      zadostno
16    nezadostno
17    nezadostno
18      zadostno
19         dobro
dtype: object


  ocene.iloc[idx] = ime_ocene[i]


#### Časovne točke

Ustvari podatkovno zaporedje `datumi_izpitov`, ki vsebuje datume izpitov pri predmetu Podatkovna analiza in pravno varstvo podatkov podane v spodnji obliki:

* `"28012025"`
* `"13062025"`
* `"02092025"`

Zaporedje pretvori v časovno zaporedje - `datetime` (pomagaj si s funkcijo `to_datetime` iz paketa `pandas`).
Ker je zapis datuma lahko dvoumen in ga pandas morda ne zna ali ne more pravilno ugotoviti (glej opozorilo, ki ga dobiš, ko zaporedje poskusiš pretvoriti v časovni tip - `datetime`), pazljivo nastavi format zapisa datuma.

_Namig: glej dokumentacijo za [to_datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html) in [zapisovanje časovnih formatov](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)_


Izpiši dan, mesec in leto prvega izpitnega roka, da preveriš pravilnost nastavljenega formata:

Ustvari časovno zaporedje `datumi_vaj`, ki vsebuje vse srede od začetka do konca zimskega semestra. Izpiši dan v letu za 5. sredo semestra.

Dan je seznam tem `teme_sez`, ki pripadajo posameznim tednom vaj:

In [None]:
teme_sez = [
    None,
    "Ponovitev Pythona", 
    "Podatkovna zaporedja",
    "Podatkovni okvirji",
    "Uvoz podatkov",
    "Neurejeni podatki s spleta",
    "Analiza podatkov",
    "Vizualizacija 1", 
    "Vizualizacija 2", 
    "Prostorski podatki",
    "Pravo 1", 
    "Pravo 2", 
    None,
    None,
    "Pravo 3", 
    "Pravo 4", 
]

Ustvari zaporedje tem, ki ima za indeks datume iz časovnega zaporedja `datumi_vaj`. Izpiši teme, ki so planirane za november.

## Še nekaj nalog za vajo

Za vajo reši še naslednje naloge. Postopek po potrebi komentiraj (da boš čez $x$ tednov vedel, kaj se v postopku dogaja). Pri tem si pomagaj s celicami tipa Markdown (za osnovno urejanje se lahko zgleduješ po celicah z navodili nalog, sicer pa je najboljša referenca internet 🙂).

1. Denimo, da smo Alešu, Barbari, Cirilu in Darji izmerili višine v centimetrih (180, 165, 160, 193) in teže v kilogramih (87, 58, 65, 100). Naredi dve zaporedji `v` in `t` z izmerjenimi podatki. Indeks telesne mase (ITM) izračunamo po formuli

    $$ \text{ITM} = \frac{\text{teža v kilogramih}}{(\text{višina v metrih})^2}. $$

    Izračunaj zaporedje vrednosti ITM s poimenovanimi indeski za štiri osebe, kjer so indeksi elementov dejanska imena oseb (Aleš, Barbara, Ciril in Darja). Nato izračunaj zaporedje naravnih logaritmov vrednosti ITM. Na koncu izpiši zaporedje imen oseb, ki imajo ITM večji od 25, ter izračunaj njihov povprečni ITM.

2. Sestavi zaporedja z naslednjimi elementi:

    * $3^1/1, 3^2/2, \ldots, 3^{50}/50$;
    * "A1", "A2", $\ldots$, "A50";
    * $e^x \sin x$ izračunanimi v točkah $x = 3, 3.1, 3.2, \ldots, 6$.

    Zaporedjem nastavi ustrezne indekse.

3. Z uporabo zaporedij definiraj funkcijo, ki kot argument sprejme naravno število `x > 2`, vrne rezultat `True`, če je `x` praštevilo, in `False` sicer. Funkcijo ustrezno testiraj.

    _Namig: zaporedje gradi postopoma. Najprej izračunaj zaporedje ostankov deljenja `x` z vsemi števili od `2` do `x - 1`. Kaj nam elementi dobljenega zaporedja povejo o praštevilskosti števila `x`?_

4. Sestavi zaporedje tipa kategorija s tremi možnimi vrednostmi `A`, `B` in `C`, ki bo vsebovalo po natanko pet (5) vrednosti iz vsake kategorije. Vrednosti naj nastopajo v zaporedju v naključnem vrstnem redu.

5. Pri ocenjevanju izpitov na FMF pogosto uporabljamo odstotne točke. Študentka lahko doseže poljubno število odstotnih točk od 0 do 100 (obe meji vključeni). Nato njen dosežek prevedemo v oceno takole:

    | dosežek v % | ocena |
    |---|---|
    | več kot 90 | odlično (10) |
    | več kot 80 in največ 90 | prav dobro (9) |
    | več kot 70 in največ 80 | prav dobro (8) |
    | več kot 60 in največ 70 | dobro (7) |
    | več kot 50 in največ 60 | zadostno (6) |
    | največ 50 | nezadostno (5) |
    
    * Sestavi zaporedje `ot` z desetimi naključnimi celoštevilskimi dosežki študentov v odstotnih točkah.
    * Pretvori zaporedje `ot` v zaporedje `ocena` tipa urejena kategorija, na osnovi prevajalne tabele zgoraj.

6. Definiraj funkcijo, ki za podano leto vrne zaporedje vseh ponedeljkovih datumov v tem letu. Definiraj bolj splošno funkcijo, ki poleg leta, sprejme tudi dan v tednu kot argument.

7. Definiraj funkcijo, ki za podano leto in pozitivni naravni števili `od` in `do` vrne vse datume v tednih `od`, `od + 1`, ..., `do` v podanem letu.