# Podatkovni tip zaporedje, _Series_

Podatkovni tip zaporedje ([`Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)) je osnovna struktura knjižnice Pandas za shranjevanje seznama ali vektorja podatkov **istega tipa**. Zaporedje je podobno Python-ovemu seznamu (ali stolpcu v Excel-ovi tabeli), vendar ima dodatne funkcionalnosti in je bolj prilagojeno podatkovni analizi. Vsak element zaporedja je povezan z indeksom poljubnega tipa, kar tudi lahko olajša dostop do shranjenih podatkov oziroma posameznih elementov.

Zaporedje lahko ustvarimo na več načinov, a najbolj pogosto si bomo pomagali z običajnim seznamom ali slovarjem. V primeru, ko zaporedje ustvarimo iz seznama, so indeksi elementov zaporedna naravna števila, pri čemer je indeks prvega elementa, tako kot pri seznamih, enak 0. Če pa zaporedje ustvarimo iz slovarja, postanejo vrednosti elementov slovarja elementi zaporedja, ključi elementov slovarja pa indeksi elementov zaporedja.

Zaporedje je implementirano kot Python-ovski razred (angl. _class_) in zato ga ustvarimo s pomočjo konstruktorja `Series` takole:

In [5]:
import pandas as pd

s1 = pd.Series(range(10, 51, 10))
print(s1)

0    10
1    20
2    30
3    40
4    50
dtype: int64


Spoznajmo na začetku nekaj ključnih lastnosti (atributov) razreda zaporedje:
* `size`: število elementov zaporedja, tudi _dolžina_ zaporedja,
* `dtype`: _podatkovni tip_ vrednosti elementov zaporedja,
* `values`: vrednosti elementov zaporedja, in
* `index`: indeksi elementov zaporedja (podobno kot `keys` v običajnih slovarjih).

In [6]:
print(s1.size)
print(s1.dtype)

5
int64


Iz izpisa lahko torej ugotovimo, da ima zaporedje 5 elementov celoštevilskega tipa (`int64`). Poglejmo zdaj lastnost `values`:

In [7]:
print(type(s1.values))
print(s1.values)
print(s1.values.tolist())
print(type(s1.values.tolist()))

<class 'numpy.ndarray'>
[10 20 30 40 50]
[10, 20, 30, 40, 50]
<class 'list'>


Lastnost je polje, kot ga definira knjižnica `numpy` (`numpy.ndarray`). Izpis vrednosti nam pokaže elemente polja: dejstvo, da v izpisu ni vejic med zaporednimi elementi, nakazuje, da ne gre za navaden Python-ovski seznam. Slednjega lahko dobimo z uporabo metode `tolist()`.

Poglejmo si še lastnost `index`:

In [8]:
print(type(s1.index))
print(s1.index)
print(s1.index.tolist())
print(type(s1.index.tolist()))

<class 'pandas.core.indexes.range.RangeIndex'>
RangeIndex(start=0, stop=5, step=1)
[0, 1, 2, 3, 4]
<class 'list'>


Vidimo, da tudi ta lastnost je posebnega tipa, v tem primeru `RangeIndex`, ki ga lahko z uporabo metode `tolist()` pretvorimo v običajen Python-ovski seznam.

Kot smo povedali zgoraj so indeksi elementov zaporedja enaki prvim petim naravnim številom. Če želimo z indeksi poimenovati posamezne elemente zaporedja, jim lahko imena dodamo na več načinov. En način, ki nam omogoča sprotno spreminjanje indeksov, je neposredno prirejanje, kot kaže ta primer:

In [9]:
s2 = s1.copy()
s2.index = list('abcde')
# Lahko tudi s2 = pd.Series(range(10, 51, 10), index=list('abcde'))
print(s2)

a    10
b    20
c    30
d    40
e    50
dtype: int64


Izpis nazorno pokaže, da so indeksi zadaj enaki prvim petim črkam angleške abecede:

In [10]:
print(type(s2.index))
print(s2.index)
print(s2.index.tolist())

<class 'pandas.core.indexes.base.Index'>
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
['a', 'b', 'c', 'd', 'e']


Nenazadnje, zaporedje z indeksi poljubnega tipa in vrednosti lahko tvorimo tudi iz Python-ovega slovarja, kot kaže naslednji primer:

In [40]:
s3 = pd.Series({'a': 10.0, 'b': 20.0, 'c': 30.0, 'd': 40.0, 'e': 50.0})
print(s3)

a    10.0
b    20.0
c    30.0
d    40.0
e    50.0
dtype: float64


Na prvi pogled zaporedje `s3` je enako zaporedju `s2`, a je v resnici med njima pomembna razlika. Elementi zaporedja `s2` so cela števila tipa `int64`. Elementi `s3` so pa numeričnega tipa `float64`, ki zajame tudi racionalna števila zapisana v formatu [plavajoča vejica](https://en.wikipedia.org/wiki/Floating-point_arithmetic) (angl. _floating point_).

## Indeksiranje zaporedij

Posamezne elemente zaporedij lahko dobimo z uporabo običajnega indeksiranja, enakega tistemu za navadne Python-ovske sezname:

In [11]:
print(s1[1])
print(s2[1])

20
20


  print(s2[1])


Bodite pozorni na opozorilo pri drugem indeksiranju. Namreč, izraz `s2[1]` nima ravno smisla, saj ima zaporedje `s2` poimenovane indekse in bi bilo pravilno uporabiti ustrezni indeks:

In [12]:
print(s2['b'])

20


Opozorila ni več. Če želimo dobiti vrednost *drugega elementa* zaporedja `s2`, kjer, na primer, ne poznamo njegovega indeksa, to lahko storimo na dva načina:

In [13]:
print(s2[s2.index[1]])
print(s2.iloc[1])

20
20


Prvi sloni na očitni uporabi lastnosti `s2.index`: z indeksiranjem tega seznama indeksov dobimo pravi, poimenovani indeks drugega elementa zaporedja `s2`. Drugi način sloni na uporabi še enega načina indeksiranja zaporedij skozi lastnost `iloc`. Spoznajmo to lastnost bolj podrobno.

## Atributi zaporedij `iloc` in `loc`

Zaporedja imajo dve lastnosti, ki so nam lahko v pomoč pri njihovem indeksiranju.

Lastnost [`iloc`](https://pandas.pydata.org/docs/reference/api/pandas.Series.iloc.html) uporabljamo za izbiranje elementov zaporedja `z` na podlagi njihovih *pozicij*, t.j., zaporednih celoštevilskih indeksov iz `range(z.size)` oziroma seznama `[0, 1, ..., z.size]`.

In [14]:
print(s2.iloc[0])
print(s2.iloc[1:3])
print(s2.iloc[1:-2])
print(s2.iloc[:])

10
b    20
c    30
dtype: int64
b    20
c    30
dtype: int64
a    10
b    20
c    30
d    40
e    50
dtype: int64


Lastnost nam torej omogoča, da indeksiramo elemente zaporedja na enak način, kot smo vajeni indeksiranja elementov običajnega Python-ovskega seznama. Tako, na primer, indeks `[1:3]` nam indeksira drugi in tretji element seznama (ne pa četrtega, ker, **pozor**, indeks `3` ne sodi v območje `1:3`).

Bodite tudi pozorni na razliko med zadnjimi tremi in prvim rezultatom, ki je enostavnega celoštevilskega tipa, ker smo pač indeksirali zgolj en element zaporedja. Zadnji trije rezultati so tipa zaporedje. Za vajo premisli kako bi rezultat indeksiranja spremenil v običajen Python-ovski seznam.

Lastnost [`loc`](https://pandas.pydata.org/docs/reference/api/pandas.Series.loc.html) je podobna `iloc` s pomembno razliko: omogoča nam indeksiranje zaporedij na osnovi **poimenovanih indeksov** in ne pozicijskih indeksov:

In [15]:
print(s2.loc['a'])
print(s2.loc['b':'d'])
print(s2.loc[:])

10
b    20
c    30
d    40
dtype: int64
a    10
b    20
c    30
d    40
e    50
dtype: int64


Čeprav se zdijo rezultati samoumevni, naj opozorim na eno stvar. Območje `'b':'d'` vključuje tudi zadnji indeks območja, `'d'`. **Pozor**: to je drugače kot pri številskem območju `1:3`, kjer indeks `3`, t.j., zgornja meja območja, ni vključen v seznam zahtevanih indeksov.

## O tipih elementov zaporedja

Elementi zaporedja so **praviloma** istega tipa. Izjemoma (res **izjemoma**) so lahko različnih tipov. Za tvorjenje takega zaporedja, bomo uporabili funkcijo `concat`, ki elemente iz zaporedij v podanem naboru združi skupaj v eno zaporedje. Naredimo najprej dva zaporedja, enega s celoštevilčnimi elementi in drugega z elementi, ki so nizi znakov:

In [16]:
s_int = pd.Series(range(3))
s_chr = pd.Series(list('abc'))
print(s_int)
print(s_chr)


0    0
1    1
2    2
0    a
1    b
2    c
dtype: object


Poglejmo zdaj združeno zaporedje:

In [None]:
s_cuden = pd.concat((s_int, s_chr))
print(s_cuden)

Dobljeno zaporedje je čudno na več načinov. Najprej, med združevanjem dveh zaporedij s celoštevilskimi elementi in nizi znakov, poenoti tipe elementov tako, da celoštevilski elementi dobijo nove vrednosti splošnega tipa `object`. Še bolj nenavadno je, da se indeksi v novem zaporedju ponavljajo. Poglejmo zdaj kako poteka indeksiranje z uporabo lastnosti `loc` v takem seznamu:

In [17]:
print(s_cuden.loc[0])

0    0
0    a
dtype: object


Hecno je, da indeksiranje z enim samim indeksom vrne zaporedje dveh elementov. Seveda se temu lahko izognemo tako, da uporabljamo pozicijski indeks:

In [18]:
print(s_cuden.iloc[3])

a


Za vajo popravi indekse zaporedja `s_cuden` tako, da se ne ponavljajo.

A pomemben nauk zgodbe je, da elementi zaporedja, tako kot elementi seznama, morajo biti istega tipa. Tip elementov nam pove lastnost zaporedja `dtype`: pogosto ta podatkovni tip imenujemo **tip zaporedja**. Poglejmo zdaj nekaj tipov zaporedij, ki pridejo prav pri podatkovni analizi.


## Kategorije (angl. _categories_)

V vseh dosedanjih primerih smo tvorili zaporedja numeričnih tipov ali zaporedja nizov znakov. Kategorije so posebni tip zaporedij, katerih vrednosti elementov so iz končne množice možnih vrednosti. Primer takega zaporedja zapisuje barve opazovanih objektov, pri čemer je posamezen objekt lahko rdeče, zelene ali modre barve.

Tako zaporedje bi seveda lahko zapisali kot navadno zaporedje nizov znakov:

In [19]:
from random import seed, sample

seed(42)

barve = ['rdeča', 'zelena', 'modra']
s_barve = pd.Series(sample(barve, counts=[10, 10, 10], k=10))
print(s_barve)

0     modra
1     rdeča
2     rdeča
3     modra
4     rdeča
5     rdeča
6     modra
7     rdeča
8     modra
9    zelena
dtype: object


Slabost tega zaporedja je, da pri spreminjanju vrednosti obstoječih elementov nimamo kontrole nad množico dovoljenih vrednosti. Lahko naredimo napako pri poimenovanju barve in pri tem ne dobimo nobenega opozorila:

In [20]:
s_barve[9] = 'rdeca'
print(s_barve)

0    modra
1    rdeča
2    rdeča
3    modra
4    rdeča
5    rdeča
6    modra
7    rdeča
8    modra
9    rdeca
dtype: object


Če pa ustvarimo zaporedje tipa [kategorija](https://pandas.pydata.org/docs/user_guide/categorical.html):

In [21]:
s_barve = pd.Series(sample(barve, counts=[10, 10, 10], k=10), dtype="category")
print(s_barve)

0     rdeča
1    zelena
2    zelena
3     rdeča
4     rdeča
5     modra
6     rdeča
7     rdeča
8    zelena
9    zelena
dtype: category
Categories (3, object): ['modra', 'rdeča', 'zelena']


dobi ustvarjeno zaporedje novo lastnost `Categories`, ki določa množico možnih vrednosti njegovih elementov (glej zadnjo vrstico izpisa). Vrednost te lastnosti je dosegljiv skozi lastnost `cat.categories`, ki jo lahko z metodo `tolist` pretvorimo v navaden Python-ovski seznam:

In [None]:
print(s_barve.cat.categories.tolist())

Poskus prirejanja vrednosti elementa, ki ni v množici možnih vrednosti kategorije, se konča z napako `TypeError`, kot kaže naslednji primer:

In [22]:
s_barve[9] = "rdeca"
print(s_barve)

TypeError: Cannot setitem on a Categorical with a new category (rdeca), set the categories first

Za razliko od tega, prirejanje vrednosti iz množice možnih vrednosti je uspešno:

In [19]:
s_barve[9] = "rdeča"
print(s_barve)

['modra', 'rdeča', 'zelena']
0     rdeča
1    zelena
2    zelena
3     rdeča
4     rdeča
5     modra
6     rdeča
7     rdeča
8    zelena
9     rdeča
dtype: category
Categories (3, object): ['modra', 'rdeča', 'zelena']


### Dodatne prednosti kategorij

Poleg kontrole nad množico možnih vrednosti, imajo kategorije še tri pomembne lastnosti, ki so še posebej pomembne pri obdelavi in analizi podatkov.
   * _Zmanjšanje porabe pomnilnika_: kategorije zasedajo manj pomnilnika kot nizi ali števila, saj se vsaka možna vrednost shrani samo enkrat, in nato se uporabijo celoštevilski indeksi za sklicevanje nanje.
   * _Hitrejše osnovne operacije_: ker so kategorije predhodno določene, so operacije, kot je, na primer, iskanje elementa ali filtriranje, običajno hitrejše v primerjavi z nizi znakov.
   * _Bolj pregledne statistične obdelave in vizualizacija_: lahko, na primer, izračunamo porazdelitev vrednosti zaporedja po kategorijah ali pa izračunamo povprečne vrednosti neke druge spremenljivke za različne kategorije.

**Pozor**: v zadnji alineji zgoraj smo besedo kategorije uporabili kot okrajšavo za `možne vrednosti kategorije`. To bomo v nadaljevanju počeli večkrat: beseda kategorija bo včasih uporabljena za določanje tipa zaporedja, včasih pa za eno možno vrednost elementov zaporedja. Običajno je iz konteksta razviden specifičen pomen besede.
   
#### Dodajanje novih možnih vrednosti

Kot smo videli v zgornjem primeru, je seznam možnih kategorij dosegljiv čez lastnost `cat` zaporedja tipa kategorije. Spomnimo se:

In [20]:
print(s_barve.cat.categories.tolist())

['modra', 'rdeča', 'zelena']


Isto lastnost lahko uporabimo tudi za spreminjanje nabora možnih vrednosti. Z uporabo funkcij metod [`add_categories`](https://pandas.pydata.org/docs/reference/api/pandas.Series.cat.add_categories.html) in [`remove_categories`](https://pandas.pydata.org/docs/reference/api/pandas.Series.cat.remove_categories.html) lahko dodamo novo barvo, ali zbrišemo obstoječo:

In [21]:
s_barve = s_barve.cat.add_categories("rumena")
print(s_barve)
s_barve = s_barve.cat.remove_categories("rdeča")
print(s_barve)

0     rdeča
1    zelena
2    zelena
3     rdeča
4     rdeča
5     modra
6     rdeča
7     rdeča
8    zelena
9     rdeča
dtype: category
Categories (4, object): ['modra', 'rdeča', 'zelena', 'rumena']
0       NaN
1    zelena
2    zelena
3       NaN
4       NaN
5     modra
6       NaN
7       NaN
8    zelena
9       NaN
dtype: category
Categories (3, object): ['modra', 'rumena', 'zelena']


Pojasni pojav neznanih vrednosti `NaN` v zadnjem zaporedju.

### Urejene kategorije

Možne vrednosti kategorije niso urejene oziroma med vrednostmi kategorije ni relacije urejenosti. V zgornjem primeru z barvami je to seveda prav, saj ne poznamo relacije urejenosti med barvami. Po drugi strani, obstajajo kategorije, kjer je smiselno upoštevati urejenost možnih vrednosti. Vzemimo za primer starostne skupine:

In [22]:
from pandas.api.types import CategoricalDtype

starostne_skupine = ["otrok", "najstnica", "mladostnica", "odrasla"]
kat_ss = CategoricalDtype(starostne_skupine, ordered=True)
starost = pd.Series(sample(starostne_skupine, counts=[10 for _ in range(len(starostne_skupine))], k=10))
s_starost = starost.astype(kat_ss)
print(s_starost)

0          otrok
1        odrasla
2      najstnica
3        odrasla
4    mladostnica
5      najstnica
6    mladostnica
7      najstnica
8          otrok
9    mladostnica
dtype: category
Categories (4, object): ['otrok' < 'najstnica' < 'mladostnica' < 'odrasla']


Znaki `<` v seznamu kategorij na koncu izpisa nakazujejo, da je kategorija `s_starost` urejena ter hkrati nakazujejo urejenost možnih vrednosti kategorije.

Urejene kategorije pogosto tvorimo z **diskretizacijo** numeričnih vrednosti. Diskretizacija pomeni, da zaporedje numeričnih (celoštevilčnih) vrednosti spremenimo v zaporedje diskretnih, običajno urejenih vrednosti. V primeru starosti, pri osebah običajno opazujemo starost v letih. Z uporabo funkcije `cut` lahko starost podano v letih pretvorimo v starostne skupine iz prejšnjega primera:

In [23]:
starost_v_letih = pd.Series(sample(range(100), k=10))
print(starost_v_letih)
starostne_meje = [-100, 12, 20, 28, 1000]
starost_kat = pd.cut(starost_v_letih, starostne_meje, labels=starostne_skupine)
print(starost_kat)

0    20
1    89
2    54
3    43
4    35
5    19
6    27
7    97
8    13
9    11
dtype: int64
0    mladostnica
1        odrasla
2        odrasla
3        odrasla
4        odrasla
5      najstnica
6    mladostnica
7        odrasla
8      najstnica
9          otrok
dtype: category
Categories (4, object): ['otrok' < 'najstnica' < 'mladostnica' < 'odrasla']


Rezultat funkcije `cut` je torej urejena kategorija, množica njenih možnih vrednosti pa sledi podani vrednosti argumenta `labels`. Drugi argument funkcije poda seznam mej med starostnimi skupinami in mora biti za ena daljši od argumenta `labels`. V zgornjem primeru torej velja, da prva starostna skupina `'otrok'` ustreza numeričnim vrednostim, ki so vsaj `-100` in manjše od `12`, druga skupina `'najstnica'` vrednostim, ki so vsaj `12` in manjše od `20`, in tako naprej. Prvi argument funkcije je pa originalno zaporedje z numeričnimi vrednostmi.

## Datum in čas

V podatkovni analizi pogosto srečujemo časovna zaporedja, ki jih knjižnica `pandas` podpira s tremi podatkovnimi tipi:
    * *Časovna točka* (angl. _Date times_) je tipa `Timestamp`,
    * *Časovna razlika* (angl. _Time deltas_) je tipa `Timedelta`, in
    * *Časovno obdobje* (angl. _Period_) je tipa `Period`.

### Časovne točke

Časovno zaporedje lahko ustvarimo iz seznama nizov znakov, ki vsebuje datume zapisane v različnih formatih, s funkcijo `pd.to_datetime`:

In [24]:
s_datumi = pd.to_datetime(pd.Series(["Jul 31, 2009", "Jan 10, 2010", "10-Oct-2023", None]), format="mixed")

Ko izhodiščni seznam vključuje datume različnih formatov, je ključnega pomena, da pri pretvorbi nastavimo vrednost argumenta `format = "mixed"`.

Drugi, zelo pogosto način ustvarjanja časovnih zaporedij je z uporabo funkcije `pd.date_range`:

In [29]:
s_ct1 = pd.Series(pd.date_range("2024-10", freq="D", periods=10))
print(s_ct1)
s_ct2 = pd.Series(pd.date_range("2024-10", freq="W-Fri", periods=10))
print(s_ct2)

0   2024-10-01
1   2024-10-02
2   2024-10-03
3   2024-10-04
4   2024-10-05
5   2024-10-06
6   2024-10-07
7   2024-10-08
8   2024-10-09
9   2024-10-10
dtype: datetime64[ns]
0   2024-10-04
1   2024-10-11
2   2024-10-18
3   2024-10-25
4   2024-11-01
5   2024-11-08
6   2024-11-15
7   2024-11-22
8   2024-11-29
9   2024-12-06
dtype: datetime64[ns]


V prvem primeru smo ustvarili zaporedje desetih zaporednih dni na začetku oktobra 2024. V drugem primeru pa zaporedje desetih petkov (`W-Fri`) od začetka oktobra 2024.

Časovno zaporedje lahko uporabimo tudi kot indeks za neko drugo zaporedje opazovanih numeričnih vrednosti, pravzaprav časovno vrsto opazovanih vrednosti:

In [30]:
cv = pd.Series([i / 10 for i in range(10)], index=s_ct2)
print(cv)

2024-10-04    0.0
2024-10-11    0.1
2024-10-18    0.2
2024-10-25    0.3
2024-11-01    0.4
2024-11-08    0.5
2024-11-15    0.6
2024-11-22    0.7
2024-11-29    0.8
2024-12-06    0.9
dtype: float64


Indeksiranje takega zaporedja omogoča zelo enostavno določanje časovnega obdobja indeksov elementov, ki jih hočemo nasloviti. Tako, na primer, zajem elementov časovne vrste, ki je bil izmerjen novembra 2024, zajamemo s preprostim ukazom:

In [31]:
cv_novembra_24 = cv["2024-11"]
print(cv_novembra_24)

2024-11-01    0.4
2024-11-08    0.5
2024-11-15    0.6
2024-11-22    0.7
2024-11-29    0.8
dtype: float64


Časovna zaporedja imajo lastnost `dt`, ki ponuja veliko število koristnih metod za računanje različnih datumskih funkcij:

In [28]:
print(s_ct1.dt.day_of_week)
print(s_ct1.dt.day_name())

0    6
1    0
2    1
3    2
4    3
5    4
6    5
7    6
8    0
9    1
dtype: int32
0       Sunday
1       Monday
2      Tuesday
3    Wednesday
4     Thursday
5       Friday
6     Saturday
7       Sunday
8       Monday
9      Tuesday
dtype: object


Lahko torej za podan datum dobimo dan v tednu z indeksom ali imenom v angleščini. Indeks je na mojem računalniku izračunan tako, da vrednost `0` ustreza ponedeljku, `6` pa nedelji.

Preveri indekse dneva v tednu na svojem računalniki. Za vajo napiši funkcijo, ki za podano datumsko zaporedje vrne zaporedje imen dni v tednu v slovenščini. Pri tem lahko seveda uporabiš zgornjo funkcijo, ki vrne indeks dneva v tednu.

S pomočjo lastnosti časovne točke `dt` lahko izračunamo še veliko drugih časovnih in datumskih funkcij, na primer, teden ali dan v letu:

In [29]:
print(s_ct2.dt.isocalendar().week)
print(s_ct2.dt.day_of_year)

0    36
1    37
2    38
3    39
4    40
5    41
6    42
7    43
8    44
9    45
Name: week, dtype: UInt32
0    248
1    255
2    262
3    269
4    276
5    283
6    290
7    297
8    304
9    311
dtype: int32


Poglejmo zdaj še en primer, ki ponazori delo z datumskimi zaporedji in funkcijami. Definirajmo funkcijo `zadnji_dnevi`, ki za podano obdobje od začetka leta `od` do konca leta `do`, vrne kategorično zaporedje imen dni v tednu za vse zadnje dni mesecev v tem obdobju. Elementi zaporedja naj bodo indeksirani z ustreznimi datumi teh dni.

In [73]:
def zadnji_dnevi(od, do):

    # Najprej uporabimo funkcijo date_range, da dobimo datume zadnjih dni v mesecih v podanem obdobju
    zdm = pd.date_range(start=f'{od}-01-01', end=f'{do}-12-31', freq='M')

    # Nato uporabimo metodo dt.day_name, da dobimo imena teh dni
    # Pred tem iz `zdm` pridelamo zaporedje z datumskimi indeksi
    imena = pd.Series(zdm, index=zdm).dt.day_name()

    # Na koncu zaporedju imena spremenimo tip v kategorijo
    return pd.Series(imena, dtype='category')


print(zadnji_dnevi(2023, 2024))

2023-01-31      Tuesday
2023-02-28      Tuesday
2023-03-31       Friday
2023-04-30       Sunday
2023-05-31    Wednesday
2023-06-30       Friday
2023-07-31       Monday
2023-08-31     Thursday
2023-09-30     Saturday
2023-10-31      Tuesday
2023-11-30     Thursday
2023-12-31       Sunday
2024-01-31    Wednesday
2024-02-29     Thursday
2024-03-31       Sunday
2024-04-30      Tuesday
2024-05-31       Friday
2024-06-30       Sunday
2024-07-31    Wednesday
2024-08-31     Saturday
2024-09-30       Monday
2024-10-31     Thursday
2024-11-30     Saturday
2024-12-31      Tuesday
Freq: M, dtype: category
Categories (7, object): ['Friday', 'Monday', 'Saturday', 'Sunday', 'Thursday', 'Tuesday', 'Wednesday']


Za vajo spremeni definicijo funkcije tako, da bo vračala imena dni v slovenščini.


### Časovne razlike

Časovna razlika nastane, na primer, z odštevanjem dveh časovnih točk:

In [33]:
s_ct2 - s_ct1

0    3 days
1    9 days
2   15 days
3   21 days
4   27 days
5   33 days
6   39 days
7   45 days
8   51 days
9   57 days
dtype: timedelta64[ns]

Kot vidimo iz izpisa, je časovni interval izražen v časovni enoti dan. Posamezne vrednosti tipa časovne razlike lahko tvorimo iz numeričnih vrednosti z uporabo funkcije [`Timedelta`](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html), kjer časovno enoto razlike podamo kot vrednost argumenta `unit`:

In [37]:
s_cr1 = pd.Series([pd.Timedelta(i, unit="d") for i in range(1, 11)])
print(s_cr1)

0    1 days
1    2 days
2    3 days
3    4 days
4    5 days
5    6 days
6    7 days
7    8 days
8    9 days
9   10 days
dtype: timedelta64[ns]


Podobno lahko funkcijo [`to_timedelta`](https://pandas.pydata.org/docs/reference/api/pandas.to_timedelta.html) uporabimo za pretvorbo numeričnega zaporedja v zaporedje časovnih razlik podane časovne enote:

In [38]:
s_cv = pd.Series(range(10), index=pd.to_timedelta(range(1, 11), unit="s"))
print(s_cv)

0 days 00:00:01    0
0 days 00:00:02    1
0 days 00:00:03    2
0 days 00:00:04    3
0 days 00:00:05    4
0 days 00:00:06    5
0 days 00:00:07    6
0 days 00:00:08    7
0 days 00:00:09    8
0 days 00:00:10    9
dtype: int64


Časovne razlike torej, tako kot časovne točke, lahko uporabljamo kot indekse zaporedja.

Poglejmo zdaj primer uporabe časovnih razlik za izračun dolžine mesecev v podanem obdobju. Podobno kot v prejšnjem primeru definirajmo funkcijo `meseci`, ki za podano obdobje od začetka leta `od` do konca leta `do`, vrne celoštevilčno zaporedje dolžin mesecev (v dnevih) v opazovanem obdobju. Zaporedje naj bo indeksirano z imeni mesecev.


In [78]:
def meseci(od, do):

    # To smo že videli v prejšnjem primeru: zadnje dni mesecev
    zdm = pd.date_range(start=f'{od}-01-01', end=f'{do}-12-31', freq='M')

    # Podobno dobimo prve dni mesecev, le vrednost argumenta `freq` nastavimo na MS (month start)
    pdm = pd.date_range(start=f'{od}-01-01', end=f'{do}-12-01', freq='MS')

    # Dolžina meseca je razlika med zadnjim in prvim dnevom povečani za ena
    # Pozor, ne moremo napisati "+ 1", moramo pridelati "1 dan" z uporabo Timedelta
    dm = zdm - pdm + pd.Timedelta(days=1)

    # Na koncu dm pretvorimo v zaporedje z ustreznim indeksom
    # Metoda `dt.month_name` nam vrne imena mesecev za podano zaporedje datumov
    return pd.Series(dm, index=pd.Series(pdm).dt.month_name())


print(meseci(2024, 2024))

January     31 days
February    29 days
March       31 days
April       30 days
May         31 days
June        30 days
July        31 days
August      31 days
September   30 days
October     31 days
November    30 days
December    31 days
dtype: timedelta64[ns]


Za vajo popravi definicijo funkcije `meseci` tako, da bodo elementi rezultata dolžine mesecev v urah (namesto v dnevih). Pa še v tednih (namig: uporabi funkcijo `TimeDelta`, da dobiš trajanje tedna v dnevih).

### Časovna obdobja

Nekoliko manj uporaben podatkovni tip, ki se nanaša na čas, je časovno obdobje. Poglejmo uporabo funkcije `period_range` za ustvarjanje časovnih obdobij:

In [39]:
s_co1 = pd.Series(pd.period_range("2024-10", freq="D", periods=10))
print(f"Dnevna frekvenca:\n{s_co1}")
s_co2 = pd.Series(pd.period_range("2024-09", freq="W-Mon", periods=10))
print(f"Tedenska frekvenca (ponedeljki):\n{s_co2}")

Dnevna frekvenca:
0    2024-10-01
1    2024-10-02
2    2024-10-03
3    2024-10-04
4    2024-10-05
5    2024-10-06
6    2024-10-07
7    2024-10-08
8    2024-10-09
9    2024-10-10
dtype: period[D]
Tedenska frekvenca (ponedeljki):
0    2024-08-27/2024-09-02
1    2024-09-03/2024-09-09
2    2024-09-10/2024-09-16
3    2024-09-17/2024-09-23
4    2024-09-24/2024-09-30
5    2024-10-01/2024-10-07
6    2024-10-08/2024-10-14
7    2024-10-15/2024-10-21
8    2024-10-22/2024-10-28
9    2024-10-29/2024-11-04
dtype: period[W-MON]


Primerjaj zgornji rezultat z rezultati funkcij, ki ustvarjajo časovne točke, v ustreznem razdelku zgoraj. Delo s časovnimi obdobji je podobno delu s časovnimi točkami.