Knjižnica [`pandas`](https://pandas.pydata.org/) omogoča procesiranje, obdelavo in analizo podatkov, shranjenih v podatkovno tabelo. Na začetku dela s knjižnico bomo najprej spoznali osnovne podatkovne tipe za sestavljanje tabel: zaporedje (angl. _Series_) in podatkovni okvir (angl. _DataFrame_), ki ga bomo imenovali tudi podatkovna tabela.

Podatkovna tabela v `pandas` je sestavljena iz vrstic in stolpcev, imenovanih tudi spremenljivke. Vsak stolpec v tabeli je tipe zaporedje. Stolpci (spremenljivke) so v podatkovnih tabelah posebnega pomena, saj večina operacij podatkovne obdelave in analize poteka na stolpcih. Zato bomo najprej dobro spoznali podatkovni tip zaporedje in se naučili delati s posameznimi stolpci tabele, nato pa se naučili delati s podatkovnimi okviri. Pri obdelavi zaporedij bomo si pogosto pomagali z izpeljanimi seznami, o katerih smo govorili v okviru uvodnega predavanja.

# Podatkovni okviri (tudi podatkovne tabele), _DataFrame_

Pred analizo s knjižnico `pandas` podatke spravimo v tabelo. Ustrezni podatkovni tip je podatkovni okvir (`DataFrame`). V nadaljevanju bomo po eni strani spoznali ta podatkovni tip, po drugi pa običajno obliko tabel za shranjevanje podatkov za nadaljnjo analizo. **Pozor**: Med predavanji pri tem predmetu bomo podatkovni okvir poimenovali preprosto podatkovna tabela.

## Tvorjenje podatkovnih okvirov

Podatkovni okvir ustvarimo s konstruktorjem `pd.dataframe`, ki kot prvi argument lahko sprejme slovar. Njegovi ključi določajo imena stolpcev, vrednosti ustrezajo podatkom urejenim po stolpcih:

In [1]:
import pandas as pd

imena = ["Aleš", "Brina", "Ciril", "Darja", "Ema", "Filip"]
spoli = ["m", "ž", "m", "ž", "ž", "m"]

pt1 = pd.DataFrame({
    "ime": pd.Series(imena),
    "spol": pd.Series(spoli, dtype = "category")
})
print(pt1)

     ime spol
0   Aleš    m
1  Brina    ž
2  Ciril    m
3  Darja    ž
4    Ema    ž
5  Filip    m


V zgornjem primeru smo poskrbeli, da sta oba zaporedja enako dolga. Preveri za vajo, kaj se zgodi, če sta zaporedja različno dolga.

Konstruktor lahko sprejme tudi podatke v obliki seznama seznamov. V tem primeru morajo biti podatki urejeni po vrsticah (in ne po stolpcih kot zgoraj).Imena stolpcev lahko nastavimo z uporabo argumenta `columns`.

In [2]:
po_vrsticah = [[imena[i], spoli[i]] for i in range(len(imena))]
print(po_vrsticah)

pt2 = pd.DataFrame(po_vrsticah, columns = ["ime", "spol"])
print(pt2)

[['Aleš', 'm'], ['Brina', 'ž'], ['Ciril', 'm'], ['Darja', 'ž'], ['Ema', 'ž'], ['Filip', 'm']]
     ime spol
0   Aleš    m
1  Brina    ž
2  Ciril    m
3  Darja    ž
4    Ema    ž
5  Filip    m


Dimenzije tabele hrani atribut podatkovnega okvira `shape`, število shranjenih vrednosti pa atribut `size`:

In [3]:
(nv, ns) = pt1.shape
print(f"Število vrstic v pt1 je {nv}, število stolpcev {ns}, število vrednosti pa {pt1.size}.")

Število vrstic v pt1 je 6, število stolpcev 2, število vrednosti pa 12.


V enem od naslednjem razdelkov bomo spoznali še več atributov podatkovne strukture podatkovni okvir. A preden nadaljujemo v to smer, poglejmo kako podatkovni tabeli dodajamo nove podatke.

Dodajanje novega stolpca je zelo enostavno:

In [4]:
from random import randint, seed

seed(42)

pt1["visina"] = pd.Series([randint(150, 220) for _ in range(pt1.ime.size)])
print(pt1)

     ime spol  visina
0   Aleš    m     164
1  Brina    ž     153
2  Ciril    m     185
3  Darja    ž     181
4    Ema    ž     178
5  Filip    m     167


Dovolj je torej, da indeksiramo tabelo z imenom novega stolpca. **Pozor**: Če je ime novega stolpca enako imenu enega izmed obstoječih stolpcev v tabeli, potem ne bomo dobili novega stolpca, temveč bomo zamenjali vrednosti obstoječemu. Še ena podrobnost, ki jo razkrije zgornja koda: stolpec z imenom `s` v podatkovnem okviru `pt` lahko indeksiramo z `pt[s]` ali pa kot atribut okvira z notacijo `pt.s`. Poglejmo še enkrat:

In [5]:
pt2["visina"] = pt1.visina
print(pt2)

     ime spol  visina
0   Aleš    m     164
1  Brina    ž     153
2  Ciril    m     185
3  Darja    ž     181
4    Ema    ž     178
5  Filip    m     167


Dodajmo zdaj tabeli podatke o rojstnih datumih, ki jih bomo naključno izbrali med datumi v letih 2001 in 2022.

In [6]:
# Določimo začetni in končni datum želenega obdobja
datum_od = pd.to_datetime("2001-01-01")
datum_do = pd.to_datetime("2002-12-31")

# Izračunamo število dni od začetka do konca obdobja
ndni = (datum_do - datum_od).days + 1

# Ustvarimo potrebno število naključnih časovnih razlik v dnevih
casovne_razlike = pd.to_timedelta([randint(0, ndni) for _ in range(pt1.ime.size)], unit = "D")
# in jih prištejmo začetnemu datumu
datumi = datum_od + casovne_razlike

pt1["datum_rojstva"] = datumi
pt2["datum_rojstva"] = datumi
print(pt1)

     ime spol  visina datum_rojstva
0   Aleš    m     164    2001-04-15
1  Brina    ž     153    2002-11-24
2  Ciril    m     185    2002-07-13
3  Darja    ž     181    2001-03-31
4    Ema    ž     178    2002-08-28
5  Filip    m     167    2002-03-09


Zato, da tabeli dodamo nove vrstice bomo najprej spoznali atribute podatkovnih okvirov.

## Atributi podatkovnih okvirov

Spoznajmo zdaj nekaj koristnih atributov podatkovnih okvirov.

| Atribut | Opis vrednosti |
|:---|:---|
| `shape` | Nabor oblike (število vrstic, število stolpcev) |
| `size` | število elementov podatkovne tabele |
| `columns` | imena (indeksi) stolpcev v podatkovni tabeli |
| `dtypes` | podatkovni tipi stolpcev v tabeli |
| `index` | indeksi (imena) vrstic v podatkovni tabeli |
| `values` | polje tipa `np.array` z vrednostmi elementov tabele |
| `at` in `iat` | indeksiranje _posameznih elementov tabele_ z imeni ali pozicijskimi indeksi |
| `loc` in `iloc` | indeksiranje _poljubnih izsekov tabele_ z imeni ali pozicijskimi indeksi |

Nekaj atributov si podatkovni okviri delijo z zaporedji in te že (delno) poznamo. Poglejmo za začetek `columns` in `dtypes`:

In [7]:
print(pt1.columns)
print(pt1.dtypes)

Index(['ime', 'spol', 'visina', 'datum_rojstva'], dtype='object')
ime                      object
spol                   category
visina                    int64
datum_rojstva    datetime64[ns]
dtype: object


Atribut `columns` torej zaporedje tipa indeks z elementi enakimi imenom stolpcev v podatkovni tabeli. Atribut `dtypes` pa vrne zaporedje z omenjenimi indeksi (imena stolpcev), kjer je vrednost posameznega elementa enaka tipu podatkov v stolpcu. Spomnimo se, da zaporedje lahko hitro spremenimo v seznam njegovih elementov z uporabo metode `to_list`:

In [8]:
print(pt1.columns.to_list())

['ime', 'spol', 'visina', 'datum_rojstva']


Atribut `index` je identičen po imenu in pomenu atributu zaporedij: vrne zaporedje tipa indeks z elementi enakimi indeksom vrstic v podatkovni tabeli. Na tem mestu je najbrž jasno, da je število elementov atributa `index` enako številu vrstic v tabeli, število elementov atributa `columns` pa številu stolpcev:

In [9]:
print((len(pt1.index), len(pt1.columns)) == pt1.shape)

True


Zmnožek obeh pa število elementov v podatkovni tabeli:

In [10]:
print(pt1.shape[0] * pt1.shape[1] == pt1.size)

True


Kot pove tabela, atribut `values` hrani polje tipa `np.array` z vrednostmi elementov podatkovne tabele:

In [11]:
print(pt1.values)

[['Aleš' 'm' 164 Timestamp('2001-04-15 00:00:00')]
 ['Brina' 'ž' 153 Timestamp('2002-11-24 00:00:00')]
 ['Ciril' 'm' 185 Timestamp('2002-07-13 00:00:00')]
 ['Darja' 'ž' 181 Timestamp('2001-03-31 00:00:00')]
 ['Ema' 'ž' 178 Timestamp('2002-08-28 00:00:00')]
 ['Filip' 'm' 167 Timestamp('2002-03-09 00:00:00')]]


## Indeksiranje podatkovnih okvirov

Atributa `loc` in `iloc` prav tako poznamo iz zaporedij.

Atribut `loc` uporabljamo za indeksiranje tabele z naborom dveh seznamov (ali zaporedij). Prvi seznam podaja imena indeksiranih vrstic, drugi imena indeksiranih stolpcev. Če je vrednost elementa nabora `:`, dobimo kot rezultat indeksiranja vse vrstice oziroma stolpce. Znak `:` lahko uporabljamo kot ločilo za določanje _rezin_ indeksov, tako kot pri indeksiranju običajnih Pythonovih seznamov. Nekaj primerov:

In [12]:
print(pt1.loc[:, "ime"])
print(pt1.loc[:, ["ime"]])
print(pt1.loc[2:0:-1, "ime":"visina"])
print(pt1.loc[[0, 3, 3, 5], ["ime", "visina"]])

0     Aleš
1    Brina
2    Ciril
3    Darja
4      Ema
5    Filip
Name: ime, dtype: object
     ime
0   Aleš
1  Brina
2  Ciril
3  Darja
4    Ema
5  Filip
     ime spol  visina
2  Ciril    m     185
1  Brina    ž     153
0   Aleš    m     164
     ime  visina
0   Aleš     164
3  Darja     181
3  Darja     181
5  Filip     167


Za vajo pojasni razliko med prvim in drugim primerom indeksiranja zgoraj. Nato pojasni napako, ki jo dobimo, ko poskušamo primerjati rezultata obeh indeksiranj:

In [13]:
pt1.loc[:, "ime"] == pt1.loc[:, ["ime"]]

ValueError: Operands are not aligned. Do `left, right = left.align(right, axis=1, copy=False)` before operating.

Atribut `loc` nam torej omogoča indeksiranje podatkovnih tabel (pa tudi zaporedij) s seznami ali zaporedji imen (indeksov) stolpcev in vrstic. To presega običajne zmožnosti indeksiranja običajnih Pythonovih seznamov.

Podoben in zelo koristen presežek ponuja indeksiranje s seznami logičnih (Boolovih) vrednosti:

In [14]:
print(pt1.loc[[False, True, False, False, True, False], :])

     ime spol  visina datum_rojstva
1  Brina    ž     153    2002-11-24
4    Ema    ž     178    2002-08-28


Na prvi pogled indeksiranje s seznamom Boolovih vrednosti ne zgleda ravno koristno. To možnost skoraj vedno uporabljamo v kombinaciji z zmožnostjo primerjave zaporedij in skalarjev, ki ga omogoča knjižnica `pandas`:

In [15]:
print(pt1.spol == "m")

0     True
1    False
2     True
3    False
4    False
5     True
Name: spol, dtype: bool


S to kombinacijo lahko hitro napišemo zelo koristno indeksiranje, ki nam omogoča hitre podatkovne poizvedbe. Primer take poizvedbe je "Izpiši imena oseb moškega spola":

In [16]:
print(pt1.loc[pt1.spol == "m", "ime"].to_list())

['Aleš', 'Ciril', 'Filip']


V zgornjem primeru kombiniramo indeksiranje vrstic s seznamom Boolovih vrednosti in indeksiranje stolpca z njegovim imenom. Dobljeno zaporedje z metodo `to_list` pretvorimo v seznam.

Podobno lahko dobimo podatke za osebe, ki so rojene leta 2002 ali pozneje:

In [17]:
print(pt1.loc[(pt1.datum_rojstva > pd.to_datetime("2001-12-31")), :])

     ime spol  visina datum_rojstva
1  Brina    ž     153    2002-11-24
2  Ciril    m     185    2002-07-13
4    Ema    ž     178    2002-08-28
5  Filip    m     167    2002-03-09


Za razliko od atributa `loc`, `iloc` nam omogoča bolj enostavno, običajno Pythonovsko indeksiranje podatkovnih tabel s pozicijskimi indeksi (celimi števili) in rezinami (izrazi zgrajeni s kombinacijo celih števil in znaka `:`). Na primer:

In [18]:
print(pt1.iloc[2:-1, :2])

     ime spol
2  Ciril    m
3  Darja    ž
4    Ema    ž


Poglejmo zdaj kombinacijo atributov `iloc` in `shape`, ki nam omogoča dodajanje nove vrstice podatkovni tabeli:

In [19]:
nova_vrstica = ["Gregor", "m", 181, pd.to_datetime("2002-07-29")]
pt1.loc[pt1.shape[0]] = nova_vrstica
pt2.loc[pt2.shape[0]] = nova_vrstica
print(pt1)

      ime spol  visina datum_rojstva
0    Aleš    m     164    2001-04-15
1   Brina    ž     153    2002-11-24
2   Ciril    m     185    2002-07-13
3   Darja    ž     181    2001-03-31
4     Ema    ž     178    2002-08-28
5   Filip    m     167    2002-03-09
6  Gregor    m     181    2002-07-29


Nazadnje, `at` in `iat` nam podobno kot `loc` in `iloc` omogočata indeksiranje posameznih elementov podatkovne tabele:

In [20]:
print(pt1.at[1, "ime"])
print(pt1.iat[-1, -1])

Brina
2002-07-29 00:00:00


---

# Poravnava indeksov

Poravnava (angl. _allignment_) indeksov je postopek samodejnega usklajevanja imen (indeksov) vrstic in stolpcev med različnimi podatkovnimi strukturami, kot so zaporedja in podatkovne tabele. Poravnava poskrbi, da se elementi z enakimi indeksi poravnajo in upoštevajo njihove vrednosti. Elementi pri neobstoječih indeksih so označeni kot manjkajoči podatki (`NaN`).

## Samodejna poravnava

Poglejmo primer obravnave časovne vrste za prvih deset dni meseca oktobra leta 2023:

In [21]:
from random import uniform

seed(42)

datumi = pd.Series(pd.date_range("2023-10", freq = "D", periods = 10))
vrednosti = [uniform(-1, 1) for _ in range(len(datumi))]

z0 = pd.Series(vrednosti, index = datumi)
#z0 = pd.Series(vrednosti)
print(z0)

2023-10-01    0.278854
2023-10-02   -0.949978
2023-10-03   -0.449941
2023-10-04   -0.553579
2023-10-05    0.472942
2023-10-06    0.353399
2023-10-07    0.784359
2023-10-08   -0.826122
2023-10-09   -0.156156
2023-10-10   -0.940406
dtype: float64


Denimo zdaj, da želimo sestaviti podatkovno tabelo s tremi stolpci $z_t$, $z_{t+1}$ in $z_{t+2}$ imenovanimi `Z_t`, `Z_t_1` in `Z_t_2`, kjer indeks hrani datum `t`, prvi stolpec hrani vrednost časovne vrste v časovni točki `t`, drugi stolpec vrednost v točki `t+1` in tretji vrednost v točki `t+2`.

Prvi stolpec te podatkovne tabele smo že ustvarili v prejšnjem primeru, indeksi v zaporedju `z0` tečejo po datumih, vrednosti elementov so vrednosti časovne. Drugi stolpec želene tabele bi lahko dobili tako, da bi elemente tega zaporedja zamaknili za eno pozicijo levo (oziroma, če opazujemo izpis zaporedja, za eno pozicijo navzgor). Najprej naredimo funkcijo, ki naredi zamik zaporedja, nato originalno in oba zamaknjena zaporedja združimo v želeno podatkovno tabelo:

In [22]:
def zamik(z):
    return z[1:]

z1 = zamik(z0)
z2 = zamik(z1)

pt_z = pd.DataFrame({
    "Z_t": z0,
    "Z_t_1": z1,
    "Z_t_2": z2
})
print(pt_z)

                 Z_t     Z_t_1     Z_t_2
2023-10-01  0.278854       NaN       NaN
2023-10-02 -0.949978 -0.949978       NaN
2023-10-03 -0.449941 -0.449941 -0.449941
2023-10-04 -0.553579 -0.553579 -0.553579
2023-10-05  0.472942  0.472942  0.472942
2023-10-06  0.353399  0.353399  0.353399
2023-10-07  0.784359  0.784359  0.784359
2023-10-08 -0.826122 -0.826122 -0.826122
2023-10-09 -0.156156 -0.156156 -0.156156
2023-10-10 -0.940406 -0.940406 -0.940406


Rezultat ne ustreza našemu pričakovanju, saj bi si želeli, da so elementi prve vrstice podatkovne tabele enaki prvemu, drugemu in tretjemu elementu časovne vrste.

Zakaj se to ni zgodilo? Prvič zato, ker iz zgornjega zapisa vidimo, da pri združevanju zaporedij v podatkovne tabele, `pandas` upošteva indekse: elemente zaporedij v združeni tabeli **poravna** tako, da elementi zaporedij ohranijo indekse, torej delijo enak skupni indeks in so združeni v eni vrstici. Drugič zato, ker funkcija `zamik` vrne rezultat z naslednjimi indeksi:

In [23]:
print(zamik(z0))

2023-10-02   -0.949978
2023-10-03   -0.449941
2023-10-04   -0.553579
2023-10-05    0.472942
2023-10-06    0.353399
2023-10-07    0.784359
2023-10-08   -0.826122
2023-10-09   -0.156156
2023-10-10   -0.940406
dtype: float64


Iz zgornjega izpisa lahko ugotovimo, da zamaknjena časovna vrsta nima ustreznih indeksov, saj bi mi želeli, da bi bila vrednost spremenljivke $z_{t+1}$ enaka drugemu elementu časovne $z_2$ v prvi časovni točki `2023-10-01`. Rezultat funkcije `zamik` pa dodeli točki `z_2` indeks enak drugi časovni točki `2023-10-02`.

Kako to popravimo? Tako, da smo previdni pri zamikanju elementov zaporedja:

In [24]:
def zamik(z):
    zz = z[1:]
    zz.index = z.index[:-1]
    return zz

print(zamik(z0))

2023-10-01   -0.949978
2023-10-02   -0.449941
2023-10-03   -0.553579
2023-10-04    0.472942
2023-10-05    0.353399
2023-10-06    0.784359
2023-10-07   -0.826122
2023-10-08   -0.156156
2023-10-09   -0.940406
dtype: float64


Indeksi so zdaj pravilni, poskusimo še enkrat:

In [25]:
z1 = zamik(z0)
z2 = zamik(z1)

pt_z = pd.DataFrame({
    "Z_t": z0,
    "Z_t_1": z1,
    "Z_t_2": z2
})
print(pt_z)

                 Z_t     Z_t_1     Z_t_2
2023-10-01  0.278854 -0.949978 -0.449941
2023-10-02 -0.949978 -0.449941 -0.553579
2023-10-03 -0.449941 -0.553579  0.472942
2023-10-04 -0.553579  0.472942  0.353399
2023-10-05  0.472942  0.353399  0.784359
2023-10-06  0.353399  0.784359 -0.826122
2023-10-07  0.784359 -0.826122 -0.156156
2023-10-08 -0.826122 -0.156156 -0.940406
2023-10-09 -0.156156 -0.940406       NaN
2023-10-10 -0.940406       NaN       NaN


## Ročna poravnava ali poravnava na zahtevo

Klic funkcije `align` nam omogoča opraviti poravnavo indeksov dveh zaporedij pred njihovim združevanjem v podatkovno tabelo. Koristna je takrat, ko so elementi vsakega zaporedja opazovani pri različnih vrednostih indeksov.

In [26]:
z1 = pd.Series([1, 2, 3, 4], index = [3, 5, 2, 0])
z2 = pd.Series([1, 2, 3, 4], index = [5, 0, 1, 4])

Če ta dva zaporedja združimo v podatkovno tabelo dobimo naslednji rezultat:

In [27]:
pt = pd.DataFrame({"Z1": z1, "Z2": z2})
print(pt)

    Z1   Z2
0  4.0  2.0
1  NaN  3.0
2  3.0  NaN
3  1.0  NaN
4  NaN  4.0
5  2.0  1.0


Rezultat je pričakovan, saj pri združevanju zaporedij `pandas` opravi samodejno poravnavo indeksov zaporedij `z1` in `z2`. Tam, kjer manjka element z ustreznim indeksom ima element podatkovne tabele neznano vrednost `NaN`.

Funkcija `align` nam omogoča ročno in hkrati bolj fleksibilno poravnavo indeksov z uporabo argumenta `join`. Slednji ima štiri možne vrednosti, ki določajo različne oblike poravnave:

  * `left`: uporabi zgolj _indekse prvega (levega) zaporedja_ in ohrani njihov vrstni red,
  * `right`: uporabi zgolj _indekse drugega (desnega) zaporedja_ in ohrani njihov vrstni red,
  * `inner`: uporabi indekse, ki se _pojavijo v obeh zaporedjih_, in upoštevaj vrstni red indeksov v prvem zaporedju; ter
  * `outer`, privzeta vrednost: uporabi indekse, ki se _pojavijo vsaj v enem zaporedju_, in uredi indekse leksikografsko, v "naravnem" vrstnem redu.

Poglejmo primere različnih nastavitev argumenta `join`:

In [28]:
z1p, z2p = z1.align(z2, join = "left")
pt = pd.DataFrame({"Z1": z1p, "Z2": z2p})
print(pt)

   Z1   Z2
3   1  NaN
5   2  1.0
2   3  NaN
0   4  2.0


In [29]:
z1p, z2p = z1.align(z2, join = "right")
pt = pd.DataFrame({"Z1": z1p, "Z2": z2p})
print(pt)

    Z1  Z2
5  2.0   1
0  4.0   2
1  NaN   3
4  NaN   4


In [30]:
z1p, z2p = z1.align(z2, join = "inner")
pt = pd.DataFrame({"Z1": z1p, "Z2": z2p})
print(pt)

   Z1  Z2
5   2   1
0   4   2


In [31]:
z1p, z2p = z1.align(z2, join = "outer")
pt = pd.DataFrame({"Z1": z1p, "Z2": z2p})
print(pt)

    Z1   Z2
0  4.0  2.0
1  NaN  3.0
2  3.0  NaN
3  1.0  NaN
4  NaN  4.0
5  2.0  1.0


Kot vidimo iz zgornjih primerov, samodejna poravnava zaporedij pri njihovem združevanju v podatkovno tabelo uporablja privzeto nastavitev argumenta `join = "outer"`.

Drugi način poravnave indeksov, ki se izogne vpeljevanju neznanih vrednosti, ponuja funkcija `reindex`. S klicem te funkcije na novo indeksiramo elemente enega zaporedja s podanim indeksom drugega zaporedja. Pri tem imamo na voljo argument `method`: če nastavimo njegovo vrednost na `"nearest"`, bodo indeksi prvega zaporedja nastavljeni _čim bližje_ podanim novim indeksom, t.j., indeksom drugega zaporedja. Pri uporabi te metode moramo poskrbeti, da so indeksi prvega zaporedja urejeni, kar lahko dosežemo z uporabo funkcije (metode) `sort_index`.

In [32]:
z1s = z1.sort_index()
print(f"Zaporedje pred poravnavo:\n{z1s}")
z1p = z1s.reindex(z2.index, method = "nearest")
print(f"Novi indeks:{z2.index}")
print(f"Zaporedje po poravnavi:\n{z1p}")

Zaporedje pred poravnavo:
0    4
2    3
3    1
5    2
dtype: int64
Novi indeks:Index([5, 0, 1, 4], dtype='int64')
Zaporedje po poravnavi:
5    2
0    4
1    3
4    2
dtype: int64


Vidimo torej, da je zaporedje `z1` po poravnavi (ponovnem indeksiranju) ima enake indekse kot zaporedje `z2`, indeksi so tudi v istem vrstnem redu. Metoda `nearest` poskrbi za ustrezno nastatitev vrednosti elementov v poravnanem zaporedju. Element z novim indeksom 1 dobi vrednost elementa z najbližjim že obstoječim indeksom 2 (vrednost elementa s tem indeksom je 3). Podobno, element z novim indeksom 4 dobi vrednost elementa z najbližjim obstoječim indeksom 5. Iz zaporedja pred poravnavo izpadeta indeksa 2 in 3 (in ustrezna elementa).

Tako poravnani zaporedji `z1` in `z2` lahko združimo v podatkovno tabelo takole:

In [33]:
pt = pd.DataFrame({"Z1": z1p, "Z2": z2})
print(pt)

   Z1  Z2
5   2   1
0   4   2
1   3   3
4   2   4


Za vajo preveri, kaj se zgodi, če ponovno indeksiramo zaporedje `z2` na osnovi indeksov zaporedja `z1`. Ali je rezultat združevanja tako poravnanih zaporedij enak zgornjemu?

Izpeljava poravnave v zgornjem primeru je pomnilniško potratna, saj iz `z1` ustvari novo zaporedje z urejenimi indeksi `z1s`, nato pa še zaporedje s poravnanimi indeksi `z1p`. Temu se lahko izognemo z uporabo Boolovega argumenta `inplace`. Nastavitev njegove vrednosti na `True` zahteva od `pandas`, da spremembe opravi znotraj podanega zaporedja in torej zaporedje ustrezno spremeni, brez potrebe po ustvarjanju novega zaporedja. To je sicer možno le v primerih, ko spreminjamo vsebino podatkovne tabele in ne njenih indeksov, zato metoda `reindex` še vedno ustvari novo zaporedje:

In [34]:
z1.sort_index(inplace = True)
z1p = z1.reindex(z2.index, method = "nearest")
pt = pd.DataFrame({"Z1": z1p, "Z2": z2})
print(pt)

   Z1  Z2
5   2   1
0   4   2
1   3   3
4   2   4
