# Uvoz in urejanje podatkov

In [27]:
import numpy as np
import pandas as pd
from pandas.api.types import CategoricalDtype

## Podatki o prihodkih

### Uvoz podatkov

V excelovi datoteki `prihodki.xlsx` so podatki o različnih osebah in njihovih prihodkih. Prvi list vsebuje podatke o prihodkih od plače, drugi pa o ostalih tipih prihodkov. Preberi podatke iz obeh listov v slovar, ki ima za ključe imena listov, za vrednosti pa pripadajoče tabele.


In [28]:
podatki = pd.read_excel("datoteke/prihodki.xlsx", sheet_name=None)
print(podatki)

{'plače':   Priimek in ime Spol in starost  Davčna številka     Kraj   2022   2023  \
0   Žagar Željko            M-45            51531     Žiri  12400  12500   
1     Vikar Vida            Ž-28            43626  Velenje      -      -   
2     Tesar Tone            M-52            83252    Tržič  15000  16000   
3      Urar Uroš            M-22            12535    Ukanc  14100  14000   
4     Zidar Zoja            Ž-35            12643    Zalog  21000  21000   

    2024  
0  12600  
1  10000  
2  17000  
3  13800  
4  21000  , 'drugo':   Priimek in ime Spol in starost  Davčna številka     Kraj   2022  2023   2024
0      Urar Uroš            M-22            12535    Ukanc      0     0    200
1     Zidar Zoja            Ž-35            12643    Zalog  10000  5000  10000
2     Vikar Vida            Ž-28            43626  Velenje   1000  1000      0
3   Žagar Željko            M-45            51531     Žiri    100   100    100}


Tabeli imata enaka imena stolpcev, zato jih bomo lahko kar staknili skupaj, pred tem pa moramo poskrbeti, da ne izgubimo informacije o tem, kateri podatki pripadajo kateremu tipu prihodkov. 

Tabeli za vsak list dodajte stolpec `vrsta`, ki nosi ime lista, iz katerega smo podatke prebrali. Da bo rešitev bolj splošna in bi delovala tudi, če bi imeli več vrst prihodkov, to naredi kar z zanko `for` čez prebrani slovar.

Tabele nato po vrsticah stakni v eno.

In [29]:
for ime_lista in podatki:
    podatki[ime_lista]["vrsta"] = ime_lista
pt = pd.concat(podatki.values())
pt

Unnamed: 0,Priimek in ime,Spol in starost,Davčna številka,Kraj,2022,2023,2024,vrsta
0,Žagar Željko,M-45,51531,Žiri,12400,12500,12600,plače
1,Vikar Vida,Ž-28,43626,Velenje,-,-,10000,plače
2,Tesar Tone,M-52,83252,Tržič,15000,16000,17000,plače
3,Urar Uroš,M-22,12535,Ukanc,14100,14000,13800,plače
4,Zidar Zoja,Ž-35,12643,Zalog,21000,21000,21000,plače
0,Urar Uroš,M-22,12535,Ukanc,0,0,200,drugo
1,Zidar Zoja,Ž-35,12643,Zalog,10000,5000,10000,drugo
2,Vikar Vida,Ž-28,43626,Velenje,1000,1000,0,drugo
3,Žagar Željko,M-45,51531,Žiri,100,100,100,drugo


Spol in starost sta združena v enem stolpcu, kar nam otežuje obdelavo. Razdeli vrednosti v stolpca `spol` in `starost`.

In [30]:
pt[["spol", "starost"]] = pt["Spol in starost"].str.split("-", expand=True)
pt

Unnamed: 0,Priimek in ime,Spol in starost,Davčna številka,Kraj,2022,2023,2024,vrsta,spol,starost
0,Žagar Željko,M-45,51531,Žiri,12400,12500,12600,plače,M,45
1,Vikar Vida,Ž-28,43626,Velenje,-,-,10000,plače,Ž,28
2,Tesar Tone,M-52,83252,Tržič,15000,16000,17000,plače,M,52
3,Urar Uroš,M-22,12535,Ukanc,14100,14000,13800,plače,M,22
4,Zidar Zoja,Ž-35,12643,Zalog,21000,21000,21000,plače,Ž,35
0,Urar Uroš,M-22,12535,Ukanc,0,0,200,drugo,M,22
1,Zidar Zoja,Ž-35,12643,Zalog,10000,5000,10000,drugo,Ž,35
2,Vikar Vida,Ž-28,43626,Velenje,1000,1000,0,drugo,Ž,28
3,Žagar Željko,M-45,51531,Žiri,100,100,100,drugo,M,45


### Podatki o strankah

Na podlagi popravljene tabele ustvari tabelo `stranke`, s stolpci `Priimek in ime`, `spol`, `starost`, `Davčna številka`.

In [31]:
stranke = pt.loc[:, ["Priimek in ime", "spol", "starost", "Davčna številka"]]
stranke

Unnamed: 0,Priimek in ime,spol,starost,Davčna številka
0,Žagar Željko,M,45,51531
1,Vikar Vida,Ž,28,43626
2,Tesar Tone,M,52,83252
3,Urar Uroš,M,22,12535
4,Zidar Zoja,Ž,35,12643
0,Urar Uroš,M,22,12535
1,Zidar Zoja,Ž,35,12643
2,Vikar Vida,Ž,28,43626
3,Žagar Željko,M,45,51531


Odstrani podvojene podatke o strankah, ki smo jih dobili iz različnih tabel.

In [32]:
stranke = stranke.drop_duplicates()
stranke

Unnamed: 0,Priimek in ime,spol,starost,Davčna številka
0,Žagar Željko,M,45,51531
1,Vikar Vida,Ž,28,43626
2,Tesar Tone,M,52,83252
3,Urar Uroš,M,22,12535
4,Zidar Zoja,Ž,35,12643


Imeni stolpcev `Priimek in ime` ter `Davčna številka` nam bosta povzročala težave pri izbiri stolpcev s pomočjo lastnosti (oblike `stranke.spol`). Na internetu poišči, kako spremeniti imena stolpcev in ju preimenuj v `priimek_ime` in `davcna_st`.

<details><summary>Ne znam?!</summary>
Ker je iskanje pomoči na internetu pomembna veščina pri programiranju, še zlasti pri uporabi velikih modulov/knjižnic, kot je pandas, kjer enostavno ne moremo poznati vseh funkcij in metod, se res potrudi in ustrezno funkcijo ali metodo poišči samostojno.
Garantiram, da bo koristna vaja.

Priporočam, da iščeš v angleščini.
</details>

In [33]:
stranke = stranke.rename(columns={"Priimek in ime": "priimek_ime", "Davčna številka": "davcna_st"})
stranke

Unnamed: 0,priimek_ime,spol,starost,davcna_st
0,Žagar Željko,M,45,51531
1,Vikar Vida,Ž,28,43626
2,Tesar Tone,M,52,83252
3,Urar Uroš,M,22,12535
4,Zidar Zoja,Ž,35,12643


Preveri podatkovne tipe v tabeli `stranke`. Razmisli o smiselnih podatkovnih tipih posameznih stolpcev in jih ustrezno popravi.

<details><summary>Namig</summary>
Verjetno bi bilo smiselno, da je spol tipa kategorija, starost pa celoštevilskega tipa.
</details>

In [34]:
stranke.dtypes

priimek_ime    object
spol           object
starost        object
davcna_st       int64
dtype: object

In [35]:
stranke.spol = stranke.spol.astype(CategoricalDtype(["M", "Ž"]))
stranke.starost = stranke.starost.astype("int64")
stranke.dtypes

priimek_ime      object
spol           category
starost           int64
davcna_st         int64
dtype: object

Za konec uredimo podatke po priimkih in popravimo indekse. Najbolj smiselno je, da so indeksi cela števila od 0 naprej ali pa kar priimki (in imena) oseb.

In [36]:
stranke = stranke.sort_values(by="priimek_ime")
stranke.reset_index(inplace=True, drop=True)
stranke

Unnamed: 0,priimek_ime,spol,starost,davcna_st
0,Tesar Tone,M,52,83252
1,Urar Uroš,M,22,12535
2,Vikar Vida,Ž,28,43626
3,Zidar Zoja,Ž,35,12643
4,Žagar Željko,M,45,51531


### Podatki o prihodkih

Sestavimo še tabelo `prihodki` s podatki o prihodkih. Iz tabele z vsemi podatki izberi podatke o prihodkih - stolpce `Priimek in ime`, `2022`, `2023`, `2024` in `vrsta`.

In [37]:
prihodki = pt[["Priimek in ime", "vrsta", 2022, 2023, 2024]]

Tabelo preoblikuj tako, da bo namesto stolpcev `2022`, `2023` in `2024` vsebovala stolpec `leto` z letnicami in stolpec `prihodek`, ki bo vseboval podatke o pripadajočih prihodkih za posamezna leta.

<details><summary>Namig</summary>
Oglej si kaj in kako počne metoda <a href="https://pandas.pydata.org/docs/reference/api/pandas.melt.html"><code>melt</code></a>.
</details>

In [38]:
prihodki = prihodki.melt(id_vars=["Priimek in ime", "vrsta"], value_vars=[2022, 2023, 2024], var_name="leto", value_name="prihodek")
prihodki

Unnamed: 0,Priimek in ime,vrsta,leto,prihodek
0,Žagar Željko,plače,2022,12400
1,Vikar Vida,plače,2022,-
2,Tesar Tone,plače,2022,15000
3,Urar Uroš,plače,2022,14100
4,Zidar Zoja,plače,2022,21000
5,Urar Uroš,drugo,2022,0
6,Zidar Zoja,drugo,2022,10000
7,Vikar Vida,drugo,2022,1000
8,Žagar Željko,drugo,2022,100
9,Žagar Željko,plače,2023,12500


Kot prej preimenuj stolpec `Priimek in ime` v `priimek_ime`, da bomo lahko pri analizi uporabljali ustrezno lastnost tabele (`prihodki.priimek_ime`).

In [39]:
prihodki = prihodki.rename(columns={"Priimek in ime": "priimek_ime"})
prihodki.head(10)

Unnamed: 0,priimek_ime,vrsta,leto,prihodek
0,Žagar Željko,plače,2022,12400
1,Vikar Vida,plače,2022,-
2,Tesar Tone,plače,2022,15000
3,Urar Uroš,plače,2022,14100
4,Zidar Zoja,plače,2022,21000
5,Urar Uroš,drugo,2022,0
6,Zidar Zoja,drugo,2022,10000
7,Vikar Vida,drugo,2022,1000
8,Žagar Željko,drugo,2022,100
9,Žagar Željko,plače,2023,12500


Manjkajoče podatke v stolpcu prihodek nadomesti z `nan` (za uporabo vrednosti nan bo potrebno uvoziti knjižnico `numpy`, ki se je namestila skupaj s knjižnico `pandas`.).

<details><summary>Namig</summary>
Oglej is metodo <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html"><code>replace</code></a>.
</details>

In [40]:
prihodki = prihodki.replace("-", np.nan)
prihodki

Unnamed: 0,priimek_ime,vrsta,leto,prihodek
0,Žagar Željko,plače,2022,12400.0
1,Vikar Vida,plače,2022,
2,Tesar Tone,plače,2022,15000.0
3,Urar Uroš,plače,2022,14100.0
4,Zidar Zoja,plače,2022,21000.0
5,Urar Uroš,drugo,2022,0.0
6,Zidar Zoja,drugo,2022,10000.0
7,Vikar Vida,drugo,2022,1000.0
8,Žagar Željko,drugo,2022,100.0
9,Žagar Željko,plače,2023,12500.0


Preveri podatkovne tipe stolpcev in jih po potrebi popravi.

In [41]:
prihodki.vrsta = prihodki.vrsta.astype(CategoricalDtype(prihodki.vrsta.drop_duplicates()))
prihodki.leto = prihodki.leto.astype("int64")
prihodki.dtypes


priimek_ime      object
vrsta          category
leto              int64
prihodek        float64
dtype: object

Stolpce uredi naraščajoče po priimku in imenu, nato po vrsti prihodka in nazadnje še po letu.
Torej: vrstice, ki pripadajo isti osebi naj bodo v tabeli zaporedne, pri tem bodo najprej vrstice tipa drugo, nato pa še vrstice za prihodke od plače, znotraj posamezne kategorije pa bodo vrstice urejene po letu.

In [42]:
prihodki = prihodki.sort_values(by=["priimek_ime", "vrsta", "leto"])
prihodki

Unnamed: 0,priimek_ime,vrsta,leto,prihodek
2,Tesar Tone,plače,2022,15000.0
11,Tesar Tone,plače,2023,16000.0
20,Tesar Tone,plače,2024,17000.0
3,Urar Uroš,plače,2022,14100.0
12,Urar Uroš,plače,2023,14000.0
21,Urar Uroš,plače,2024,13800.0
5,Urar Uroš,drugo,2022,0.0
14,Urar Uroš,drugo,2023,0.0
23,Urar Uroš,drugo,2024,200.0
1,Vikar Vida,plače,2022,


Katere spremenljivke v novonastali tabeli so dimenzijske in katere merjene?

### Izziv: uporaba SQL in združevanja tabel

Za vajo sestavi novo tabelo prihodkov (npr. `prihodki2`), ki bo vsebovala vrstice za vse osebe za vse tipe prihodkov in vsa leta. Vrstice za katere ni podatka, naj imajo vrednost `nan`.

Torej: nimamo podatkov o tem, ali je Tone prejel tip prihodka `drugo`. V novi tabeli bi torej želeli tudi vrstice oblike `Tesar Tone`, `drugo`, `<leto>`, `nan`.

Pri tem si pomagaj z združevanjem tabel ([merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)). Za pomoč glej zapiske s predavanj.

In [43]:
vsa_imena = pd.DataFrame({
    "priimek_ime": stranke.priimek_ime.drop_duplicates()
})
vsi_tipi = pd.DataFrame({
    "vrsta": prihodki.vrsta.drop_duplicates()
})
vsa_leta = pd.DataFrame({
    "leto": prihodki.leto.drop_duplicates()
})
podatki2 = vsa_imena.merge(vsi_tipi, how="cross").merge(vsa_leta, how="cross")
podatki2.merge(prihodki, how="left")

Unnamed: 0,priimek_ime,vrsta,leto,prihodek
0,Tesar Tone,plače,2022,15000.0
1,Tesar Tone,plače,2023,16000.0
2,Tesar Tone,plače,2024,17000.0
3,Tesar Tone,drugo,2022,
4,Tesar Tone,drugo,2023,
5,Tesar Tone,drugo,2024,
6,Urar Uroš,plače,2022,14100.0
7,Urar Uroš,plače,2023,14000.0
8,Urar Uroš,plače,2024,13800.0
9,Urar Uroš,drugo,2022,0.0


## Naloge

### 1. Izidi terapij

V datoteki [`izidi.xlsx`](https://kt.ijs.si/~ljupco/lectures/papvp-2324/izidi.xlsx) je preglednica s podatki o numeričnih izidih uporabe dveh različnih terapij na treh pacientih. Prazne celice ustrezajo neznanim vrednostim izidov. Napiši program, ki prebere podatke iz preglednice in iz njih sestavi podatkovno tabelo z urejenimi podatki. 

_Namig: sestaviti bo treba eno tabelo z dvema dimenzijskima in eno merjeno spremenljivko._

Naložimo podatke (ker ima Excel datoteka samo en list, funkcija `read_excel` vrne podatkovno tabelo). Stolpec `"Ime in priimek pacienta"` preimenujemo, da ne vsebuje presledkov.

In [45]:
izidi = pd.read_excel('datoteke/izidi.xlsx')
izidi = izidi.rename(columns={"Ime in priimek pacienta": 'ime_priimek'})

Tabelo pretvorimo tako, da bo terapija dimenzijska spremenljivka, ki določa merjeno spremenljivko izid.

In [46]:
izidi = izidi.melt(
    id_vars=["ime_priimek"], 
    value_vars=['Terapija A', 'Terapija B'],
    var_name='terapija',
    value_name='izid')
print(izidi)

     ime_priimek    terapija  izid
0   Marija Novak  Terapija A  16.0
1   Franc Horvat  Terapija A   NaN
2  Vanja Kovačič  Terapija A   3.0
3   Marija Novak  Terapija B   2.0
4   Franc Horvat  Terapija B  11.0
5  Vanja Kovačič  Terapija B   4.0


Zamenjamo vrednosti `"Terapija A"` in `"Terapija B"` v `A` in `B`.

In [47]:
izidi.terapija = izidi.terapija.replace({'Terapija A': 'A', 'Terapija B': 'B'})
print(izidi)

     ime_priimek terapija  izid
0   Marija Novak        A  16.0
1   Franc Horvat        A   NaN
2  Vanja Kovačič        A   3.0
3   Marija Novak        B   2.0
4   Franc Horvat        B  11.0
5  Vanja Kovačič        B   4.0


Preverimo in popravimo podatkovne tipe:

In [48]:
print(izidi.dtypes)

ime_priimek     object
terapija        object
izid           float64
dtype: object


In [49]:
tipi_terapij = CategoricalDtype(izidi.terapija.drop_duplicates())
izidi.terapija = izidi.terapija.astype(tipi_terapij)
print(izidi)
print(izidi.dtypes)

     ime_priimek terapija  izid
0   Marija Novak        A  16.0
1   Franc Horvat        A   NaN
2  Vanja Kovačič        A   3.0
3   Marija Novak        B   2.0
4   Franc Horvat        B  11.0
5  Vanja Kovačič        B   4.0
ime_priimek      object
terapija       category
izid            float64
dtype: object


Uredimo podatke po imenih pacientov in tipih terapije ter popravimo indekse:

In [54]:
izidi.sort_values(by=["ime_priimek", "terapija"], inplace=True)
izidi.reset_index(inplace=True, drop=True)
izidi

Unnamed: 0,ime_priimek,terapija,izid
0,Franc Horvat,A,
1,Franc Horvat,B,11.0
2,Marija Novak,A,16.0
3,Marija Novak,B,2.0
4,Vanja Kovačič,A,3.0
5,Vanja Kovačič,B,4.0


### 2. Kavni napitki

V nekem bistroju poimenovanem Mafija strežejo tri vrste kavnih napitkov: črno kavo, kavo z mlekom in kavo s smetano. Pri izdelavi letne bilance si zapišejo koliko skodelic vsake vrste kavnega napitka so postregli v opazovanem letu. Spodnja tabela podaja podatke o petih letnih bilancah bistroja Mafija:

| Vrsta kavnega napitka | 2018 | 2019 | 2020 | 2021 | 2022 |
|:---|---:|---:|---:|---:|---:|
| Črna kava | 23100 | 3500 | 6200 | 18700 | 21400 |
| Kava z mlekom | 18300 | 2800 | 4900 | 14000 | 18000 |
| Kava s smetano | 11500 | 1600 | 3400 | 7600 | 11100 |

Premisli kako bi iz zgornje tabele sestavili podatkovne tabele urejenih podatkov. Sestavi ustrezne podatkovne tabele v `pandas`.

In [55]:
napitki = pd.DataFrame(
    {
        "vrsta_kavnega_napitka": ["Črna kava", "Kava z mlekom", "Kava s smetano"],
        "2018": [23100, 18300, 11500],
        "2019": [3500, 2800, 1600],
        "2020": [6200, 4900, 3400],
        "2021": [18700, 14000, 7600],
        "2022": [21400, 18000, 11100]
    }
)

Pretvorimo podatkovno tabelo, da bodo leta vrednosti dimenzijske spremenljivke `leto`, pripadajoče vrednosti pa v merjeni spremenljivki `stevilo`:

In [64]:
kava = napitki.melt(
    id_vars=["vrsta_kavnega_napitka"],
    value_vars=["2018", "2019", "2020", "2021", "2022"],
    var_name="leto",
    value_name="stevilo"
)

Preverimo in popravimo podatkovne tipe:

In [65]:
print(kava.dtypes)

vrsta_kavnega_napitka    object
leto                     object
stevilo                   int64
dtype: object


In [67]:
vrste_kave = pd.CategoricalDtype(kava.vrsta_kavnega_napitka.drop_duplicates())
kava.vrsta_kavnega_napitka = kava.vrsta_kavnega_napitka.astype(vrste_kave)
kava.leto = kava.leto.astype("int64")
print(kava.dtypes)

vrsta_kavnega_napitka    category
leto                        int64
stevilo                     int64
dtype: object


Uredimo podatke po vrsti ter nato po letu ter popravimo indekse:

In [68]:
kava.sort_values(by=["vrsta_kavnega_napitka", "leto"], inplace=True)
kava.reset_index(inplace=True, drop=True)
kava

Unnamed: 0,vrsta_kavnega_napitka,leto,stevilo
0,Črna kava,2018,23100
1,Črna kava,2019,3500
2,Črna kava,2020,6200
3,Črna kava,2021,18700
4,Črna kava,2022,21400
5,Kava z mlekom,2018,18300
6,Kava z mlekom,2019,2800
7,Kava z mlekom,2020,4900
8,Kava z mlekom,2021,14000
9,Kava z mlekom,2022,18000


### Gibanje prebivalstva v Sloveniji

Statistični urad Slovenije v svoji podatkovni bazi [SiStat](https://pxweb.stat.si/) ponuja podatke o selitvenem gibanju prebivalstva v Sloveniji med regijami in tujino. Bazo teh podatkov lahko najdemo v področju _Regionalni pregled_ pod rubriko _Statistične regije_ in _Prebivalstvo - statistične regije_. Podatki iz te baze so na voljo v preglednici [`05I2004S_20221025-231704.xlsx`](https://kt.ijs.si/~ljupco/lectures/papvp-2324/05I2004S_20221025-231704.xlsx). Napiši program, ki sestavi urejeno tabelo s podatki o selitvenem gibanju prebivalstva v Sloveniji.

_Namig: Sestavi eno podatkovno tabelo s tremi dimenzijskimi spremenljivkami: regija, leto, kazalnik in vrednost (ta poda število prebivalcev za izbran kazalnik v izbrani regiji v izbranem letu)._

Če si ogledamo Excel datoteko, opazimo, da ima tabela dve vrstici glave. Zadeve se lahko lotimo na več načinov:
* datoteko preberemo z dvojnim indeksiranjem stolpcev (`header=[0, 1]` oziroma `header=[2, 3]`, če ne uporabimo `skiprows`), ter na podlagi dvojnih imen stolpcev izračunamo nova imena.
* datoteko preberemo z enojno glavo in iz prve vrstice podatkov izluščimo kazalnike. Paziti moramo, da to vrstico odstranimo.

In [81]:
podatki = pd.read_excel("datoteke/05I2004S_20221025-231704.xlsx", skiprows=2, header=0, nrows=15)
podatki

Unnamed: 0.1,Unnamed: 0,1995,Unnamed: 2,Unnamed: 3,Unnamed: 4,1996,Unnamed: 6,Unnamed: 7,Unnamed: 8,1997,...,Unnamed: 99,Unnamed: 100,2020,Unnamed: 102,Unnamed: 103,Unnamed: 104,2021,Unnamed: 106,Unnamed: 107,Unnamed: 108
0,,Priseljeni iz tujine - Skupaj,Odseljeni v tujino - Skupaj,Priseljeni iz drugih statističnih regij - Skupaj,Odseljeni v druge statistične regije - Skupaj,Priseljeni iz tujine - Skupaj,Odseljeni v tujino - Skupaj,Priseljeni iz drugih statističnih regij - Skupaj,Odseljeni v druge statistične regije - Skupaj,Priseljeni iz tujine - Skupaj,...,Priseljeni iz drugih statističnih regij - Skupaj,Odseljeni v druge statistične regije - Skupaj,Priseljeni iz tujine - Skupaj,Odseljeni v tujino - Skupaj,Priseljeni iz drugih statističnih regij - Skupaj,Odseljeni v druge statistične regije - Skupaj,Priseljeni iz tujine - Skupaj,Odseljeni v tujino - Skupaj,Priseljeni iz drugih statističnih regij - Skupaj,Odseljeni v druge statistične regije - Skupaj
1,SLOVENIJA,2191,776,5426,5426,1500,803,5742,5742,1093,...,42014,42014,36110,17745,64619,64619,23624,21144,49486,49486
2,Pomurska,121,45,265,294,94,66,274,279,84,...,2093,1742,1537,548,2882,2528,640,664,2133,1913
3,Podravska,318,127,595,689,242,106,626,658,166,...,5629,5529,6431,3045,7558,6889,4246,3765,6035,5638
4,Koroška,27,48,175,222,23,24,189,241,34,...,1154,1386,817,359,1758,2053,561,415,1315,1389
5,Savinjska,251,77,623,598,167,118,572,674,126,...,4907,5273,4641,2296,6668,7239,3296,2731,5368,5387
6,Zasavska,49,16,144,187,22,12,216,162,19,...,1268,1297,692,232,1922,2123,426,280,1349,1532
7,Posavska,120,39,276,276,67,35,253,252,45,...,1863,1912,1084,690,2560,2578,675,670,1939,1785
8,Jugovzhodna Slovenija,167,49,449,396,100,65,492,401,75,...,3088,3212,1656,946,4716,4649,1131,988,3628,3403
9,Osrednjeslovenska,578,206,1442,1540,398,230,1555,1781,277,...,12553,12013,10249,5421,18025,21806,6762,6721,14794,15945


In [82]:
podatki.columns

Index(['Unnamed: 0', '1995', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', '1996',
       'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', '1997',
       ...
       'Unnamed: 99', 'Unnamed: 100', '2020', 'Unnamed: 102', 'Unnamed: 103',
       'Unnamed: 104', '2021', 'Unnamed: 106', 'Unnamed: 107', 'Unnamed: 108'],
      dtype='object', length=109)

In [73]:
leta = podatki.columns

In [83]:
kazalniki = podatki.loc[0, :]
kazalniki

Unnamed: 0                                                   NaN
1995                               Priseljeni iz tujine - Skupaj
Unnamed: 2                           Odseljeni v tujino - Skupaj
Unnamed: 3      Priseljeni iz drugih statističnih regij - Skupaj
Unnamed: 4         Odseljeni v druge statistične regije - Skupaj
                                      ...                       
Unnamed: 104       Odseljeni v druge statistične regije - Skupaj
2021                               Priseljeni iz tujine - Skupaj
Unnamed: 106                         Odseljeni v tujino - Skupaj
Unnamed: 107    Priseljeni iz drugih statističnih regij - Skupaj
Unnamed: 108       Odseljeni v druge statistične regije - Skupaj
Name: 0, Length: 109, dtype: object

In [84]:
stolpci = pd.DataFrame({
    "leto": leta,
    "kazalnik": kazalniki
})

In [85]:
stolpci

Unnamed: 0,leto,kazalnik
Unnamed: 0,Unnamed: 0,
1995,1995,Priseljeni iz tujine - Skupaj
Unnamed: 2,Unnamed: 2,Odseljeni v tujino - Skupaj
Unnamed: 3,Unnamed: 3,Priseljeni iz drugih statističnih regij - Skupaj
Unnamed: 4,Unnamed: 4,Odseljeni v druge statistične regije - Skupaj
...,...,...
Unnamed: 104,Unnamed: 104,Odseljeni v druge statistične regije - Skupaj
2021,2021,Priseljeni iz tujine - Skupaj
Unnamed: 106,Unnamed: 106,Odseljeni v tujino - Skupaj
Unnamed: 107,Unnamed: 107,Priseljeni iz drugih statističnih regij - Skupaj


In [136]:
stolpci.leto = stolpci.leto.replace(r"Unnamed:", np.nan, regex=True).ffill()

In [137]:
stolpci = stolpci.leto + ":" + stolpci.kazalnik
stolpci[0] = 'regija'

  stolpci[0] = 'regija'


In [138]:
podatki.columns = stolpci

In [145]:
podatki = podatki.drop(0, axis='index')

In [146]:
podatki2 = podatki.melt(
    id_vars=["regija"],
    value_vars=podatki.columns[1:],
    var_name="leto_kazalnik",
    value_name="stevilo"
)

In [150]:
podatki2[["leto", "kazalnik"]] = podatki2.leto_kazalnik.str.split(":", expand=True)

In [152]:
podatki2.drop("leto_kazalnik", axis="columns", inplace=True)

In [156]:
podatki2 = podatki2[["leto", "regija", "kazalnik", "stevilo"]]

In [157]:
podatki2

Unnamed: 0,leto,regija,kazalnik,stevilo
0,1995,SLOVENIJA,Priseljeni iz tujine - Skupaj,2191
1,1995,Pomurska,Priseljeni iz tujine - Skupaj,121
2,1995,Podravska,Priseljeni iz tujine - Skupaj,318
3,1995,Koroška,Priseljeni iz tujine - Skupaj,27
4,1995,Savinjska,Priseljeni iz tujine - Skupaj,251
...,...,...,...,...
1399,2021,Osrednjeslovenska,Odseljeni v druge statistične regije - Skupaj,15945
1400,2021,Gorenjska,Odseljeni v druge statistične regije - Skupaj,5186
1401,2021,Primorsko-notranjska,Odseljeni v druge statistične regije - Skupaj,1387
1402,2021,Goriška,Odseljeni v druge statistične regije - Skupaj,2570


### 4. Covid sledilnik

Spletna stran [Covid-19 sledilnik](https://covid-19.sledilnik.org/) ponuja dnevno osvežene podatke o stanju epidemije Covid-19 v Sloveniji. Podatki o dnevnem številu okužb ponujajo tudi skozi spletne storitve [GitHub](https://github.com/sledilnik/data/blob/master/csv/stats.csv): ti podatki so v obliki CSV dostopni na naslovu [https://raw.githubusercontent.com/sledilnik/data/master/csv/stats.csv](https://raw.githubusercontent.com/sledilnik/data/master/csv/stats.csv).

Napiši program, ki iz teh podatkov sestavi podatkovno tabelo z urejenimi dnevnimi podatki o številu okužb v posameznih regijah in celotni Sloveniji. Podatkovna tabela naj vsebuje naslednje tri spremenljivke:

* `datum` je dimenzijska spremenljivka z datumom opazovanega števila okužb.

* `regija` je dimenzijska spremenljivka, ki poda statistično regijo v kateri opazujemo število okužb. Domena spremenljivke naj vključuje vseh [statističnih regij Slovenije](https://sl.wikipedia.org/wiki/Statisti%C4%8Dne_regije_Slovenije) ter Slovenijo kot celoto.

* `kumulativne_okuzbe` je merjena spremenljivka, ki za izbrano regijo poda kumulatinvo število okužb Covid-19 do izbranega datuma.

In [88]:
[x for x in podatki.columns.tolist() if "region" in x]

['region.lj.todate',
 'region.ce.todate',
 'region.mb.todate',
 'region.ms.todate',
 'region.kr.todate',
 'region.nm.todate',
 'region.za.todate',
 'region.sg.todate',
 'region.po.todate',
 'region.ng.todate',
 'region.kp.todate',
 'region.kk.todate',
 'region.foreign.todate',
 'region.unknown.todate',
 'region.todate']

In [None]:
podatki = pd.read_csv("datoteke/covid.csv")
covid = podatki[["date", "region"]]


Unnamed: 0,day,date,phase,tests.performed.todate,tests.performed,tests.positive.todate,tests.positive,tests.regular.performed.todate,tests.regular.performed,tests.regular.positive.todate,...,deceased.rhoccupant.todate,deceased.other.todate,vaccination.administered,vaccination.administered.todate,vaccination.administered2nd,vaccination.administered2nd.todate,vaccination.administered3rd,vaccination.administered3rd.todate,vaccination.used.todate,vaccination.delivered.todate
0,-8,2020-02-24,F0,38.0,18.0,,,38.0,18.0,,...,,,,,,,,,,
1,-7,2020-02-25,F0,59.0,21.0,,,59.0,21.0,,...,,,,,,,,,,
2,-6,2020-02-26,F0,100.0,41.0,,,100.0,41.0,,...,,,,,,,,,,
3,-5,2020-02-27,F0,143.0,43.0,,,143.0,43.0,,...,,,,,,,,,,
4,-4,2020-02-28,F0,178.0,35.0,,,178.0,35.0,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1615,1607,2024-07-27,,,,,,,,,...,,,,,,,,,,
1616,1608,2024-07-28,,,,,,,,,...,,,,,,,,,,
1617,1609,2024-07-29,,,,,,,,,...,,,,,,,,,,
1618,1610,2024-07-30,,,,,,,,,...,,,,,,,,,,


### 5. Prebivalstvo in okužbe

Statistični urad Slovenije v svoji podatkovni bazi [SiStat](https://pxweb.stat.si/) ponuja podatke o številu prebivalcev v posameznih statističnih regijah in celotni Sloveniji po polletjih. Poišči te podatke v bazi in jih izvozi v obliko preglednice Excel: pri tem upoštevaj vse razpoložljive podatke od prvega polletja 2020. Nato jih uredi v podatkovno tabelo s stolpci `polletje`, `regija` in `prebivalstvo`.

Uporabi podatke iz te tabele in tabele sestavljene v prejšnji nalogi za izračun _deleža_ okuženih prebivalcev v posamezni regiji in celotni Sloveniji.