# Knjižnica pandas - podatkovne tabele (angl. _dataframe_)

In [1]:
import pandas as pd
import random

### Ustvarjanje podatkovnih tabel

Sestavi sezname imen in priimkov (vsak element seznama je niz oblike `"Ime Priimek"`), starosti in ocen (za vajo lahko starosti in ocene generiraš naključno). V seznamu `imena in priimki` ter `starosti` naj bo po 6 vrednosti, v seznamu `ocene` pa 5.

Nato ustvari preprosto podatkovno tabelo, s stolpci `ime in priimek`, `starost`, `ocena`. Zaenkrat podatkovne tipe pustimo pri miru.

In [1]:

ime_priimek = ['Ana Novak', 'Ula Burger', 'Uroš Zorman', 'Borut Mačkovšek', 'Gal Marguč', 'Miha Zarabec']
starosti = [random.randint(1,100) for i in range(6)]
ocene = [random.randint(5,10) for i in range(5)]

tabela = pd.DataFrame({"ime in priimek": pd.Series(ime_priimek), 
                       "starosti": pd.Series(starosti), 
                       "ocene": pd.Series(ocene)})
#

Izpiši tabelo. Kaj se zgodi z manjkajočo oceno?

In [2]:
print(tabela)

    ime in priimek  starosti  ocene
0        Ana Novak        57    6.0
1       Ula Burger        59    6.0
2      Uroš Zorman         4   10.0
3  Borut Mačkovšek        97    8.0
4       Gal Marguč        22    8.0
5     Miha Zarabec         9    NaN


### Osnovno delo s podatkovnimi tabelami

Izpiši podatke o zgoraj ustvarjeni tabeli (izpis polepšaj tako, da bo pred vsako vrednostjo kratek opis te vrednosti, npr. `Število vrstic: 6`):
* število vrstic
* število stolpcev
* število vseh elementov
* imena stolpcev
* podatkovne tipe stolpcev (Kakšnih tipov so stolpci? Te je kaj presenetilo?)
* imena vrstic
* vrednosti v podatkovni tabeli

In [12]:
# Izračunamo osnovne informacije
število_vrstic = tabela.shape[0]
število_stolpcev = tabela.shape[1]
število_elementov = tabela.size
imena_stolpcev = tabela.columns.tolist()
tipi_stolpcev = tabela.dtypes
imena_vrstic = tabela.index.tolist()
vrednosti = tabela.values.tolist()

# Izpis podatkov
print(f"Število vrstic: {število_vrstic}")
print(f"Število stolpcev: {število_stolpcev}")
print(f"Število vseh elementov: {število_elementov}")
print(f"Imena stolpcev: {imena_stolpcev}")
print(f"Podatkovni tipi stolpcev: {tipi_stolpcev}")
print(f"Imena vrstic: {imena_vrstic}")
print(f'Vrednosti v podatkovni tabeli: {vrednosti}')

Število vrstic: 6
Število stolpcev: 3
Število vseh elementov: 18
Imena stolpcev: ['ime in priimek', 'starosti', 'ocene']
Podatkovni tipi stolpcev: ime in priimek     object
starosti            int64
ocene             float64
dtype: object
Imena vrstic: [0, 1, 2, 3, 4, 5]
Vrednosti v podatkovni tabeli: [['Ana Novak', 89, 6.0], ['Ula Burger', 100, 9.0], ['Uroš Zorman', 83, 6.0], ['Borut Mačkovšek', 16, 10.0], ['Gal Marguč', 81, 10.0], ['Miha Zarabec', 45, nan]]


### Dostopanje do vrednosti

Izpiši stolpec ocen (za vajo poskusi na dva različna načina):

In [14]:
print(tabela.ocene)
print(tabela["ocene"])

0     6.0
1     9.0
2     6.0
3    10.0
4    10.0
5     NaN
Name: ocene, dtype: float64
0     6.0
1     9.0
2     6.0
3    10.0
4    10.0
5     NaN
Name: ocene, dtype: float64


Izpiši še stolpec imen in priimkov. Gre tudi tu na oba načina?

In [17]:
print(tabela["ime in priimek"])
print(tabela.ime in priimek)

0          Ana Novak
1         Ula Burger
2        Uroš Zorman
3    Borut Mačkovšek
4         Gal Marguč
5       Miha Zarabec
Name: ime in priimek, dtype: object


AttributeError: 'DataFrame' object has no attribute 'ime'

Izpiši starosti od tretje do pete vrstice:

In [20]:
print(tabela.loc[3:5,"starosti"])
print(tabela.starosti[3:6])

3    16
4    81
5    45
Name: starosti, dtype: int64
3    16
4    81
5    45
Name: starosti, dtype: int64


Izpiši samo imena in ocene:

In [22]:
print(tabela.loc[:,["ime in priimek","starosti"]])

    ime in priimek  starosti
0        Ana Novak        89
1       Ula Burger       100
2      Uroš Zorman        83
3  Borut Mačkovšek        16
4       Gal Marguč        81
5     Miha Zarabec        45


## Še en primer

Dani so naslednji podatki o živalih v zavetišču

In [24]:
imena = ["Luna", "Whiskers", "Rocky", "Nala", "Maksi", "Bella", "Buddy"]
vrste = ["Pes", "Mačka", "Pes", "Mačka", "Pes", "Mačka", "Pes"]
starosti = [2, 4, 3, 1, 5, 2, 6]
spoli = ["Ž", "M", "M", "Ž", "M", "Ž", "M"]
datumi_sprejema = ["2023-04-10", "2023-03-15", "2023-04-02", "2023-03-20", "2023-04-12", "2023-04-05", "2023-03-08"]

Sestavi tabelo `zavetisce`. Tabela naj vsebuje naslednje stolpce. Poleg stolpca je zapisan tip podatkov v tem stolpcu.

* `ime` - običajen stolpec
* `vrsta` - kategorija
* `starost` - celoštevilske vrednosti
* `spol` - kategorija
* `datum_sprejema` - časovni podatek

In [28]:
zavetisce = pd.DataFrame({"imena": pd.Series(imena), 
                       "vrste": pd.Series(vrste, dtype="category"), 
                       "starosti": pd.Series(starosti, dtype="int"),
                       "spoli": pd.Series(spoli, dtype="category"), 
                       "datumi_sprejema": pd.to_datetime(datumi_sprejema)})
print(zavetisce)

      imena  vrste  starosti spoli datumi_sprejema
0      Luna    Pes         2     Ž      2023-04-10
1  Whiskers  Mačka         4     M      2023-03-15
2     Rocky    Pes         3     M      2023-04-02
3      Nala  Mačka         1     Ž      2023-03-20
4     Maksi    Pes         5     M      2023-04-12
5     Bella  Mačka         2     Ž      2023-04-05
6     Buddy    Pes         6     M      2023-03-08


Dani so še opisi živali. Vrstni red ustreza vrstnemu redu prejšnjih seznamov.

In [27]:
opisi = ["Mešanec, črna dlaka, prijazna", "Sivo-bela dlaka, živahen, nejevoljen ob dotiku", "Labrador, rjave oči, igriv, poslušen",
         "Črna dlaka, prijazna, zelo igriva", "Nemški ovčar, črno-rjava dlaka, velik, zvest", "Bela dlaka, sramežljiva, igriva",
         "Zlati prinašalec, svetlo rjava dlaka, prijazen"]

Tabeli `zavetisce` dodaj nov stolpec z opisi živali.

In [30]:
zavetisce["opisi"] = opisi
print(zavetisce)

      imena  vrste  starosti spoli datumi_sprejema  \
0      Luna    Pes         2     Ž      2023-04-10   
1  Whiskers  Mačka         4     M      2023-03-15   
2     Rocky    Pes         3     M      2023-04-02   
3      Nala  Mačka         1     Ž      2023-03-20   
4     Maksi    Pes         5     M      2023-04-12   
5     Bella  Mačka         2     Ž      2023-04-05   
6     Buddy    Pes         6     M      2023-03-08   

                                            opisi  
0                   Mešanec, črna dlaka, prijazna  
1  Sivo-bela dlaka, živahen, nejevoljen ob dotiku  
2            Labrador, rjave oči, igriv, poslušen  
3               Črna dlaka, prijazna, zelo igriva  
4    Nemški ovčar, črno-rjava dlaka, velik, zvest  
5                 Bela dlaka, sramežljiva, igriva  
6  Zlati prinašalec, svetlo rjava dlaka, prijazen  


Izpiši samo opise živali v lihih vrsticah:

In [31]:
print(zavetisce.loc[1:6:2, "opisi"])

1    Sivo-bela dlaka, živahen, nejevoljen ob dotiku
3                 Črna dlaka, prijazna, zelo igriva
5                   Bela dlaka, sramežljiva, igriva
Name: opisi, dtype: object


Izpiši vrstice 2, 4 in 5 ter stolpce `ime`, `vrsta` in `spol`.

In [32]:
print(zavetisce.loc[[2,4,5],["imena","vrste","spoli"]])

   imena  vrste spoli
2  Rocky    Pes     M
4  Maksi    Pes     M
5  Bella  Mačka     Ž


Izpiši prve tri vrstice stolpca na 4. indeksu.

In [34]:
print(zavetisce.iloc[:3, 4])

0   2023-04-10
1   2023-03-15
2   2023-04-02
Name: datumi_sprejema, dtype: datetime64[ns]


Izpiši datum sprejema mačka z imenom Whiskers:

In [37]:
print(zavetisce.loc[zavetisce["imena"] == "Whiskers", "datumi_sprejema"])

1   2023-03-15
Name: datumi_sprejema, dtype: datetime64[ns]


Izpiši imena in starosti vseh psov v zavetišču:

In [38]:
print(zavetisce.loc[zavetisce["vrste"] == "Pes", ["imena","starosti"]])

   imena  starosti
0   Luna         2
2  Rocky         3
4  Maksi         5
6  Buddy         6


Izpiši vse živali, starejše od treh let"

In [39]:
print(zavetisce.loc[zavetisce["starosti"] >= 3, :])

      imena  vrste  starosti spoli datumi_sprejema  \
1  Whiskers  Mačka         4     M      2023-03-15   
2     Rocky    Pes         3     M      2023-04-02   
4     Maksi    Pes         5     M      2023-04-12   
6     Buddy    Pes         6     M      2023-03-08   

                                            opisi  
1  Sivo-bela dlaka, živahen, nejevoljen ob dotiku  
2            Labrador, rjave oči, igriv, poslušen  
4    Nemški ovčar, črno-rjava dlaka, velik, zvest  
6  Zlati prinašalec, svetlo rjava dlaka, prijazen  


Izpiši imena, vrste in opise vseh živali, ki so jih v zavetišče sprejeli pred 1. 4. 2023:

In [44]:
print(zavetisce.loc[zavetisce["datumi_sprejema"] <= '2023-04-01', ["imena","vrste","opisi"]])

      imena  vrste                                           opisi
1  Whiskers  Mačka  Sivo-bela dlaka, živahen, nejevoljen ob dotiku
3      Nala  Mačka               Črna dlaka, prijazna, zelo igriva
6     Buddy    Pes  Zlati prinašalec, svetlo rjava dlaka, prijazen
