# Dokumentacija Pandas

Pandas je knjižnica za programski jezik Python in nam omogoča delo s podatkovnimi zbirkami. Pandas podpira funkcije za ustvarjanje, spreminjanje, prečiščevanje in analizo podatkov. Danes je Pandas najbolj razširjena knjižnica za delo z različnimi podatkovnimi zbirkami, na področju podatkovne znanosti in visokozmogljivega računalništva pa je praktično že standard. Namen knjižnice je programerjem, podatkovnim znanstvenikom in ostalim uporabnikom omogočiti vpogled v podatkovne zbirke na človeku prijazen način in jim nuditi podporne funkcije za delo s podatki. Le tako lahko uporabniki pripravijo podatkovne zbirke v ustrezno obliko, ki bistveno olajša nadaljnje delo s podatki. V primeru velepodatkov je to še toliko bolj pomembno, saj predstavljajo osnovo za najrazličnejše modele umetne inteligence ali druge procese masovne obdelave.

Več o knjižnici Pandas lahko preberete na straneh uradne dokumentacije: https://pandas.pydata.org/pandas-docs/stable/

Ker je Pandas tudi odprtokodna knjižnica, si lahko programsko kodo podrobneje pogledate na repozitoriju GitHub: https://github.com/pandas-dev/pandas

# Namestitev Pandas

Če imamo na sistemu nameščen Python in PIP, lahko knjižnico Pandas enostavno namestimo v ukazni vrstici z ukazom:

> pip install pandas

Knjižnico lahko namestimo tudi v sklopu programskih orodij kot je [Anaconda](https://www.anaconda.com/download). Orodje Anaconda je uporabnikom zelo prijazno in bistveno olajša delo s različnimi knjižnicami za programski jezik Python.

Še ena alternativa so Jupyter Notebook zvezki, ki so na voljo na platformi [Google Colab](https://colab.research.google.com/). V tem primeru namestitev ni potrebna, saj se vse odvija na oddaljenem strežniku Google. To je tudi najhitrejši način, da lahko začnete uporabljati knjižnico Pandas. Vse kar potrebujete je Googlov uporabniški račun.

# Uporaba Pandas

Po uspešni namestitvi lahko začnemo z uporabo knjižnice Pandas. Tako kot vse ostale knjižnice v programskem jeziku Python, je potrebno knjižnico najprej vključiti v naš program. To storimo z ukazom ``import``:

> **import** pandas

S tem smo vključili knjižnico in jo že lahko začnemo uporabljati. Spodaj je podan primer vključevanja knjižnice v program in enostavna uporaba.

In [4]:
# Primer 1: vključevanje knjižnice Pandas in enostavna uporaba

# vključevanje knjižnice z import
import pandas

# podatki o številu prebivalcev po občinah v Sloveniji (1. januar 2023)
data = {
    'mesto': ['Maribor', 'Novo Mesto', 'Kranj', 'Ljubljana', 'Koper', 'Celje'],
    'st_prebivalcev': [113000, 38075, 57171, 296228, 48776, 53875]
}

# ustvarjanje strukture DataFrame
df = pandas.DataFrame(data)

# izpis podatkov
print(df)

        mesto  st_prebivalcev
0     Maribor          113000
1  Novo Mesto           38075
2       Kranj           57171
3   Ljubljana          296228
4       Koper           48776
5       Celje           53875


V izpisu vidimo, da je knjižnica Pandas za nas uredila podatke v tabelo s stolpcema ``mesto`` in ``st_prebivalcev``. Podatki niso urejeni po abecednem redu imena mesta ali številu prebivalcev, temveč so v vrstnem redu, ki smo ga navedli pri ustvarjanju spremenljivke ``data``. Urejanje podatkov je ena izmed funkcionalnosti, ki nam jo omogoča knjižnica Pandas, vendar si bomo to funkcionalnost in še nekaj podobnih podrobneje pogledali v nadaljevanju.

Ker knjižnico Pandas uporabljamo na več mestih, nam morda ni vedno praktično pisati imena ``pandas``, kot smo ga navedli pri vključevanju (z ``import``). To referenco lahko skrajšamo z uporabo nadomestnega imena *(ang. alias)*. Uporaba nadomestnih krajših imen za pogosto uporabljene knjižnice lahko danes opazimo kot primer dobre prakse. Ime ``pandas`` največkrat zamenjamo s ``pd``.

Nadomestno ime (alias) določimo ob vključevanju knjižnice:
> import pandas **as pd**

Po izvedbi tega ukaza lahko dostopamo do vseh funkcionalnosti knjižnice Pandas tako, da uporabimo ime ``pd``. V spodnjem primeru smo uporabili nadomestno krajše ime.

In [5]:
# Primer 2: vključevanje knjižnice Pandas z nadomestnim krajšim imenom

# vključevanje knjižnice z import in nastavljanje krajšega imena
import pandas as pd

data = {
    'mesto': ['Maribor', 'Novo Mesto', 'Kranj', 'Ljubljana', 'Koper', 'Celje'],
    'st_prebivalcev': [113000, 38075, 57171, 296228, 48776, 53875]
}

# v tej vrstici zdaj uporabimo "pd" namesto "pandas"
df = pd.DataFrame(data)

# izpis podatkov
print(df)

        mesto  st_prebivalcev
0     Maribor          113000
1  Novo Mesto           38075
2       Kranj           57171
3   Ljubljana          296228
4       Koper           48776
5       Celje           53875


Kot zadnji primer še poglejmo kako preverimo nameščeno različico knjižnice Pandas. Podobno lahko dostopamo do drugih lastnosti, ki so navedene v [uradni dokumentaciji](https://pandas.pydata.org/pandas-docs/stable/). Preverjanje različice Pandas je koristno kadar želimo preveriti ali je bila namestitev uspešna. Različico Pandas izpišemo s pridobivanjem lastnosti ``__version__``.

In [6]:
# Primer 3: izpis različice Pandas
print(f'Uporabljamo Pandas različico {pd.__version__}')

Uporabljamo Pandas različico 2.0.3
