<a href='http://www.algebra.hr'> <img src='../algebra_logo_color_h.png' alt="Algebra" width="500" /></a>
___
# Pandas - Python Data Analysis Library

Znamo da Python ima nekoliko tipova podataka koji se odnose na kolekcije. To su liste, rječnici, n-terci. Rad s ovim tipovima podataka nije tako brz kao u jezicima baziranim na C-u ili u Fortranu. Zbog toga su nastale biblioteke koje imaju učinkovitost kao da su pisane u C-u ili Fortranu, a istovremeno imaju jednostavnost pisanja kôda kao u Pythonu.

Pandas je jedna od njih. To je Python biblioteka za analizu i manipulaciju podataka, strukturiranih u obliku  tablice. Pandas koristi NumPy biblioteku kao podlogu. NumPy ćemo upoznati kasnije, a njegova osnovna karakteristika je također rad s tabličnim tipom podataka koji može pohraniti samo podatke koji se zbrajaju i množe (najčešće brojeve). Pandas, s druge strane, također radi s tabličnim tipom podataka, ali za razliku od NumPy biblioteke, nema uvjet koji se tip podatka može pohraniti u tablici.

Pandas je jako korisna biblioteka i ovo su samo neke od situacija u kojima se koristi:<br>
- upravljanje podacima koji nedostaju u tablicama s brojevima (na njihova mjesta dodaje *NaN - Not a Number*)
- mogućnost promjene veličine objekta tako što se dodaju ili oduzimaju kolone iz *DataFrame* objekta
- fleksibilno, a opet učinkovito grupiranje podataka koje omogućava modifikacije kao što su podjela, dodavanje, kombiniranje...
- jednostavna konverzija Python i NumPy struktura podataka, bez obzira na način indeksacije izvornih objekata u *DateFrame* objekt
- mogućnost izdvajanja dijelova podataka u zasebne cjeline na osnovi naziva kolona
- promjena oblika i rotacija (eng. *pivoting*) tablica
- uvoz i izvoz podataka iz datoteka CSV, Excel, baze podataka.

... i još puno drugih.

## Instalacija i uporaba

Dolazi kao dio Anaconda distribucije, a Pandas paket moguće je instalirati i koristiti zasebno pomoću naredbe:

In [1]:
# pip install pandas

Više detalja o instalaciji Pandas paketa na adresi: https://pandas.pydata.org/pandas-docs/stable/getting_started/install.html

Nakon instalacije, Pandas trebamo uključiti u skriptu, odnosno program:

Uobičajeno je da se Pandas dodaje tako da se preimenuje u "pd".

## Struktura podataka

Već smo naveli da se Pandas koristi za rad s podacima u obliku tablice. Nudi mogućnost da se učita cijela tablica i od nje napravi Python objekt s kojim možemo raditi svakojake manipulacije na podacima unutar tog objekta.

### *DataFrame*

Tablični oblik pohrane podataka zastupljen je u bazama podataka, tabličnim kalkulatorima (Excel, CSV). Ovakav, tablični tip podataka u Pandasu naziva se ***DataFrame*** i on predstavlja tablicu koja ima više redaka i stupaca. *DataFrame* ima retke i stupce pa kažemo da ima dvije dimenzije (os 0 - stupci i os 1 - redovi).

<img src='./01_table_dataframe.svg' alt="DataFrame" width="500" />
<center>Slika je preuzeta s:<br >
<a href='https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/01_table_oriented.html'> Pandas Documentation </a><center><br >

#### Kreiranje *DataFrame* objekta

Kreirajmo jedan *DataFrame* da nam bude malo jasnije.

Prvo ćemo uključiti Pandas biblioteku.

**NAPOMENA:** Mi ćemo u ovom slučaju kreirati jednu varijablu tipa *dict* i od nje ćemo kreirati tablicu. Vrijednost ključeva rječnika koristit će se kao nazivi stupaca, a kao vrijednost ćemo imati liste čiji će elementi biti dodijeljeni u redove svakog stupca. **Neki elementi lista su namjerno izbačeni, odnosno neke liste imaju manji broj članova!**

Sada možemo kreirati jednu varijablu u koju ćemo pohraniti našu tablicu pretvorenu u Python objekt, a koju ćemo dalje nazivati *DataFrame*. Dodatna informacija: često ćete u primjerima na internetu naći da se ove varijable nazivaju generičkim nazivom *df* kao *DataFrame*.

Obratite pažnju na prvu kolonu s brojevima od 0 do 4. To je kolona s indeksima redaka. Pandas je kolonu s indeksima sam kreirao. Kasnije ćemo se upoznati s mogućnostima prilagodbe ove opcije.

Isto tako, nismo morali koristiti print() funkciju za ispis, nego je bilo dovoljno samo navesti naziv *DataFrame* objekta i dobili smo formatirani ispis našeg rječnika u obliku tablice.

Vratit ćemo se na detaljne primjere rada s *DataFrame* objektom malo kasnije.

### Pandas *Series* / Serija

Drugi oblik podataka, za čiju obradu se koristi Pandas je *Series* ili serija kako ćemo je mi zvati. Serija predstavlja stupac u *DataFrame* tablici i zbog toga ima samo jednu dimenziju (os 0).

<img src='./01_table_series.svg' alt="DataFrame" heght="200" />
<center>Slika je preuzeta s:<br >
<a href='https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/01_table_oriented.html'> Pandas Documentation </a><center><br >


#### Kreiranje Serije

Rekli smo da je serija jednodimenzionalni Pandas objekt, jednostavnije, to je jedan stupac neke tablice ili *DataFrame* objekta. Seriju možemo kreirati na više načina pa krenimo s najčešćim, odnosno kreiranjem iz kolone prethodno kreiranog *DataFrame* objekta.

Uzet ćemo za primjer kolonu 3 i od nje kreirati seriju.

U liniji 1 gornje skripte, trebali biste prepoznati sintaksu za dohvat "vrijednosti" rječnika koja je pohranjena pod "ključem" navedenim u uglatim zagradama. *DataFrame* smo kreirali na osnovi rječnika, za dohvat jednog objekta *DataFramea* koristimo njegov naziv i ključ pod kojim je stupac pohranjen.

**Važno je zapamtiti: ovo je samo sintaksa za pristup stupcu *DataFrame* objekta, ali ovdje se NE radi o rječniku, već o objektu koji je Pandas *DataFrame* tip podatka!**

Primijetite još da serija nema naslov nego samo vrijednosti, odnosno na kraju, u zadnjem redu ispisa, naveden je naziv serije preuzet od naziva kolone *DataFramea*.

Kreirajmo novi Pandas serijski objekt koji nije vezan uz *DataFrame*.

Kreirali smo novi Pandas *Series* objekt od liste brojeva te smo mu dali ime Oznaka. Listu brojeva smo mogli kreirati zasebno u jednu varijablu te onda tu varijablu predati kao argument u *Pandas.Series()* metodu.

Kako seriju nismo vezali uz kolonu nekog *DataFramea*, korisno je navesti i naziv serije pa smo za to koristili argument name. Taj naziv će se prikazati u ispisu serije. Osim naziva serije, uvijek dobijemo i podatak o tipu podataka koji su pohranjeni u seriji (*dtype*). U ovom našem slučaju to je *int64*, odnosno *Integer* ili cijeli brojevi.

**ZADATAK**<br>
Kreirajte nekoliko novih serija sa sljedećim tipovima podataka: *string*, decimalni brojevi, *Boolean* vrijednosti, Python liste.

Pandas serija uvijek kreira jednu kolonu, u kojoj su indeksi retka u kojemu se čuva određeni podatak. Predefinirana vrijednost su cijeli brojevi počevši od 0 (nula). Za indekse možemo koristiti i druge opcije, recimo slova.

**NAPOMENA: Broj članova liste indeksa MORA biti jednak broju članova liste koju smo predali kao *DATA* argument!**

#### Pristup i izmjena članova serije

Kreirajmo Pandas seriju.

*Dodatna informacija: mogli smo koristiti varijablu iz prethodno kreirane ćelije ovog Jupyter Notebook dokumenta, ali ovaj put ćemo napraviti iznimku da primjer bude jasniji, a u seriju ćemo dodati još elemenata (uključujući i elemente bez vrijednosti).*

Pristupimo 5. elementu serije.

Sintaksa je ista kao za Python liste. Provjerimo, vrijedi li sintaksa za dohvat više elemenata istovremeno?

**Obratite pažnju na zadnji red u kojem je naveden naziv serije te tip podatka - i dalje se radi o istoj seriji, samo su prikazani pojedinačni elementi.**

Pokušajmo pohraniti izdvojene elemente u novu varijablu i provjerimo njezin tip i naziv.

Nema promjena, to je zato jer se i dalje radi o istom Pandas objektu. Kako ćemo onda kreirati novu seriju? Pokušajmo ovaj izdvojeni podskup podataka proslijediti kao *DATA* argument u *Pandas.Series()* metodu.

Prije toga, bilo bi dobro koristiti *help()* metodu, koja nam može pomoći ili dati neke smjernice.

Argument *"copy : bool, default False | Copy input data."* mogao bi biti zanimljiv zato jer smo sa svim dosadašnjim operacijama **uvijek čuvali reference na izvorni objekt.**

Ako ispišemo varijablu "serija", vidjet ćemo da smo sada kreirali novi Pandas *Series* objekt.

Čitanje, odnosno dohvat podataka i sintaksa su identične kao za Python liste. Provjerimo kako radi pridruživanje podataka, odnosno izmjena podataka pojedinačnih elemenata.

Za primjer ćemo koristiti novi Pandas *Series* objekt "podskup" i promijenit ćemo prvi element.

Dogodio se problem. Opis greške je "ValueError: 0 is not in range". Očigledno nemamo indeks 0 (nula). Podskup smo dobili od elemenata iz serije "serija". Ispišimo ponovno članove serije "podskup".

Prva kolona prikazuje brojeve 2 i 5 kao indekse nove Pandas serije naziva Podskup, kreirane od elemenata druge Pandas serije naziva Serija. Čuvanje indeksa može biti korisno, ali korisnije je ako za kolonu Index, koja se automatski kreira, znamo da uvijek počinje od 0. Ako se indeks kolona kreira automatski, onda se može jednostavno resetirati. Idemo to napraviti pomoću metode *reset_index()*.

Prvo ćemo dohvatiti listu indeksa i listu vrijednosti (rječnik - ključ/vrijednost) kako bismo provjerili njihove vrijednosti. Ovo nije nužno raditi prije resetiranja indeksa, nego je pokazano kako se to radi, a može biti korisno pri obradi podataka.

Provjerimo kako sada izgleda Pandas serija *podskup*.

Očigledno smo napravili izmjenu, ali tako da smo kreirali novi objekt koji nismo nigdje pohranili pa smo ga nakon završetka izvođenja skripte izgubili (provjerite koji bi to bio tip novog objekta - metoda *type()*).

Naš cilj je napraviti "trajnu" izmjenu indeksa, ali na našem postojećem objektu. Zato u metodu *reset_index()* trebamo dodati dva argumenta:<br>
- *inplace=True* - napraviti to nad postojećim objektom
- *drop=True* - uz *inplace* obavezan argument, osigurava to da se postojeći indeksi odbace i kreiraju novi. 

Provjerimo je li pomoglo.

Sada je već puno bolje. Vratimo se na mijenjanje podataka u Pandas seriji. Promijenimo prvi element serije i ispišimo seriju.

Probajmo promijeniti prvi element u neki podatak drugačijeg tipa, recimo u tekst.

Dakle, možemo dodavati i druge tipove podataka. Isto kao i u Python listi.

#### Filtriranje podataka

Zahvaljujući činjenici da je Pandas razvijen na NumPy biblioteci, dobili smo neke funkcionalnosti nad Pandas tipovima podataka. Probajmo filtrirati podatke u seriji tako da dohvatimo samo one veće od 6.

Uzmimo, na primjer, da naša serija sadrži postotke uz neke podatke. Da bismo mogli računati s postotcima,  moramo ih pretvoriti u decimalni oblik 0,nn (5% = 0,05). Umjesto da koristimo *for* petlju u Pythonu, to možemo napraviti puno jednostavnije, tako da varijablu *serija* podijelimo sa 100.

Sada možemo koristiti vrijednosti podataka u seriji kao postotak.

Možda ste primijetili da serija ima dosta istih brojeva. Napravimo filter koji će nam prikazati vrijednosti elemenata samo jednom, bez obzira koliko se puta taj element ponavljao.

Dobro je znati koje elemente imamo jedinstvene u našoj seriji, ali bi bilo dobro imati i informaciju koliko puta se taj broj ponavlja. To nam omogućava metoda *value_counts()* dostupna nad Pandas *Series* objektom. 

Provjerimo.

Prvi stupac prikazuje vrijednost (jedinstvenu), a drugi stupac prikazuje koliko se puta pojavljuje ta vrijednost u seriji. Dodali smo i još jednu metodu *sort_values()* koja sortira vrijednosti serije, što se može zaključiti iz naziva metode.

Ponekad želimo provjeriti postoje li u našoj seriji neki elementi. Vidjet ćemo kasnije zašto nam je to korisno.

Ponekad je korisno umjesto *Boolean* vrijednosti *True/False* dohvatiti vrijednosti elemenata koji zadovoljavaju uvjet te njihove indekse. 

Čitljivije je.

To je dovoljno informacija o Pandas *Series* objektu. Vrijeme je za vježbu.

**Zadatak**<br>
Generirajte nasumičnih 100 brojeva te ih pohranite u Python listu. Od te liste kreirajte Pandas seriju te joj dajte nekakav naziv.
- Provjerite, koliko ima brojeva koji se ponavljaju te koliko se puta svaki od njih ponavlja?
- Koji je broj najveći, a koji najmanji?
- Modificirajte podatke u seriji tako da se svedu na postotke (neka budu u rasponu od 0 do 1).
- Promijenite vrijednosti najvećeg broja tako da je identična vrijednosti najmanjeg broja. Provjerite koji je sada najveći broj.

**Zadatak**<br>
Tekst za obradu:<br>
*Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.*

Obradite gore navedeni tekst tako da od njega kreirate listu riječi koje imaju sva mala slova i nemaju znakove interpunkcije. Od te liste kreirajte Pandas seriju te joj dajte nekakav naziv.
- Provjerite, koliko ima riječi koje se ponavljaju te koliko puta se svaka od njih ponavlja?
- Provjerite koja je najduža, a koja najkraća riječ.

### *DataFrame*

Vratimo se na *DataFrame* objekt i upoznajmo se s njegovim mogućnostima.

Na početku smo kreirali jedan *DataFrame* (dalje u tekstu DF) na osnovi rječnika u kojem su podaci bili bez pravog smisla. Sada ćemo napraviti isto dok ne dođemo do dijela kada ćemo DF kreirati na osnovi podataka iz neke .csv datoteke. Koristit ćemo podatke o proizvodima (naziv, cijena, kategorija, ocjena).

Možda nam ne trebaju svi podaci, nego samo "naziv proizvoda" te "cijena". Kreirajmo DF samo od tih podataka.

Ovaj naš DF objekt je jednostavan, ali ćemo često raditi s puno većim tablicama preuzetim iz .csv datoteka i trebat ćemo se upoznati s tim podacima. Jedan od koraka je provjeriti nazive svih kolona.

Onda postoji mogućnost dohvata samo vrijednosti, bez naziva kolona.

**NAPOMENA: Kasnije ćemo pojasniti tip rezultata "array(\[...\])" zato jer je vezan uz NumPy.**

Možemo li možda dohvatiti i indekse kao u Pandas *Series* objektu? Provjerimo.

Indeksi se kreću u rasponu od 0 (uključeno) do 12 (isključeno) i korak je 1. Dakle, od 0 do 11.

Sve kolone imaju naziv preuzet iz "ključa" rječnika od kojeg smo kreirali DF, dok ga samo generirana kolona s indeksima nema. Dodajmo i njoj naziv "Id".

Ako želimo izdvojiti samo jednu kolonu (Pandas seriju), to već znamo. Treba samo navesti naziv DF-a i u uglatim zagradama naziv kolone.

Ovo je bilo lako, no što kada trebamo dohvatiti jedan ili tri reda za koje znamo njihove indekse? Možda Python sintaksa može pomoći. Provjerimo.

Ne pomaže. Ako si tablicu predočimo kao listu (redove) unutar liste (kolone), možda bismo mogli koristiti sintaksu za dvostruku listu **naziv_liste\[kolona\]\[red\]**. Provjerimo.

Radi, ali dobivamo samo jedan podatak.

Sintaksa dohvata redaka, kao u Python listama, NE radi za DF, nego dobijemo samo jedan podatak (jednu ćeliju). Radi li možda sintaksa za *slice* liste? Provjerimo tako što ćemo dohvatiti zadnjih 6 elemenata.

Ovo radi na način da i dalje koristimo *slice*, da prvo navedemo prvi element i zadnji element pa korak. Ako za korak koristimo negativan predznak, onda se krećemo u suprotnom smjeru. Važno je primijetiti da moramo ispravno definirati raspon. Najbolji način je uzeti zadnji indeks i od njega oduzeti onoliko elemenata koliko želimo dohvatiti.

DF ima jedan atribut naziva *loc* (od *location*) kojem predamo *listu* s jednim ili više indeksa. Probajmo:

#### Dodavanje i brisanje podataka

Dodajmo novu kolonu u naš DF. Nazvat ćemo je 'Količina na skladištu'. Ako smo kolone dodali na osnovi ključa rječnika, onda bismo se mogli poslužiti tom sintaksom. Probat ćemo nekoliko opcija generiranja vrijednosti da vidimo kako se ponaša dodavanje kolona.

Možda da dodamo listu vrijednosti u novu kolonu. Prvo ćemo probati s nekoliko brojeva da vidimo kako se ponaša pa ćemo onda probati dodatne opcije.

***ValueError: Length of values (6) does not match length of index (12)* greška govori da moramo dodati točno onoliko brojeva koliko imamo redaka.**

Probajmo s generiranjem nasumičnih brojeva za ovu novu kolonu na stari Python način, tako što ćemo, kada budemo radili s NumPy bibliotekom, koristiti generator nasumičnih brojeva ove biblioteke koji je jednako tako učinkovit i koristan.

Za brisanje kolone, uključujući i sadržaj kolone, koristimo komandu *del*.

Već smo koristili naredbu *isin()* na Pandas *Series*. Ista naredba vrijedi i nad Pandas *DataFrame* objektima. Provjerimo, imamo li proizvod naziva Neon i pojavljuje li se negdje broj 1499.00?

Ili čitljivije formatirano:

#### Čitanje i pisanje podataka

Tijekom ovog seminara, podatke ćemo učitavati iz .csv datoteka. Međutim, Pandas omogućava učitavanje podataka i iz drugih izvora kao što su baze podataka, JSON datoteke i sl. Čitanje i pisanje je omogućeno preko metoda koje za čitanje koriste englesku riječ read te dodatak naziva izvora. Za .csv datoteke to je metoda *read_csv()*. Za pisanje se koriste metode koje počinju s engleskom riječi to (prema) i opet je u nastavku naziv odredišta. Za .csv datoteku, to bi bila metoda *to_csv()*.

|**Čitanje**|**Pisanje**|
|---|---|
|read_csv|to_csv|
|read_sql|to_sql|
|read_json|to_JSON|
|read_clipboard|to_clipboard|

Kao što smo rekli, mi ćemo se tijekom ovog seminara koristiti .csv datotekama tako da ćemo koristiti *read_csv()* metodu, ali ćemo za demonstraciju koristiti pisanje u druge formate.

Iskoristimo Python *help()* metodu za upoznavanje s dostupnim opcijama metode *read_csv()*.

**NAPOMENA: za daljnje primjere, vježbe i zadatke koristit ćemo .csv datoteke iz mape *Data*.**<br>
**Sve datoteke su preuzete s javno dostupnih izvora koje svaka zemlja objavljuje na stranicama određenih statističkih zavoda. Ove datoteke namijenjene su znanstvenim istraživanjima i podučavanju.
Postoje i neke datoteke za čije se korištenje treba platiti, ali se one ne mogu preuzeti prije nego se izvrši uplata.**

Krenut ćemo s datotekom *'cars.csv'*. Idemo je učitati u *DataFrame* i prikazati.

Obratite pažnju na zadnju liniju u kojoj piše "407 rows × 1 columns". Dobili smo samo jednu kolonu. To nije dobro. Ako pogledamo rezultat koji smo dobili preko *help* metode za *read_csv()*, vidjet ćemo da imamo na raspolaganju *sep* argument (eng. *separator ili delimiter*). CSV je skraćenica od "*Comma-Separated Values*", odnosno zarezom odvojenih vrijednosti. Dakle, primarni *delimiter* je zarez, a mi u našem primjeru imamo ; kao *delimiter*. 

Ponovimo čitanje iz CSV datoteke, ali ovaj put ćemo dodati i argument za *delimiter*.

Sada je već puno bolje. I dalje imamo 407 redaka, ali sada smo dobili 9 kolona.

Provjerimo što ćemo dobiti ako koristimo svojstva: *columns, values i index.*

Svojstva *columns* i *index* su nam korisna, dok values i nije toliko. Puno korisnije informacije možemo dobiti ako saznamo koji tip podatka se nalazi u svakoj koloni. Za to koristimo *DataFrame* svojstvo *dtypes*.

Tip podataka za sve kolone je "object", što najčešće predstavlja tekstualni tip podatka ili tip podatka nad kojim se ne mogu izvršavati matematičke operacije. Međutim, u ovom slučaju to nije točno. Postoje kolone, čak ih je većina, koje sadrže numeričke podatke.

Ako malo bolje pogledate prikaz *DataFramea*, vidjet ćete da je red s indeksom 0, red u kojem su navedeni tipovi podatka za svaku kolonu. Taj red nam nije potreban. Navedene podatke možemo dobiti pomoću metoda Pandas *DataFramea*. 

Izbrišimo ga.

Provjerimo ponovno tip podataka u ćelijama.

I dalje je navedeno da se radi o 'object' tipu podataka. Pandas *DataFrame*, prilikom uvoza podataka, automatski prilagodi tip podatka, ali kako je u našem primjeru prvi podatak bio tekstualnog tipa (redak koji smo izbrisali), onda je cijela kolona ostavljena u tekstualnom tipu. U našem primjeru postoje kolone koje zaista imaju tekstualne podatke (naziv automobila u koloni *Car*) pa nije moguće koristiti naredbu *astype()* nad cijelim DF-om, već samo na pojedinačnim kolonama.

Za konverziju tipa podataka, koristi se metoda *astype()* koja kao argument prihvaća naziv tipa podataka. Metoda vraća konvertirane podatke na način da ih je potrebno pohraniti.

*Informativno: pokušajte pokrenuti **cars_df.astype(float).***

Provjerimo još jednom tipove podataka.

Sada smo dobili kolonu koja čuva podatke o potrošnji (milja po galonu).

**Zadatak**<br>
**Napravite konverziju preostalih kolona koje čuvaju numeričke podatke.**

Svo ovo smo mogli napraviti puno jednostavnije i brže. Gornji primjer je naveden zato da bismo pokazali kako se mogu raditi konverzije pojedinačnih kolona.

Vratimo se ispravnom uvozu podataka. Sada kada znamo da nam prvi red radi poteškoće, onda ćemo ga odmah tijekom uvoza izostaviti tako što ćemo koristiti argument *skiprows* koji predstavlja listu indeksa redova koje želimo izostaviti.

Dobili smo ispravno uvezene tipove podataka u jednom redu. Ovo je jako važno kada imamo velike datoteke koje imaju jako puno redova, ali i kolona, zato je prolazak kolonu po kolonu kako bi se promijenio tip podatka zamoran, neučinkovit i podliježe greškama.

*Dodatna informacija: postoje još dodatni argumenti koje ćemo upoznati kasnije ili čiju primjenu možete sami istraživati.*

Sada kada smo prilagodili tip podatka u kolonama na način da nama odgovara. Nastavimo dalje s upoznavanjem s našim podacima te njihovom normalizacijom.

Provjerimo imamo li prazne ćelije. To su ćelije koje ne čuvaju nikakve podatke. Za to koristimo svojstvo *empty*. Ovo svojstvo vraća True ako nađe praznu ćeliju, odnosno *False* ako nema praznih ćelija.

U našem primjeru imamo "samo" 406 redaka. Vidjet ćete iz kasnijih primjera da ovakve tablice imaju i po desetak tisuća redaka. Nakon uvoza podataka, koristili smo integrirani tablični prikaz DF-a koji prikazuje prvih 5 redova pa onda jedan red s po tri točkice, zadnjih pet redova te na kraju broj redova i kolona. Ponekad će i ovakav prikaz biti nejasan pa se ovi dijelovi prikaza mogu prikazati zasebno.

- *head()* - prikazuje prvih pet redova, a ako kao argument dajemo cijeli broj, vratit će nam toliko redova
- *tail()* - prikazuje zadnjih pet redova, a ako kao argument dajemo cijeli broj, vratit će nam toliko redova
- *shape* - svojstvo koje vraća broj redaka i broj kolona u obliku n-terca (broj_redaka, broj_kolona)

**VJEŽBA Dohvatite 3., 8. i 15 prvih, odnosno zadnjih redaka.**

Upoznajmo se s još jednom metodom za upoznavanje s podacima, odnosno cijelim DF-om. To je metoda *info()*.

Uvoz podatka u Pandas je jako opširno područje, no zajedno smo prošli najvažnije dijelove. Uvoz podataka iz drugih izvora, kao što su JSON, Excel i baze podataka (SQLite3 i sl.) nismo radili, ali se puno ne razlikuju. Za rad s bazama podataka UVIJEK trebate imati jedan objekt koji predstavlja konekciju prema bazi, taj ćete objekt trebati i za Pandas pa vodite računa da radite na način jedna tablica, jedan DF.

Pisanje u datoteke je također jednostavno. Koristite metodu *to_csv()* kojoj kao argument predate naziv datoteke i to je dovoljno. Naravno, možete koristiti i neke dodatne argumente za formatiranje, izbacivanje nekih podataka i slično.

**ZADACI**

Uvezite, normalizirajte te dokumentirajte sljedeće skupove podataka iz mape Data\Vjezbe_Primjeri:<br>
- *baby_names_France_from_nat1900-2017.tsv* - .tsv ekstenzija je isto kao i .csv, samo što je *tab delimiter*
- *e-cars.csv*
- *mall_customers.csv*
- *titanic_data.csv*
- *airbnb_new_york_city_reviews.csv*
- *airbnb_new_york_city_listings.csv*

*Dodatna informacija:  dokumentacija skupa podataka predstavlja opis toga kakav je skup bio u izvornom obliku (kakve podatke je imao, koliko redaka, kolona, praznih ćelija, tipova podatka ...) te kako skup izgleda nakon normalizacije. Ovo je važan korak jer ćete ponekad trebati samo pripremiti podatke, dok će njihovu obradu raditi netko drugi.*