# Čišćenje podataka u Pajtonu

__Ova sveska je posvećena algoritamskom čišćenju podataka gde pokušavamo da prepoznamo obrazac greške kako bismo sve takve greške ispravili u što manje koraka. Sadržaj je napredniji i teži za razumevanje nego u ostalim sveskama. Svejedno, važno je da vidimo kako čišćenje podataka funkcioniše i zašto je neophodno za kvalitetnu analizu podataka.__

Velike količine podataka koje prikupljaju i unose različiti ljudi uvek nose rizik od nedoslednosti u pogledu formata unosa. Sa mašinama je lako, ali ljudi u skladu sa svojom kulturom, navikama ili potrebom da budu kreativni često unose ono što nam ne treba. Za mašinski čitljive podatke je najvažnije da imaju poznatu strukturu i da budu formatirani na isti način. Ovo možda zvuči kao nepotrebno cepidlačenje, ali nije. Ljudi koji se bave obradom i analizom podataka najveći deo svog vremena troše na čišćenje podataka (eng. _data cleaning_).  

Uvek treba imati na umu da je čišćenje podataka, u krajnjoj liniji, proizvoljno menjanje podataka o kojima znamo manje od onoga ko je podatke unosio. Normalno je da oni koji unose podatke naprave previd ili podatak unesu na pogrešan način. Isto tako je normalno da mi to primetimo i napravimo korekciju. Za neke druge podatke, opet, ne znamo šta da mislimo; možda je greška, možda nije. Granica je svakako subjektivna. Onaj ko čisti podatke mora da ima znanje iz oblasti na koju se podaci odnose, da zna šta je moguće a šta nije, šta može da bude verodostojno, a šta je sigurno greška. Baš zbog toga što je kriterijum za korekciju podataka subjektivan ne možemo potpuno da ga automatizujemo. To moraju da rade ljudi koji znaju kontekst podataka. Mašina može da pomogne da to uradimo brže.

Nas u ovom kursu interesuju pre svega podaci spakovani u tabele, odnosno jednu konkretnu tabelarnu strukturu _DataFrame_. Ova struktura, kao i funkcije za rad sa njom, sastavni su deo biblioteke __pandas__ pa je uputno na početku rada sa podacima u Pajtonu uvek prvo učitati ovu biblioteku.

In [1]:
import pandas as pd

Za potrebe obuke učitaćemo jedan fajl kom je potrebno malo čišćenja. To je [bibliotečki registar](https://github.com/realpython/python-data-cleaning/blob/master/Datasets/BL-Flickr-Images-Book.csv) u kom se nalaze ime knjige, autor, izdavač, godina izdanja itd.

In [2]:
bibreg=pd.read_csv("data/BL-Flickr-Images-Book.csv")

In [3]:
bibreg.head(8)

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.
5,481,"Fourth edition, revised, etc.",London,1875,William Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9006.ee.10.
6,519,,London,1872,The Author,Lagonells. By the author of Darmayne (F. E. A....,"A., F. E.","ASHLEY, Florence Emily.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12637.e.3.
7,667,,"pp. 40. G. Bryan & Co: Oxford, 1898",,,"The Coming of Spring, and other poems. By J. A...","A., J.|A., J.","ANDREWS, J. - Writer of Verse",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 011652.g.73.


Čak i površan uvid u podatke otkriva da ima mnogo polja u kojima piše NaN što znači da tog podatka nema, a da je neki softver prazno polje zamenio ovom oznakom. Nadajmo se da se nijedan izdavač ili knjiga ne zovu baš "NaN". Takođe, vidimo da neki podaci nisu konzistentno unošeni. Za godinu izdanja (_Date of Publication_) uglavnom stoji broj, ali ima i onih sa uglastim zagradama. Imena autora izgledaju kao haos posebne vrste.

## Indeksna kolona

Vrlo važna karakteristika funkcionalne tabele sa podacima jeste da ima kolonu u kojoj se vrednosti ne ponavljaju. Takvih kolona može biti više, ali jednu od njih treba izabrati za "glavnu" i proglasiti je indeksnom kolonom. Takva kolona nam omogućava jednoznačno označavanje redova u tabeli. Svaki element te kolone odgovara tačno jednom redu u tabeli.

Da bismo se na sličan način pozivali na kolone u tabeli, potreban nam je "indeksni red". On već postoji. To je zapravo zaglavlje tabele, odnosno red u kom su nazivi kolona. Nazivi kolona ne mogu da se ponavljaju pa je su vrednosti u tom redu jedinstvene.

Svaki _DataFrame_ automatski dobija svoju indeksnu kolonu. Ako mi ne kažemo mašini koja je to kolona, Pajton će sam dodeliti kolonu sa indeksom 0, 1, 2, 3... Najvažnije svojstvo indeksne kolone je da sadrži jedinstvene podatke. Ako se podaci u koloni ponavljaju onda ona ne može da bude indeksna.

U tabeli __bibreg__ postoji kolona __Identifier__ koja bi mogla da bude taj jedinstveni identifikator koji su uneli bibliotekari mnogo pre nego što se neko setio da pravi tabele u Pajtonu. Da li su sve vrednosti u koloni jedinstvene možemo da proverimo funkcijom `is.unique()`.

In [4]:
bibreg['Identifier'].is_unique

True

Jeste jedinstvena. To znači da možemo nju da koristimo umesto automatski dodeljenog niza nenegativnih celih brojeva. To ćemo učiniti pomoću funkcije `set_index()`. Glavni argument ove funkcije je naziv kolone koju ćemo proglasiti za indeksnu, ali argumenata može da bude više. Ovde ćemo iskoristiti argument `inplace=True` koji Pajtonu saopštava da hoćemo da promeni i zapamti sadržaj tabele. Bez toga bismo samo dobili ispis u kom je postavljena indeksna kolona dok bi u memoriji ostao isti onaj stari DataFrame. Naravno, isti rezultat bismo mogli da dobijemo i ako novoj tabeli pridružimo izmenjenu tabelu: `bibreg=bibreg.set_index('Identifier')`. To su dva načina da dobijemo isti rezultat. Birajte šta vam se više sviđa.

In [5]:
bibreg.set_index('Identifier', inplace = True)
bibreg.head()

Unnamed: 0_level_0,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


## Pristupanje podacima pomoću "pristupnika" loc[] i iloc[]

Sad kad imamo indeksnu kolonu, podacima u tabeli možemo da pristupamo na različite načine. `loc[]` i `iloc[]` su posebni načini pristupa podacima preko oznaka i indeksa. U prvom slučaju koristimo oznake, tj. podatke iz indeksne kolone i nazive kolona, a u drugom redne brojeve redova i kolona koji počinju nulom. Evo primera kako možemo da ih upotrebimo. Primetite kako se indeksna kolona ne broji kao ni red u kom su nazivi kolona.

In [6]:
bibreg.loc[216,'Publisher']

'Virtue & Co.'

In [7]:
bibreg.iloc[1,3]

'Virtue & Co.'

Slično možemo da pristupimo samo određenim redovima ili kolonama. Na primer, ovako:

In [8]:
bibreg.loc[216]

Edition Statement                                                       NaN
Place of Publication                               London; Virtue & Yorston
Date of Publication                                                    1868
Publisher                                                      Virtue & Co.
Title                     All for Greed. [A novel. The dedication signed...
Author                                                            A., A. A.
Contributors                   BLAZE DE BURY, Marie Pauline Rose - Baroness
Corporate Author                                                        NaN
Corporate Contributors                                                  NaN
Former owner                                                            NaN
Engraver                                                                NaN
Issuance type                                                   monographic
Flickr URL                http://www.flickr.com/photos/britishlibrary/ta...
Shelfmarks  

In [9]:
bibreg.iloc[:,1]

Identifier
206                          London
216        London; Virtue & Yorston
218                          London
472                          London
480                          London
                     ...           
4158088                      London
4158128                       Derby
4159563                      London
4159587         Newcastle upon Tyne
4160339                      London
Name: Place of Publication, Length: 8287, dtype: object

## Izbor kolona

Tabele sa podacima znaju da budu prevelike. Ne zbog memorije računara, nego zato što ne možemo lako da vidimo podatke na ekranu. Zato je uvek dobro osloboditi se balasta na početku. Ako nam za konkretan zadatak neke kolone (ili redovi) nisu potrebne, onda ih treba odmah izbrisati i raditi sam manjom tabelom.

Ako nam je potrebno svega nekoliko kolona, najbolje je da njihove nazive stavimo u listu i svedemo _DataFrame_ tako da sadrži samo njih. U suprotnom, ako hoćemo samo neke da isključimo, stavimo ih u listu i pozovemo funkciju `drop()` iz __pandas__ biblioteke. Na primer, možemo da stavimo kao argument funkcije `drop()` listu za_brisanje koju smo prethodno definisali kao `za_brisanje=['Edition Statement','Corporate Author','Corporate Contributors','Former owner','Engraver','Contributors','Issuance type','Shelfmarks']`. Priznaćete, malo je zametno navoditi sve nazive kolona koje hoćemo da obrišemo. Altenativa je da istu listu definišemo preko rednih brojeva kolona: `za_brisanje=bibreg.columns[[0,6,7,8,9,10,11,13]]`.   

In [10]:
za_brisanje=bibreg.columns[[0,6,7,8,9,10,11,13]]

In [11]:
bibreg.drop(za_brisanje, axis = 1, inplace = True)

Argument `axis=1` kaže funkciji da treba obrisati kolone. Da je ta vrednost 0, funkcija bi obrisala redove.

In [12]:
bibreg.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


### Priprema numeričkih podataka

Sada imamo tabelu sa manje kolona gde je prilično jasno šta je sadržaj. Ono što je sporno je forma sadržaja. U drugoj koloni bi trebalo da budu brojevi koji označavaju godine. Međutim, mašina tu ne vidi brojeve već tekst. CSV fajlovi ne čuvaju podatke o tipu promenljive. Za Pajton je odmah po učitavanju sve između zareza string. Za bilo kakvu numeričku analizu, npr. traženje minimuma, zbira ili srednje vrednosti potrebno je podacima promenimo tip promenljive. Dok god postoje u koloni elementi sa znacima koji nisu cifre, minus i decimalna tačka to neće biti moguće.

Probajte da nađete najstariju knjigu u registru. To bi trebalo da bude najmanji broj u koloni pomoću funkcije `min()`. 

In [13]:
# bibreg['Date of Publication'].min()

Pre čišćenja podataka prvo treba da vidimo kog su tipa promenljive u kolonama. Od toga zavisi koje ćemo tehnike koristiti za čišćenje.

In [14]:
bibreg.dtypes

Place of Publication    object
Date of Publication     object
Publisher               object
Title                   object
Author                  object
Flickr URL              object
dtype: object

Vidimo da je i __Date of Publication__ tipa _object_. Razlog za to su uglaste zagrade, zarezi i crtice koje se nalaze u nekim poljima te kolone. Dok god postoji barem jedno polje u kom nije broj, Pajton kolonu neće prepoznati kao numeričku. Ukoliko tih polja ima malo, uređivanje možemo da uradimo i ručno. Da vidimo isplati li se to napisaćemo mali program koji pokušava da element niza pretvori u ceo broj. Za svaki element gde ne uspe u tome program će povećati broj za jedan. 

In [15]:
n=0
for element in bibreg['Date of Publication']:
    try:
        tmp = int(element)
    except:
        n+=1

In [16]:
n

1759

In [17]:
len(bibreg)

8287

Vidimo da čak 1759 od 8287 elemenata u ovoj koloni ne možemo da pretvorimo u broj. To svakako ne treba da radimo ručno. 

In [18]:
print (bibreg['Date of Publication'][:30])

Identifier
206            1879 [1878]
216                   1868
218                   1869
472                   1851
480                   1857
481                   1875
519                   1872
667                    NaN
874                   1676
1143                  1679
1280                  1802
1808                  1859
1905                  1888
1929           1839, 38-54
2836                  1897
2854                  1865
2956               1860-63
2957                  1873
3017                  1866
3131                  1899
4598                  1814
4884                  1820
4976                  1800
5382    1847, 48 [1846-48]
5385               [1897?]
5389               [1897?]
5432                  1893
6036                  1805
6821                  1837
7521                  1896
Name: Date of Publication, dtype: object


Automatsko čišćenje podataka u ovoj koloni nije jednostavno. Prvo, zato što nismo sigurni šta treba da prepoznamo kao broj. Drugo, zato što ne postoji jednostavan način za to.

Da se dogovorimo prvo šta treba da prepoznamo kao broj. Jedno rešenje (koje ne mora da bude najbolje) je da tražimo samo one elemente u koloni koji počinju sa četiri cifre, da te četiri cifre pretvorimo u broj, a da sve ostalo zanemarimo. To znači da bi prvi element bio 1879, drugi 1868 itd.

Način na koji ćemo to uraditi je da prepoznamo deo teksta koristeći regularne izraze. Ovo je dosta komplikovana tema koju ovde ne možemo da obradimo. Možda je najbolje da nam verujete da to tako zaista radi.

### Regularni izrazi

Regularni izrazi (eng. _regular expressions_) su kodirani opisi sadržaja u nekom tekstu. Pajton može da pretraži niz tekstualnih podataka u potrazi za sadržajem koji odgovaraju tom opisu. Način na koji se kodiraju regularni izrazi nisu baš intuitivni. Drugim rečima, ako su vam načini na koji se zapisuju i rade regularni izrazi zbunjujući i nerazumljivi, to je sasvim normalno.

Mi ćemo pomoću regularnih izraza da potražimo grupe od četiri cifre na početku tekstualne promenljive. [Regularni izraz](https://regex101.com/r/3AJ1Pv/1) koji to opisuje je `^(\d{4})`. Kod `\d` označava _digit_, odnosno bilo koju cifru, `{4}` znači da se cifre ponavljaju tačno 4 puta, zagrade označavaju grupu koju treba obeležiti, a kod `^` da se tim tekstom počinje red. Za razliku od običnog teksta koji stavljamo pod navodnike kad ga pridružujemo promenljivoj, ovde ispred navodnika stoji slovo `r` koje označava da to nije običan tekst već kodirani opis teksta.

In [19]:
maska=r'^(\d{4})'

Sada treba da prođemo kroz sve elemente kolone __Date of Publication__ i izvučemo string sa traženim opisom ukoliko postoji u tom elementu. To ćemo uraditi pomoću funkcije `str.extract()`. Argumenti ove funkcije su regularni izraz koji smo stavili u promenljivu __maska__ i napomena Pajtonu da izlaz bude samo jedna kolona.

In [20]:
year = bibreg['Date of Publication'].str.extract(maska, expand=False)

In [21]:
year

Identifier
206        1879
216        1868
218        1869
472        1851
480        1857
           ... 
4158088    1838
4158128    1831
4159563     NaN
4159587    1834
4160339    1834
Name: Date of Publication, Length: 8287, dtype: object

Vidimo da je Pajton prepoznao i izdvojio grupe od četiri cifre koje bi trebalo da predstavljaju godine. Tamo gde mu to nije pošlo za rukom piše __NaN__. Primetite da ovi podaci i dalje nisu brojevi nego stringovi. Da bi postali brojevi potrebno je da ih pretvorimo u brojeve pomoću funkcije `to_numeric()`. To nije bilo moguće pre čišćenja. Nadajmo se da će sada raditi.

In [22]:
year = pd.to_numeric(year)

Ako je sve u redu onda ćemo moći da nađemo najstariju knjigu.

In [23]:
year.min()

1510.0

Najstarija knjiga je iz 1510. godine. To je baš staro. Možete li da otkrijete koja je to knjiga?

In [24]:
bibreg.loc[year==1510]

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2938347,Paris,1510?],in aedibus Nicolai Crispini,Piutarchi Chaeronensis Regum  Imperatorum Apo...,,http://www.flickr.com/photos/britishlibrary/ta...


Sve knjige za koje nismo uspeli da prepoznamo godinu izdavanja imaju oznaku __NaN__ koju uočavamo pomoću funkcije `isnull()`. Ako saberemo koliko takvih ima, znaćemo koliko je čišćenje bilo uspešno.

In [25]:
year.isnull().sum()

971

U poređenju sa 1759 broj 971 jeste manji, ali i dalje značajan. Međutim, ono što je značajnije jeste da smo tekstualne zapise pretvorili u brojeve koje možemo dalje da analiziramo. 

Bilo bi dobro očišćene numeričke podatke ubaciti nazad u tabelu, ali nije preporučljivo da to uradite tako što prebrišete originalne podatke u koloni __Date of Publication__. Tako bismo izgubili mogućnost da proverimo je li čišćenje bilo dobro i eventualno promenimo kriterijum kasnije. Bolje je da imamo originalnu i očišćenu kolonu jednu pored druge. Pomoću funkcije `insert()` možemo da ubacimo na određeno mesto u tabeli kolonu sa imenom i vrednostima kao argumentima.

In [26]:
bibreg.insert(2, "Year", year)

In [27]:
bibreg

Unnamed: 0_level_0,Place of Publication,Date of Publication,Year,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
206,London,1879 [1878],1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
...,...,...,...,...,...,...,...
4158088,London,1838,1838.0,,"The Parochial History of Cornwall, founded on,...","GIDDY, afterwards GILBERT, Davies.",http://www.flickr.com/photos/britishlibrary/ta...
4158128,Derby,"1831, 32",1831.0,M. Mozley & Son,The History and Gazetteer of the County of Der...,"GLOVER, Stephen - of Derby",http://www.flickr.com/photos/britishlibrary/ta...
4159563,London,[1806]-22,,T. Cadell and W. Davies,Magna Britannia; being a concise topographical...,"LYSONS, Daniel - M.A., F.R.S., and LYSONS (Sam...",http://www.flickr.com/photos/britishlibrary/ta...
4159587,Newcastle upon Tyne,1834,1834.0,Mackenzie & Dent,"An historical, topographical and descriptive v...","Mackenzie, E. (Eneas)",http://www.flickr.com/photos/britishlibrary/ta...


### Čišćenje tekstualnih podataka

Za razliku od numeričkih podataka, tekstualne možemo da analiziramo i pre čišćenja. Za tekst imamo drugu vrste analize (koliko ima kojih elemenata, kog ima najviše itd.). Rezultati možda neće biti najpouzdaniji, ali ćemo dobiti nešto informativno. Da vidimo, na primer, statistiku mesta izdavanja knjiga iz registra __bibreg__.

In [28]:
bibreg['Place of Publication'].value_counts()

London                                         3868
Paris                                           479
Edinburgh                                       208
New York                                        177
Leipzig                                         119
                                               ... 
pp. 40. Hodder & Stoughton: London, [1900.]       1
Carpi                                             1
V Praze                                           1
Hamburg?                                          1
Tiverton                                          1
Name: Place of Publication, Length: 1441, dtype: int64

Imamo 1441 različit zapis mesta izdavanja. Verovatno mesta izdavanja ima manje, ali su zapisani drugačije. Promena tog broja može da bude pokazatelj koliko smo dobro očistili kolonu.

In [29]:
bibreg['Place of Publication'].value_counts()[:40]

London                3868
Paris                  479
Edinburgh              208
New York               177
Leipzig                119
Philadelphia            89
Berlin                  70
Boston [Mass.]          52
Dublin                  48
Glasgow                 45
Oxford                  44
Boston                  41
Wien                    38
Madrid                  33
Stockholm               33
Bruxelles               28
Cambridge               26
Amsterdam               25
Firenze                 24
Stuttgart               24
Chicago                 24
Birmingham              23
Manchester              20
Milano                  20
Calcutta                19
enk                     19
Tours                   19
Bristol                 18
Kjøbenhavn              18
Buenos Aires            16
С.-Петербургъ           16
Lisboa                  16
Norwich                 16
Edinburgh & London      16
New-York                16
Cincinnati              14
México                 14
H

Ono što vidimo na prvi pogled je da imamo više zapisa koji se odnose na isti grad. Na primer, __London__ (3868) i __London]__ (14) ili __Boston [Mass.]__ (52) i __Boston__ (41). Čišćenje podatka bi to trebalo da objedini. Već iz 40 najčešćih mesta izdavanja vidimo da se nazivi mesta ponavljaju kroz različite zapise. Među ostalih hiljadu mora da ih ima još mnogo.

Da vidimo za zapise u kojima se pojavljuju reči __"London"__, __"Paris"__ ili __"Boston"__ kakvih sve oblika ima.

In [30]:
place=bibreg['Place of Publication']

Kao i kod numeričkih podataka dobra je praksa ne menjati originalne podatke nego napraviti još jednu kolonu (__place__) u kojoj su podaci očišćeni kako mislimo da treba. To nam ostavlja mogućnost da kasnije, pod uticajem nekih novih saznanja, promenimo odluku. Dobro je da originalna kolona i kolona sa očišćenim podacima stoje jedna pored druge. 

In [31]:
place[place.str.contains("Boston")]

Identifier
16544              Boston
28758              Boston
45172              Boston
53627              Boston
69331              Boston
                ...      
3954038    Boston [Mass.]
3954691            Boston
3954692            Boston
3954693    Boston [Mass.]
3970785     Boston [U.S.]
Name: Place of Publication, Length: 119, dtype: object

In [32]:
place[place.str.contains("York")].value_counts()

New York                                            177
New-York                                             16
London & New York                                    10
York                                                  8
New York & London                                     3
London; New York [printed]                            3
Macmillan & Co.; New York                             2
London; New York printed                              1
New York, 1866                                        1
pp. viii. 291. Harper & Bros.: New York, 1888         1
New York; Kegan Paul & Co                             1
Nouvelle-York                                         1
New York [printed]; London                            1
New York, London                                      1
Neuva York [sic]                                      1
London, Edinburgh and New York                        1
pp. 110. John Lane: London, New York, 1918            1
Boston and New York                             

Ima čak 245 različitih zapisa u kojima se pominje London. To neće biti jednostavno za čišćenje. Neke od ovih zapisa verovatno ne bi trebalo menjati: __Edinburgh & London__ bi trebalo da ostane tako kako jeste, ali bi __Longman & Co. London__ trebalo promeniti u __London__. Međutim, kod čišćenja podataka treba biti praktičan. Ako već znamo da čišćenje podatka traži mnogo vremena i da nikad ne možemo da budemo sigurni jesmo li sve ispravili kako treba, onda treba početi od očiglednih i značajnih izmena. Prvo ispravljajte greške koje su najbrojnije. Spojte __Boston [Mass.]__ i __Boston__ u jedan zapis, promenite __New-York__ u __New York__ pa onda redom.

Postoji li nešto što možemo da uradimo pre nego što konkretne nazive mesta krenemo da zamenjujemo drugima? Vidimo na primer da postoje različiti zapisi "Boston and New York" i "Boston & New York". Ako zamenimo `and` sa `&` onda će to imati efekta kod svih kombinacija gradova, ne samo kod Bostona i Njujorka.

In [33]:
place=place.str.replace(" and ", " & ")

In [34]:
place.value_counts()

London                                         3868
Paris                                           479
Edinburgh                                       208
New York                                        177
Leipzig                                         119
                                               ... 
Harrow                                            1
ff. 28. D. Nutt: London, 1893                     1
London; Oxford [printed]                          1
pp. 40. Hodder & Stoughton: London, [1900.]       1
Tiverton                                          1
Name: Place of Publication, Length: 1439, dtype: int64

Smanjili smo broj različitih oblika zapisa za 2. Nije previše uspešno. Da vidimo dalje. Izgleda da znak ";" u zapisu znači da posle toga ide nešto manje važno, npr. gde je knjiga štampana ili se još jednom pojavi ko je izdavač. 

In [35]:
place[place.str.contains(";")].value_counts()

London; Edinburgh [printed]                     6
London; Guildford [printed]                     4
London; New York [printed]                      3
London; Perth [printed                          3
London; Nuremberg [printed                      3
                                               ..
Boston [Mass.]; Cambridge [Mass., printed]      1
New York; Kegan Paul & Co                       1
London; Nuremberg [printed]                     1
Paris; Moulins                                  1
E. Nister: London; Nuremberg [printed, 1890]    1
Name: Place of Publication, Length: 69, dtype: int64

Možda bismo mogli da pomoću funkcije uklonimo sve što se pojavljuje posle ";", odnosno da podelimo stringove na liste `split()` tako što će upravo tačka-zarez biti separator pa da onda uzmemo samo prvi element liste. Argument `expand=True` služi da rezultat pretvori u _DataFrame_ kako bismo mogli da uzmemo samo prvi deo, odnosno kolonu sa indeksom 0.

In [36]:
place=place.str.split(";",expand=True)[0]

In [37]:
place.value_counts()[:40]

London                3923
Paris                  480
Edinburgh              211
New York               178
Leipzig                119
Philadelphia            90
Berlin                  70
Boston [Mass.]          53
Dublin                  48
Glasgow                 45
Oxford                  44
Boston                  42
Wien                    38
Madrid                  34
Stockholm               33
Bruxelles               28
Cambridge               26
Amsterdam               25
Chicago                 24
Firenze                 24
Stuttgart               24
Birmingham              23
Edinburgh & London      22
Manchester              22
Milano                  20
enk                     19
Bristol                 19
Calcutta                19
Tours                   19
Kjøbenhavn              18
С.-Петербургъ           16
New-York                16
Norwich                 16
Buenos Aires            16
Lisboa                  16
London]                 14
Cincinnati              14
N

Ovo je izgleda pomoglo više. Sada imamo 49 oblika zapisa manje. Broj zapisa gde je London mesto izdavanja se povećao sa 3868 na 3923. To znači da smo za kratko vreme napravili pomak. Da smo ručno čistili podatke, mnogo više vremena bi nam trebalo. Na sličan način bismo mogli da čistimo i uglaste zagrade, da brišemo nazive država iz zapisa (npr. U.S.A.), ali bi korišćenje regularnih izraza bilo vrlo poželjno. Probajte sami šta možete da očistite na ovaj način.

Sada da zamenimo konkretne zapise koje smo pominjali ranije.

In [38]:
place[place=='Boston [Mass.]']='Boston'
place[place=='New-York']='New York'

In [39]:
place.value_counts()[:40]

London                3923
Paris                  480
Edinburgh              211
New York               194
Leipzig                119
Boston                  95
Philadelphia            90
Berlin                  70
Dublin                  48
Glasgow                 45
Oxford                  44
Wien                    38
Madrid                  34
Stockholm               33
Bruxelles               28
Cambridge               26
Amsterdam               25
Chicago                 24
Stuttgart               24
Firenze                 24
Birmingham              23
Manchester              22
Edinburgh & London      22
Milano                  20
enk                     19
Bristol                 19
Tours                   19
Calcutta                19
Kjøbenhavn              18
С.-Петербургъ           16
Norwich                 16
Lisboa                  16
Buenos Aires            16
Napoli                  14
Cincinnati              14
México                 14
Haarlem                 14
L

Tabela sada izgleda čistije, ali posao čišćenja ni izbliza nije gotov. Mi ćemo se, međutim, ovde zaustaviti jer ne želimo da ceo kurs prođe u čišćenju podataka u ovoj jednoj koloni. Konačno, ubacićemo niz __place__ kao novu kolonu pored __Place of Publication__ kako bismo mogli da kontrolišemo je li čišćenje bilo uspešno.

In [40]:
bibreg.insert(1, "Place", place)

In [41]:
bibreg

Unnamed: 0_level_0,Place of Publication,Place,Date of Publication,Year,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
206,London,London,1879 [1878],1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,London,1868,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,London,1869,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,London,1851,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,London,1857,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
...,...,...,...,...,...,...,...,...
4158088,London,London,1838,1838.0,,"The Parochial History of Cornwall, founded on,...","GIDDY, afterwards GILBERT, Davies.",http://www.flickr.com/photos/britishlibrary/ta...
4158128,Derby,Derby,"1831, 32",1831.0,M. Mozley & Son,The History and Gazetteer of the County of Der...,"GLOVER, Stephen - of Derby",http://www.flickr.com/photos/britishlibrary/ta...
4159563,London,London,[1806]-22,,T. Cadell and W. Davies,Magna Britannia; being a concise topographical...,"LYSONS, Daniel - M.A., F.R.S., and LYSONS (Sam...",http://www.flickr.com/photos/britishlibrary/ta...
4159587,Newcastle upon Tyne,Newcastle upon Tyne,1834,1834.0,Mackenzie & Dent,"An historical, topographical and descriptive v...","Mackenzie, E. (Eneas)",http://www.flickr.com/photos/britishlibrary/ta...


### Datum i vreme

Slično kao što Pajton ne prepoznaje brojeve u "prljavoj" koloni, ne prepoznaje ni datume i vreme. Da bismo mogli da analiziramo vremenske podatke, neophodno je da ih zabeležimo u istom formatu i da ih konvertujemo u odgovarajući, _DateTime_ format pomoću funkcije `to_datetime()`.

String koji sadrži datum, prema ISO standardu, treba da ima format 'YYYY-MM-DD' ili 'YYYY-MM-DD HH:MM:SS' ako sadrži i vreme. Ukoliko Pajton pročita ovakav string, umeće lako da ga pretvori u promenljivu tipa datum odakle možemo da pročitamo godinu, dan, mesec itd. Ako je datum zapisan string u ovom formatu, onda nema potrebe da naglašavamo koji je format. Međutim, ako umesto 2021-07-13 stoji 12. 7. 2021. ili July 13, 2021 onda moramo Pajtonu tačno da kažemo kako da pričita taj podatak.  

In [42]:
datum_string='2021-07-13'
# datum_string='2021-07-13 10:15:00'

datum = pd.to_datetime(datum_string)
# datum = pd.to_datetime(datum_string, format='%Y-%m-%d')
godina= datum.year
mesec = datum.month
dan = datum.day
sat=datum.hour
minut=datum.minute
sekund=datum.second

In [43]:
dan

13

In [44]:
pd.to_datetime("23. 5. 1970.",format="%d. %m. %Y.")

Timestamp('1970-05-23 00:00:00')

Ukoliko je potrebno, sve vrednosti u koloni možemo da konvertujemo u datumski format pomoću `to_datetime()` funkcije. U primeru sa bibliotečkim registrom to nema mnogo smisla jer su date samo godine bez datuma pa je i samo jedan broj dovoljan da prikaže godinu izdanja. 

In [45]:
y=pd.to_datetime(bibreg['Year'],format='%Y-%m-%d')

In [46]:
y.head()

Identifier
206   1970-01-01 00:00:00.000001879
216   1970-01-01 00:00:00.000001868
218   1970-01-01 00:00:00.000001869
472   1970-01-01 00:00:00.000001851
480   1970-01-01 00:00:00.000001857
Name: Year, dtype: datetime64[ns]

## Bonus problemi

Čišćenje podataka u Srbiji je malo izazovnije nego u većini drugih (evropskih) zemalja. Prvi razlog za to je što koristimo dva pisma pa se često suočavamo sa nekonzistentno unetim podacima. Drugi razlog je nedosledna upotreba decimalnog zareza. Na računaru i kalkulatoru obično koristimo tačku, a zvanični dokumenti traže zarez. Još gore, separator za hiljade je u srpskom jeziku tačka, a u engleskom zarez. Konačno, treći razlog za izazovnije čišćenje podataka je nedosledno zapisivanje datuma.

### Ćirilica i latinica

U sledećoj ćeliji izgleda kao da smo isti kôd napisali dva puta. Logično, očekujemo da će izlaz u oba slučaja biti isti. Međutim, slovo A je jednom ukucano korišćenjem latinične, a drugi put korišćenjem ćirilične tastature. Pajton je primetio tu razliku i zapamtio dve različite vrednosti ASCII kôdova. To što A i A izgledaju isto, ne znači da ih računar isto registruje. 

In [47]:
slovo = 'A' # А latinicom
print("ASCII vrednost znaka '" + slovo + "' je", ord(slovo))

slovo = 'А' # А ćirilicom
print("ASCII vrednost znaka '" + slovo + "' je", ord(slovo))

ASCII vrednost znaka 'A' je 65
ASCII vrednost znaka 'А' je 1040


Zaista, kad pitamo Pajton da li su ova dva znaka ista, on kaže da nisu.

In [48]:
"A"=="А"

False

Ova osobina tekstova pisanih ćirilicom u odnosu na one pisane latinicom često pravi neočekivane probleme u obradi tekstualnih podataka. Zato je veoma važno da to stalno imamo na umu i da, kad god je to moguće, podatke unosimo korišćenjem istog pisma i iste tastature.

Pajton ima biblioteke koje mogu da pomognu u ujednačavanju teksta. Biblioteka `cyrtranslit` ima funkcije koje mogu da urade transliteraciju i ćirilični tekst prepišu u latinični i obrnuto.

In [49]:
# Ako biblioteka cyrtranslit nije već instalirana, instalirajte je sa
# pip install cyrtranslit

import cyrtranslit

# iz latinice u ćirilicu
print(cyrtranslit.to_cyrillic("daždevnjak"))

# i iz ćirilice u latinicu
print(cyrtranslit.to_latin("мравињак"))

даждевњак
mravinjak


### Decimalni zarez i decimalna tačka

Kada učitavate ili snimate fajl sa podacima koji su decimalni brojevi, vodite računa da li se koristi decimalna tačka ili zarez. Zvanični podaci u Srbiji bi trebalo da uvek imaju decimalni zarez. Ako koristimo CSV format, to će sigurno biti problem. Ne može isti znak da odvaja celobrojni i decimаlni deo broja, kao i da odvaja brojčane podatke u fajlu.  

Da bismo videli kako se taj problem rešava, učitaćemo jednu tabelu sa nacionalnog [Portala za otvorene podatke](https://data.gov.rs/sr/). 

In [50]:
# pokazatelji=pd.read_csv("https://data.gov.rs/sr/datasets/r/b1f1f94a-fe21-3a2a-b801-6f0f05b24257",sep=";")

Ukoliko ovo učitavanje zbog internet veze ili servera ne radi, učitajte isti fajl koji smo prethodno preuzeli i snimili. 

In [51]:
pokazatelji=pd.read_csv("data/03IND01.csv",sep=";")

Primetite kako je drugi argument funkcije `sep=";"`. To znači da koristim CSV format u kom separator (znak koji odvaja podatke) nije zarez "," nego tačka-zarez ";". U Evropi gde većina zemalja koristi decimalni zarez ništa ne bi bilo pogrešnije od izbora zareza za separator. To bi odmah obesmislilo sve decimalne brojeve. Zbog toga kao separator koristimo ili "tab" ili ";".

Ipak, postoji mogućnost da se koristi i zarez kao separator ukoliko sve vrednosti stave pod znake navoda pomoću `quotechar='"'`. Tada je potrebno i da se tabele snimaju i da se učitavaju sa podacima stavljenim pod navodnike.

### JSON format

Često se koristi robusniji format podataka koji nije osetljiv na pismo koje koristimo ili izbor separatora. JSON (_JavaScript Object Notation_) format služi za prenošenje složenijih struktura podatka između različitih platformi. Taj format za prenos podataka, isti za volju, nije baš pregledan ali je razumljiv i ljudima i mašinama. Otvoreni podaci su najčešće dostupni upravo u ova dva formata: CSV i JSON. 

Kada bismo pogledali kakav se tekst nalazi u jednom JSON fajlu, videli bismo strukturu koja nalikuje listi u Pajtonu gde pored svakog podatka upisanog pod znacima navoda stoji naziv kolone, takođe pod znacima navoda. Ovakav fajl deluje nepotrebno redundantno, ali se to pokazuje kao velika prednost kod složenih struktura podataka.

> [{"IDIndikator":"IND00M01","Indikator":"Градоначелник/председник општине","mes":"06","god":"2021","idter":"70017","nter":"Александровац","vrednost":"МИРКО МИХАЈЛОВИЋ","CreateDate":"6/1/2021 9:41:50 AM","LastUpdate":"6/1/2021 9:41:50 AM","IDLegenda":"A","nIzvorI":"Републички завод за статистику (РЗС)"},{"IDIndikator":"IND01G01","Indikator":"Површина (у км²)","mes":"00","god":"2020","idter":"70017","nter":"Александровац","vrednost":"387","CreateDate":"1/27/2021 10:15:39 AM","LastUpdate":"1/27/2021 10:22:18 AM","IDLegenda":"A","nIzvorI":"Републички геодетски завод (РГЗ)"},{"IDIndikator":"IND01G02","Indikator":"Број становника - процена (последњи расположив податак за 

Mi bismo mogli da čitamo ovakve podatke iako nisu pregledni mada bi bilo bolje da ih pročita mašina pa da nam ih prikaže u nekoj tabeli. Učitavanje podataka u JSON formatu je analogno onom za CSV s tim da ovde nije potrebno navesti šta je separator.

In [52]:
pokazatelji = pd.read_json("data/03IND01.json")

Snimanje tabele tipa _DataFrame_ u fajl je isto tako jednostavno. Za to služe funkcije `to_csv()` i `to_json()`. 

In [53]:
pokazatelji.to_csv("data/temp.csv",sep=";")