# Чишћење података у Пајтону

Велике количине података које прикупљају и уносе различити људи увек носе ризик од недоследности у погледу формата уноса. Са машинама је лако, али људи у складу са својом културом, навикама или потребом да буду креативни често уносе оно што нам не треба. За машински читљиве податке је најважније да имају познату структуру и да буду форматирани на исти начин. Ово можда звучи као непотребно цепидлачење, али није. Људи који се баве обрадом и анализом података највећи део свог времена троше на чишћење података (енг. _data cleaning_).  

Увек треба имати на уму да је чишћење података, у крајњој линији, произвољно мењање података о којима знамо мање од онога ко је податке уносио. Нормално је да они који уносе податке направе превид или податак унесу на погрешан начин. Исто тако је нормално да ми то приметимо и направимо корекцију. За неке друге податке, опет, не знамо шта да мислимо; можда је грешка, можда није. Граница је свакако субјективна. Онај ко чисти податке мора да има знање из области на коју се подаци односе, да зна шта је могуће а шта није, шта може да буде веродостојно, а шта је сигурно грешка. Баш због тога што је критеријум за корекцију података субјективан не можемо потпуно да га аутоматизујемо. То морају да раде људи који знају контекст података. Машина може да помогне да то урадимо брже.

Нас у овом курсу интересују пре свега подаци спаковани у табеле, односно једну конкретну табеларну структуру _DataFrame_. Ова структура, као и функције за рад са њом, саставни су део библиотеке __pandas__ па је упутно на почетку рада са подацима у Пајтону увек прво учитати ову библиотеку.

In [1]:
import pandas as pd

За потребе обуке учитаћемо један фајл ком је потребно мало чишћења. То је [библиотечки регистар](https://github.com/realpython/python-data-cleaning/blob/master/Datasets/BL-Flickr-Images-Book.csv) у ком се налазе име књиге, аутор, издавач, година издања итд.

In [2]:
bibreg=pd.read_csv("data/BL-Flickr-Images-Book.csv")

In [3]:
bibreg.head(8)

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.
5,481,"Fourth edition, revised, etc.",London,1875,William Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9006.ee.10.
6,519,,London,1872,The Author,Lagonells. By the author of Darmayne (F. E. A....,"A., F. E.","ASHLEY, Florence Emily.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12637.e.3.
7,667,,"pp. 40. G. Bryan & Co: Oxford, 1898",,,"The Coming of Spring, and other poems. By J. A...","A., J.|A., J.","ANDREWS, J. - Writer of Verse",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 011652.g.73.


Чак и површан увид у податке открива да има много поља у којима пише NaN што значи да тог податка нема, а да је неки софтвер празно поље заменио овом ознаком. Надајмо се да се ниједан издавач или књига не зову баш "NaN". Такође, видимо да неки подаци нису конзистетно уношени. За годину издања (_Date of Publication_) углавном стоји број, али има и оних са угластим заградама. Имена аутора изгледају као хаос посебне врсте.

## Индексна колона

Врло важна карактеристика функционалне табеле са подацима јесте да има индексну колону у којој су вредности јединствене. То нам омогућава једноставно и недвосмислено референцирање на редове у табели. Наравно, исто што важи за редове, важи и за колоне. Потребан нам је "индексни ред". То је заправо заглавље табеле, односно ред у ком су називи колона.

Сваки _DataFrame_ аутоматски добија своју индексну колону. Ако ми не кажемо машини која је то колона, Пајтон ће сам доделити колону са индексом 0, 1, 2, 3... Најважније својство индексне колоне је да садржи јединствене податке. Ако се подаци у колони понављају онда она не може да буде индексна. 

У табели __bibreg__ постоји колона __Identifier__ која би могла да буде тај јединствени идентификатор који су унели библиотекари много пре него што се неко сетио да прави табеле у Пајтону. Да ли су све вредности у колони јединствене можемо да проверимо функцијом `is.unique()`.

In [4]:
bibreg['Identifier'].is_unique

True

Јесте јединствена. То значи да можемо њу да користимо уместо аутоматски додељеног низа ненегативних целих бројева. То ћемо учинити помоћу функције `set_index()`. Главни аргумент ове функције је назив колоне коју ћемо прогласити за индексну, али аргумената може да буде више. Овде ћемо искористити аргумент __inplace=True__ који Пајтону саопштава да хоћемо да промени и запамти садржај табеле. Без тога бисмо само добили испис у ком је постављена индексна колона док би у меморији остао исти онај стари _DataFrame_. Наравно, исти резултат бисмо могли да добијемо и ако новој табели придружимо измењену табелу: `bibreg=bibreg.set_index('Identifier')`. То су два начина да добијемо исти резултат. Бирајте шта вам се више свиђа.

In [5]:
bibreg.set_index('Identifier', inplace = True)
bibreg.head()

Unnamed: 0_level_0,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


## Приступање подацима помоћу "приступника" loc[] и iloc[]

Сад кад имамо индексну колону, подацима у табели можемо да приступамо на различите начине. __loc[]__ и __iloc[]__ су посебни начини приступа подацима преко ознака и индекса. У првом случају користимо ознаке, тј. податке из индексне колоне и називе колона, а у другом редне бројеве редова и колона који почињу нулом. Ево примера како можемо да их употребимо. Приметите како се индексна колона не броји као ни ред у ком су називи колона.

In [6]:
bibreg.loc[216,'Publisher']

'Virtue & Co.'

In [7]:
bibreg.iloc[1,3]

'Virtue & Co.'

Слично можемо да приступимо само одређеним редовима или колонама. На пример, овако:

In [8]:
bibreg.loc[216]

Edition Statement                                                       NaN
Place of Publication                               London; Virtue & Yorston
Date of Publication                                                    1868
Publisher                                                      Virtue & Co.
Title                     All for Greed. [A novel. The dedication signed...
Author                                                            A., A. A.
Contributors                   BLAZE DE BURY, Marie Pauline Rose - Baroness
Corporate Author                                                        NaN
Corporate Contributors                                                  NaN
Former owner                                                            NaN
Engraver                                                                NaN
Issuance type                                                   monographic
Flickr URL                http://www.flickr.com/photos/britishlibrary/ta...
Shelfmarks  

In [9]:
bibreg.iloc[:,1]

Identifier
206                          London
216        London; Virtue & Yorston
218                          London
472                          London
480                          London
                     ...           
4158088                      London
4158128                       Derby
4159563                      London
4159587         Newcastle upon Tyne
4160339                      London
Name: Place of Publication, Length: 8287, dtype: object

## Избор колона

Табеле са подацима знају да буду превелике. Не због меморије рачунара, него зато што не можемо лако да видимо податке на екрану. Зато је увек добро ослободити се баласта на почетку. Ако нам за конретан задатак неке колоне (или редови) нису потребне, онда их треба одмах избрисати и радити сам мањом табелом.

Ако нам је потребно свега неколико колона, најбоље је да њихове називе ставимо у листу и сведемо _DataFrame_ тако да садржи само њих. У супротном, ако хоћемо само неке да искључимо, ставимо их у листу и позовемо функцију `drop()` из __Pandas__ библиотеке. На пример, можемо да ставимо као аргумент функције __drop()__ листу __za_brisanje__ коју смо претходно дефинисали као `za_brisanje=['Edition Statement','Corporate Author','Corporate Contributors','Former owner','Engraver','Contributors','Issuance type','Shelfmarks']`. Признаћете, мало је заметно наводити све називе колона које хоћемо да обришемо. Алтенатива је да исту листу дефинишемо преко редних бројева колона: `za_brisanje=bibreg.columns[[0,6,7,8,9,10,11,13]]`.   

In [10]:
za_brisanje=bibreg.columns[[0,6,7,8,9,10,11,13]]

In [11]:
bibreg.drop(za_brisanje, axis = 1, inplace = True)

Аргумент `axis=1` каже функцији да треба обрисати колоне. Да је та вредност 0, функција би обрисала редове. 

In [12]:
bibreg.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


### Припрема нумеричких података

Сада имамо табелу са мање колона где је прилично јасно шта је садржај. Оно што је спорно је форма садржаја. У другој колони би требало да буду бројеви који означавају године. Међутим, машина ту не види бројеве већ текст. CSV фајлови не чувају податке о типу променљиве. За Пајтон је одмах по учитавању све између зареза стринг. За било какву нумеричку анализу, нпр. тражење минимума, збира или средње вредности потребно је подацима променимо тип променљиве. Док год постоје у колони елементи са знацима који нису цифре, минус и децимална тачка то неће бити могуће.

Пробајте да нађете најстарију књигу у регистру. То би требало да буде најмањи број у колони помоћу функције `min()`. 

In [None]:
# bibreg['Date of Publication'].min()

Пре чишћења података прво треба да видимо ког су типа променљиве у колонама. Од тога зависи које ћемо технике користити за чишћење.

In [13]:
bibreg.dtypes

Place of Publication    object
Date of Publication     object
Publisher               object
Title                   object
Author                  object
Flickr URL              object
dtype: object

Видимо да је и __Data of Publication__ типа __object__. Разлог за то су угласте заграде, зарези и цртице које се налазе у неким пољима те колоне. Док год постоји барем једно поље у ком није број, Пајтон колону неће препознати као нумеричку. Уколико тих поља има мало, уређивање можемо да урадимо и ручно. Да видимо исплати ли се то написаћемо мали програм који покушава да елемент низа претвори у цео број. За сваки елемент где не успе у томе програм ће повећати бројач __n__ за један. 

In [14]:
n=0
for element in bibreg['Date of Publication']:
    try:
        tmp = int(element)
    except:
        n=n+1

In [15]:
n

1759

In [16]:
len(bibreg)

8287

Видимо да чак 1759 од 8287 елемената у овој колони не можемо да претворимо у број. То свакако не треба да радимо ручно. 

In [17]:
print (bibreg['Date of Publication'][:30])

Identifier
206            1879 [1878]
216                   1868
218                   1869
472                   1851
480                   1857
481                   1875
519                   1872
667                    NaN
874                   1676
1143                  1679
1280                  1802
1808                  1859
1905                  1888
1929           1839, 38-54
2836                  1897
2854                  1865
2956               1860-63
2957                  1873
3017                  1866
3131                  1899
4598                  1814
4884                  1820
4976                  1800
5382    1847, 48 [1846-48]
5385               [1897?]
5389               [1897?]
5432                  1893
6036                  1805
6821                  1837
7521                  1896
Name: Date of Publication, dtype: object


Аутоматско чишћење података у овој колони није једноставно. Прво, зато што нисмо сигурни шта треба да препознамо као број. Друго, зато што не постоји једноставан начин за то.

Да се договоримо прво шта треба да препознамо као број. Једно решење (које не мора да буде најбоље) је да тражимо само оне елементе у колони који почињу са четири цифре, да те четири цифре претворимо у број, а да све остало занемаримо. То значи да би први елемент био 1879, други 1868 итд.

Начин на који ћемо то урадити је да препознамо део текста користећи регуларне изразе. Ово је доста компликована тема коју овде не можемо да обрадимо. Можда је најбоље да нам верујете да то тако заиста ради.

### Регуларни изрази

Регуларни изрази (енг. _regular expressions_) су кодирани описи садржаја у неком тексту. Пајтон може да претражи низ текстуалних података у потрази за садржајем који одговарају том опису. Начин на који се кодирају регуларни изрази нису баш интуитивни. Другим речима, ако су вам начини на који се записују и раде регуларни изрази збуњујући и неразумљиви, то је сасвим нормално.

Ми ћемо помоћу регуларних израза да потражимо групе од четири цифре на почетку текстуалне променљиве. [Регуларни израз](https://regex101.com/r/3AJ1Pv/1) који то описује је `^(\d{4})`. Код __\d__ означава _digit_, односно било коју цифру, __{4}__ значи да се цифре понављају тачно 4 пута, заграде означавају групу коју треба обележити, а код __^__ да се тим текстом почиње ред. За разлику од обичног текста који стављамо под наводнике кад га придружујемо променљивој, овде испед наводника стоји слово __r__ које означава да то није обичан текст већ кодирани опис текста.

In [18]:
maska=r'^(\d{4})'

Сада треба да прођемо кроз све елементе колоне __Date of Publication__ и извучемо стринг са траженим описом уколико постоји у том елементу. То ћемо урадити помоћу функције `str.extract()`. Аргументи ове функције су регуларни израз који смо ставили у променљиву __maska__ и напомена Пајтону да излаз буде само једна колона.

In [19]:
year = bibreg['Date of Publication'].str.extract(maska, expand=False)

In [20]:
year

Identifier
206        1879
216        1868
218        1869
472        1851
480        1857
           ... 
4158088    1838
4158128    1831
4159563     NaN
4159587    1834
4160339    1834
Name: Date of Publication, Length: 8287, dtype: object

Видимо да је Пајтон препознао и издвојио групе од четири цифре које би требало да представљају године. Тамо где му то није пошло за руком пише __NaN__. Приметите да ови подаци и даље нису бројеви него стрингови. Да би постали бројеви потребно је да их претворимо у бројеве помоћу функције `to_numeric()`. То није било могуће пре чишћења. Надајмо се да ће сада радити.

In [21]:
year = pd.to_numeric(year)

Ако је све у реду онда ћемо моћи да нађемо најстарију књигу.

In [22]:
year.min()

1510.0

Најстарија књига је из 1510. године. То је баш старо. Можете ли да откријете која је то књига?

In [23]:
bibreg.loc[year==1510]

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2938347,Paris,1510?],in aedibus Nicolai Crispini,Piutarchi Chaeronensis Regum  Imperatorum Apo...,,http://www.flickr.com/photos/britishlibrary/ta...


Све књиге за које нисмо успели да препознамо годину издавања имају ознаку __NaN__ коју уочавамо помоћу функције `isnull()`. Ако саберемо колико таквих има, имаћемо показатељ успешности чишћења.

In [24]:
year.isnull().sum()

971

У поређењу са 1759 број 971 јесте мањи, али и даље значајан. Међутим, оно што је значајније јесте да смо текстуалне записе претворили у бројеве које можемо даље да анализирамо. 

Било би добро очишћене нумеричке податке убацити назад у табелу, али није препоручљиво да то урадите тако што пребришете оригиналне податке у колони __Date of Publication__. Тако бисмо изгубили могућност да проверимо је ли чишћење било добро и евентуално променимо критеријум касније. Боље је да имамо оригиналну и очишћену колону једну поред друге. Помоћу функције `insert()` можемо да убацимо на одређено место у табели колону са именом и вредностима као аргументима.

In [25]:
bibreg.insert(2, "Year", year)

In [26]:
bibreg

Unnamed: 0_level_0,Place of Publication,Date of Publication,Year,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
206,London,1879 [1878],1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
...,...,...,...,...,...,...,...
4158088,London,1838,1838.0,,"The Parochial History of Cornwall, founded on,...","GIDDY, afterwards GILBERT, Davies.",http://www.flickr.com/photos/britishlibrary/ta...
4158128,Derby,"1831, 32",1831.0,M. Mozley & Son,The History and Gazetteer of the County of Der...,"GLOVER, Stephen - of Derby",http://www.flickr.com/photos/britishlibrary/ta...
4159563,London,[1806]-22,,T. Cadell and W. Davies,Magna Britannia; being a concise topographical...,"LYSONS, Daniel - M.A., F.R.S., and LYSONS (Sam...",http://www.flickr.com/photos/britishlibrary/ta...
4159587,Newcastle upon Tyne,1834,1834.0,Mackenzie & Dent,"An historical, topographical and descriptive v...","Mackenzie, E. (Eneas)",http://www.flickr.com/photos/britishlibrary/ta...


### Чишћење текстуалних података

За разлику од нумеричких података, текстуалне можемо да анализирамо и пре чишћења. За текст имамо другу врсте анализе (колико има којих елемената, ког има највише итд.). Резултати можда неће бити најпоузданији, али ћемо нешто добити нешто информативно. Да видимо, на пример, статистику места издавања књига из регистра __bibreg__.

In [27]:
bibreg['Place of Publication'].value_counts()

London              3868
Paris                479
Edinburgh            208
New York             177
Leipzig              119
                    ... 
Copenhagne             1
New York, 1866         1
Baltimore [U.S.]       1
Windham, N.H           1
Leopoli                1
Name: Place of Publication, Length: 1441, dtype: int64

Имамо 1441 различит запис места издавања. Вероватно места издавања има мање, али су записани другачије. Промена тог броја може да буде показатељ колико смо добро очистили колону.

In [28]:
bibreg['Place of Publication'].value_counts()[:40]

London                3868
Paris                  479
Edinburgh              208
New York               177
Leipzig                119
Philadelphia            89
Berlin                  70
Boston [Mass.]          52
Dublin                  48
Glasgow                 45
Oxford                  44
Boston                  41
Wien                    38
Stockholm               33
Madrid                  33
Bruxelles               28
Cambridge               26
Amsterdam               25
Firenze                 24
Stuttgart               24
Chicago                 24
Birmingham              23
Manchester              20
Milano                  20
Tours                   19
Calcutta                19
enk                     19
Kjøbenhavn              18
Bristol                 18
Buenos Aires            16
New-York                16
Lisboa                  16
С.-Петербургъ           16
Edinburgh & London      16
Norwich                 16
London]                 14
México                 14
H

Оно што видимо на први поглед је да имамо више записа који се односе на исти град. На пример, __London__ (3868) и __London]__ (14) или __Boston [Mass.]__ (52) и __Boston__ (41). Чишћење податка би то требало да обједини. Већ из 40 најчешћих места издавања видимо да се називи места понављају кроз различите записе. Међу осталих хиљаду мора да их има још много.

Да видимо за записе у којима се појављују речи __"London"__, __"Paris"__ или __"Boston"__ каквих све облика има.

In [29]:
place=bibreg['Place of Publication']

Као и код нумерички података добра је пракса не мењати оригиналне податке него направити још једну колону (__place__) у којој су подаци очишћењни како мислимо да треба. То нам оставља могућност да касније, под утицајем неких нових сазнања, променимо одлуку. Добро је да оригинална колона и колона са очишћеним подацима стоје једна поред друге. 

In [30]:
place[place.str.contains("Boston")]

Identifier
16544              Boston
28758              Boston
45172              Boston
53627              Boston
69331              Boston
                ...      
3954038    Boston [Mass.]
3954691            Boston
3954692            Boston
3954693    Boston [Mass.]
3970785     Boston [U.S.]
Name: Place of Publication, Length: 119, dtype: object

In [31]:
place[place.str.contains("York")].value_counts()

New York                                            177
New-York                                             16
London & New York                                    10
York                                                  8
London; New York [printed]                            3
New York & London                                     3
Macmillan & Co.; New York                             2
Nueva York                                            1
London; New York printed                              1
Neuva York [sic]                                      1
Boston and New York                                   1
New York, London                                      1
pp. 171. J. Lane: London & New York, 1896             1
pp. viii. 291. Harper & Bros.: New York, 1888         1
New York [printed]; London                            1
New York, 1866                                        1
London [printed], New York                            1
pp. 110. John Lane: London, New York, 1918      

Има чак 245 различитих записа у којима се помиње Лондон. То неће бити једноставно за чишћење. Неке од ових записа вероватно не би требало мењати: __Edinburgh & London__ би требало да остане тако како јесте, али би __Longman & Co. London__ требало променити у __London__. Међутим, код чишћења података треба бити практичан. Ако већ знамо да чишћење податка тражи много времена и да никад не можемо да будемо сигурни јесмо ли све исправили како треба, онда треба почети од очигледних и значајних измена. Прво исправљајте грешке које су најбројније. Спојте __Boston [Mass.]__ и __Boston__ у један запис, промените __New-York__ у __New York__ па онда редом.

Постоји ли нешто што можемо да урадимо пре него што конкретне називе места кренемо да замењујемо другима? Видимо на пример да постоје различити записи __"Boston and New York"__ и __"Boston & New York"__. Ако заменимо " and " са " & " онда ће то имати ефекта код свих комбинација градова, не само код Бостона и Њујорка.

In [32]:
place=place.str.replace(" and ", " & ")

In [33]:
place.value_counts()

London                                  3868
Paris                                    479
Edinburgh                                208
New York                                 177
Leipzig                                  119
                                        ... 
pp. xvi. 151. E. Stock: London, 1887       1
Windsor,]                                  1
Pesth, Darmstadt [printed]                 1
Paris, Orléans [printed]                  1
Leopoli                                    1
Name: Place of Publication, Length: 1439, dtype: int64

Смањили смо број различитих облика записа за 2. Није превише успешно. Да видимо даље. Изгледа да знак "__;__" у запису значи да после тога иде нешто мање важно, нпр. где је књига штампана или се још једном појави ко је издавач. 

In [34]:
place[place.str.contains(";")].value_counts()

London; Edinburgh [printed]             6
London; Guildford [printed]             4
London; Perth [printed                  3
London; Edinburgh printed               3
London; New York [printed]              3
                                       ..
Dalbeattie; Castle-Douglas [printed]    1
Burns & Oates; London                   1
London; W. Frederick                    1
New York; Kegan Paul & Co               1
J. Vincent; London                      1
Name: Place of Publication, Length: 69, dtype: int64

Можда бисмо могли да помоћу функције уклонимо све што се појављује после ";", односно да поделимо стрингове на листе `split()` тако што ће управо тачка-зарез бити сепаратор па да онда узмемо само први елемент листе. Аргумент __expand=True__ служи да резултат претвори у _DataFrame_ како бисмо могли да узмемо само први део, односно колону са индексом 0.

In [35]:
place=place.str.split(";",expand=True)[0]

In [36]:
place.value_counts()[:40]

London                3923
Paris                  480
Edinburgh              211
New York               178
Leipzig                119
Philadelphia            90
Berlin                  70
Boston [Mass.]          53
Dublin                  48
Glasgow                 45
Oxford                  44
Boston                  42
Wien                    38
Madrid                  34
Stockholm               33
Bruxelles               28
Cambridge               26
Amsterdam               25
Stuttgart               24
Firenze                 24
Chicago                 24
Birmingham              23
Manchester              22
Edinburgh & London      22
Milano                  20
Bristol                 19
Calcutta                19
Tours                   19
enk                     19
Kjøbenhavn              18
С.-Петербургъ           16
Buenos Aires            16
New-York                16
Norwich                 16
Lisboa                  16
México                 14
Napoli                  14
H

Ово је изгледа помогло више. Сада имамо 49 облика записа мање. Број записа где је Лондон место издавања се повећао са 3868 на 3923. То значи да смо за кратко време направили помак. Да смо ручно чистили податке, много више времена би нам требало. На сличан начин бисмо могли да чистимо и угласте заграде, да бришемо називе држава из записа (нпр. U.S.A.), али би коришћење регуларних израза било врло пожељно. Пробајте сами шта можете да очистите на овај начин.

Сада да заменимо конкретне записе које смо помињали раније.

In [37]:
place[place=='Boston [Mass.]']='Boston'
place[place=='New-York']='New York'

In [38]:
place.value_counts()[:40]

London                3923
Paris                  480
Edinburgh              211
New York               194
Leipzig                119
Boston                  95
Philadelphia            90
Berlin                  70
Dublin                  48
Glasgow                 45
Oxford                  44
Wien                    38
Madrid                  34
Stockholm               33
Bruxelles               28
Cambridge               26
Amsterdam               25
Stuttgart               24
Chicago                 24
Firenze                 24
Birmingham              23
Edinburgh & London      22
Manchester              22
Milano                  20
enk                     19
Bristol                 19
Calcutta                19
Tours                   19
Kjøbenhavn              18
Lisboa                  16
Norwich                 16
С.-Петербургъ           16
Buenos Aires            16
London]                 14
Cincinnati              14
Napoli                  14
Haarlem                 14
M

Табела сада изгледа чистије, али посао чишћења ни изблиза није готов. Ми ћемо се, међутим, овде зауставити јер не желимо да цео курс прође у чишћењу података у овој једној колони. Коначно, убацићемо низ __place__ као нову колону поред __Place of Publication__ како бисмо могли да контролошемо је ли чишћење било успешно.

In [39]:
bibreg.insert(1, "Place", place)

In [40]:
bibreg

Unnamed: 0_level_0,Place of Publication,Place,Date of Publication,Year,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
206,London,London,1879 [1878],1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,London,1868,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,London,1869,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,London,1851,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,London,1857,1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
...,...,...,...,...,...,...,...,...
4158088,London,London,1838,1838.0,,"The Parochial History of Cornwall, founded on,...","GIDDY, afterwards GILBERT, Davies.",http://www.flickr.com/photos/britishlibrary/ta...
4158128,Derby,Derby,"1831, 32",1831.0,M. Mozley & Son,The History and Gazetteer of the County of Der...,"GLOVER, Stephen - of Derby",http://www.flickr.com/photos/britishlibrary/ta...
4159563,London,London,[1806]-22,,T. Cadell and W. Davies,Magna Britannia; being a concise topographical...,"LYSONS, Daniel - M.A., F.R.S., and LYSONS (Sam...",http://www.flickr.com/photos/britishlibrary/ta...
4159587,Newcastle upon Tyne,Newcastle upon Tyne,1834,1834.0,Mackenzie & Dent,"An historical, topographical and descriptive v...","Mackenzie, E. (Eneas)",http://www.flickr.com/photos/britishlibrary/ta...


### Датум и време

Слично као што Пајтон не препознаје бројеве у "прљавој" колони, не препознаје ни датуме и време. Да бисмо могли да анализирамо временске податке, неопходно је да их забележимо у истом формату и да их конвертујемо у одговарајући, _DateTime_ формат помоћу функције `to_datetime()`.

Стринг који садржи датум, према ISO стандарду, треба да има формат 'YYYY-MM-DD' или 'YYYY-MM-DD HH:MM:SS' ако садржи и време. Уколико Пајтон прочита овакав стринг, умеће лако да га претвори у променљиву типа датум одакле можемо да прочитамо годину, дан, месец итд. Ако је датум записан у стринг у овом формату, онда нема потребе да наглашавамо који је формат. Међутим, ако уместо 2021-07-13 стоји 12. 7. 2021. или July 13, 2021 онда морамо Пајтону тачно да кажемо како да прочита тај податак.  

In [41]:
datum_string='2021-07-13'
# datum_string='2021-07-13 10:15:00'

datum = pd.to_datetime(datum_string)
# datum = pd.to_datetime(datum_string, format='%Y-%m-%d')
godina= datum.year
mesec = datum.month
dan = datum.day
sat=datum.hour
minut=datum.minute
sekund=datum.second

In [42]:
dan

13

In [43]:
pd.to_datetime("23. 5. 1970.",format="%d. %m. %Y.")

Timestamp('1970-05-23 00:00:00')

Уколико је потребно, све вредности у колони можемо да конвертујемо у датумски формат помоћу `to_datetime()` функције. У примеру са библиотечким регистром то нема много смисла јер су дате само године без датума па је и само један број довољан да прикаже годину издања. 

In [44]:
y=pd.to_datetime(bibreg['Year'],format='%Y-%m-%d')

In [45]:
y.head()

Identifier
206   1970-01-01 00:00:00.000001879
216   1970-01-01 00:00:00.000001868
218   1970-01-01 00:00:00.000001869
472   1970-01-01 00:00:00.000001851
480   1970-01-01 00:00:00.000001857
Name: Year, dtype: datetime64[ns]

## Бонус проблеми

Чишћење података у Србији је мало изазовније него у већини других (европских) земаља. Први разлог за то је што користимо два писма па се често суочавамо са неконзистентно унетим подацима. Други разлог је недоследна употреба децималног зареза. На рачунару и калкулатору обично користимо тачку, а званични докумети траже зарез. Још горе, сепаратор за хиљаде је у српском језику тачка, а у енглеском зарез. Коначно, трећи разлог за изазовније чишћење података је недоследно записивање датума.

### Ћирилица и латиница

У следећој ћелији изгледа као са смо исти кôд написали два пута. Логично, очекујемо да ће излаз у оба случаја бити исти. Међутим, слово __А__ је једном укуцано коришћењем латиничне, а други пут коришћењем ћириличне тастатуре. Пајтон је приметио ту разлику и запамтио две различите вредности ASCII кôдова. То што __A__ и __А__ изгледају исто, не значи да их рачунар исто региструје. 

In [46]:
slovo = 'A' # А латиницом
print("ASCII вредност знака '" + slovo + "' је", ord(slovo))

slovo = 'А' # А ћирилицом
print("ASCII вредност знака '" + slovo + "' је", ord(slovo))

ASCII вредност знака 'A' је 65
ASCII вредност знака 'А' је 1040


Заиста, кад питамо Пајтон да ли су ова два знака иста, он каже да нису.

In [47]:
"A"=="А"

False

Ова особина текстова писаних ћирилицом у односу на оне писане латиницом често прави неочекиване проблеме у обради текстуалних података. Зато је веома важно да то стално имамо на уму и да, кад год је то могуће, податке уносимо коришћењем истог писма и исте тастатуре.

Пајтон има библиотеке које могу да помогну у уједначавању текста. Библиотека `cyrtranslit` има функције које могу да ураде транслитерацију и ћирилични текст препишу у латинични и обрнуто.

In [48]:
# Ако библиотека cyrtranslit није већ инсталирана, инсталирајте је са
# pip install cyrtranslit

import cyrtranslit

# из латинице у ћирилицу
print(cyrtranslit.to_cyrillic("daždevnjak"))

# и из ћирилице у латиницу
print(cyrtranslit.to_latin("мравињак"))

даждевњак
mravinjak


### Децимални зарез и децимална тачка

Када учитавате или снимате фајл са подацима који су децимални бројеви, водите рачуна да ли се користи децимална тачка или зарез. Званични подаци у Србији би требало да увек имају децимални зарез. Ако користимо CSV формат, то ће сигурно бити проблем. Не може исти знак да одваја целобројни и децимални део броја, као и да одваја бројчане податке у фајлу.  

Да бисмо видели како се тај проблем решава, учитаћемо једну табелу са националног [Портала за отворене податке](https://data.gov.rs/sr/). 

In [49]:
pokazatelji=pd.read_csv("https://data.gov.rs/sr/datasets/r/b1f1f94a-fe21-3a2a-b801-6f0f05b24257",sep=";")

HTTPError: HTTP Error 400: Bad Request

Уколико ово учитавање због интернет везе или сервера не ради, учитајте исти фајл који смо претходно преузели и снимили. 

In [50]:
pokazatelji=pd.read_csv("data/03IND01.csv",sep=";")

Приметите како је други аргумент функције `sep=";"`. То значи да користим CSV формат у ком сепаратор (знак који одваја податке) није зарез "," него тачка-зарез ";". У Европи где већина земаља користи децимални зарез ништа не би било погрешније од избора знака "," за сепаратор. То би одмах обесмислило све децималне бројеве. Због тога као сепаратор користимо или "таб" или ";".

### JSON формат

Да би се ови проблеми избегли, често као формат података користи JSON (_JavaScript Object Notation_). То је формат за пренос података који, исти за вољу, није баш прегледан али је разумљив и људима и машинама. Отворени подаци су најчешће доступни управо у ова два формата: CSV и JSON. Учитавање података у JSON формату је аналогно оном за CSV с тим да овде није потребно навести шта је сепаратор.

In [51]:
pokazatelji = pd.read_json("data/03IND01.json")

Снимање табеле типа _data frame_ у фајл је исто тако једноставно. За то служе функције `to_csv()` и `to_json()`. 

In [53]:
pokazatelji.to_csv("data/temp.csv",sep=";")