# Програмирање у Пајтону - Текстуални подаци

Постоје два основна формата рачунарских фајлова: текстуални и бинарни. Текстуалне можемо да читамо и ми људи. Бинарни су резервисани за машине. Фајлови са екстензијом .txt, .py, .csv или .srt (титл за филмове обично има ову екстензију) су текстуални. Њих можемо да отворимо у било коме едитору (нпр. _Notepad_) и да видимо текст, знакове интерпункције, децималне бројеве, размаке итд. Бинарне фајлове (нпр. .zip, .docx или .pdf) не можемо да отворимо у едиторима за текст. Чак и кад бисмо успели на неки начин, видели бисмо бесмислени низ чудних знакова попут `©ãGnû–¼5º¼Z6ÖÅ_¹.]p®\5«†` који не бисмо знали да растумачимо.

Текстуални начин записивања података је веома практичан за памћење и преношење података. Због тога се нпр. изворни кôд рачунарских програма и табеларни подаци чувају као текст. Основни елемент ових записа је __карактер__. То је једно слово, цифра, знак интерпункције или можда неки контролни знак (нпр. знак за крај реда). Текст није ништа друго до низ карактера. Тип података у Пајтону у који можемо да ставимо текст је стринг (или ниска карактера).

## Конверзија карактера у бајтове и обрнуто

Рачунар у својој меморији чува само нуле и јединице организоване у бајтове. Без обзира што ми кажемо да су у некој променљивој карактери, рачунар тим карактерима придружује број и онда тај број памти. Сваки карактер има свој број. Ако је карактер из ASCII скупа од 256 знакова, довољан је један бајт за чување. Уколико су то ћирилични знаци или знаци са дијакритицима (нпр. _ž_ или _ć_), за чување ће бити потребно два бајта. Функција `ord()` нам даје број који је придружен знаку који навидимо као аргумент. У супротном смеру, функција `chr()` нам за број у аргументу враћа одговарајући карактер.

In [1]:
ord("a")

97

In [2]:
chr(97)

'a'

Пробајте функцију `ord()` за различита ћирилична и латинична слова. Да ли је број који добијате мањи или већи од 255? Ако је мањи или једнак, за меморисање ће користити само један бајт.

За сваки број од 0 до 255 постоји одговарајући карактер. Неки од њих су контролни па не можемо лепо да их прикажемо. Почевши од броја 32 који одговара знаку " " то су "нормални" карактери које можемо да испишемо.

In [3]:
for i in range(32,256):
    print(chr(i), end="")

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
 ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ

__Задатак 1__: Напишите програм који генерише стринг са свим великим словима енглеског алфабета (ABCD...WXYZ) не укуцавајући ручно свако слово. 

## Стринг као листа карактера

Стрингови се чувају као низови карактера. Пошто се у Пајтону низови стандардно представљају листама, онда стринг овде представља листу карактера. Начин на који приступамо карактерима у стрингу је исти као што приступамо елементима у листи: помоћу индекса и слајсова.

In [4]:
S="String je lista karaktera: slova, cifara i ostalih znakova."
print(S[1])     # karakter sa indeksom 1
print(S[3:6])   # slajs karaktera sa indeksima od 3 do 5
print(S[-1])    # poslednji karakter u stringu

t
ing
.


### Оператор `in`

Када проверавамо да ли се одређени карактер или стринг (s) налазе у неком већем стрингу (S) користимо оператор `in`. Резултат операције је булеан који има вредност тачно ако се s садржи у S, односно нетачно ако тај услов није испуњен. Слично, можемо да проверимо и да ли се s не садржи у S са `not in`.

In [5]:
print("ta" in S)     # string "ta" se pojavljuje u stringu S
print(";" in S)      # znak ";" se ne pojavljuje u S
print("R" not in S)  # tačno je da se "R" ne pojavljuje u S

True
False
True


### Функције за рад са стринговима

Функције које имамо за рад са листама углавном постоје и за стрингове. У следећој ћелији су примери две функције: прва враћа дужину стринга S, док друга враћа број колико пута се карактер "а" појављује у стрингу S.

In [6]:
print(len(S))
print(S.count("a"))

59
10


__Задатак 2__: Напишите функцију која враћа број карактера у стрингу не користећи функцију `len()`.

__Задатак 3__: Напишите функцију која враћа број знакова интерпункције. 

Функција за рад са стринговима има више десетина. Овде их нећемо све помињати. Извршите `dir(str)` да видите које све постоје.

### Функција `.index()`

Уколико се "мали" стринг (s) налази у "великом" (S), функција `.index()` може да дам каже којим индексом великог стринга почиње мали. Синтакса ове функције је `S.index(s,start,end)`. Приметите да функцију примењујемо на велики стринг, а да мали стављамо као њен аргумент. Уколико унесемо само један аргумент. што је овде дозвољено, функција `.index()` ће стринг s тражити почевши од индекса 0, тј. од почетка великог стринга и вратиће нам само индекс где се стринг s први пут појављује. Уколико унесемо и други аргумент функције (_start_ - индекс од ког почиње претрагу), можемо да нађемо и каснија појављивања. Уколико желимо можемо да ставимо и индекс (_end_) за крај претраге као трећи аргумент. 

In [7]:
i=S.index("ta")           # gde se string "ta" prvi put pojavljuje u stringu S
print(i)
print(S.index("ta",i+1))  # gde se "ta" pojavljuje prvi put posle toga

13
45


Наравно, један стринг у другом може да се појави више пута. Немамо функцију која аутоматски враћа све те позиције, али бисмо могли да је напишемо помоћу петље, слајсова и функције `.index()`. 

__Задатак 4__: Напишите функцију која приказује све индексе са којима у стрингу S="String je lista karaktera: slova, cifara i ostalih znakova." почиње произвољни стринг s.

## Токенизација

Анализа текста заснива се на анализи токена, односно јединица текста. Токен може да буде слово, слог, реч, синтагма итд. Сваки текст у дигиталном облику можемо да поделимо на токене и да их онда статистички обрађујемо. Уколико текст није чист него има и контролне знакове, то неће бити сасвим једноставно.

Једна од најважнијих функција за рад са стринговима је она која стринг дели на делове и појединачне делове ставља у листу. У примеру где је цела реченица један стринг, тај стринг можемо да поделимо на низ мањих у којима су речи. Најједноставнији начин да то урадимо јесте да одвојимо делове стринга између којих је размак, тј. знак " ". Функција коју за то користимо је `.split()`. Аргумент ове функције може да буде било који карактер. Уколико не наведемо који је, Пајтон ће подразумевати да је то размак. 

In [8]:
S.split()

['String',
 'je',
 'lista',
 'karaktera:',
 'slova,',
 'cifara',
 'i',
 'ostalih',
 'znakova.']

Наравно, постоје детаљи, као што су знаци интерпункције, који нам не дозвољавају да речи једноставно издвојимо као део стринга између два размака. Згодно решење, мада ни оно није свеобухватно, јесте да прво уклонимо све "проблематичне" знаке помоћу функције `.replace()`. Ова функција има два аргумента којима означавамо који карактер у стрингу желимо да заменимо којим другим. На пример, ако хоћемо да избришемо тачку из стринга `S` онда карактер "." мењамо са празним стрингом , тј. са "".

In [9]:
S2=S.replace(".","")
S2=S2.replace(",","")
S2=S2.replace(":","")
print(S2)

String je lista karaktera slova cifara i ostalih znakova


Функција која извршава супротну радњу од `.split()` je `.join()`. Она спаја елементе листе у један стринг раздвајајући их одређеним карактером. Синтакса је мало необична јер се функција примењује на сепратор, а листа се наводи као аргумент. Свеједно, једноставна је за употребу.

In [10]:
"_".join(["Ovo","treba","spojiti","donjom","crtom"])

'Ovo_treba_spojiti_donjom_crtom'

## Спајање стрингова 

Слично као и са листама, оператори `+` и `*` раде и са стринговима. "Сабирање" стрингова је заправо спајање два стринга у један, док је "множење" стринга неким природним бројем понављање истог стринга толико пута. 

In [11]:
s1="Prvi"
s2="Drugi"
print(s1+s2)
print(s1*3)

PrviDrugi
PrviPrviPrvi


## Контролни карактери

Како бисте у стринг ставили текст који у себи има део под наводницима, нпр. `OŠ "Vuk Karadžić"`? Ово не можемо да изведемо тако што просто у стринг (који иначе стављамо под наводнике) убацимо још пар истих наводника. То би само разбило стринг на два и добили бисмо информацију да унети кôд има синтаксну грешку. Пробајте.

Једно могуће решење је да унутар стринга који смо ставили између двоструких наводника ставимо део текста под једноструким наводницима, или обрнуто. То ће Пајтон разумети и прихватити.

In [12]:
s1="OŠ 'Vuk Karadžić', Loznica"  # prva mogućnost
print(s1)
s2='OŠ "Vuk Karadžić", Loznica'  # druga mogućnost
print(s2)

OŠ 'Vuk Karadžić', Loznica
OŠ "Vuk Karadžić", Loznica


Друго решење је да користимо контролне карактере. Има карактера који се не исписују као "нормални" знаци већ пребацују испис текста у нови ред, враћају курзор за једно место уназад или додају већи размак (таб). За њих постоје контролни кодови. Тај код је за нови ред `\n`. Погледајте како изгледа испис стринга у ком је садржан овај карактер.

In [13]:
print("Prvi red\ndrugi red")

Prvi red
drugi red


За наводнике такође постоје контролни кодови. Потребно је само да испред наводника ставимо обрнуту косу црту (_backslash_). Проблем од малопре са наводницима у стрингу могли смо да решимо и овако.

In [14]:
s1="OŠ \"Vuk Karadžić\", Loznica"
print(s1)

OŠ "Vuk Karadžić", Loznica


Сви контролни кодови почињу обрутом косом цртом. Ево неких од њих. Пробајте да их ставите у неки стринг који исписујете.

`\'`  једноструки наводници

`\"`  двоструки наводници

`\n`  крај реда

`\t`  таб

`\\`  обрнута коса црта

__Задатак 5__: Напишите Пајтон функцију која за два стринга утврђује да ли је први анаграм оног другог. На пример, стринг „I am Lord Voldemort” је анаграм стринга „Tom Marvolo Riddle”. Обратити пажњу на то да приликом провере да ли је један стринг анаграм оног другог празнине и величина слова не играју никакву улогу.

## Коришћење текстуалних датотека

Текст можемо да чувамо у текстуалној датотеци у спољашњој меморији и да га одатле по потреби учитавамо. У општем случају, текст у датотеци може да буде низ симбола непознате дужине који нема никакву посебну структуру. Овде нема индекса и датотеке се увек читају од почетка до краја. На крају фајла се налази контролни кôд за крај фајла (EOF, од енгл. _end of file_). Када Пајтон прочита овај кôд, прекида са читањем. Садржај датотеке можемо да читамо знак по знак, линију по линију или да цео текст прочитамо одједном.

Свака датотека мора да има име, а обично последњих неколико симбола у имену означава тип података који је у датотеку смештен. Тај део имена се обично одвоји тачком од остатка имена и зове се __екстензија__. Текстуалне датотеке обично имају екстензију .txt.

Податке из неке датотеке можемо или само да читамо, или је могућ само упис у датотеку. Није могуће истовремено и писати у неку датотеку и читати из ње. Због тога при отварању датотеке морамо да нагласимо да ли отварамо због читања или због писања. Свакој отвореној датотеци придружујемо променљиву. За даљу комуникацију са датотеком на диску користимо назив ове променљиве.

Пре било какве акције са текстуалном датотеком (писање у датотеку или читање из датотеке) она мора да се „отвори”, а након акције мора да се „затвори”. Свако ново позивање функције за читање из датотеке враћа нас на место где смо прошли пут стали са читањем. Датотеке се увек читају секвенцијално и немамо начина да прочитамо нпр. 1000. ред у тексту, а да претходно не причитамо претходних 999. Показивач који говори Пајтону који ред следећи треба да прочита ресетује се када датотеку затворимо. Када пишемо у датотеку која већ има неки садржај, ми нови садржај додајемо на крај.

### Читање из датотеке

У директоријуму `/podaci` имамо датотеку `Iliad.txt` у којој се налази текст целе Хомерове Илијаде на енглеском језику. Ову датотеку можете да отворите помоћу било ког едитора, као што је нпр. Notepad, али нам је овде важније да текст отворимо у Пајтону. За то користимо функцију `open()`. Аргументи ове функције су стринг са локацијом и називом фајла и мод (стринг у ком пише са којом наменом отварамо фајл). Мод може имати више вредности. Нама су најважније ове три: `"r"` отвара датотеку за читање, `"a"` отвара датотеку за повремено додавање текста и `"w"` за отварање нове датотеке у коју уписујемо текст.

In [15]:
f = open("podaci/Iliad.txt", "r")

Променљива `f` није стринг већ отворена конекција према датотеци на диску. Да бисмо прочитали текст коришћењем отворене конекције, користићемо функцију `.readline()` која чита један цео ред текста и враћа га као стринг. На крају сваког реда се налази контролни кôд за крај реда (EOL, од енгл. _end of line_ који сеу текстуалној датотеци означава са `\n`). Функција `.readln()` чита од почетка до знака за крај реда. Пошто не знамо колико редова има текст у датотеци, овде ћемо прочитати и исписати само првих осам редова.  

In [16]:
for i in range(8):
    r=f.readline()
    print(i, r)

0 The Project Gutenberg eBook of The Iliad, by Homer

1 Translated by Edward, Earl of Derby

2 

3 BOOK I.

4 

5 

6 Of Peleus' son, Achilles, sing, O Muse,

7 The vengeance, deep and deadly; whence to Greece



Уколико немамо намеру даље да читамо текст из датотеке, пожељно је да фајл затворимо помоћу функције `.close()`.

In [17]:
f.close()

Да бисмо сазнали колико редова има текст у датотеци, потребно је да прочитамо и пребројимо све редове. Следећи програм управо то ради.

In [18]:
f = open("podaci/Iliad.txt", "r")
br_redova = 0
for red in f:
    br_redova += 1
f.close()
print("Datoteka 'Iliad.txt' ima", br_redova, "redova.")

Datoteka 'Iliad.txt' ima 19200 redova.


Функција `.read()` чита онолико карактера из датотеке колико наведемо у аргументу. Међу њима може да буде и контролних. Зависно од типа обраде текста који планирамо, бирамо начин читања из датотеке. Овде ћемо само дати пример читања првих 100 карактера из текста Илијаде. Да бисмо приказали кодове уместо преломљеног текста користимо функцију `repr()` која враћа "сирови" стринг. Тако ћемо јасно видети где су који контролни карактери, нпр. крај реда `\n`. Уколико не наведемо колико карактера хоћемо да учитамо, функција `.read()` ће прочитати цео текст.

In [19]:
f = open("podaci/Iliad.txt", "r")
s=f.read(100)
f.close()
print(repr(s))

'The Project Gutenberg eBook of The Iliad, by Homer\nTranslated by Edward, Earl of Derby\n\nBOOK I.\n\n\nOf'


Коначно, функција `.readlines()` чита све редове текста и памти их као елементе листе.

In [20]:
f = open("podaci/Iliad.txt", "r")
lista=f.readlines()
f.close()
print(lista[:10])

['The Project Gutenberg eBook of The Iliad, by Homer\n', 'Translated by Edward, Earl of Derby\n', '\n', 'BOOK I.\n', '\n', '\n', "Of Peleus' son, Achilles, sing, O Muse,\n", 'The vengeance, deep and deadly; whence to Greece\n', 'Unnumbered ills arose; which many a soul\n', 'Of mighty warriors to the viewless shades\n']


## Обрада текста

Обрада текста учитаног из датотеке само се по обиму разликује од обраде текста у једном стрингу. Све што можемо са стрингом од неколико карактера, можемо и са стрингом у који стаје цела књига. Овде ћемо на примеру Илијаде приказати неке могућности за обраду текста коришћењем стандардне библиотеке. Када бисмо увезли библиотеку _pandas_ или неку библиотеку специјализовану за рад са текстом, број опција за обраду које би нам биле на располагању био би много већи. Ми се у овој свесци тиме нећемо бавити. Држаћемо се само структура и функција које можемо да користимо без увожења додатних библиотека. 

In [21]:
f=open("podaci/Iliad.txt", "r")  # otvaramo fajl za čitanje
s=f.read()                     # čitamo ceo tekst i smeštamo ga u string s
f.close()                      # zatvaramo fajl

Прво, можемо да погледамо којих све карактера има у овом фајлу. Приказивање целог текста не би било баш практично, зато ћемо прибегнемо статистици. У листу `l` стављамо све карактере из стринга `s`.

In [22]:
len(s)    # ukupan broj karaktera u tekstu

787081

In [23]:
s[:500]   # prikazujemo prvih 500 karaktera stringa s

"The Project Gutenberg eBook of The Iliad, by Homer\nTranslated by Edward, Earl of Derby\n\nBOOK I.\n\n\nOf Peleus' son, Achilles, sing, O Muse,\nThe vengeance, deep and deadly; whence to Greece\nUnnumbered ills arose; which many a soul\nOf mighty warriors to the viewless shades\nUntimely sent; they on the battle plain\nUnburied lay, a prey to rav'ning dogs,\nAnd carrion birds; but so had Jove decreed,\nFrom that sad day when first in wordy war,\nThe mighty Agamemnon, King of men,\nConfronted stood by Peleus' g"

In [24]:
l=[x for x in s]

In [25]:
print(l[:20])

['T', 'h', 'e', ' ', 'P', 'r', 'o', 'j', 'e', 'c', 't', ' ', 'G', 'u', 't', 'e', 'n', 'b', 'e', 'r']


У 787 хиљада карактера сигурно има много оних који се често понављају. Да ли знате како бисте издвојили јединствене карактере и утврдили колико се пута понављају? Потребне су нам две листе: једна у коју слажемо јединствене вредности карактера и друга у коју записујемо колико пута се поновио одговарајући карактер.

In [26]:
jk=[]                            # lista jedinstvenih karaktera
bp=[]                            # lista broja ponavljanja svakog jedinstvenog karaktera
for x in l:                      # za svaki karakter iz liste
    if x not in jk:              # proveravamo da li je već u listi jedistvenih
        jk.append(x)             # ako nije, dodajemo taj karakter u listu jk
        bp.append(l.count(x))    # i dodajemo broj ponavljanja u listi bp

In [27]:
len(jk)

76

Број различитих карактера који се појављују у тексту је 76. Осим великих и малих слова ту су цифре, знаци интерпункције и неки контролни карактери. Ево који су то карактери и колико пута се понављају.

In [28]:
for i in range(len(jk)):
    print(repr(jk[i]),bp[i])   # koristimo repr() da bismo prikazali "sirovi" karakter

'T' 5246
'h' 44123
'e' 70502
' ' 120392
'P' 1284
'r' 39299
'o' 44663
'j' 958
'c' 12474
't' 47612
'G' 1574
'u' 17182
'n' 37564
'b' 8328
'g' 11429
'B' 1339
'k' 3946
'f' 13908
'I' 1967
'l' 25305
'i' 34877
'a' 41159
'd' 29341
',' 17299
'y' 10196
'H' 2345
'm' 14190
'\n' 19200
's' 43396
'E' 640
'w' 12477
'D' 507
'O' 1373
'K' 214
'.' 3035
"'" 10370
'A' 4030
'M' 862
'v' 4912
'p' 9105
';' 4928
'U' 304
'J' 532
'F' 792
'C' 427
'S' 1359
'?' 310
'L' 545
'-' 1537
'W' 1635
':' 1587
'"' 1372
'Y' 195
'R' 232
'N' 669
'!' 350
'x' 619
'q' 277
'z' 433
'(' 46
')' 46
'Q' 67
'V' 115
'[' 8
'1' 1
']' 8
'Z' 12
'X' 43
'2' 1
'3' 1
'4' 1
'*' 2
'5' 1
'6' 1
'7' 1
'8' 1


Није тешко установити који се карактер понавља највише пута: размак, тј. ' ', чак 120392 пута.

Сличну анализу коју смо урадили за карактере можемо да урадимо и за речи у тексту. Мали је проблем што речи не можемо тако лако да издвојимо као карактере. Обично су речи низови слова између два размака, али имамо и разне друге карактере који нам сметају. Да погледамо како изгледа првих 2000 карактера "сировог" текста Илијаде. 

In [29]:
s[:2000]

'The Project Gutenberg eBook of The Iliad, by Homer\nTranslated by Edward, Earl of Derby\n\nBOOK I.\n\n\nOf Peleus\' son, Achilles, sing, O Muse,\nThe vengeance, deep and deadly; whence to Greece\nUnnumbered ills arose; which many a soul\nOf mighty warriors to the viewless shades\nUntimely sent; they on the battle plain\nUnburied lay, a prey to rav\'ning dogs,\nAnd carrion birds; but so had Jove decreed,\nFrom that sad day when first in wordy war,\nThe mighty Agamemnon, King of men,\nConfronted stood by Peleus\' godlike son.\n\nSay then, what God the fatal strife provok\'d?\nJove\'s and Latona\'s son; he, filled with wrath\nAgainst the King, with deadly pestilence\nThe camp afflicted,--and the people died,--\nFor Chryses\' sake, his priest, whom Atreus\' son\nWith scorn dismiss\'d, when to the Grecian ships\nHe came, his captive daughter to redeem,\nWith costly ransom charg\'d; and in his hand\nThe sacred fillet of his God he bore,\nAnd golden staff; to all he sued, but chief\nTo Atreu

Оно што можемо да видимо је да речи често одваја знак за нови ред. Било би нам лакше да је на том месту размак. Што се тиче зареза, тачака и осталих знака интерпункције, укључујући наводнике, лакше би нам било да их нема. Зато ћемо себи олакшати посао тако што ћемо знак за нови ред заменити размаком помоћу функције `.replace()`, док ћемо остале знаке заменити празним стрингом, "". То је исто као да смо их избрисали. Исто ћемо урадити и са стрингом "--" који има декоративну функцију. 

In [30]:
s=s.replace("\n", " ")
for x in "!?.,:;()[]*0123456789":
    s=s.replace(x, "")
for x in "\"\'":
    s=s.replace(x, "")
s=s.replace("--","")
print(s[:2000])

The Project Gutenberg eBook of The Iliad by Homer Translated by Edward Earl of Derby  BOOK I   Of Peleus son Achilles sing O Muse The vengeance deep and deadly whence to Greece Unnumbered ills arose which many a soul Of mighty warriors to the viewless shades Untimely sent they on the battle plain Unburied lay a prey to ravning dogs And carrion birds but so had Jove decreed From that sad day when first in wordy war The mighty Agamemnon King of men Confronted stood by Peleus godlike son  Say then what God the fatal strife provokd Joves and Latonas son he filled with wrath Against the King with deadly pestilence The camp afflictedand the people died For Chryses sake his priest whom Atreus son With scorn dismissd when to the Grecian ships He came his captive daughter to redeem With costly ransom chargd and in his hand The sacred fillet of his God he bore And golden staff to all he sued but chief To Atreus sons twin captains of the host Ye sons of Atreus and ye well-greavd Greeks May the gr

Ово сада изгледа много чистије и можемо да испитамо која се реч колико пута појављује у тексту. Мали проблем нам представља што иста реч може имати различит облик ако је на почетку реда. Због тога "The" и "the" не би биле препознате као исте речи. Уколико сва слова сведемо на мала помоћу функције `.lower()`, биће лакше да их пребројимо.

In [31]:
s=s.lower()

In [32]:
s[:400]

'the project gutenberg ebook of the iliad by homer translated by edward earl of derby  book i   of peleus son achilles sing o muse the vengeance deep and deadly whence to greece unnumbered ills arose which many a soul of mighty warriors to the viewless shades untimely sent they on the battle plain unburied lay a prey to ravning dogs and carrion birds but so had jove decreed from that sad day when f'

Сада је лако да препознамо појединачне речи. Довољно је да узмемо низове карактера који су раздвојени размацима и да их сачувамо у листи.

In [33]:
ssp=s.split()

In [34]:
ssp[:10]

['the',
 'project',
 'gutenberg',
 'ebook',
 'of',
 'the',
 'iliad',
 'by',
 'homer',
 'translated']

Истина, могли смо да избришемо прва два реда у којима се помиње пројекат Гутенберг јер то није део Илијаде. Свеједно, статистици неће много сметати што у 19200 редова имамо два непотребна. Уосталом, то можете сами да урадите за вежбу. 

Сада да видимо можемо ли да поновимо оно тражење јединствених елемената листе и њихово пребројавање које смо урадили са карактерима. Имајте у виду да је ово заметан посао за који ће рачунару бити потребно 20-30 секунди. Велики је посао пронаћи хиљаде различитих речи и за сваку проћи кроз цео текст како бисмо их пребројали.

In [35]:
jr=[]                            # lista jedinstvenih reči
bpr=[]                           # lista broja ponavljanja svake jedinstvene reči
for x in ssp:                    # za svaku reč iz liste
    if x not in jr:              # proveravamo da li je već u listi jedistvenih
        jr.append(x)             # ako nije, dodajemo taj karakter u listu jr
        bpr.append(ssp.count(x)) # i dodajemo broj ponavljanja u listu bpr

In [36]:
len(jr)   # broj jedinstvenih reči

9019

In [37]:
print(max(bpr))                 # najveći broj ponavljanja
print(jr[bpr.index(max(bpr))])  # jedinstvena reč sa indkesom koji odgovara reči sa najvećim brojem ponavljanja

9156
the


Не улазећи у фреквенцијску анализу речи у тексту, само да погледамо почетак листе, односно које су то речи и колико се пута понављају.  

In [38]:
for i in range(20):
    print(jr[i],bpr[i])

the 9156
project 1
gutenberg 1
ebook 1
of 3603
iliad 1
by 1044
homer 1
translated 1
edward 1
earl 1
derby 1
book 24
i 998
peleus 132
son 856
achilles 388
sing 1
o 78
muse 2


За анализу ових података згодно је да фреквенције речи упишемо у фајл. Касније можемо да изаберемо алат којим ћемо радити анализу.

### Уписивање података у датотеку

За уписивање података у фајл користим функцију `.write()` са истим функцијама за отварање и затварање датотеке као што је то било код читања. Оно што уписујемо мора да буде стринг. У следећем примеру у датотеку уписујемо по један стринг за сваку јединствену реч. Тај стринг добијамо спајањем јединствене речи, зареза, броја понављања у облику стринга и знака за крај реда.

In [39]:
g = open("podaci/Iliad stat.txt", "w")
for i in range(len(jr)):
    zapis=jr[i]+','+str(bpr[i])+'\n'
    g.write(zapis)
g.close()

Иако у текстуални фајл можемо да упишемо податке на произвољно много начина, у овом примеру смо се трудили да направимо неку структуру. Сваки запис има две речи одвојене зарезом, а сваки запис иде у посебан ред. То је формат познат као CSV (_comma separated values_) који је стандард за табеларно приказане податке. Овакав фајл можете лако да увезете у Ексел или да га прочитате из Пајтона помоћу _pandas_ библиотеке. Пробајте то да урадите.