-
Notifications
You must be signed in to change notification settings - Fork 1
/
delamo_csv_kljucne_besede.py
64 lines (54 loc) · 2.39 KB
/
delamo_csv_kljucne_besede.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
import orodja
def naredi_slovar_kljucnih_besed():
datoteka = open('podatki/kljucna_beseda.csv', 'r')
slovar_kljucnih = dict()
for vrstica in datoteka:
(pojem, skupina) = vrstica.split(';')
slovar_kljucnih[' {0}'.format(pojem.lower())]=pojem
datoteka.close()
return slovar_kljucnih
seznam_vseh_knjig_kljucnih_besed = []
dodane_knjige = set()
mankajoce = []
frekvenca = dict()
for pojem in naredi_slovar_kljucnih_besed().values():
frekvenca[pojem] = 0
def poisci_kljucne_besede(seznam_vseh_knjig):
for knjiga in seznam_vseh_knjig:
if knjiga['opis'] is not None:
opis = knjiga['opis'].lower()
naslov = knjiga['naslov'].lower()
slovar_kljucnih = naredi_slovar_kljucnih_besed()
for beseda in slovar_kljucnih.keys():
if beseda in opis + naslov:
kljucna_beseda = dict()
kljucna_beseda['id_knjige'] = knjiga['id']
kljucna_beseda['kljucna_beseda'] = slovar_kljucnih[beseda]
seznam_vseh_knjig_kljucnih_besed.append(kljucna_beseda)
dodane_knjige.add(knjiga['id'])
frekvenca[slovar_kljucnih[beseda]] += 1
if knjiga['id'] not in dodane_knjige: # Naredi csv knjig, ki niso imele nobene kljucne besede
mankajoce.append(knjiga)
orodja.zapisi_tabelo(mankajoce,
['id', 'ISBN', 'naslov', 'dolzina', 'povprecna_ocena', 'stevilo_ocen', 'leto', 'opis','url_naslovnice'],
'podatki/mankajoce.csv')
print(len(dodane_knjige), len(seznam_vseh_knjig_kljucnih_besed))
print(sorted(frekvenca, key=frekvenca.get, reverse=True)) # Vrne seznam od najpogostejše do neobstojece
# prestej_besede('podatki/mankajoce.csv')
def naredi_seznam_kljucnih_besed():
datoteka = open('kljucni.csv', 'r')
seznam_kljucnih = []
for vrstica in datoteka:
(pojem, skupina) = vrstica.split(';')
seznam_kljucnih.append(pojem)
datoteka.close()
return seznam_kljucnih
def prestej_besede(ime_datoteke):
datoteka = open(ime_datoteke, "r", encoding="utf8")
slovar_besed = dict()
for beseda in datoteka.read().split():
if beseda not in slovar_besed:
slovar_besed[beseda] = 1
else:
slovar_besed[beseda] += 1
print(sorted(slovar_besed, key=slovar_besed.get, reverse=True))