# Delo z neurejenimi podatki s spleta

## Regularni izrazi

Za začetno spoznavanje z regularnimi izrazi priporočam vaje z naslednjih spletnih strani:
* [regexone](https://regexone.com/) - interaktiven tutorial za spoznavanje z osnovnim ujemanjem vzorcev
* [kREžanke](https://regexcrossword.com/) - križanke z regularnimi izrazi - malo za zabavo

### Regularni izrazi v Pythonu

Orodja za delo z regularnimi izrazi se v Pythonu nahajajo v modulu `re`, ki je ze vkljucen v Python (modula ni potrebno namescati) .

In [1]:
import re

import re

In [2]:
import re
re.search('ma', 'Ena sama je, mama!')

<re.Match object; span=(6, 8), match='ma'>

### Naloge iz regularnih izrazov

#### Samoglasniki in soglasniki
V Python-u definiraj funkcijo `n_samoglasnikov`, ki za podan niz znakov vrne število samoglasnikov v njemu. Nato definiraj še funkcijo `n_soglasnikov`, ki prešteje število soglasnikov v podanem nizu znakov.

In [3]:
def n_samoglasnikov(niz):
    return len(re.findall('[aeiouAEUOU]', niz))

def n_soglasnikov(niz):
    return len(niz) - n_samoglasnikov(niz)

print(n_samoglasnikov("gaga ulalaaa"))
print(n_samoglasnikov("čmrlj"))
print(n_samoglasnikov("Ula"))


7
0
2


Pri naslednjih nalogah za testiranje uporabi spodnji niz `besedilo`. Seveda je priporocljivo, da poleg navedenih primerov funkcije preiskusis se na drugih testnih primerih.

In [4]:
hvalezni_medved = """Gori nekje v gorah, ne ve se več, ali je bilo pri Macigoju ali
Naravniku, je šivala gospodinja v senci pod drevesom in zibala otroka. Naenkrat
prilomasti - pa prej ni ničesar opazila - medved in ji moli taco, v kateri je
tičal velik, debel trn. Žena se je prestrašila, a medved le milo in pohlevno
godrnja. Zato se žena ojunači in mu izdere trn iz tace. Mrcina kosmata pa zvrne
zibel, jo pobaše in oddide. Čez nekaj časa pa ji zopet prinese zibel, a zvhano
napolnjeno s sladkimi hruškami. Postavil jo je na tla pred začudeno mater in
odracal nazaj v goščavo. "Poglej no", se je razveselila mati, "kakšen hvaležen
medved. Zvrhano zibelko sladkih hrušk mi je prinesel za en sam izdrt trn".
"""

#### Besede z veliko zacetnico

Sestavi funkcijo `besede_velika_zacetnica(niz)`, ki vrne množico besed v nizu, ki se začnejo z veliko začetnico.

In [5]:
def besede_velika_zacetnica(niz):
    return set(re.findall("[A-Z][a-z]*", niz))

print(besede_velika_zacetnica(hvalezni_medved))

{'Gori', 'Postavil', 'Naravniku', 'Poglej', 'Zato', 'Naenkrat', 'Macigoju', 'Mrcina', 'Zvrhano'}


#### Besede, ki vsebujejo podniz
Sestavi funkcijo `najdi_besede(niz, podniz)`, ki vrne množico besed v besedilu `niz`, ki vsebujejo dani `podniz`.

_Namig: pomagaj si z regex znakom za mejo [\b]._

Za zgornje besedilo so besede, ki vsebujejo niz `"de"`: "izdere", "debel", "oddide", "začudeno".

In [6]:
def najdi_besede(niz, podniz):
    vzorec = r"\b\w*" + podniz + r"\w*\b"
    return set(re.findall(vzorec, niz))

print(najdi_besede(hvalezni_medved, "de"))

{'debel', 'izdere', 'oddide', 'začudeno'}


#### Besede s predpono

Sestavi funkcijo `besede_s_predpono(niz, predpona)`, ki vrne množico vseh besed, ki se pojavijo v nizu in imajo dano predpono.

Za zgornje besedilo so vse besede s predpono `"zi"`: "zibala", "zibel", "zibelko".

In [7]:
def besede_s_predpono(niz, predpona):
    vzorec = r"\b" + predpona + r"\w*\b"
    return set(re.findall(vzorec, niz))

print(besede_s_predpono(hvalezni_medved, 'zi'))

{'zibel', 'zibelko', 'zibala'}


#### Besede s pripono

Sestavi funkcijo `besede_s_pripono(niz, pripona)`, ki vrne množico vseh besed, ki se pojavijo v nizu in imajo dano pripono.

Za zgornje besedilo so vse besede s pripono `"la"`: "zibala", "razveselila", "prestrašila", "šivala", "opazila", "tla".

In [8]:
def besede_s_pripono(niz, pripona):
    vzorec = r"\b\w*" + pripona + r"\b"
    return set(re.findall(vzorec, niz))

print(besede_s_pripono(hvalezni_medved, 'la'))

{'tla', 'prestrašila', 'opazila', 'razveselila', 'šivala', 'zibala'}


### Popravljanje besedil
... s funkcijo `re.sub(vzorec, nadomestek, besedilo)`.

Sestavite funkcijo `poenostavi(naloga)`, ki sprejme opis matematične naloge (kot niz) in v njej vsa števila nadomesti z 10.

```
>>> poenostavi("Koliko je 2 krat 4?")
"Koliko je 10 krat 10?"
>>> poenostavi("Koliko stane riž, če se je od lani (1,2 €) podražil za 12 %?")
"Koliko stane riž, če se je od lani (10 €) podražil za 10 %?"
>>> poenostavi("Pretvori -273,16 °C v Kelvine!")
"Pretvori 10 °C v Kelvine!"

```

In [9]:
def poenostavi(naloga):
    return re.sub(r"(-)?\d+(,\d+)?", "10", naloga)

print(poenostavi("Koliko je 2 krat 4?"))
print(poenostavi("Koliko stane riž, če se je od lani (1,2 €) podražil za 12 %?"))
print(poenostavi("Pretvori -273,16 °C v Kelvine!"))

Koliko je 10 krat 10?
Koliko stane riž, če se je od lani (10 €) podražil za 10 %?
Pretvori 10 °C v Kelvine!


Sestavite funkcijo `enote_na_konec(besedilo)`, ki sprejme slabo prevedeno besedilo (iz angleščine v slovenščino), kjer se denarne enote pojavljajo pred številom, in ga popravi. Predpostavite lahko, da se v besedilu pojavljajo le evri in dolarji.

    >>> enote_na_konec("Cena kave je € 2, cena čaja pa €3.")
    "Cena kave je 2 €, cena čaja pa 3 €."
    >>> enote_na_konec("$ 1 = € 1 se mi ne zdi pošten menjalni tečaj.")
    "1 $ = 1 € se mi ne zdi pošten menjalni tečaj."

In [10]:
def enote_na_konec(besedilo):
    return re.sub("(\$|€) (\d+(,\d*)?)", r"\2 \1", besedilo)
besedilo = "$ 1 = € 1 se mi ne zdi pošten menjalni tečaj."


### Regularni izrazi in pandas

1. Iz datoteke [`enaslovi.txt`](https://kt.ijs.si/~ljupco/lectures/papvp-2324/enaslovi.txt) preberi naslove e-pošte osmih (namišljenih) sodelavcev Univerze v Ljubljani. Uvozi te podatke in iz njih, v `pandas` sestavi podatkovno tabelo s štirimi stolpci (spremenljivkami): ime, priimek, fakulteta in enaslov.

    Pri tem upoštevaj, da naslovi e-pošte na Univerzi v Ljubljani so sestavljeni po naslednjem vzorcu `ime.priimek@kratica.uni-lj.si`, pri čemer je `ime` in `priimek` očitno ustrezata imenu in priimku sodelavke, `kratica` pa kratici fakultete, kjer je zaposlena. Lahko si pomagaš s tabelo nazivov in kratic fakultet, ki ste jo sestavili med predavanji.

In [11]:
import pandas as pd


In [12]:
def pridobi_ime(niz):
    return 

In [13]:
enaslovi = pd.read_csv("data/enaslovi.txt", header=None,names=["enaslov"])
enaslovi[["ime", "priimek", "kratica"]] = enaslovi.enaslov.str.extract("([\w]+).([\w]+)@([\w]+).uni-lj.si", expand=True)
enaslovi


Unnamed: 0,enaslov,ime,priimek,kratica
0,andrej.bozic-ceh@fdv.uni-lj.si,bozic,ceh,fdv
1,ivana.turk@fgg.uni-lj.si,ivana,turk,fgg
2,franc-david.lah@fu.uni-lj.si,david,lah,fu
3,petra.jerman@fmf.uni-lj.si,petra,jerman,fmf
4,miha.dolenc@ef.uni-lj.si,miha,dolenc,ef
5,zoe-rosita.novak@fa.uni-lj.si,rosita,novak,fa
6,jan.golob@ag.uni-lj.si,jan,golob,ag
7,eva.hribar-kovacic@mf.uni-lj.si,hribar,kovacic,mf


2. V datoteki [`besedilo.txt`](https://kt.ijs.si/~ljupco/lectures/papvp-2324/besedilo.txt) je izbrano besedilo iz slovenske različice enciklopedije Wikipedia. S pomočjo funkcij iz prejšnje naloge, v `pandas` sestavi tabelo `besede` s tremi spremenljivkami: dimenzijsko spremenljivko `beseda`, katere domena je množica vseh različnih besed iz besedila v datoteki `besedilo.txt`, in merjeni spremenljivki `n_samoglasnikov` in `n_soglasnikov`, ki podajata število samoglasnikov in soglasnikov v izbrani besedi.

In [14]:
dat = open('data/besedilo.txt', encoding='utf8')
besedilo = dat.read()
besede = pd.Series(re.findall("\w+", besedilo))
besede = besede.drop_duplicates(ignore_index=True)
besede

0           Čmrlj
1      znanstveno
2             ime
3          Bombus
4              je
          ...    
282          bili
283    razširjeni
284          Novo
285     Zelandijo
286     Tasmanijo
Length: 287, dtype: object

In [15]:
pd.DataFrame({
    'beseda': besede,
    'samoglasniki': besede.apply(n_samoglasnikov),
    'soglasniki': besede.apply(n_soglasnikov)
})

Unnamed: 0,beseda,samoglasniki,soglasniki
0,Čmrlj,0,5
1,znanstveno,3,7
2,ime,2,1
3,Bombus,2,4
4,je,1,1
...,...,...,...
282,bili,2,2
283,razširjeni,4,6
284,Novo,2,2
285,Zelandijo,4,5


## Zajem podatkov s spleta

1. V članku [Statistične regije Slovenije](https://sl.wikipedia.org/wiki/Statisti%C4%8Dne_regije_Slovenije) v slovenski različici spletne enciklopedije Wikipedia je poglavje _Občine po statističnih regijah_, ki podaja sezname občin za vsako izmed dvanajstih statističnih regij v Sloveniji.
    
    Napiši program v `pandas`, ki iz podatkov v tem članku sestavi urejeno podatkovno tabelo `obcina_regija` z dimenzijsko spremenljivko `obcina` in merjeno spremenljivko `regija`, ki določi regijo izbrane občine v Sloveniji.


In [16]:
pd.read_html("https://sl.wikipedia.org/wiki/Statisti%C4%8Dne_regije_Slovenije")

[    Število           Statistična regija  Prebivalstvo (1. 7. 2022)[7]  \
 0         1              Pomurska regija                       114.163   
 1         2             Podravska regija                       327.858   
 2         3               Koroška regija                        70.648   
 3         4             Savinjska regija                       259.306   
 4         5              Zasavska regija                        56.942   
 5         6              Posavska regija                        75.749   
 6         7        Jugovzhodna Slovenija                       146.429   
 7         8     Osrednjeslovenska regija                       556.862   
 8         9             Gorenjska regija                       210.747   
 9        10  Primorsko-notranjska regija                        53.400   
 10       11               Goriška regija                       118.202   
 11       12         Obalno-kraška regija                       118.426   
 
     Površina, km2 [8] 

In [17]:
from bs4 import BeautifulSoup
import requests

In [18]:
from pprint import pprint

In [19]:
x = requests.get("https://sl.wikipedia.org/wiki/Statisti%C4%8Dne_regije_Slovenije")
html = x.content

In [20]:
def get_table(tag):
    return tag.parent.next_sibling.next_sibling.next_sibling.next_sibling

def table_to_list(table):
    return [li.string for li in table.find_all("li")]

In [21]:
pattern = re.compile(r"\w+ statistična regija")
soup = BeautifulSoup(html, "html.parser")

data = []
for region in soup.find_all("span", attrs={"class":"mw-headline"}, string=pattern):
    data.extend((region.text, el) for el in table_to_list(get_table(region)))
    # print(region.text)
    # print(table_to_list(get_table(region)))
regs = pd.DataFrame(data, columns=["regija", "obcina"])
regs

Unnamed: 0,regija,obcina
0,pomurska statistična regija,Občina Apače
1,pomurska statistična regija,Občina Beltinci
2,pomurska statistična regija,Občina Cankova
3,pomurska statistična regija,Občina Črenšovci
4,pomurska statistična regija,Občina Dobrovnik
...,...,...
186,obalno-kraška statistična regija,Občina Izola
187,obalno-kraška statistična regija,Občina Komen
188,obalno-kraška statistična regija,Mestna občina Koper
189,obalno-kraška statistična regija,Občina Piran


In [22]:
pattern = re.compile(r"([\w-]+) statistična regija")
regs.regija = regs.regija.str.replace(pattern, lambda m: m.group(1).capitalize(), regex=True)
regs

Unnamed: 0,regija,obcina
0,Pomurska,Občina Apače
1,Pomurska,Občina Beltinci
2,Pomurska,Občina Cankova
3,Pomurska,Občina Črenšovci
4,Pomurska,Občina Dobrovnik
...,...,...
186,Obalno-kraška,Občina Izola
187,Obalno-kraška,Občina Komen
188,Obalno-kraška,Mestna občina Koper
189,Obalno-kraška,Občina Piran


In [25]:
pattern = re.compile(r"([mM]estna )?[Oo]bčina ([\w -]+)")
# regs.obcina = regs.obcina.str.replace(pattern, r"\1", regex=True)
regs.obcina = regs.obcina.str.replace(pattern, r"\2", regex=True)
regs = regs[['obcina', 'regija']]
regs

Unnamed: 0,obcina,regija
0,Apače,Pomurska
1,Beltinci,Pomurska
2,Cankova,Pomurska
3,Črenšovci,Pomurska
4,Dobrovnik,Pomurska
...,...,...
186,Izola,Obalno-kraška
187,Komen,Obalno-kraška
188,Koper,Obalno-kraška
189,Piran,Obalno-kraška


2. Iz članka omenjenega v prejšnji nalogi uvozi v Python podatkovno tabelo (glej poglavje _Statistične regije_ v tem članku), ki za vsako izmed dvanajstih statističnih regij poda število prebiralcev in površino v kvadratnih kilometrih.

In [37]:
prebivalstvo = pd.read_html("https://sl.wikipedia.org/wiki/Statisti%C4%8Dne_regije_Slovenije", index_col=0, decimal=',', thousands='.')[0]
prebivalstvo.columns = ['statisticna_regija', 'prebivalstvo', 'povrsina']
prebivalstvo

Unnamed: 0_level_0,statisticna_regija,prebivalstvo,povrsina
Število,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pomurska regija,114163,1336
2,Podravska regija,327858,2170
3,Koroška regija,70648,1041
4,Savinjska regija,259306,2301
5,Zasavska regija,56942,485
6,Posavska regija,75749,968
7,Jugovzhodna Slovenija,146429,2675
8,Osrednjeslovenska regija,556862,2334
9,Gorenjska regija,210747,2137
10,Primorsko-notranjska regija,53400,1456


In [39]:
print(int(prebivalstvo.loc[1, 'prebivalstvo']))
prebivalstvo.dtypes

114163


statisticna_regija    object
prebivalstvo           int64
povrsina               int64
dtype: object

3. Dokončaj uvoz tabele s podatki o nominalnem družbenem proizvodu v različnih državah iz [članka](https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)). Podatkovna tabela naj ima štiri stolpce (spremenljivke): država, celina, leto in bdp. Pri uvozu podatkov pazi na to, da bodo podatki ustrezno očiščeni in urejeni ter tipi posameznih spremenljivk pravilno nastavljeni.

In [49]:
gdp = pd.read_html("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)")[2]
gdp

Unnamed: 0_level_0,Country/Territory,UN region,IMF[1][13],IMF[1][13],World Bank[14],World Bank[14],United Nations[15],United Nations[15]
Unnamed: 0_level_1,Country/Territory,UN region,Forecast,Year,Estimate,Year,Estimate,Year
0,World,—,104476432,2023,100562011,2022,96698005,2021
1,United States,Americas,26949643,2023,25462700,2022,23315081,2021
2,China,Asia,17700899,[n 1]2023,17963171,[n 3]2022,17734131,[n 1]2021
3,Germany,Europe,4429838,2023,4072192,2022,4259935,2021
4,Japan,Asia,4230862,2023,4231141,2022,4940878,2021
...,...,...,...,...,...,...,...,...
209,Palau,Oceania,267,2023,—,—,218,2021
210,Kiribati,Oceania,246,2023,223,2022,227,2021
211,Nauru,Oceania,150,2023,151,2022,155,2021
212,Montserrat,Americas,—,—,—,—,72,2021


In [50]:
gdp.columns[]

MultiIndex([( 'Country/Territory', 'Country/Territory'),
            (         'UN region',         'UN region'),
            (        'IMF[1][13]',          'Forecast'),
            (        'IMF[1][13]',              'Year'),
            (    'World Bank[14]',          'Estimate'),
            (    'World Bank[14]',              'Year'),
            ('United Nations[15]',          'Estimate'),
            ('United Nations[15]',              'Year')],
           )