# Analiza študentske prehrane

Analizirala bom restavracije v Sloveniji, ki ponujajo študetnsko prehrano. Zajetih je 490 restavracij, pri vsaki pa sem izluščila podatke o imenu, naslovu, kraju, oceni, doplačilu ter o tem ali restavracija ponuja vegetarijansko ponudbo, ali ima dostop za invalide, ali ponuja možnost dostave, ali je restavracija odprta ob vikendih in ali je to nov lokal v ponudbi študentske prehrane. Kategorija `ocena` je ovrednotena s številkami od 1 do 5, kjer 1 pomeni najnižjo oceno, 5 pa najvišjo. Če restavracija ni bila ocenenja, se v tem stoplpcu nahaja znak `0`. 

In [2]:
# naložimo pakete
import pandas as pd
%matplotlib notebook
import matplotlib.pyplot as plt

# naložimo razpredelnico, s katero bomo delali
restavracije = pd.read_csv('../obdelani-podatki/vse-restavracije.csv')

# ker bomo delali z velikimi razpredelnicami, povemo, da naj se vedno izpiše le 20 vrstic
pd.options.display.max_rows = 20

Oglejmo si prvih 10 vrstic tabele, da dobimo predstavo o podatkih.

In [3]:
restavracije.head(10)

Unnamed: 0,ime,naslov,kraj,ocena,doplacilo,vegetarijansko,dostop_za_invalide,dostava,odprto_ob_vikendih,nov_lokal
0,"""SOLE"" OKREPČEVALNICA, PIZZERIJA, SLAŠČIČARNA ...","Kolodvorska ulica 18, 1000 Ljubljana",LJUBLJANA,4,2.87,NE,DA,NE,DA,NE
1,ABI FALAFEL,"Trubarjeva cesta 40, 1000 Ljubljana",LJUBLJANA,4,3.9,DA,DA,NE,DA,NE
2,AGA KEBAPČI,"Trubarjeva 47, 1000 Ljubljana",LJUBLJANA,4,1.0,NE,DA,NE,NE,NE
3,AMBIENT,"Topniška 29a, 1000 Ljubljana",LJUBLJANA,0,2.7,DA,NE,NE,NE,NE
4,ANTARO,"Leskoškova 9e, 1000 Ljubljana",LJUBLJANA,0,3.37,DA,DA,NE,NE,NE
5,APAČI,"Pohorska cesta 17b, 2380 Slovenj Gradec",SLOVENJ GRADEC,2,3.9,DA,DA,NE,DA,NE
6,APAČI - DOSTAVA,"Pohorska cesta 17b, 2380 Slovenj Gradec",SLOVENJ GRADEC,5,3.9,DA,NE,DA,DA,NE
7,"AROMA, RESTAVRACIJA IN PIZZERIJA","Ribji trg 2, 1000 Ljubljana",LJUBLJANA,4,4.37,DA,NE,NE,DA,NE
8,AZIJSKA RESTAVRACIJA HAN,"Kongresni trg 3, 1000 Ljubljana",LJUBLJANA,4,3.67,DA,NE,NE,DA,NE
9,AZIJSKA RESTAVRACIJA TLOFT,"Gosposvetska cesta 4, 1000 Ljubljana",LJUBLJANA,4,3.17,DA,NE,NE,DA,NE


Najprej nas zanima, v katerem kraju je največ restavracij, ki ponujajo študentsko prehrano.

In [4]:
restavracije_po_krajih = restavracije.groupby('kraj')
restavracije_po_krajih1 = restavracije_po_krajih.size().sort_values(ascending = False)
plt.subplot(1, 2, 1)
restavracije_po_krajih1[:10].plot.pie(figsize=(9, 5), fontsize=6, title = 
                                'Število restavracij po krajih - največjih 10').set(ylabel = '') , plt.subplot(1, 2, 2)
restavracije_po_krajih1[10:].plot.pie(figsize=(9, 5), fontsize=5, title = 
                                        'Število restavracij po krajih - ostalo').set(ylabel = '')


<IPython.core.display.Javascript object>

[Text(0, 0.5, '')]

Torej iz tortnega diagrama je zelo jasno razvidno, da se največ restavracij nahaja v Ljubljani, na drugem mestu pa je Maribor. Ostala mesta imajo precej manjšo ponudbo študentskre prehrane. Ne moremo pa jasno videti, katero mesto ima najmanj izbire, zato se sedaj osredotočimo še na to. 

In [5]:
restavracije_po_krajih.size().sort_values().head(10)

kraj
KAMNIK             1
ROGAŠKA SLATINA    1
NAKLO              1
TRZIN              1
POSTOJNA           1
BREŽICE            1
ŠENTJUR            1
VIPAVA             1
HOČE               2
SEŽANA             2
dtype: int64

Ugotovili smo, da najmanj izbire ponujajo Kamnik, Rogaška Slatina, Naklo, Trzin, Postojna, Brežice, Šentjur in Vipava. V teh mestih lahko namreč najdemo le eno restavracijo, ki nudi študentsko prehrano. Seveda pa moramo upoštevati tudi, da nekateri slovenski kraji sploh nimajo restavracije, kjer lahko študentje izkoristijo svoje ugodnosti. 

Poglejmo sedaj, v katerem mestu so najbolje ocenjene restavracije. Predvidevamo, da bosta zopet med najboljšimi Ljubljana in Maribor, saj imata največ restavracij in zato najboljše možnosti, da je tam največ restavracij z dobrimi ocenami. 

In [6]:
najbolje_ocenjene = restavracije[restavracije.ocena >= 4].sort_values('ocena', ascending = False)
najbolje_ocenjene_restavracije = najbolje_ocenjene.groupby('kraj')
top_10 = najbolje_ocenjene_restavracije.size().sort_values(ascending = False).head(6)
top_10.plot.bar(figsize=(9,5), fontsize=5.5, title = 'Najbolje ocenjene restavracije').set(ylabel = 
                                                                        'število najbolje ocenjenih restavracij', xlabel = '')

<IPython.core.display.Javascript object>

[Text(0, 0.5, 'število najbolje ocenjenih restavracij'), Text(0.5, 0, '')]

Kot smo že pravilno sklepali, se tudi iz grafa jasno vidi, da sta zopet Ljubljana in Maribor dvignjena visoko nad ostala mesta. Dobro bi bilo, če bi naredili primerjavo na način, koliko restavracij ima v določenem kraju oceno 4 ali 5 v primerjavi s tem, koliko restavracij je v tem kraju. Tako bi namreč dobili bolj realno oceno, kje se nahajajo najboljše restavracije.

In [9]:
razmerje = (najbolje_ocenjene_restavracije.size() / restavracije_po_krajih.size()).sort_values().tail(20)
razmerje[:11].round(3)

kraj
PTUJ                 0.571
KRANJ                0.667
SLOVENSKE KONJICE    0.667
TRBOVLJE             0.667
VELENJE              0.667
CELJE                0.667
LJUBLJANA            0.775
MARIBOR              0.843
DOMŽALE              0.857
HOČE                 1.000
ROGAŠKA SLATINA      1.000
dtype: float64

In [10]:
razmerje[:11].plot.bar(figsize=(9,5), fontsize=5, title = 'Primerjava').set(ylabel = 
                                                                    'razmerje', xlabel = 'kraj')

<IPython.core.display.Javascript object>

[Text(0, 0.5, 'razmerje'), Text(0.5, 0, 'kraj')]

Vidimo torej, da lahko v Rogaški Slatini in Hočah jemo le v najboljših restavracijah. Hkrati pa se tukaj pojavlja vprašanje, ali je restavracija v tem kraju le ena sama in je zato prišlo do popolnosti glede ocene. Opazimo tudi, da se Maribor in Ljubljana uvrščata med najboljših 5 restavracij po razmerju med oceno in številom restavracij, zato lahko sklepamo, da imajo študentje v teh dveh mestih tako pestro izbiro, kot tudi dobro hrano. 

Oglejmo si še povprečno oceno restavracij glede na kraj.

In [13]:
restavracije_po_krajih['ocena'].mean().sort_values(ascending = False).round(3)

kraj
HOČE                 4.500
DOMŽALE              4.143
ROGAŠKA SLATINA      4.000
MARIBOR              3.933
CELJE                3.600
LJUBLJANA            3.546
KRANJ                3.333
TRBOVLJE             3.333
SLOVENSKE KONJICE    3.333
PTUJ                 3.286
                     ...  
NOVA GORICA          1.250
KAMNIK               1.000
NAKLO                0.000
POSTOJNA             0.000
SEŽANA               0.000
TRZIN                0.000
VIPAVA               0.000
BREŽICE              0.000
ŠENTJUR              0.000
AJDOVŠČINA           0.000
Name: ocena, Length: 36, dtype: float64

Tudi tokrat dobimo podobne podatke, so pa le-ti bolj zgovorni, saj nam jasno povedo, da se v Hočah ne nahaja le ena restavracija. Se pa moramo zavedati, da prihaja do odstopanj z zgornjimi izračuni, saj smo v prejšnji tabeli gledali le restavracije, ki so imele oceno 4 in 5, sedaj pa smo izračunali povprečno oceno vseh restavracij v enem kraju.

Kako pa so razporejene restavracije glede na razmerje med oceno in številom restavracij?

In [23]:
celotno_razmerje = (najbolje_ocenjene_restavracije.size() / restavracije_po_krajih.size()).sort_values()
plt.subplot(1, 2, 1)
celotno_razmerje[:27].sort_values().plot.barh(figsize=(10,5), fontsize=6, 
                                title = 'Razmerje med oceno in številom restavracij').set(ylabel = '', 
                                                                                    xlabel = 'razmerje'), plt.subplot(1, 2, 2)
celotno_razmerje[:27].sort_values().plot.box(figsize=(10,5), fontsize=6,
                                             color = 'r', title = 'Skupno razmerje')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x183df90>

Kot opazimo iz desnega grafa, je največja zgoščenost med 0,3 in 0,7. Iz tega lahko sklepamo, da je v večini mest povprečna izbira študentske hrane, seveda pa imamo tudi izstopanja. Kot sem že omenila, so to v pozitivno stran Hoče, Rogaška Slatina, Domžale, Maribor in Ljubljana. Levi graf pa nam prikaže, kakšno je razmerje v posameznem kraju, da dobimo lažjo predstavo za celotno Slovenijo. V katerih mestih pa imamo najslabšo ponudbo hrane?

In [16]:
celotno_razmerje.head(10).round(2)

kraj
KRŠKO              0.17
JESENICE           0.20
MURSKA SOBOTA      0.22
NOVA GORICA        0.25
BLED               0.33
ZAGORJE OB SAVI    0.33
TREBNJE            0.33
ŠKOFJA LOKA        0.33
NOVO MESTO         0.33
ŽALEC              0.33
dtype: float64

Najslabšo ponudbo hrane imamo torej v Krškem, sledijo pa Jesenice in Murska Sobota. 

Naslednja stvar, ki nas zanima je, če je morda kakšna povezava med ceno obroka in oceno restavracije. Lahko bi predvidevali, da boljša kot je ocena, dražje bo doplačilo za študentski meni. Je pa seveda veliko odvisno tudi od tega, kaj vse restavracija ponuja kot dodatne možnosti, na primer ali obrok vsebuje juho, glavno jed, solato in sladico ali pa študentje v restavraciji dobijo kakšno komponento manj. Nekatere restavracije ponujajo tudi predjed in pa solatni bar, kar se zagotovo pozna tudi pri sami ceni obroka. 

In [85]:
restavracije[['ocena', 'doplacilo']].plot.scatter(x = 'ocena', y = 'doplacilo', title = 
                                                  'Graf doplačil glede na oceno restavracije')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x20b87290>

Opazimo, da velikega odstopanja glede cene v povezavi z oceno ni, hkrati pa smo opazili, da je največ restavracij dobro ocenjenih in dragih. Prvi stolpec (kjer se pri oceni nahaja vrednost `0`) nam predstavlja neocenjene restavracije, zato ga ne upoštevamo pri sami analizi. Je pa zanimivo videti, da so neocenjene vse vrste restavracije - tako tiste zelo poceni, kot tudi dražje. Iz zgornjega grafa pa je zelo dobro razvidno tudi, da je največ restavracij ocenjenih s štirico, najmanj pa z enko. To nam jasno pove gostost grafa pri določeni oceni.

Oglejmo si, v katerem mestu se nahaja največ vegetarijanskih restavracij.

In [9]:
vegi = restavracije[restavracije.vegetarijansko == 'DA']
vegi_in_kraj = vegi[['kraj', 'vegetarijansko']].sort_values(by = 'vegetarijansko')
top_20_vegi = vegi_in_kraj.groupby('kraj').size().sort_values(ascending = False).head(20)
razmerje_vegi = (vegi_in_kraj.groupby('kraj').size().sort_values(ascending = False) / 
                       restavracije_po_krajih.size()).sort_values(ascending = False)[:34]
plt.subplot(1, 3, 1)
top_20_vegi.plot.barh(figsize=(10,6), fontsize=7, title = 
                        'Število restavracij, ki ponujajo vegetarijanski meni').set(ylabel = '', xlabel = 'število restavracij'),
plt.subplot(1, 3, 3)
razmerje_vegi.plot.barh(figsize=(10,6), fontsize=7, title = 'Primerjava').set(ylabel = '', xlabel = 'razmerje')

<IPython.core.display.Javascript object>

[Text(0, 0.5, ''), Text(0.5, 0, 'razmerje')]

Iz levega grafa je zelo jasno razvidno, da je daleč v ospredju po številu restavracij, ki ponujajo vegetarijanski meni, Ljubljana. Sledijo pa ji Maribor, Koper, Kranj in Celje. Iz tega lahko sklepamo, da imajo večja slovenska mesta najboljšo vegetarijansko ponudbo. Desni graf pa predstavlja samo razmerje med tem, koliko restavracij v določenem kraju ponuja vegetarijanski meni v primerjavi s tem, koliko restavracij sploh je v tem kraju. Ta graf nas precej preseneti, saj vidimo, da prej vodilna mesta sedaj ne spadajo med najboljše.

Osredotočimo se sedaj še na to, v katerem mestu je največ invalidom prijaznih restavracij.

In [10]:
dostop = restavracije[restavracije.dostop_za_invalide == 'DA']
dostop_in_kraj = dostop[['kraj', 'dostop_za_invalide']].sort_values(by = 'dostop_za_invalide')
top_20_dostop = dostop_in_kraj.groupby('kraj').size().sort_values(ascending = False).head(20)
razmerje_dostop = (dostop_in_kraj.groupby('kraj').size().sort_values(ascending = False) / 
                       restavracije_po_krajih.size()).sort_values(ascending = False)[:32]
plt.subplot(1, 3, 1)
top_20_dostop.plot.barh(figsize=(10,6), fontsize=7, title = 
                        'Število restavracij, ki so prijazne invalidom').set(ylabel = '', xlabel = 'število restavracij'),
plt.subplot(1, 3, 3)
razmerje_dostop.plot.barh(figsize=(10,6), fontsize=7, title = 'Primerjava').set(ylabel = '', xlabel = 'razmerje')

<IPython.core.display.Javascript object>

[Text(0, 0.5, ''), Text(0.5, 0, 'razmerje')]

Vidimo, da je levi graf zelo podoben zgornjemu, le da so tu številke precej manjše. Prva štiri mesta so v enakem vrstnem redu, kot pri zgornjem grafu, nato pa se začnejo spremembe. Tudi na desnem grafu je podobna situacija, nam da pa le-ta malce bolj realno sliko stanja prijaznosti restavracij invalidom v posameznih mestih. Če pogledamo podrobneje, kakšna je razlika v številu restavracij v Ljubljani, ki ponujajo vegetarijansko prehrani in tistimi, ki ponujajo dostop za invalide: 

In [231]:
število_restavracij_z_vegetarijansko_ponudbo_v_Ljubljani = top_20_vegi.head(1)[0]
število_restavracij_prijaznih_invalidom = top_20_dostop.head(1)[0]
d1 = {'vegetarijansko': [število_restavracij_z_vegetarijansko_ponudbo_v_Ljubljani], 
     'dostop za invalide': [število_restavracij_prijaznih_invalidom]}
tabelca = pd.DataFrame(d1)
tabelca = tabelca.rename(index={0: 'seštevek'})
tabelca

Unnamed: 0,vegetarijansko,dostop za invalide
seštevek,189,98


Zelo očitno je, da je ponudba vegetarijanske prehrane v Ljubljani veliko bolj razširjena, kot pa prijaznost invalidom. Kako pa je z odprtostjo ob vikendih?

In [11]:
vikend = restavracije[restavracije.odprto_ob_vikendih == 'DA']
vikend_in_kraj = vikend[['kraj', 'odprto_ob_vikendih']].sort_values(by = 'odprto_ob_vikendih')
top_20_vikend = vikend_in_kraj.groupby('kraj').size().sort_values(ascending = False).head(20)
razmerje_vikend = (vikend_in_kraj.groupby('kraj').size().sort_values(ascending = False) / 
                       restavracije_po_krajih.size()).sort_values(ascending = False)[:25]
plt.subplot(1, 3, 1)
top_20_vikend.plot.barh(figsize=(10,6), fontsize=7, title = 
                        'Število restavracij, ki so odprte ob vikendih').set(ylabel = '', xlabel = 'število restavracij'), 
plt.subplot(1, 3, 3)
razmerje_vikend.plot.barh(figsize=(10,6), fontsize=7, title = 'Primerjava').set(ylabel = '', xlabel = 'razmerje')

<IPython.core.display.Javascript object>

[Text(0, 0.5, ''), Text(0.5, 0, 'razmerje')]

Zopet opazimo, da je vrstni red prvih štirih restavracij enak kot prej, zato lahko sklepamo, da so to vodilna slovenska mesta, ki ponujajo dodatne ugodnosti in prijaznost študentom. Opazimo, da je restavracij, ki so odprte ob vikendih v povprečji še manj, kot restavracij, ki so invalidom prijazne. Oglejmo si podrobneje za celotno Slovenijo:

In [222]:
število_vseh_restavracij_z_vegetarijansko_prehrano = vegi_in_kraj.count()[:1]
število_vseh_restavracij_z_dostopom_za_invalide = dostop_in_kraj.count()[:1]
število_vseh_restavracij_odprtih_ob_vikednih = vikend_in_kraj.count()[:1]
število_vseh_restavracij_z_vegetarijansko_prehrano1 = število_vseh_restavracij_z_vegetarijansko_prehrano[0]
število_vseh_restavracij_z_dostopom_za_invalide1 = število_vseh_restavracij_z_dostopom_za_invalide[0]
število_vseh_restavracij_odprtih_ob_vikednih1 = število_vseh_restavracij_odprtih_ob_vikednih[0]
d = {'vegetarijansko': [število_vseh_restavracij_z_vegetarijansko_prehrano1], 
     'dostop za invalide': [število_vseh_restavracij_z_dostopom_za_invalide1], 
     'odprto ob vikendih': [število_vseh_restavracij_odprtih_ob_vikednih1]}
tabela = pd.DataFrame(d)
tabela = tabela.rename(index={0: 'seštevek'})
tabela

Unnamed: 0,vegetarijansko,dostop za invalide,odprto ob vikendih
seštevek,396,214,178


Iz zgornjih izračunov se jasno vidi, koliko restavracij ponuja katero izmed ugodnosti, ki smo jih analizirali do sedaj. Zanima nas, ali se pojavlja kakšna povezava med ceno obroka in tem, da je restavracija odprta ob vikendih. Predvidevamo, da bi lahko bila cena višja, če je restavracija odprta ob vikendih, saj s tem študentom nudijo dodatne ugodnosti. Preverimo: 

In [17]:
cena_vs_vikend = restavracije[['doplacilo', 'odprto_ob_vikendih']].groupby('odprto_ob_vikendih').mean().round(3)
cena_vs_vikend

Unnamed: 0_level_0,doplacilo
odprto_ob_vikendih,Unnamed: 1_level_1
DA,3.034
NE,2.806


In [211]:
cena_vs_vikend.plot.bar(title = 'Povprečno doplačilo glede na to, ali je restavracija odprta ob vikendih').set(xlabel = 
                                                                                                    'odprto ob vikendih')

<IPython.core.display.Javascript object>

[Text(0.5, 0, 'odprto ob vikendih')]

Vidimo, da se je naše predvidevanje potrdilo in, da je res doplačilo večje, če je restavracija odprta ob vikendih. Prav tako pa opazimo, da v povprečju ne gre za veliko odstopanje v doplačilu pri restavracijah, ki so odprte ob vikednih in med tistimi, ki niso. Bi mogoče lahko bila tudi kakšna povezava med ceno obroka in tem, da ima restavracija možnost dostave? Predvidevamo, da bo doplačilo večje, če bo restvracija nudila dostavo, saj imajo na ta način tudi sami večje stroške. 

In [18]:
cena_vs_dostava = restavracije[['doplacilo', 'dostava']].groupby('dostava').mean().round(3)
cena_vs_dostava

Unnamed: 0_level_0,doplacilo
dostava,Unnamed: 1_level_1
DA,3.674
NE,2.794


In [213]:
cena_vs_dostava.plot.bar(title = 'Povprečno doplačilo glede na to, ali restavracija ponuja dostavo').set(xlabel = 'dostava')

<IPython.core.display.Javascript object>

[Text(0.5, 0, 'dostava')]

Opazimo, da gre tukaj za precej večje odstopanje med stolpcema v grafu in jasno vidimo, da je doplačilo za obrok precej višje v restavracijah, ki ponujajo možnost dostave, kot pa v tistih, kjer dostave nimajo. Kako pa je s samim številom restavracij, ki ponujajo dostavo v posameznih krajih?

In [12]:
dostava = restavracije[restavracije.dostava == 'DA']
dostava_in_kraj = dostava[['kraj', 'dostava']].sort_values(by = 'dostava')
top_20_dostava = dostava_in_kraj.groupby('kraj').size().sort_values(ascending = False).head(20)
razmerje_dostava = (dostava_in_kraj.groupby('kraj').size().sort_values(ascending = False) / 
                       restavracije_po_krajih.size()).sort_values(ascending = False)[:16]
plt.subplot(1, 3, 1)
top_20_dostava.plot.barh(figsize=(10,6), fontsize=7, title = 
                        'Število restavracij, ki ponujajo dostavo').set(ylabel = '', xlabel = 'število restavracij'), 
plt.subplot(1, 3, 3)
razmerje_dostava.plot.barh(figsize=(10,6), fontsize=7, title = 'Primerjava').set(ylabel = '', xlabel = 'razmerje')

<IPython.core.display.Javascript object>

[Text(0, 0.5, ''), Text(0.5, 0, 'razmerje')]

Ponovno je vodilno mesto Ljubljana, sledita pa ji Maribor in Koper. V dostavi pa Ljubljana ne istopa tako veliko, kot v prejšnjih ugodnostih, saj vidimo, da je Maribor zelo blizu. Hkrati pa so številke še precej manjše kot pri prejšnjih analizah. To nam pove, da je dostava najmanj razširjena ugodnost, ki jo lahko študentje izkoristijo. Desni graf pa nam še bolj jasno pokaže, da zelo malo restavracij ponuja dostavo, saj vidimo, da se pri Ajdovščini, ki je vodilna, graf ne povzpe niti do 50% restavracij.

Sedaj pa se osredotočimo še na dejstvo, ali je restavracija nova v ponudbi študentske prehrane. Najprej nas zanima, kje je največ novih lokalov, saj lahko iz tega sklepamo, da se ta kraj glede prijaznosti študetnov najhitreje razvija.

In [13]:
nova = restavracije[restavracije.nov_lokal == 'DA']
nova_in_kraj = nova[['kraj', 'nov_lokal']].sort_values(by = 'nov_lokal')
top_nova = nova_in_kraj.groupby('kraj').size().sort_values(ascending = False)
razmerje_nova = (nova_in_kraj.groupby('kraj').size().sort_values(ascending = False) / 
                       restavracije_po_krajih.size()).sort_values(ascending = False)[:6]
plt.subplot(1, 3, 1)
top_nova.plot.barh(figsize=(10,4), fontsize=7, title = 
                       'Število novih restavracij').set(ylabel = '', xlabel = 'število restavracij'), 
plt.subplot(1, 3, 3)
razmerje_nova.plot.barh(figsize=(10,4), fontsize=7, title = 'Primerjava').set(ylabel = '', xlabel = 'razmerje')

<IPython.core.display.Javascript object>

[Text(0, 0.5, ''), Text(0.5, 0, 'razmerje')]

Tudi tokrat je Ljubljana na prvem mestu, sledi pa ji Maribor, kar nas ne preseneča, saj sta bili ti dve mesti v vseh naših analizah na prvem in drugem mestu. Hkrati pa je tretje mesto povsem nepričakovano, saj se je Ptuj do sedaj uvrščal nižje po lestivici. Vidimo pa tudi, da je mest, ki imajo nove lokale v ponudbi študentske prehrane le 6, zato lahko rečemo, da so to študentom najbolj prijatna slovenska mesta, saj širijo ponudbo. Hkrati pa nam desni graf pokaže, da je v Portorožu največji procent novih restavracij, kar nam pove, da se v tem mestu študentska prehrana najhitreje razvija. Predvidevamo, da bi lahko bila kakšna povezava med ceno in tem, da je restavracija nova v ponudbi študentske prehrane. Poglejmo: 

In [19]:
cena_vs_nova = restavracije[['doplacilo', 'nov_lokal']].groupby('nov_lokal').mean().round(3)
cena_vs_nova

Unnamed: 0_level_0,doplacilo
nov_lokal,Unnamed: 1_level_1
DA,2.579
NE,2.906


In [235]:
cena_vs_nova.plot.bar(title = 'Povprečno doplačilo glede na to, ali je restavracija nova').set(xlabel = 'nova restavracija')

<IPython.core.display.Javascript object>

[Text(0.5, 0, 'nova restavracija')]

Tukaj nas rezultat precej preseneti, saj smo predvidevali, da bodo novi lokali dražji, izkaže pa se ravno obratno. Za tem bi lahko stala logika, da poskušajo nove restavracije študentom dati čim bolj ugodno ceno, da bi jih privabili čim več. Kaj pa glede ocene?

In [20]:
ocena_vs_nova = restavracije[['ocena', 'nov_lokal']].groupby('nov_lokal').mean().round(3)
ocena_vs_nova

Unnamed: 0_level_0,ocena
nov_lokal,Unnamed: 1_level_1
DA,2.808
NE,3.297


In [237]:
ocena_vs_nova.plot.bar(title = 'Povprečna ocena glede na to, ali je restavracija nova').set(xlabel = 'nova restavracija')

<IPython.core.display.Javascript object>

[Text(0.5, 0, 'nova restavracija')]

Opazimo, da imajo novi lokali slabšo oceno, kot tisti, ki obratujejo že dlje časa. To nam pove, da so študentje bolj navdušeni nad hrano, ki jo poznajo in so je navajeni, kot pa nad nečim novim. 

Ker je bila pri večini primerjav Ljubljana na prvem mestu, si sedaj oglejmo, katere pa so tiste restavracije, ki v tem mestu še posebej izstopajo. 

## Temeljitejša analiza restavracij v Ljubljani

Želimo torej narediti primerjavo posebej za Ljubljano in sicer glede na to, kako dobro je restavracija ocenjena v primerjavi s tem, koliko je potrebno za obrok doplačati. V ta namen bomo vzeli le restavracije, ki imajo oceno 5. Najprej pa si oglejmo samo porazdelitev ljubljanskih restavracij glede na oceno in doplačilo.

In [88]:
ljubljanske_restavracije = restavracije[restavracije.kraj == 'LJUBLJANA']
ljubljanske_restavracije.plot.hexbin(x = 'ocena', y ='doplacilo', gridsize = 10, title = 
                                    'Graf doplačil glede na oceno restavracije v Ljubljani')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x20e8c970>

Vidimo torej, da so v Ljubljani najbolj pogoste zelo drage in tudi dobro ocenjene restavracije - torej zelo podobno, kot smo prej videli na celotni analizi vseh restavracij v Sloveniji. Sedaj pa se želimo osredotočiti le na najbolje ocenjene:

In [236]:
najboljse_ljubljanske_restavracije = ljubljanske_restavracije[restavracije.ocena == 5]
najboljse_ljubljanske_restavracije1 = najboljse_ljubljanske_restavracije.count()[:1][0]
d2 = {'najbolje ocenjene restavracije v Ljubljani': [najboljse_ljubljanske_restavracije1]}
tabela1 = pd.DataFrame(d2)
tabela1 = tabela1.rename(index={0: 'število'})
tabela1

  """Entry point for launching an IPython kernel.


Unnamed: 0,najbolje ocenjene restavracije v Ljubljani
število,57


V Ljubljani je torej 57 zelo dobrih restavracij, ki so ocenjene z oceno 5. Zanima pa nas, katere izmed teh restavracij so najcenejše, saj so s tem tudi študentskemu žepu bolj prijazne.

In [195]:
najboljse_ljubljanske_restavracije = ljubljanske_restavracije[restavracije.ocena == 5]
najboljse_ljubljanske_restavracije.sort_values('doplacilo').head(10)

  """Entry point for launching an IPython kernel.


Unnamed: 0,ime,naslov,kraj,ocena,doplacilo,vegetarijansko,dostop_za_invalide,dostava,odprto_ob_vikendih,nov_lokal
316,PIZZERIA ŠESTINKA,"Miklošičeva cesta 22, 1000 Ljubljana",LJUBLJANA,5,0.0,NE,NE,NE,DA,NE
193,MAFIJA,"Jadranska 21, 1000 Ljubljana",LJUBLJANA,5,0.0,DA,NE,NE,NE,NE
65,FAJN FUUD PIZZA,"Poljanska cesta 22, 1000 Ljubljana",LJUBLJANA,5,0.0,DA,NE,NE,NE,NE
486,ŽITO LJUBLANA ŽELEZNIŠKA (KOLODVOR),"Trg OF 7, 1000 Ljubljana",LJUBLJANA,5,0.6,NE,NE,NE,DA,NE
248,OKREPČEVALNICA PEKARNA DOBROT,"Kotnikova 5, 1000 Ljubljana",LJUBLJANA,5,1.0,DA,DA,NE,NE,NE
15,BAR ENKA,"Baragova 16, 1000 Ljubljana",LJUBLJANA,5,1.0,DA,DA,NE,NE,NE
251,OKREPČEVALNICA PODHOD,"Trg OF 10, 1000 Ljubljana",LJUBLJANA,5,1.2,NE,DA,NE,DA,NE
454,ŠEHEREZADA,"Trubarjeva cesta 31, 1000 Ljubljana",LJUBLJANA,5,1.37,NE,NE,NE,DA,NE
45,DIFOOD-EAT GOOD,"Gortanova 21, 1000 Ljubljana",LJUBLJANA,5,1.7,NE,DA,NE,NE,NE
153,KAVARNA STRIT,"Zdravstevna 5, 1000 Ljubljana",LJUBLJANA,5,1.9,DA,NE,NE,NE,DA


Vidimo torej, da pri najcenejših restavracijah in zelo dobro ocenjenih, ne gre dejansko za restavracije, pač pa bolj za lokale, okrepčevalnice, pekarne ali hitro prehrano (med njimi pa najdemo tudi našo okrepčevalnico na faksu - Mafijo). To je povsem logično, saj ne moremo pričakovati, da bomo za malo denarja dobili ogromno izbire oziroma zelo kvalitetno hrano.

Oglejmo si še, katere so najboljše restavracije v Ljubljani, ki ponujajo študentom tudi vegetarijanski izbor.

In [196]:
najboljse_vegi = najboljse_ljubljanske_restavracije[restavracije.vegetarijansko == 'DA'].sort_values('doplacilo')
najboljse_vegi

  """Entry point for launching an IPython kernel.


Unnamed: 0,ime,naslov,kraj,ocena,doplacilo,vegetarijansko,dostop_za_invalide,dostava,odprto_ob_vikendih,nov_lokal
193,MAFIJA,"Jadranska 21, 1000 Ljubljana",LJUBLJANA,5,0.00,DA,NE,NE,NE,NE
65,FAJN FUUD PIZZA,"Poljanska cesta 22, 1000 Ljubljana",LJUBLJANA,5,0.00,DA,NE,NE,NE,NE
15,BAR ENKA,"Baragova 16, 1000 Ljubljana",LJUBLJANA,5,1.00,DA,DA,NE,NE,NE
248,OKREPČEVALNICA PEKARNA DOBROT,"Kotnikova 5, 1000 Ljubljana",LJUBLJANA,5,1.00,DA,DA,NE,NE,NE
153,KAVARNA STRIT,"Zdravstevna 5, 1000 Ljubljana",LJUBLJANA,5,1.90,DA,NE,NE,NE,DA
373,RESTAVRACIJA IN KAVARNA FOODIE,"Kersnikova 6, 1000 Ljubljana",LJUBLJANA,5,1.99,DA,DA,NE,NE,DA
268,PE MARJETICA,"Tobačna ulica 5, 1000 Ljubljana",LJUBLJANA,5,2.07,DA,NE,NE,NE,NE
358,RESTAVRACIJA 123 PEDAGOŠKA,"Kardeljeva ploščad 16, 1000 Ljubljana",LJUBLJANA,5,2.30,DA,NE,NE,NE,NE
27,BRATJE EREN TAHIRI,"Viška cesta 2, 1000 Ljubljana",LJUBLJANA,5,2.37,DA,DA,NE,DA,NE
215,MENZA,"Celovška cesta 166, 1000 Ljubljana",LJUBLJANA,5,2.37,DA,NE,NE,NE,NE


Iz tabele vidimo, da je v Ljubljani izmed najboljših 57 restavracij kar 49 takšnih, ki ponujajo vegetarijansko prehrano, zato lahko hitro sklepamo, da se restavracije v Ljubljani močno trudijo ugoditi študentskim željam in potrebam. 

## Zaključek

Ugotovili smo torej, da se nekako skozi celotno našo analizo ponavlja vzorec prvih treh mest (Ljubljana, Maribor in Koper), kar smo tudi nekako pričakovali, saj so to glavna tri slovenska mesta, ki ponujajo študentom največjo možnosti izbire fakultete oziroma nadaljnjega izobraževanja. Posledično je v teh treh mestih največ študentov in, če želijo restavracije ostati konkurenčne, morajo ponuditi čim več ugodnosti ter čim boljšo hrano. Posledično pa je v teh mestih tudi navečji razvoj novih lokalov, ki so prilagojeni študentom. 