Leon Premk, Mario Balukčič, Domen Rok Brunček
1.4.2019
Na sejmu podjetij na FRI-ju smo se povezali s firmo iProm, ki so nam zagotovili podatke o uporabnikih in oglasih, ki jih prikazujejo. Zaradi GDPR-ja so vsi uporabniki predstavljeni z enoličnimi ID-ji. Zaupali so nam, da na dan dobijo 100GB podatkov, kar bi bil za nas problem, saj bi za procesiranje potrebovali vrhunsko strojno opremo. Iz njihovih podatkov so nam zato dali reprezentativni vzorec, s katerim lahko delamo. Kljub temu je podatkov za procesiranje preveč, zato smo jih moral razredčiti in odstraniti atribute, ki nam ne pomagajo. Prav tako smo izločili vse uporabnike, ki še nikoli niso kliknili na oglas, saj je velika verjetnost, da nikoli tudi ne bodo, za to pa obstajajo razlogi, kot je npr. ad blocker.
Naš glavni cilj je napovedati katere oglase prikazati uporabniku, da bi zagotovili čim večji CTR.
Uporabnike bomo predstavili, kot vektorje, katerih komponente so njihovi interesi, na podlagi katerih bomo uporabnike razdelili v gruče. Glavni atributi, s katerimi bomo delali so SiteCategory, UserID, AdID, MasterSiteID, AdIndustry, Views, Clicks. Na vprašanje katero metodo za gručenje bomo uporabili bomo odgovorili s testiranjem. S prečnim preverjanjem bomo za različne metode gručenja preverili, katera nas bo privedla do najvišjega CTR-ja.
Naš cilj je CTR čim bolj približati 1%, torej 1 klik na 100 prikazov oglasov, kar so nam na podjetju zaupali, da je precej optimalna rešitev naše naloge.
Podatki so razdeljeni na več datotek glede na datum. Stolpci z vrednostnimi so ločeni s tabulatorjem.
| ID | Atribut | Razlaga |
|---|---|---|
| 1 | Date | datum v formatu <leto>-<mesec>-<dan> |
| 2 | DayOfWeek | dan v tednu od 0=ponedeljek do 6=nedelja |
| 3 | TimeFrame | časovni izsek dneva - dan je razdeljen na 6 kosov po 4 ure, vrednost je indeks od 0 do 5 |
| 4 | UserID | ID uporabnika |
| 5 | SiteID | ID obiskane spletne strani |
| 6 | CampaignID | ID akcije kateri pripada oglas |
| 7 | AdID | ID oglasa |
| 8 | ZoneID | ID cone v kateri se je oglas prikazal |
| 9 | MasterSiteID | ID medija |
| 10 | SiteCategory | ID kategorije spletne strani, ni definiran za vse |
| 11 | AdIndustry | ID panoge oglasa/akcije, ni definiran za vse |
| 12 | Requests | število poslanih zahtevkov za prikaz oglasa |
| 13 | Views | število, ki predstavlja koliko krat je uporabnik videl oglas (vsaj 50% površine oglasa v vidnem polju za vsaj 1 sekundo) |
| 14 | Clicks | število, ki predstavlja koliko krat je uporabnik kliknil na oglas |
Panoge oglasa/akcije Kategorije spletnih strani
| Vrednosti stolpca »AdIndustry«. | Vrednosti stolpca »SiteCategory«. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|