# Priprava podatkov

Osnova projektne naloge bo [**Evidenca registriranih vozil**](https://podatki.gov.si/dataset/evidenca-registriranih-vozil-presek-stanja), ki vsebuje malo morje podatkov o vseh registriranih vozilih *(znamka, število prevoženih kilometrov, moč motorja, ...)* v določenem časovnem obdobju. Polega tega smo potrebovali še `obcine.csv` z imeni občin in `obcine.geojson` z mejami občin na zemljevidu.

## Knjižnice

In [1]:
import pandas as pd

## Branje podatkov

Podatki za leto 2022 so zaradi prevelike količine razdeljeni v šest `.csv` datotek. Za naš projekt so zadostovali spodnji **atributi registracije vozil**.

In [2]:
columns = {'1K-Oznaka potrdila o skladnosti',
 '2A-Datum prve registracije vozila v SLO',
 '4A-Registrsko obmocje tablice prve registracije',
 'B-Datum prve registracije vozila',
 'C-Ali je uporabnik pravna ali fizicna oseba',
 'C-Ali je uporabnik tudi lastnik vozila',
 'C-Spol uporabnika (ce gre za fizicno osebo)',
 'C-Starost uporabnika vozila',
 'C13-Obcina uporabnika vozila (opis)',
 'C13-Obcina uporabnika vozila (oznaka)',
 'C13-Upravna enota uporabnika vozila (opis)',
 'C13-Upravna enota uporabnika vozila (oznaka)',
 'C2-Ali je lastnik pravna ali fizicna oseba',
 'C2-Spol lastnika (ce gre za fizicno osebo)',
 'C2-Starost lastnika vozila',
 'D1-Znamka',
 'D3-Komerc oznaka',
 'D42-Drzava (opis)',
 'D5-Datum izdaje COC dokumenta oz prve registracije',
 'Datum statusa vozila',
 'F1-Najvecja tehnicno dovoljena masa vozila',
 'F2-Najvecja dovoljena masa vozila pri registraciji',
 'F3-Najvecja dovoljena masa skupine vozil pri registraciji',
 'G-Masa vozila',
 'Izvajalna enota prve registracije',
 'J-Kategorija in vrsta vozila (opis)',
 'P11-Delovna prostornina',
 'P12-Nazivna moc',
 'P13-Vrsta goriva (oznaka)',
 'P15-Oznaka motorja',
 'P21-Tip',
 'P22-Nazivna trajna moc',
 'P23-Delovna napetost',
 'Prevozeni kilometri milje',
 'R-Barva vozila (opis)',
 'S1-Stevilo sedezev (vkljucno z vozniskim)',
 'T-Najvisja hitrost',
 'U1-V mirovanju',
 'U2-Pri vrtilni frekvenci motorja',
 'U3-V voznji',
 'V1-CO',
 'V101-Vsebina CO',
 'V111-Vsebina CO',
 'V7-CO2'}

Z metodo `read_data` smo prebrali vseh 6 datotek, izločili nepotrebne stolpce in vrstice ter podatke shranili v `cars`.

In [3]:
def read_data(files):
    for f in files:
        # izbira solpcev (atributi)
        data = pd.read_csv(f, sep=';', encoding='dbcs', usecols=columns, low_memory=False, on_bad_lines='skip')
        
        # izbira vrstic (avtomovibi)
        data = data[data['J-Kategorija in vrsta vozila (opis)'] == 'osebni avtomobil']
        
        cars = pd.concat([data])
    return cars

In [4]:
files = ['data/raw_data/vozila2022_1.csv',
         'data/raw_data/vozila2022_2.csv',
         'data/raw_data/vozila2022_3.csv',
         'data/raw_data/vozila2022_4.csv',
         'data/raw_data/vozila2022_5.csv',
         'data/raw_data/vozila2022_6.csv']

cars = read_data(files)
cars

Unnamed: 0,B-Datum prve registracije vozila,2A-Datum prve registracije vozila v SLO,1K-Oznaka potrdila o skladnosti,Datum statusa vozila,Izvajalna enota prve registracije,4A-Registrsko obmocje tablice prve registracije,C-Starost uporabnika vozila,C-Ali je uporabnik pravna ali fizicna oseba,C-Spol uporabnika (ce gre za fizicno osebo),C-Ali je uporabnik tudi lastnik vozila,...,S1-Stevilo sedezev (vkljucno z vozniskim),T-Najvisja hitrost,U1-V mirovanju,U2-Pri vrtilni frekvenci motorja,U3-V voznji,V1-CO,V101-Vsebina CO,V111-Vsebina CO,V7-CO2,Prevozeni kilometri milje
0,11.11.2010,11.11.2010,SA,14.01.2015,"REGIA GROUP d.d., PE PRIMSKOVO",KRANJ,40.0,F,Z,DA,...,5.0,162,78,2813,68.6,0.129,,,120,189754.0
1,6.07.1990,6.07.1990,,12.03.2008,A.M. MIKLAVC D.O.O. PE VELENJE,CELJE,73.0,F,M,DA,...,5.0,,,,,,,,,183800.0
2,27.12.2002,27.12.2002,A,10.05.2022,AMZS D.D. PE KRANJ,KRANJ,,P,,DA,...,5.0,,,,,,,,,208068.0
3,3.05.2012,3.05.2012,SA,3.05.2021,"AVTOPLUS TPS d.o.o., PE LUCIJA",KOPER,43.0,F,Z,DA,...,5.0,172,79,3750,72,0.6371,0.02,0.02,114,110212.0
5,27.10.2017,1.06.2020,SB,16.02.2022,ŽONTA D.O.O.,KRŠKO,42.0,F,M,DA,...,5.0,218,72.7,3000,67,0.052,,,119,144420.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
475864,13.01.2011,13.01.2011,SA,13.01.2011,"GESLO PLUS d.o.o., PE registracija vozil MEDVODE",LJUBLJANA,86.0,F,M,DA,...,5.0,175,85,3750,71,0.276,0.031,0.083,133,34317.0
475866,3.12.2008,3.12.2008,SA,2.12.2016,ŠTAJERSKI AVTO DOM D.O.O.,MARIBOR,57.0,F,Z,DA,...,5.0,190,79,4500,70,0.79,0,0,164,145196.0
475867,14.01.2015,20.06.2018,SB,10.04.2019,I CENTER d.o.o. PE SLOVENSKA BISTRICA,CELJE,34.0,F,M,DA,...,5.0,201,72,2375,70,0.02,,,135,202321.0
475871,7.12.2005,29.09.2011,SB,25.04.2019,"AVTOLINE KRŠKO d.o.o., PE Žadovinek",KRŠKO,39.0,F,Z,DA,...,5.0,205,80,3000,75,0.103,,,142,321527.0


## Popravljanje podatkov

Za uspešno vizualizacijo z zemeljevidom, razdeljenim na občine, smo bili primorani popraviti imena nekaterih občin. V surovih podatkih je črko `č` nadomeščal `c`, hkrati pa je bilo poimenovanje štirih občin napačno. Težavo smo rešili s **slovarjem preslikav**, kjer ključ predstavlja preslikavo na pravilno ime občine. 

In [5]:
wrong_comm_names = set(cars["C13-Obcina uporabnika vozila (opis)"])

correct_comm_names = pd.read_csv('data/obcine.csv', usecols=['OB_UIME'], low_memory=False)['OB_UIME'].tolist()

comm_names_links = dict.fromkeys(wrong_comm_names)

for c_name in correct_comm_names:
    for w_name in wrong_comm_names:
        
        if c_name.lower().replace('c', '').replace('č', '') \
            == w_name.lower().replace('c', '').replace('č', ''):
                
            comm_names_links[w_name] = c_name
            break
            
comm_names_links['Sveti Jurij'] = 'Sveti Jurij ob Ščavnici'
comm_names_links['Šentjur pri Celju'] = 'Šentjur'
comm_names_links['Ravne'] = 'Ravne na Koroškem'
comm_names_links['Sveti Andraž v Slov.goricah'] = 'Sveti Andraž v Slov. goricah'

Podatke smo shranili v slovar `comm_data`, kje kot vrednost hranimo podatke posamezne občine oziroma ključa. Slednji slovar je deljena spremenljivka med ostalimi **jupyter zvezki**.

In [6]:
comm_data = {comm_names_links[w_name]:cars[cars['C13-Obcina uporabnika vozila (opis)'] == w_name] for w_name in wrong_comm_names}
del comm_data[None]
%store comm_data
comm_data

Stored 'comm_data' (dict)


{'Prebold':        B-Datum prve registracije vozila  \
 1076                         28.02.2005   
 1227                         31.03.2008   
 1840                         29.05.2006   
 2577                          4.08.2010   
 2614                         20.09.2016   
 ...                                 ...   
 475181                        8.06.2012   
 475324                       28.11.2006   
 475476                       30.06.2014   
 475699                       26.10.2007   
 475805                       26.01.1993   
 
        2A-Datum prve registracije vozila v SLO  \
 1076                                28.02.2005   
 1227                                28.10.2016   
 1840                                29.05.2006   
 2577                                 4.08.2010   
 2614                                20.09.2016   
 ...                                        ...   
 475181                               8.06.2012   
 475324                              20.10.2009   
