# Priprava podatkov

Osnova projektne naloge bo [**Evidenca registriranih vozil**](https://podatki.gov.si/dataset/evidenca-registriranih-vozil-presek-stanja), ki vsebuje malo morje podatkov o vseh registriranih vozilih *(znamka, število prevoženih kilometrov, moč motorja, ...)* v določenem časovnem obdobju. Polega tega smo potrebovali še `obcine.csv` z imeni občin in `obcine.geojson` z mejami občin na zemljevidu.

## Knjižnice

In [1]:
import pandas as pd

## Branje podatkov

Podatki za leto 2022 so zaradi prevelike količine razdeljeni v šest `.csv` datotek. Za naš projekt so zadostovali spodnji **atributi registracije vozil**.

In [2]:
columns = {'B-Datum prve registracije vozila',
 'C13-Obcina uporabnika vozila (opis)',
 'C2-Starost lastnika vozila',
 'D1-Znamka',
 'J-Kategorija in vrsta vozila (opis)',
 'P12-Nazivna moc',
 'Prevozeni kilometri milje'}

Z metodo `read_data` smo prebrali vseh 6 datotek, izločili nepotrebne stolpce in vrstice ter podatke shranili v `cars`.

In [3]:
def read_data(files):
    for f in files:
        # izbira solpcev (atributi)
        data = pd.read_csv(f, sep=';', encoding='dbcs', usecols=columns, low_memory=False, on_bad_lines='skip')
        
        # izbira vrstic (avtomovibi)
        data = data[data['J-Kategorija in vrsta vozila (opis)'] == 'osebni avtomobil']
        
        cars = pd.concat([data])
    return cars

In [4]:
files = ['data/raw_data/vozila2022_1.csv',
         'data/raw_data/vozila2022_2.csv',
         'data/raw_data/vozila2022_3.csv',
         'data/raw_data/vozila2022_4.csv',
         'data/raw_data/vozila2022_5.csv',
         'data/raw_data/vozila2022_6.csv']

cars = read_data(files)
cars

Unnamed: 0,B-Datum prve registracije vozila,C13-Obcina uporabnika vozila (opis),C2-Starost lastnika vozila,D1-Znamka,J-Kategorija in vrsta vozila (opis),P12-Nazivna moc,Prevozeni kilometri milje
0,11.11.2010,Kranj,40.0,RENAULT,osebni avtomobil,48,189754.0
1,6.07.1990,Dobrna,73.0,HONDA,osebni avtomobil,51,183800.0
2,27.12.2002,Kranj,,RENAULT,osebni avtomobil,43,208068.0
3,3.05.2012,Piran,43.0,KIA,osebni avtomobil,62.5,110212.0
5,27.10.2017,Brežice,42.0,BMW,osebni avtomobil,120,144420.0
...,...,...,...,...,...,...,...
475864,13.01.2011,Medvode,86.0,FORD,osebni avtomobil,71,34317.0
475866,3.12.2008,Domžale,57.0,TOYOTA,osebni avtomobil,91,145196.0
475867,14.01.2015,Žalec,34.0,VOLKSWAGEN,osebni avtomobil,103,202321.0
475871,7.12.2005,Krško,39.0,AUDI,osebni avtomobil,100,321527.0


## Popravljanje podatkov

Za uspešno vizualizacijo z zemeljevidom, razdeljenim na občine, smo bili primorani popraviti imena nekaterih občin. V surovih podatkih je črko `č` nadomeščal `c`, hkrati pa je bilo poimenovanje štirih občin napačno. Težavo smo rešili s **slovarjem preslikav**, kjer ključ predstavlja preslikavo na pravilno ime občine. 

In [5]:
wrong_comm_names = set(cars["C13-Obcina uporabnika vozila (opis)"])

correct_comm_names = pd.read_csv('data/obcine.csv', usecols=['OB_UIME'], low_memory=False)['OB_UIME'].tolist()

comm_names_links = dict.fromkeys(wrong_comm_names)

for c_name in correct_comm_names:
    for w_name in wrong_comm_names:
        
        if c_name.lower().replace('c', '').replace('č', '') \
            == w_name.lower().replace('c', '').replace('č', ''):
                
            comm_names_links[w_name] = c_name
            break
            
comm_names_links['Sveti Jurij'] = 'Sveti Jurij ob Ščavnici'
comm_names_links['Šentjur pri Celju'] = 'Šentjur'
comm_names_links['Ravne'] = 'Ravne na Koroškem'
comm_names_links['Sveti Andraž v Slov.goricah'] = 'Sveti Andraž v Slov. goricah'

Podatke smo shranili v slovar `comm_data`, kje kot vrednost hranimo podatke posamezne občine oziroma ključa. Slednji slovar je deljena spremenljivka med ostalimi **jupyter zvezki**.

In [6]:
comm_data = {comm_names_links[w_name]:cars[cars['C13-Obcina uporabnika vozila (opis)'] == w_name] for w_name in wrong_comm_names}
del comm_data[None]
%store comm_data
comm_data

Stored 'comm_data' (dict)


{'Žalec':        B-Datum prve registracije vozila C13-Obcina uporabnika vozila (opis)  \
 27                           19.06.2009                               Žalec   
 33                           11.02.2008                               Žalec   
 650                          28.11.2016                               Žalec   
 709                           2.06.2008                               Žalec   
 929                           1.12.2017                               Žalec   
 ...                                 ...                                 ...   
 475058                       25.03.2021                               Žalec   
 475158                       20.02.2009                               Žalec   
 475169                        3.06.2010                               Žalec   
 475332                       28.01.2003                               Žalec   
 475867                       14.01.2015                               Žalec   
 
         C2-Starost lastnika 