## Referenciranje potrebnih biblioteka

In [3]:
import pandas as pd

Prva stvar uglavnom kada radimo sa pandasom, a želimo analizirati dataset jeste da ga moramo nekako učitati u našu svesku. 

To ćemo učiniti na način da prvo provjerimo koja nam je ekstenzija fajla kojeg želimo učitati:
.xlsx; .csv; .db ili možda neki drugi. Bilo koji tip fajla pandas ima metodu da učita fajl.

Na ovom linku možete pročitati malo više o učitavanju fajlova putem pandasa, ništa specijalno nema kod učitavanja fajlova sa različitim ekstenzijama, jedina razlika je u nazivu funkcije koja se koristi kod učitavanja fajla (https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

U literaturi ću proći malo više kada budem govorio o načinu interpretacije dokumentacije o pandasu.

U ovom primjeru koristit ćemo dataset koji sam preuzeo sa Kaggle.com, te ćemo kroz primjere primjeniti različite metode čišćenja podataka. Budući da je ovaj dataset smaknut sa Kaggle.com moći ćete ga preuzeti ovdje u folderu dataSet/pandas-cars.csv

In [4]:
rawData = pd.read_csv("dataSet/pandas-cars.csv")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdc in position 14: invalid continuation byte

Prije nego što krenem sa objašnjenjem greške koju smo dobili, prvo ću da objasnim proces učitavanja datoteke.

rawData = pd.read_csv("dataSet/pandas-cars.csv")

Kao što vidimo da bi učitali datoteku moramo je sačuvati negdje u memoriji, to činimo kada je spasimo u neku varijablu, u ovom slučaju je to "rawData".

Dalje koristimo kao što smo naučili skraćenicu pd za pandas, u ekstenziji skraćenice dodajemo nastavak, ukoliko je Excel onda imamo read_excel, ali ove ekstenzije možete naći u linku koji sam dao gore.

Kao prvi parametar u zagradi dajemo put do datoteke. SAVJET: Uvijek fajl koji želite učitati spašavajte jedan level ispod sveske, u ovom slučaju pandas.ipynb je level više u hijerarhiji datoteka i foldera u odnosu na pandas-cars.csv

Kao što možete vidjeti pandas.ipynb nalazi se u folderu Alati, dok pandas-cars.csv se nalazi jedan leven u hijerarhiji ispod odnosno Alati/dataSet/pandas-cars.csv

Ovaj način stavljanja vaših datoteka olakšavam učitavanje u svesku.

<img src="slike/InkedScreenshot 2020-12-07 124903_LI.jpg">


Napokon je došlo vrijeme da riješimo problem koji smo dobili ovdje u prethodnoj ćeliji, a on je:

<b>UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdc in position 14: invalid continuation byte</b>

Kada dobijete bilo kakvu grešku prvo što uradite googlajte je jer sigurno je neko prije vas imao sličan problem i riješio ga je ili je pronašao drugi način da uradi istu stvar.

Ukoliko želite steći neku intuiciju kako riješiti ovaj problem evo sami pokušajte pronaći na ovom linku: https://stackoverflow.com/questions/5552555/unicodedecodeerror-invalid-continuation-byte

StackOverflow će biti vaša druga adresa jer ćete stalno tražiti riješenja za vaše probleme.

U našem slučaju potrebno je dodati još jedan parametar, a on je:
* encoding = 'iso-8859-1'
Ovaj parametar će dati funkciji instrukciju na koji način će učitati ovu datoteku na pravi način.

In [5]:
rawData = pd.read_csv("dataSet/pandas-cars.csv", encoding = 'iso-8859-1')

In [6]:
rawData.head(7) # u head funkciju dajemo broj redova koji želimo ispisati 
# po defaultu je 5, ali i mi možemo dati svoj broj, možemo i bez .head() ispisati naš dataFrame,
# ali je nepregledan kada ga na taj način učitamo.

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21
5,2016-04-04 17:36:23,BMW_316i___e36_Limousine___Bastlerfahrzeug__Ex...,privat,Angebot,650,test,limousine,1995,manuell,102,3er,150000,10,benzin,bmw,ja,2016-04-04 00:00:00,0,33775,2016-04-06 19:17:07
6,2016-04-01 20:48:51,Peugeot_206_CC_110_Platinum,privat,Angebot,2200,test,cabrio,2004,manuell,109,2_reihe,150000,8,benzin,peugeot,nein,2016-04-01 00:00:00,0,67112,2016-04-05 18:18:39


Da bi dobili malo više informacija o našem dataFrame-u koristit ćemo još dvije funkcije, a one su: describe() i info(). Jer gledajući ovako u tabelu ne možemo mnogo skontati.

In [7]:
rawData.info() # dobit ćemo nazive kolona, broj redova te tip podatka koji svaka kolona posjeduje

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 371528 entries, 0 to 371527
Data columns (total 20 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   dateCrawled          371528 non-null  object
 1   name                 371528 non-null  object
 2   seller               371528 non-null  object
 3   offerType            371528 non-null  object
 4   price                371528 non-null  int64 
 5   abtest               371528 non-null  object
 6   vehicleType          333659 non-null  object
 7   yearOfRegistration   371528 non-null  int64 
 8   gearbox              351319 non-null  object
 9   powerPS              371528 non-null  int64 
 10  model                351044 non-null  object
 11  kilometer            371528 non-null  int64 
 12  monthOfRegistration  371528 non-null  int64 
 13  fuelType             338142 non-null  object
 14  brand                371528 non-null  object
 15  notRepairedDamage    299468 non-nu

In [8]:
rawData.describe() # će nam pružiti brzi set statističkih parametara koji nam daju brz pregled na naš
# dataSet

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,nrOfPictures,postalCode
count,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228,5.734445,0.0,50820.66764
std,3587954.0,92.866598,192.139578,40112.337051,3.712412,0.0,25799.08247
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1150.0,1999.0,70.0,125000.0,3.0,0.0,30459.0
50%,2950.0,2003.0,105.0,150000.0,6.0,0.0,49610.0
75%,7200.0,2008.0,150.0,150000.0,9.0,0.0,71546.0
max,2147484000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


Ovdje možete malo više pročitati o describe() funkciji: 
    https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

Ono što u tabeli ispod možemo primjetiti jeste da nam sve ove kolone baš i ne trebaju, tako da ćemo one koje nam ovdje ne trebaju i izbaciti kako bi imali pregledniju tabelu.

Način kako da dobijem nazive kolona a da ne pišemo svaku zasebno je uz funkciju <b>columns</b>

In [9]:
rawData.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


In [10]:
rawData.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'kilometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

Sad kad imamo nazive kolona u okviru liste možemo lako izabrati kolone koje želimo ostaviti, a koje treba izbaciti.

Moje subjektivno mišljenje je da nam ne trebaju prve četri kolone:
* ['dateCrawled', 'name', 'seller', 'offerType']
Naredna kolona koja nam neće trebati je:
* ['abtest']
Takođe smatram da nam ne treba kolona:
* ['monthOfRegistration'], jer imamo godinu registracije što je sasvim dovoljno
I na kraju posljednje četri kolone su nepotrebne:
* ['dateCreated', 'nrOfPictures', 'postalCode', 'lastSeen']

Ukoliko vi mislite da vam još neka kolona ne treba ili želite ostaviti neku od izvbačenih kolona slobodno to uradite jer će te u ostatku imati više samostalnog rada.

Da bi izbacili kolone potrebna nam je funkcija <b>drop()</b>
    https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html

Sada ćemo izbaciti gore navedene kolone:
    prvi parametar koji nam je potreban u funkcij je naziv kolona u okviru liste:
    
* ['dateCrawled', 'name', 'seller', 'offerType', 'abtest', 'monthOfRegistration', 'dateCreated', 'nrOfPictures', 'postalCode', 'lastSeen']
    
    ovo su sve kolone koje ćemo izbaciti jer su nam nepotrebne.
    Naredni parametar je axis što znači na kojoj osi se nalze naša lista koju želimo izbaciti
    imamo axis 1 ili 0 ukoliko selektujemo 0 onda izbacujemo redove, ukoliko ipak jedan onda izbacujemo kolone, znači nama treba jedan

I posljedni parametar koji nam treba kad izbacujemo kolone jeste:
    inpace koji je tip podatka <b>bool</b> odnosno može biti samo True ili False u ovo slučaju će nam trebati True jer želimo da nam funkcija vrati kopiju dataFrame-a koji neće imati kolone koje smo selektovali.


In [11]:
rawData.drop(
    ['dateCrawled', 'name', 'seller', 'offerType', 'abtest', 'monthOfRegistration', 'dateCreated', 'nrOfPictures', 'postalCode', 'lastSeen'],
    axis = 1,
    inplace = True
)

In [12]:
rawData

Unnamed: 0,price,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
0,480,,1993,manuell,0,golf,150000,benzin,volkswagen,
1,18300,coupe,2011,manuell,190,,125000,diesel,audi,ja
2,9800,suv,2004,automatik,163,grand,125000,diesel,jeep,
3,1500,kleinwagen,2001,manuell,75,golf,150000,benzin,volkswagen,nein
4,3600,kleinwagen,2008,manuell,69,fabia,90000,diesel,skoda,nein
...,...,...,...,...,...,...,...,...,...,...
371523,2200,,2005,,0,,20000,,sonstige_autos,
371524,1199,cabrio,2000,automatik,101,fortwo,125000,benzin,smart,nein
371525,9200,bus,1996,manuell,102,transporter,150000,diesel,volkswagen,nein
371526,3400,kombi,2002,manuell,100,golf,150000,diesel,volkswagen,


In [13]:
rawData.isnull().sum() # provjeravamo koliko imamo nultih vrijednosti

price                     0
vehicleType           37869
yearOfRegistration        0
gearbox               20209
powerPS                   0
model                 20484
kilometer                 0
fuelType              33386
brand                     0
notRepairedDamage     72060
dtype: int64

Iako ovdje pokazuje da u "price" ćeliji nemam niti jednu nultu vrijednost lako ću dokazati da ipak ima nultih vrijednosti, zato trebate stalno paziti kako čistite vaše datasetove jer će se desiti da algoritam iz nekog razloga napravi grešku.

In [14]:
rawData[rawData["price"] == 0].count()

price                 10778
vehicleType            7036
yearOfRegistration    10778
gearbox                8298
powerPS               10778
model                  8594
kilometer             10778
fuelType               7340
brand                 10778
notRepairedDamage      5488
dtype: int64

Najveći problem kod podataka koji će se kasnije koristii u procesu ML-a su nulte vrijednosti, one se nekad lako mogu identifikovati, ali nekad to zna biti mukotrpan posao da se ispravi.

Nako identifikacije nultih vrijednosti problem predstavlja kako ćemo te nulte vrijednosti zamjenuti ili riješiti njihov problem.

Kada radimo sa velikim datasetovima ukoliko je mala količina nultih vrijednosti nije problem da ih izbacimo, ali budući da nam je dataset jako mal ovdje ćemo morati improvizovati.

U Python-u imamo biblioteke koje nam mogu pomoći pri zamjeni nultih vrijednosti, najpoznatija je <b>Imputer</b> iz biblioteke do koje ćemo kasnije doći <b>sklearn.impute</b>.

Budući da nam ona može olakšati posao mogli bi smo nju koristiti, ali u procesiranju podataka poznati termin je "GARBAGE IN GARBAGE OUT" što znači smeće unosimo u funkciju smeće dobijamo iz funkcije, to znači da u okviru datasetova imamo ekstremno niske i visoke vrijednosti koji svojim prisustvom mogu da naštete srednjim vrijednostima.

Zato ćemo ovdije da napravimo našu funkciju koja će bolje reprezentirati naše vrijednosti.

Prvo nam je potrebna baza iz koje ćemo povlačiti srednje vrijednosti kako bi ih popunjavali u glavnom dataFrame-u. Ja sam bio vrijedan i napravio taj dataFrame nekad ranije kako bih sad mogao vama da prezentujem.

U narednoj ćeliji možete i vidjeti kako pravimo dataFrame putem Python dictionary-a, ovo je samo jedan od načina kako možemo kreirati dataFrame, u ovom slučaju je bio pregledan pa sam s njim radio, o načinima kreiranja dataFrame možete pročitati više ovdje: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

In [15]:
prices = pd.DataFrame({
    'vehicleType':['bus',
                   'cabrio',
                   'coupe',
                   'kleinwagen',
                   'kombi',
                   'limousine',
                   'suv'],
    'VolksWagen':   [9236, 6552, 14854, 9255, 5756, 10845, 15899],
    'BMW':          [27570, 37973, 32091, 4433, 8998, 3611, 15924],
    'Opel':         [4404, 4413, 3367, 2062, 3271, 4483, 7451],
    'Mercedes Benz':[44779, 16242, 42379, 2275, 6833, 13992, 16993],
    'Audi':         [3485, 13441, 16342, 7358, 17060, 16231, 24621],
    'Ford':         [6028, 5471, 8207, 2254, 5585, 30995, 11399],
    'Renault':      [3087, 4133, 6039, 1750, 3005, 2272, 9280],
    'Peugeot':      [5081, 4570, 6761, 2092, 3410, 3221, 11954],
    'Fiat':         [4015, 6486, 3801, 4809, 2076, 2490, 8527],
    'SEAT':         [7063, 0, 5552, 3022, 6852, 5821, 8712], # seat nema cabrio zato je njegova vrd. 0
    'Skoda':        [6650, 7723, 3533, 4390, 7328, 5327, 14390]
    })
prices

Unnamed: 0,vehicleType,VolksWagen,BMW,Opel,Mercedes Benz,Audi,Ford,Renault,Peugeot,Fiat,SEAT,Skoda
0,bus,9236,27570,4404,44779,3485,6028,3087,5081,4015,7063,6650
1,cabrio,6552,37973,4413,16242,13441,5471,4133,4570,6486,0,7723
2,coupe,14854,32091,3367,42379,16342,8207,6039,6761,3801,5552,3533
3,kleinwagen,9255,4433,2062,2275,7358,2254,1750,2092,4809,3022,4390
4,kombi,5756,8998,3271,6833,17060,5585,3005,3410,2076,6852,7328
5,limousine,10845,3611,4483,13992,16231,30995,2272,3221,2490,5821,5327
6,suv,15899,15924,7451,16993,24621,11399,9280,11954,8527,8712,14390


Sada ćemo importovati klase koje sam ja kreirao kako bih olakšao proces pronalaženja nultih vrijednosti, ako želite da pogledate možete to učiniti u datoteci CustomImputer.py

Sada će uslijediti objašnjenje prve klase koja se nalazi u datoteci CustomImputer.py:
* CheckingForValues: 
    će čekirati koje vrijednosti nedostaju, a inicijalizirati se mora sa dataFrameom u kojem tražimo te vrijednosti, znači ako tražimo vrijednost 0 on će ih pronaći ili neku po nama želji drugu vrijednost jer u ovome dataFrame-u imamo i 1 i 2 vrijednosti koje nisu reprezentativne.
    <code>
        suv = self.targetDataFrame[
            (self.targetDataFrame['vehicleType']=='suv') &
            (self.targetDataFrame['brand']==targetBrand) &
            (self.targetDataFrame['price']==value)
            ].count()
    </code>

Ovdje možemo vidjeti šta konkretno radi Check funkcija u klasi CheckingForValues. da bi selektovali kolonu dataFrame uzimate naziv dataFrame-a["naziv kolone"] u ovome slučaju self.targetDataFrame je mjeto koje će popuniti naš dataFrame. A onda kolonu čekiramo sa brendom, vrijednošću koju želimo, te tipom vozila "suv". Znači da sve kolone moraju ispuniti uslov kako bi program uvrstio u sekciju sa nedostacima


In [16]:
from CustomImputer import CheckingForValues
# da bi importovali pojedinu klasu iz datoteke koristimo ključnu riječ from zatim naziv datoteke
# import i onda naziv klase

In [17]:
check = CheckingForValues(rawData)

In [18]:
check.Check(targetBrand = "volkswagen", value=0) # čekiramo koliko ima nultih vrijednosti za naš brend

Unnamed: 0,Vehicle Type,Missing values
0,bus,88
1,cabrio,41
2,coupe,39
3,kleinwagen,336
4,kombi,166
5,limusine,0
6,suv,16


Da bi sad popunili vrijednosti za sve naše automobile i njihove brendove učitat ćemo još jednu klasu iz iste datoteke.

In [19]:
from CustomImputer import FillMissingValues

In [20]:
fill = FillMissingValues(prices, rawData)

In [21]:
fill.InputMissingValue('volkswagen', 'VolksWagen', returnArg=False)
fill.InputMissingValue('volkswagen', 'VolksWagen', value=1, returnArg=False)

fill.InputMissingValue('bmw', 'BMW', returnArg=False)
fill.InputMissingValue('bmw', 'BMW', value=1, returnArg=False)

fill.InputMissingValue('opel', 'Opel', returnArg=False)
fill.InputMissingValue('opel', 'Opel', value=1, returnArg=False)

fill.InputMissingValue('mercedes_benz', 'Mercedes Benz', returnArg=False)
fill.InputMissingValue('mercedes_benz', 'Mercedes Benz', value=1, returnArg=False)

fill.InputMissingValue('audi', 'Audi', returnArg=False)
fill.InputMissingValue('audi', 'Audi', value=1, returnArg=False)

fill.InputMissingValue('ford', 'Ford', returnArg=False)
fill.InputMissingValue('ford', 'Ford', value=1, returnArg=False)

fill.InputMissingValue('renault', 'Renault', returnArg=False)
fill.InputMissingValue('renault', 'Renault', value=1, returnArg=False)

fill.InputMissingValue('peugeot', 'Peugeot', returnArg=False)
fill.InputMissingValue('peugeot', 'Peugeot', value=1, returnArg=False)

fill.InputMissingValue('fiat', 'Fiat', returnArg=False)
fill.InputMissingValue('fiat', 'Fiat', value=1, returnArg=False)

fill.InputMissingValue('seat', 'SEAT', returnArg=False)
fill.InputMissingValue('seat', 'SEAT', value=1, returnArg=False)

fill.InputMissingValue('skoda', 'Skoda', returnArg=False)
fill.InputMissingValue('skoda', 'Skoda', value=1, returnArg=False)

In [23]:
rawData

Unnamed: 0,price,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
0,480,,1993,manuell,0,golf,150000,benzin,volkswagen,
1,18300,coupe,2011,manuell,190,,125000,diesel,audi,ja
2,9800,suv,2004,automatik,163,grand,125000,diesel,jeep,
3,1500,kleinwagen,2001,manuell,75,golf,150000,benzin,volkswagen,nein
4,3600,kleinwagen,2008,manuell,69,fabia,90000,diesel,skoda,nein
...,...,...,...,...,...,...,...,...,...,...
371523,2200,,2005,,0,,20000,,sonstige_autos,
371524,1199,cabrio,2000,automatik,101,fortwo,125000,benzin,smart,nein
371525,9200,bus,1996,manuell,102,transporter,150000,diesel,volkswagen,nein
371526,3400,kombi,2002,manuell,100,golf,150000,diesel,volkswagen,


In [25]:
rawData[rawData['price']==0]

Unnamed: 0,price,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,fuelType,brand,notRepairedDamage
40,0,,1990,,0,corsa,150000,benzin,opel,
115,0,,2017,manuell,0,golf,5000,benzin,volkswagen,
159,0,,2006,,0,andere,5000,,fiat,
346,0,,2005,,0,polo,150000,benzin,volkswagen,
430,0,,1985,,0,3er,150000,,bmw,
...,...,...,...,...,...,...,...,...,...,...
371305,0,,2000,manuell,55,punto,5000,benzin,fiat,ja
371325,0,,1995,manuell,45,polo,150000,benzin,volkswagen,
371356,0,,2000,manuell,65,corsa,150000,,opel,ja
371402,0,kleinwagen,1999,manuell,53,swift,150000,benzin,suzuki,


Iako i sad imamo nultih vrijednosti u koloni "price", razlog tome je zato što nemamo "vehicleType" u koloni koji je potreban za popunjavanje "price" kolone.

Sad jedino što možemo da uradimo u ovom slučaju je da izbacimo nulte vrijednosti, jer smo iscrpili sve načine da ih zadržimo.

Nulte vrijednosti izbacit ćemo preko funkcije dropna(): https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

In [30]:
rawData = rawData.dropna()

In [32]:
rawData.isnull().sum()

price                 0
vehicleType           0
yearOfRegistration    0
gearbox               0
powerPS               0
model                 0
kilometer             0
fuelType              0
brand                 0
notRepairedDamage     0
dtype: int64

Iako nismo spominjali druge kolone na sličan način bi radili ostale kolone, ovaj primjer sam ja radio u toku svog istraživanja i jako je dugo trajalo, iako bi bilo dobro i ovdje uraditi, ova sekcija već postaje previše duga tako da ko želi da se više zanima to može za svoju praksu uraditi.

Sad kad imamo neko predznanje kako možemo da selektujemo određenu vrijednost u pandasu, to možemo uraditi uz različite funkcije: iloc, loc, at...

Kao i kod numpy-a i kod pandas-a indexiranje počinje od 0, tako ako želimo selektovati kolonu price to ćemo učiniti na način iloc[:,0], dvotačka predstavlja definisanje opsega od kojeg do kojeg indexa želimo vrijdenosti možemo reći rawData.iloc[1:5,1:4],prva vrijednost prije zareza predstavlja redove, a druga kolone.

In [34]:
rawData.iloc[1:5,1:4]

Unnamed: 0,vehicleType,yearOfRegistration,gearbox
4,kleinwagen,2008,manuell
5,limousine,1995,manuell
6,cabrio,2004,manuell
7,limousine,1980,manuell


In [38]:
rawData.at[4, 'price']

3600

Posljednje što je ostalo da uradimo jeste da exportujemo naš dataframe u fajl kako bi ga mogli kasnije koristiti

To ćemo uraditi na sljedeći način

In [None]:
rawData.to_csv("dataSet/preprocesed-car.csv", index=False)