## Referenciranje potrebnih biblioteka

In [2]:
import pandas as pd

Prva stvar uglavnom kada radimo sa pandasom, a želimo analizirati dataset jeste da ga moramo nekako učitati u našu svesku. 

To ćemo učiniti na način da prvo provjerimo koja nam je ekstenzija fajla kojeg želimo učitati:
.xlsx; .csv; .db ili možda neki drugi. Bilo koji tip fajla pandas ima metodu da učita fajl.

Na ovom linku možete pročitati malo više o učitavanju fajlova putem pandasa, ništa specijalno nema kod učitavanja fajlova sa različitim ekstenzijama, jedina razlika je u nazivu funkcije koja se koristi kod učitavanja fajla (https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

U literaturi ću proći malo više kada budem govorio o načinu interpretacije dokumentacije o pandasu.

U ovom primjeru koristit ćemo dataset koji sam preuzeo sa Kaggle.com, te ćemo kroz primjere primjeniti različite metode čišćenja podataka. Budući da je ovaj dataset smaknut sa Kaggle.com moći ćete ga preuzeti ovdje u folderu dataSet/pandas-cars.csv

In [3]:
rawData = pd.read_csv("dataSet/pandas-cars.csv")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdc in position 14: invalid continuation byte

Prije nego što krenem sa objašnjenjem greške koju smo dobili, prvo ću da objasnim proces učitavanja datoteke.

rawData = pd.read_csv("dataSet/pandas-cars.csv")

Kao što vidimo da bi učitali datoteku moramo je sačuvati negdje u memoriji, to činimo kada je spasimo u neku varijablu, u ovom slučaju je to "rawData".

Dalje koristimo kao što smo naučili skraćenicu pd za pandas, u ekstenziji skraćenice dodajemo nastavak, ukoliko je Excel onda imamo read_excel, ali ove ekstenzije možete naći u linku koji sam dao gore.

Kao prvi parametar u zagradi dajemo put do datoteke. SAVJET: Uvijek fajl koji želite učitati spašavajte jedan level ispod sveske, u ovom slučaju pandas.ipynb je level više u hijerarhiji datoteka i foldera u odnosu na pandas-cars.csv

Kao što možete vidjeti pandas.ipynb nalazi se u folderu Alati, dok pandas-cars.csv se nalazi jedan leven u hijerarhiji ispod odnosno Alati/dataSet/pandas-cars.csv

Ovaj način stavljanja vaših datoteka olakšavam učitavanje u svesku.

<img src="slike/InkedScreenshot 2020-12-07 124903_LI.jpg">


Napokon je došlo vrijeme da riješimo problem koji smo dobili ovdje u prethodnoj ćeliji, a on je:

<b>UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdc in position 14: invalid continuation byte</b>

Kada dobijete bilo kakvu grešku prvo što uradite googlajte je jer sigurno je neko prije vas imao sličan problem i riješio ga je ili je pronašao drugi način da uradi istu stvar.

Ukoliko želite steći neku intuiciju kako riješiti ovaj problem evo sami pokušajte pronaći na ovom linku: https://stackoverflow.com/questions/5552555/unicodedecodeerror-invalid-continuation-byte

StackOverflow će biti vaša druga adresa jer ćete stalno tražiti riješenja za vaše probleme.

U našem slučaju potrebno je dodati još jedan parametar, a on je:
* encoding = 'iso-8859-1'
Ovaj parametar će dati funkciji instrukciju na koji način će učitati ovu datoteku na pravi način.

In [4]:
rawData = pd.read_csv("dataSet/pandas-cars.csv", encoding = 'iso-8859-1')

In [6]:
rawData.head(7) # u head funkciju dajemo broj redova koji želimo ispisati 
# po defaultu je 5, ali i mi možemo dati svoj broj, možemo i bez .head() ispisati naš dataFrame,
# ali je nepregledan kada ga na taj način učitamo.

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21
5,2016-04-04 17:36:23,BMW_316i___e36_Limousine___Bastlerfahrzeug__Ex...,privat,Angebot,650,test,limousine,1995,manuell,102,3er,150000,10,benzin,bmw,ja,2016-04-04 00:00:00,0,33775,2016-04-06 19:17:07
6,2016-04-01 20:48:51,Peugeot_206_CC_110_Platinum,privat,Angebot,2200,test,cabrio,2004,manuell,109,2_reihe,150000,8,benzin,peugeot,nein,2016-04-01 00:00:00,0,67112,2016-04-05 18:18:39


Da bi dobili malo više informacija o našem dataFrame-u koristit ćemo još dvije funkcije, a one su: describe() i info(). Jer gledajući ovako u tabelu ne možemo mnogo skontati.

In [7]:
rawData.info() # dobit ćemo nazive kolona, broj redova te tip podatka koji svaka kolona posjeduje

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 371528 entries, 0 to 371527
Data columns (total 20 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   dateCrawled          371528 non-null  object
 1   name                 371528 non-null  object
 2   seller               371528 non-null  object
 3   offerType            371528 non-null  object
 4   price                371528 non-null  int64 
 5   abtest               371528 non-null  object
 6   vehicleType          333659 non-null  object
 7   yearOfRegistration   371528 non-null  int64 
 8   gearbox              351319 non-null  object
 9   powerPS              371528 non-null  int64 
 10  model                351044 non-null  object
 11  kilometer            371528 non-null  int64 
 12  monthOfRegistration  371528 non-null  int64 
 13  fuelType             338142 non-null  object
 14  brand                371528 non-null  object
 15  notRepairedDamage    299468 non-nu

In [8]:
rawData.describe() # će nam pružiti brzi set statističkih parametara koji nam daju brz pregled na naš
# dataSet

Unnamed: 0,price,yearOfRegistration,powerPS,kilometer,monthOfRegistration,nrOfPictures,postalCode
count,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0,371528.0
mean,17295.14,2004.577997,115.549477,125618.688228,5.734445,0.0,50820.66764
std,3587954.0,92.866598,192.139578,40112.337051,3.712412,0.0,25799.08247
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1150.0,1999.0,70.0,125000.0,3.0,0.0,30459.0
50%,2950.0,2003.0,105.0,150000.0,6.0,0.0,49610.0
75%,7200.0,2008.0,150.0,150000.0,9.0,0.0,71546.0
max,2147484000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


Ovdje možete malo više pročitati o describe() funkciji: 
    https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

Ono što u tabeli ispod možemo primjetiti jeste da nam sve ove kolone baš i ne trebaju, tako da ćemo one koje nam ovdje ne trebaju i izbaciti kako bi imali pregledniju tabelu.

Način kako da dobijem nazive kolona a da ne pišemo svaku zasebno je uz funkciju <b>columns</b>

In [10]:
rawData.head()

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


In [11]:
rawData.columns

Index(['dateCrawled', 'name', 'seller', 'offerType', 'price', 'abtest',
       'vehicleType', 'yearOfRegistration', 'gearbox', 'powerPS', 'model',
       'kilometer', 'monthOfRegistration', 'fuelType', 'brand',
       'notRepairedDamage', 'dateCreated', 'nrOfPictures', 'postalCode',
       'lastSeen'],
      dtype='object')

Sad kad imamo nazive kolona u okviru liste možemo lako izabrati kolone koje želimo ostaviti, a koje treba izbaciti.

Moje subjektivno mišljenje je da nam ne trebaju prve četri kolone:
* ['dateCrawled', 'name', 'seller', 'offerType']
Naredna kolona koja nam neće trebati je:
* ['abtest']
Takođe smatram da nam ne treba kolona:
* ['monthOfRegistration'], jer imamo godinu registracije što je sasvim dovoljno
I na kraju posljednje četri kolone su nepotrebne:
* ['dateCreated', 'nrOfPictures', 'postalCode', 'lastSeen']

Ukoliko vi mislite da vam još neka kolona ne treba ili želite ostaviti neku od izvbačenih kolona slobodno to uradite jer će te u ostatku imati više samostalnog rada.

Da bi izbacili kolone potrebna nam je funkcija <b>drop()</b>
