In [1]:
# To handle datasets
import pandas as pd
import numpy as np
from tqdm import tqdm

# For plotting
import matplotlib.pyplot as plt
import seaborn as sns

# For the yeo-johnson transformation
import scipy.stats as stats

# To display all the columns of the dataframe in the notebook
pd.pandas.set_option('display.max_columns', None)

In [2]:
train_set = pd.read_hdf('./df.train.h5')

In [3]:
print(train_set.shape)

(80129, 10)


In [4]:
train_set.head()

Unnamed: 0,id,price_details,price_value,price_currency,features,seller_name,seller_type,seller_address,breadcrumb,offer_params
7,7,"Cena Brutto, Faktura VAT",63 900,PLN,"[ABS, Elektrycznie ustawiane lusterka, Poduszk...",TRANS-AUTO SP. Z O.O. DEALER MARKI ...,Dealer,"ŁUKASIEWICZA 1 - 19-300 Ełk, ełcki, Warmińsko-...","[Osobowe, Citroën, C4 Cactus]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ..."
10,10,Cena Brutto,41 900,PLN,"[ABS, ASR (kontrola trakcji), Elektryczne szyb...",DECAR - RENAULT i DACIA,Dealer,"MODLIŃSKA 154 B - 03-170 Warszawa, Mazowieckie...","[Osobowe, Nissan, Juke]","{'Kolor': 'Czarny', 'Model pojazdu': 'Juke', '..."
11,11,"Cena Brutto, Do negocjacji",17 950,PLN,"[ABS, Elektryczne szyby przednie, Poduszka pow...",SKUP SPRZEDAŻ ZAMIANA RATY,Dealer,"Ruchocinek 63c - 62-230 Witkowo, gnieźnieński,...","[Osobowe, Opel, Astra, Opel Astra H (2004-2014)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ..."
14,14,"Cena Brutto, Do negocjacji",38 000,PLN,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Osoba prywatna,"Chróścice, opolski, Opolskie","[Osobowe, Audi, A4, Audi A4 B8 (2007-2015)]","{'Liczba miejsc': '5', 'Kraj pochodzenia': 'Ni..."
16,16,Cena Brutto,21 900,PLN,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Osoba prywatna,"Trzeboszowice, nyski, Opolskie","[Osobowe, Ford, Fiesta, Ford Fiesta Mk7 (2008-)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ..."


## Extract "features" column to separate column with relevant feats and values and create "amenities" feat.

In [5]:
train_set.reset_index(inplace = True)

In [6]:
features = []

for i in range(train_set['id'].shape[0]):
    features.extend(train_set['features'][i])
    features = set(features)
    features = list(features)

In [7]:
for feat in tqdm(features):
    train_set[feat] = train_set['features'].apply(lambda x: 1 if feat in x else 0)

100%|██████████| 70/70 [00:07<00:00,  9.64it/s]


In [8]:
train_set.head()

Unnamed: 0,index,id,price_details,price_value,price_currency,features,seller_name,seller_type,seller_address,breadcrumb,offer_params,Elektryczne szyby przednie,Asystent pasa ruchu,Elektrycznie ustawiane fotele,Centralny zamek,Elektrycznie ustawiane lusterka,CD,Czujnik deszczu,Relingi dachowe,Tapicerka welurowa,Światła LED,Poduszka powietrzna chroniąca kolana,Podgrzewane przednie siedzenia,Zmieniarka CD,Łopatki zmiany biegów,Gniazdo SD,ASR (kontrola trakcji),Wspomaganie kierownicy,Czujniki parkowania przednie,Asystent parkowania,HUD (wyświetlacz przezierny),Ogrzewanie postojowe,Elektryczne szyby tylne,Odtwarzacz DVD,Poduszki boczne przednie,Tempomat,ABS,Czujnik zmierzchu,Alarm,Klimatyzacja czterostrefowa,Kurtyny powietrzne,Przyciemniane szyby,ESP (stabilizacja toru jazdy),Regulowane zawieszenie,Poduszka powietrzna kierowcy,Gniazdo AUX,Immobilizer,Radio fabryczne,Elektrochromatyczne lusterka boczne,Czujniki parkowania tylne,Isofix,Komputer pokładowy,Podgrzewane lusterka boczne,Wielofunkcyjna kierownica,Podgrzewana przednia szyba,Szyberdach,System Start-Stop,Poduszka powietrzna pasażera,Kamera cofania,Dach panoramiczny,Ogranicznik prędkości,Podgrzewane tylne siedzenia,Gniazdo USB,Światła Xenonowe,Czujnik martwego pola,Poduszki boczne tylne,Klimatyzacja automatyczna,Bluetooth,Tuner TV,Alufelgi,Nawigacja GPS,Tapicerka skórzana,MP3,Światła przeciwmgielne,Klimatyzacja dwustrefowa,Światła do jazdy dziennej,Tempomat aktywny,Elektrochromatyczne lusterko wsteczne,Radio niefabryczne,Klimatyzacja manualna,Hak
0,7,7,"Cena Brutto, Faktura VAT",63 900,PLN,"[ABS, Elektrycznie ustawiane lusterka, Poduszk...",TRANS-AUTO SP. Z O.O. DEALER MARKI ...,Dealer,"ŁUKASIEWICZA 1 - 19-300 Ełk, ełcki, Warmińsko-...","[Osobowe, Citroën, C4 Cactus]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",1,0,0,1,1,0,1,1,1,1,0,0,0,1,0,1,1,0,0,0,0,0,0,1,1,1,1,0,0,1,1,1,0,1,1,1,1,0,1,1,1,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,1,0,1,1,0,1,1,0,1,0,0,0,0,0
1,10,10,Cena Brutto,41 900,PLN,"[ABS, ASR (kontrola trakcji), Elektryczne szyb...",DECAR - RENAULT i DACIA,Dealer,"MODLIŃSKA 154 B - 03-170 Warszawa, Mazowieckie...","[Osobowe, Nissan, Juke]","{'Kolor': 'Czarny', 'Model pojazdu': 'Juke', '...",1,0,0,1,1,1,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,1,0,1,1,1,0,1,0,1,0,1,0,1,0,1,1,0,0,1,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0
2,11,11,"Cena Brutto, Do negocjacji",17 950,PLN,"[ABS, Elektryczne szyby przednie, Poduszka pow...",SKUP SPRZEDAŻ ZAMIANA RATY,Dealer,"Ruchocinek 63c - 62-230 Witkowo, gnieźnieński,...","[Osobowe, Opel, Astra, Opel Astra H (2004-2014)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",1,0,0,1,1,1,1,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,1,1,0,1,0,1,0,1,0,1,0,1,1,1,1,0,1,1,1,0,0,0,1,0,0,0,0,0,0,0,1,1,0,0,1,0,0,1,0,0,0,0,1,0,0,0
3,14,14,"Cena Brutto, Do negocjacji",38 000,PLN,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Osoba prywatna,"Chróścice, opolski, Opolskie","[Osobowe, Audi, A4, Audi A4 B8 (2007-2015)]","{'Liczba miejsc': '5', 'Kraj pochodzenia': 'Ni...",1,0,1,1,1,1,1,0,1,1,0,1,1,0,0,1,1,0,0,0,0,1,0,1,1,1,1,0,0,1,0,1,0,1,0,1,1,0,0,1,1,1,1,0,0,0,1,0,0,0,0,0,1,0,1,1,0,0,1,1,0,1,1,0,1,0,0,0,0,0
4,16,16,Cena Brutto,21 900,PLN,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Osoba prywatna,"Trzeboszowice, nyski, Opolskie","[Osobowe, Ford, Fiesta, Ford Fiesta Mk7 (2008-)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",1,0,0,1,1,1,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,1,0,1,0,0,1,1,0,1,1,1,1,0,0,1,1,1,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,1,0


In [9]:
train_set.drop(columns=['features'], inplace=True)

In [10]:
train_set.head()

Unnamed: 0,index,id,price_details,price_value,price_currency,seller_name,seller_type,seller_address,breadcrumb,offer_params,Elektryczne szyby przednie,Asystent pasa ruchu,Elektrycznie ustawiane fotele,Centralny zamek,Elektrycznie ustawiane lusterka,CD,Czujnik deszczu,Relingi dachowe,Tapicerka welurowa,Światła LED,Poduszka powietrzna chroniąca kolana,Podgrzewane przednie siedzenia,Zmieniarka CD,Łopatki zmiany biegów,Gniazdo SD,ASR (kontrola trakcji),Wspomaganie kierownicy,Czujniki parkowania przednie,Asystent parkowania,HUD (wyświetlacz przezierny),Ogrzewanie postojowe,Elektryczne szyby tylne,Odtwarzacz DVD,Poduszki boczne przednie,Tempomat,ABS,Czujnik zmierzchu,Alarm,Klimatyzacja czterostrefowa,Kurtyny powietrzne,Przyciemniane szyby,ESP (stabilizacja toru jazdy),Regulowane zawieszenie,Poduszka powietrzna kierowcy,Gniazdo AUX,Immobilizer,Radio fabryczne,Elektrochromatyczne lusterka boczne,Czujniki parkowania tylne,Isofix,Komputer pokładowy,Podgrzewane lusterka boczne,Wielofunkcyjna kierownica,Podgrzewana przednia szyba,Szyberdach,System Start-Stop,Poduszka powietrzna pasażera,Kamera cofania,Dach panoramiczny,Ogranicznik prędkości,Podgrzewane tylne siedzenia,Gniazdo USB,Światła Xenonowe,Czujnik martwego pola,Poduszki boczne tylne,Klimatyzacja automatyczna,Bluetooth,Tuner TV,Alufelgi,Nawigacja GPS,Tapicerka skórzana,MP3,Światła przeciwmgielne,Klimatyzacja dwustrefowa,Światła do jazdy dziennej,Tempomat aktywny,Elektrochromatyczne lusterko wsteczne,Radio niefabryczne,Klimatyzacja manualna,Hak
0,7,7,"Cena Brutto, Faktura VAT",63 900,PLN,TRANS-AUTO SP. Z O.O. DEALER MARKI ...,Dealer,"ŁUKASIEWICZA 1 - 19-300 Ełk, ełcki, Warmińsko-...","[Osobowe, Citroën, C4 Cactus]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",1,0,0,1,1,0,1,1,1,1,0,0,0,1,0,1,1,0,0,0,0,0,0,1,1,1,1,0,0,1,1,1,0,1,1,1,1,0,1,1,1,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,1,0,1,1,0,1,1,0,1,0,0,0,0,0
1,10,10,Cena Brutto,41 900,PLN,DECAR - RENAULT i DACIA,Dealer,"MODLIŃSKA 154 B - 03-170 Warszawa, Mazowieckie...","[Osobowe, Nissan, Juke]","{'Kolor': 'Czarny', 'Model pojazdu': 'Juke', '...",1,0,0,1,1,1,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,1,0,1,1,1,0,1,0,1,0,1,0,1,0,1,1,0,0,1,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0
2,11,11,"Cena Brutto, Do negocjacji",17 950,PLN,SKUP SPRZEDAŻ ZAMIANA RATY,Dealer,"Ruchocinek 63c - 62-230 Witkowo, gnieźnieński,...","[Osobowe, Opel, Astra, Opel Astra H (2004-2014)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",1,0,0,1,1,1,1,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,1,1,0,1,0,1,0,1,0,1,0,1,1,1,1,0,1,1,1,0,0,0,1,0,0,0,0,0,0,0,1,1,0,0,1,0,0,1,0,0,0,0,1,0,0,0
3,14,14,"Cena Brutto, Do negocjacji",38 000,PLN,,Osoba prywatna,"Chróścice, opolski, Opolskie","[Osobowe, Audi, A4, Audi A4 B8 (2007-2015)]","{'Liczba miejsc': '5', 'Kraj pochodzenia': 'Ni...",1,0,1,1,1,1,1,0,1,1,0,1,1,0,0,1,1,0,0,0,0,1,0,1,1,1,1,0,0,1,0,1,0,1,0,1,1,0,0,1,1,1,1,0,0,0,1,0,0,0,0,0,1,0,1,1,0,0,1,1,0,1,1,0,1,0,0,0,0,0
4,16,16,Cena Brutto,21 900,PLN,,Osoba prywatna,"Trzeboszowice, nyski, Opolskie","[Osobowe, Ford, Fiesta, Ford Fiesta Mk7 (2008-)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",1,0,0,1,1,1,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,1,0,1,0,0,1,1,0,1,1,1,1,0,0,1,1,1,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,1,0


In [11]:
f_list = train_set[train_set.columns[10:]]
train_set['amenities'] = f_list.sum(axis = 1)
train_set.drop(columns = f_list, inplace = True)

In [12]:
train_set.head()

Unnamed: 0,index,id,price_details,price_value,price_currency,seller_name,seller_type,seller_address,breadcrumb,offer_params,amenities
0,7,7,"Cena Brutto, Faktura VAT",63 900,PLN,TRANS-AUTO SP. Z O.O. DEALER MARKI ...,Dealer,"ŁUKASIEWICZA 1 - 19-300 Ełk, ełcki, Warmińsko-...","[Osobowe, Citroën, C4 Cactus]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",38
1,10,10,Cena Brutto,41 900,PLN,DECAR - RENAULT i DACIA,Dealer,"MODLIŃSKA 154 B - 03-170 Warszawa, Mazowieckie...","[Osobowe, Nissan, Juke]","{'Kolor': 'Czarny', 'Model pojazdu': 'Juke', '...",24
2,11,11,"Cena Brutto, Do negocjacji",17 950,PLN,SKUP SPRZEDAŻ ZAMIANA RATY,Dealer,"Ruchocinek 63c - 62-230 Witkowo, gnieźnieński,...","[Osobowe, Opel, Astra, Opel Astra H (2004-2014)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",28
3,14,14,"Cena Brutto, Do negocjacji",38 000,PLN,,Osoba prywatna,"Chróścice, opolski, Opolskie","[Osobowe, Audi, A4, Audi A4 B8 (2007-2015)]","{'Liczba miejsc': '5', 'Kraj pochodzenia': 'Ni...",35
4,16,16,Cena Brutto,21 900,PLN,,Osoba prywatna,"Trzeboszowice, nyski, Opolskie","[Osobowe, Ford, Fiesta, Ford Fiesta Mk7 (2008-)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",23


## Create new feats from "offer_params" column to separate column with relevant values.

In [13]:
df = pd.DataFrame()

In [14]:
for i in tqdm(range(train_set.shape[0])):
    df = pd.concat([df, pd.DataFrame(train_set['offer_params'][i], index=[i])], axis=0)

100%|██████████| 80129/80129 [1:12:34<00:00, 18.40it/s]


In [15]:
df.head()

Unnamed: 0,Bezwypadkowy,Liczba miejsc,Kraj pochodzenia,Pojemność skokowa,Rodzaj paliwa,Skrzynia biegów,Możliwość finansowania,Pierwszy właściciel,Oferta od,Liczba drzwi,Przebieg,Moc,Metalik,Typ,Kolor,Model pojazdu,Stan,Kategoria,Serwisowany w ASO,Napęd,Leasing,Rok produkcji,Marka pojazdu,Faktura VAT,Pierwsza rejestracja,Zarejestrowany w Polsce,VAT marża,Wersja,VIN,Perłowy,Uszkodzony,Kod Silnika,Filtr cząstek stałych,Emisja CO2,Miesięczna rata,Liczba pozostałych rat,Opłata początkowa,Wartość wykupu,Akryl (niemetalizowany),Tuning,Kierownica po prawej (Anglik),Homologacja ciężarowa,Make,Metallic,Engine capacity,Version,VAT discount,No accident,Mileage,Service record,Door count,Fuel type,Nr of seats,Gearbox,Transmission,Engine power,Model,Color,Country of origin,Body type,Year,Matowy,Acrylic,Financing option,Registered in Poland,Original owner,First registration,Pearl,Zarejestrowany jako zabytek,VAT free,Engine Code,Particle filter,Leasing concession,Damaged,CO2 emissions,Monthly payment value
0,Tak,5,Polska,1 199 cm3,Benzyna,Manualna,Tak,Tak,Firmy,5,200 km,110 KM,Tak,Kompakt,Czarny,C4 Cactus,Używane,Osobowe,Tak,Na przednie koła,Tak,2017,Citroën,Tak,15 listopad 2017,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,,5,Polska,1 598 cm3,Benzyna,Automatyczna bezstopniowa (CVT),Tak,Tak,Firmy,5,118 808 km,117 KM,,SUV,Czarny,Juke,Używane,Osobowe,,,,2012,Nissan,,15 czerwiec 2012,Tak,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,Tak,5,Niemcy,1 364 cm3,Benzyna,Manualna,,Tak,Firmy,3,106 000 km,90 KM,Tak,Coupe,Czarny,Astra,Używane,Osobowe,Tak,Na przednie koła,,2008,Opel,,,,Tak,H (2004-2014),W0L0AHL0885059779,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,,5,Niemcy,1 798 cm3,Benzyna,Manualna,,,Osoby prywatnej,5,172 758 km,160 KM,,Sedan,Czarny,A4,Używane,Osobowe,Tak,Na przednie koła,,2008,Audi,,7 marzec 2008,Tak,,B8 (2007-2015),WAUZZZ8K58A023087,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,Tak,5,Niemcy,1 250 cm3,Benzyna,Manualna,,,Osoby prywatnej,5,97 128 km,82 KM,Tak,Auta miejskie,Bordowy,Fiesta,Używane,Osobowe,Tak,Na przednie koła,,2010,Ford,,,,Tak,Mk7 (2008-),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [16]:
df.shape

(80129, 76)

In [17]:
train_set = pd.concat([train_set, df], axis = 1)

In [18]:
train_set.head()

Unnamed: 0,index,id,price_details,price_value,price_currency,seller_name,seller_type,seller_address,breadcrumb,offer_params,amenities,Bezwypadkowy,Liczba miejsc,Kraj pochodzenia,Pojemność skokowa,Rodzaj paliwa,Skrzynia biegów,Możliwość finansowania,Pierwszy właściciel,Oferta od,Liczba drzwi,Przebieg,Moc,Metalik,Typ,Kolor,Model pojazdu,Stan,Kategoria,Serwisowany w ASO,Napęd,Leasing,Rok produkcji,Marka pojazdu,Faktura VAT,Pierwsza rejestracja,Zarejestrowany w Polsce,VAT marża,Wersja,VIN,Perłowy,Uszkodzony,Kod Silnika,Filtr cząstek stałych,Emisja CO2,Miesięczna rata,Liczba pozostałych rat,Opłata początkowa,Wartość wykupu,Akryl (niemetalizowany),Tuning,Kierownica po prawej (Anglik),Homologacja ciężarowa,Make,Metallic,Engine capacity,Version,VAT discount,No accident,Mileage,Service record,Door count,Fuel type,Nr of seats,Gearbox,Transmission,Engine power,Model,Color,Country of origin,Body type,Year,Matowy,Acrylic,Financing option,Registered in Poland,Original owner,First registration,Pearl,Zarejestrowany jako zabytek,VAT free,Engine Code,Particle filter,Leasing concession,Damaged,CO2 emissions,Monthly payment value
0,7,7,"Cena Brutto, Faktura VAT",63 900,PLN,TRANS-AUTO SP. Z O.O. DEALER MARKI ...,Dealer,"ŁUKASIEWICZA 1 - 19-300 Ełk, ełcki, Warmińsko-...","[Osobowe, Citroën, C4 Cactus]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",38,Tak,5,Polska,1 199 cm3,Benzyna,Manualna,Tak,Tak,Firmy,5,200 km,110 KM,Tak,Kompakt,Czarny,C4 Cactus,Używane,Osobowe,Tak,Na przednie koła,Tak,2017,Citroën,Tak,15 listopad 2017,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,10,10,Cena Brutto,41 900,PLN,DECAR - RENAULT i DACIA,Dealer,"MODLIŃSKA 154 B - 03-170 Warszawa, Mazowieckie...","[Osobowe, Nissan, Juke]","{'Kolor': 'Czarny', 'Model pojazdu': 'Juke', '...",24,,5,Polska,1 598 cm3,Benzyna,Automatyczna bezstopniowa (CVT),Tak,Tak,Firmy,5,118 808 km,117 KM,,SUV,Czarny,Juke,Używane,Osobowe,,,,2012,Nissan,,15 czerwiec 2012,Tak,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,11,11,"Cena Brutto, Do negocjacji",17 950,PLN,SKUP SPRZEDAŻ ZAMIANA RATY,Dealer,"Ruchocinek 63c - 62-230 Witkowo, gnieźnieński,...","[Osobowe, Opel, Astra, Opel Astra H (2004-2014)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",28,Tak,5,Niemcy,1 364 cm3,Benzyna,Manualna,,Tak,Firmy,3,106 000 km,90 KM,Tak,Coupe,Czarny,Astra,Używane,Osobowe,Tak,Na przednie koła,,2008,Opel,,,,Tak,H (2004-2014),W0L0AHL0885059779,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,14,14,"Cena Brutto, Do negocjacji",38 000,PLN,,Osoba prywatna,"Chróścice, opolski, Opolskie","[Osobowe, Audi, A4, Audi A4 B8 (2007-2015)]","{'Liczba miejsc': '5', 'Kraj pochodzenia': 'Ni...",35,,5,Niemcy,1 798 cm3,Benzyna,Manualna,,,Osoby prywatnej,5,172 758 km,160 KM,,Sedan,Czarny,A4,Używane,Osobowe,Tak,Na przednie koła,,2008,Audi,,7 marzec 2008,Tak,,B8 (2007-2015),WAUZZZ8K58A023087,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,16,16,Cena Brutto,21 900,PLN,,Osoba prywatna,"Trzeboszowice, nyski, Opolskie","[Osobowe, Ford, Fiesta, Ford Fiesta Mk7 (2008-)]","{'Bezwypadkowy': 'Tak', 'Liczba miejsc': '5', ...",23,Tak,5,Niemcy,1 250 cm3,Benzyna,Manualna,,,Osoby prywatnej,5,97 128 km,82 KM,Tak,Auta miejskie,Bordowy,Fiesta,Używane,Osobowe,Tak,Na przednie koła,,2010,Ford,,,,Tak,Mk7 (2008-),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [19]:
train_set.shape

(80129, 87)

In [20]:
train_set.drop(columns=['offer_params'], inplace=True)

## Create new feat region based on "seller_adress" column.

In [21]:
regions = ['dolnoslaskie', 'kujawsko-pomorskie', 'lubelskie', 'lubuskie', 'lodzkie', 'malopolskie', 'mazowieckie',
              'podkarpackie', 'podlaskie', 'slaskie', 'swietokrzyskie', 'warminsko-mazurskie', 'wielkopolskie', 
               'zachodniopomorskie', 'pomorskie', 'opolskie']

In [22]:
def change_polish_letters(text):
    polish_letters = {
        'ą': 'a', 'ć': 'c', 'ę': 'e', 'ł': 'l', 'ń': 'n',
        'ó': 'o', 'ś': 's', 'ż': 'z', 'ź': 'z'
    }
    for pl, without_pl in polish_letters.items():
        text = text.replace(pl, without_pl)
    return text

In [23]:
train_set['Region'] = None

for i in tqdm(range(train_set.shape[0])):
    text = change_polish_letters(train_set['seller_address'][i].lower())
    for region in regions:
        if region in text:
            train_set.loc[i, 'Region'] = region
            break
        else:
            continue

100%|██████████| 80129/80129 [00:06<00:00, 11691.45it/s]


In [24]:
null_values = train_set['Region'].isna().sum()

In [25]:
print(null_values)

10283


In [26]:
miasta_wojewodztwa = pd.read_csv('./miasta_wojewodztwa.csv')

In [27]:
cities = miasta_wojewodztwa['Nazwa miejscowości'].tolist()

cities_lower= []

for city in cities:
    city = change_polish_letters(str(city).lower())
    cities_lower.append(city)

In [28]:
regions_list = miasta_wojewodztwa['Województwo'].tolist()

region_lower= []

for region in regions_list:
    region = change_polish_letters(str(region).lower())
    region_lower.append(region)

In [29]:
for i in tqdm(range(train_set.shape[0])):
    if train_set['Region'][i] == None:
        text = change_polish_letters(train_set['seller_address'][i].lower())
        for city in cities_lower:
            if city in text:
                inx_city = cities_lower.index(city)
                region = region_lower[inx_city]
                train_set.loc[i, 'Region'] = region
                break
            else:
                continue
    else:
        continue

100%|██████████| 80129/80129 [00:40<00:00, 1979.96it/s]


In [30]:
null_values = train_set['Region'].isna().sum()

In [31]:
print(null_values)

3


In [32]:
missing_values = train_set[train_set['Region'].isna()]

In [33]:
train_set = train_set.dropna(subset=['Region'])

In [34]:
null_values = train_set['Region'].isna().sum()

In [35]:
print(null_values)

0


In [36]:
train_set.reset_index(inplace = True)

In [37]:
train_set.drop(columns=['seller_address'], inplace=True)

## Create new feats from "breadcrumb" column.

In [38]:
col_name = ['Type', 'Company', 'Model']

In [39]:
for i in range(3):
    train_set[col_name[i]] = None
    for j in tqdm(range(train_set['id'].shape[0])):
        train_set.loc[j, col_name[i]] = train_set['breadcrumb'][j][i]

100%|██████████| 80126/80126 [00:07<00:00, 11405.27it/s]
100%|██████████| 80126/80126 [00:07<00:00, 11050.76it/s]
100%|██████████| 80126/80126 [00:07<00:00, 10976.82it/s]


In [40]:
train_set.drop(columns=['breadcrumb'], inplace=True)

In [41]:
train_set.head()

Unnamed: 0,level_0,index,id,price_details,price_value,price_currency,seller_name,seller_type,amenities,Bezwypadkowy,Liczba miejsc,Kraj pochodzenia,Pojemność skokowa,Rodzaj paliwa,Skrzynia biegów,Możliwość finansowania,Pierwszy właściciel,Oferta od,Liczba drzwi,Przebieg,Moc,Metalik,Typ,Kolor,Model pojazdu,Stan,Kategoria,Serwisowany w ASO,Napęd,Leasing,Rok produkcji,Marka pojazdu,Faktura VAT,Pierwsza rejestracja,Zarejestrowany w Polsce,VAT marża,Wersja,VIN,Perłowy,Uszkodzony,Kod Silnika,Filtr cząstek stałych,Emisja CO2,Miesięczna rata,Liczba pozostałych rat,Opłata początkowa,Wartość wykupu,Akryl (niemetalizowany),Tuning,Kierownica po prawej (Anglik),Homologacja ciężarowa,Make,Metallic,Engine capacity,Version,VAT discount,No accident,Mileage,Service record,Door count,Fuel type,Nr of seats,Gearbox,Transmission,Engine power,Model,Color,Country of origin,Body type,Year,Matowy,Acrylic,Financing option,Registered in Poland,Original owner,First registration,Pearl,Zarejestrowany jako zabytek,VAT free,Engine Code,Particle filter,Leasing concession,Damaged,CO2 emissions,Monthly payment value,Region,Type,Company
0,0,7,7,"Cena Brutto, Faktura VAT",63 900,PLN,TRANS-AUTO SP. Z O.O. DEALER MARKI ...,Dealer,38,Tak,5,Polska,1 199 cm3,Benzyna,Manualna,Tak,Tak,Firmy,5,200 km,110 KM,Tak,Kompakt,Czarny,C4 Cactus,Używane,Osobowe,Tak,Na przednie koła,Tak,2017,Citroën,Tak,15 listopad 2017,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,C4 Cactus,,,,,,,,,,,,,,,,,,,,warminsko-mazurskie,Osobowe,Citroën
1,1,10,10,Cena Brutto,41 900,PLN,DECAR - RENAULT i DACIA,Dealer,24,,5,Polska,1 598 cm3,Benzyna,Automatyczna bezstopniowa (CVT),Tak,Tak,Firmy,5,118 808 km,117 KM,,SUV,Czarny,Juke,Używane,Osobowe,,,,2012,Nissan,,15 czerwiec 2012,Tak,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Juke,,,,,,,,,,,,,,,,,,,,mazowieckie,Osobowe,Nissan
2,2,11,11,"Cena Brutto, Do negocjacji",17 950,PLN,SKUP SPRZEDAŻ ZAMIANA RATY,Dealer,28,Tak,5,Niemcy,1 364 cm3,Benzyna,Manualna,,Tak,Firmy,3,106 000 km,90 KM,Tak,Coupe,Czarny,Astra,Używane,Osobowe,Tak,Na przednie koła,,2008,Opel,,,,Tak,H (2004-2014),W0L0AHL0885059779,,,,,,,,,,,,,,,,,,,,,,,,,,,,Astra,,,,,,,,,,,,,,,,,,,,wielkopolskie,Osobowe,Opel
3,3,14,14,"Cena Brutto, Do negocjacji",38 000,PLN,,Osoba prywatna,35,,5,Niemcy,1 798 cm3,Benzyna,Manualna,,,Osoby prywatnej,5,172 758 km,160 KM,,Sedan,Czarny,A4,Używane,Osobowe,Tak,Na przednie koła,,2008,Audi,,7 marzec 2008,Tak,,B8 (2007-2015),WAUZZZ8K58A023087,Tak,,,,,,,,,,,,,,,,,,,,,,,,,,,A4,,,,,,,,,,,,,,,,,,,,opolskie,Osobowe,Audi
4,4,16,16,Cena Brutto,21 900,PLN,,Osoba prywatna,23,Tak,5,Niemcy,1 250 cm3,Benzyna,Manualna,,,Osoby prywatnej,5,97 128 km,82 KM,Tak,Auta miejskie,Bordowy,Fiesta,Używane,Osobowe,Tak,Na przednie koła,,2010,Ford,,,,Tak,Mk7 (2008-),,,,,,,,,,,,,,,,,,,,,,,,,,,,,Fiesta,,,,,,,,,,,,,,,,,,,,opolskie,Osobowe,Ford


In [42]:
train_set.shape

(80126, 88)

In [43]:
train_set.to_csv('./train_set.csv', index=False)