In [220]:
import re
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.preprocessing import MultiLabelBinarizer
import statsmodels as sm
pd.set_option('display.max_columns', 500)
plt.rcParams["figure.figsize"] = (30, 10)

In [221]:
data = pd.read_csv('df.csv')

In [222]:
data = data.dropna(subset=['features'])
data['features'] = data['features'].apply(lambda x: x.split(','))

In [223]:
data.columns

Index(['aso', 'brand', 'capacity', 'color', 'condition', 'features',
       'first_owner', 'fuel_type', 'horse_power', 'mileage', 'model',
       'no_accidents', 'number_of_doors', 'origin_country', 'price',
       'price_currency', 'transmission', 'type', 'url', 'version', 'year'],
      dtype='object')

In [224]:
data = (data.loc[data['price_currency'] == 'PLN'])

In [225]:
data.isnull().sum()

aso                35031
brand                  0
capacity             949
color                  0
condition              0
features               0
first_owner        45432
fuel_type              0
horse_power           44
mileage              238
model                  0
no_accidents       26739
number_of_doors      322
origin_country     26214
price                  0
price_currency         0
transmission          43
type               73013
url                    0
version            29760
year                   0
dtype: int64

In [226]:
data

Unnamed: 0,aso,brand,capacity,color,condition,features,first_owner,fuel_type,horse_power,mileage,model,no_accidents,number_of_doors,origin_country,price,price_currency,transmission,type,url,version,year
0,Tak,Rolls-Royce,6 749 cm3,Czarny,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",Tak,Benzyna,599 KM,49 000 km,Cullinan,Tak,5,,1616999,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-cull...,Black Badge,2020
2,Tak,Rolls-Royce,6 592 cm3,Szary,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Benzyna,632 KM,1 800 km,Wraith,Tak,2,Włochy,1950000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-wrai...,,2019
3,,Rolls-Royce,5 379 cm3,Biały,Używane,"[ABS, Immobilizer, Alufelgi, Gniazdo SD, Podgr...",Tak,Benzyna,326 KM,86 400 km,Silver Seraph,,4,,197000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1999
5,,Rolls-Royce,6 750 cm3,Biały,Używane,"[Elektryczne szyby przednie, Klimatyzacja manu...",,Benzyna,200 KM,650 000 km,Silver Shadow,,4,,59900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1975
6,Tak,Rolls-Royce,5 379 cm3,Zielony,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Benzyna,326 KM,58 650 km,Silver Seraph,,4,Kanada,189900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
93258,Tak,Volvo,1 969 cm3,Biały,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",Tak,Diesel,190 KM,175 000 km,XC 60,Tak,5,Polska,139000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/volvo-xc-60-4x4-...,D4 AWD Momentum,2017
93259,Tak,Volvo,1 560 cm3,Inny kolor,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Diesel,109 KM,249 000 km,V50,Tak,5,Belgia,14700,PLN,Manualna,,https://www.otomoto.pl/oferta/volvo-v50-lift-1...,,2008
93260,Tak,Volvo,1 969 cm3,Złoty,Używane,"[ABS, Elektrycznie ustawiane lusterka, Poduszk...",Tak,Hybryda,320 KM,110 000 km,XC 90,Tak,5,Polska,223860,PLN,Manualna,,https://www.otomoto.pl/oferta/volvo-xc-90-pole...,,2016
93262,Tak,Volvo,1 969 cm3,Niebieski,Używane,"[ABS, Elektrycznie ustawiane lusterka, Poduszk...",Tak,Hybryda,303 KM,28 242 km,XC 90,Tak,5,Szwecja,357900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/volvo-xc-90-xc90...,T8 AWD Plug-In Hybrid Inscription 7os,2020


In [227]:
lb = MultiLabelBinarizer()
features = lb.fit_transform(data['features'])
features = pd.DataFrame(features, columns=lb.classes_)

df = pd.concat([data.drop(columns='features').reset_index(drop=True), features], axis=1)

In [228]:
df['brand'].value_counts()

Audi             8505
Mercedes-Benz    8400
Renault          7865
Toyota           7616
Škoda            7004
Kia              5293
Citroën          5086
Seat             3466
Mazda            3195
MINI             2786
Volvo            2650
Suzuki           2078
Mitsubishi       1773
Chevrolet        1279
Alfa Romeo       1138
Lexus            1073
Land Rover       1023
Porsche           943
Dacia             736
Saab              385
Fiat              262
Maserati          157
Ferrari            92
Rolls-Royce        76
Bentley            74
Lamborghini        42
McLaren            16
Name: brand, dtype: int64

In [229]:
df['fuel_type'].value_counts()

Benzyna        40443
Diesel         25378
Hybryda         3428
Benzyna+LPG     2835
Elektryczny      919
Benzyna+CNG       10
Name: fuel_type, dtype: int64

# Co do zrobienia z danymi? 
- aso na 0-1 X 
- OH brand X
- capacity na int X
- OH color X
- condition 0-1 X
- OH features X 
- first_owner bool X 
- fuel_type OH X 
- horse_power na int X 
- mileage  git na int X
- no_accidents X
- number_of_doors X 
- origin country OH 
- price - Y 
- transmission - if automatic 
- year 

In [230]:
df

Unnamed: 0,aso,brand,capacity,color,condition,first_owner,fuel_type,horse_power,mileage,model,no_accidents,number_of_doors,origin_country,price,price_currency,transmission,type,url,version,year,ABS,ASR (kontrola trakcji),Alarm,Alufelgi,Asystent parkowania,Asystent pasa ruchu,Bluetooth,CD,Centralny zamek,Czujnik deszczu,Czujnik martwego pola,Czujnik zmierzchu,Czujniki parkowania przednie,Czujniki parkowania tylne,Dach panoramiczny,ESP (stabilizacja toru jazdy),Elektrochromatyczne lusterka boczne,Elektrochromatyczne lusterko wsteczne,Elektryczne szyby przednie,Elektryczne szyby tylne,Elektrycznie ustawiane fotele,Elektrycznie ustawiane lusterka,Gniazdo AUX,Gniazdo SD,Gniazdo USB,HUD (wyświetlacz przezierny),Hak,Immobilizer,Isofix,Kamera cofania,Klimatyzacja automatyczna,Klimatyzacja czterostrefowa,Klimatyzacja dwustrefowa,Klimatyzacja manualna,Komputer pokładowy,Kurtyny powietrzne,MP3,Nawigacja GPS,Odtwarzacz DVD,Ogranicznik prędkości,Ogrzewanie postojowe,Podgrzewana przednia szyba,Podgrzewane lusterka boczne,Podgrzewane przednie siedzenia,Podgrzewane tylne siedzenia,Poduszka powietrzna chroniąca kolana,Poduszka powietrzna kierowcy,Poduszka powietrzna pasażera,Poduszki boczne przednie,Poduszki boczne tylne,Przyciemniane szyby,Radio fabryczne,Radio niefabryczne,Regulowane zawieszenie,Relingi dachowe,System Start-Stop,Szyberdach,Tapicerka skórzana,Tapicerka welurowa,Tempomat,Tempomat aktywny,Tuner TV,Wielofunkcyjna kierownica,Wspomaganie kierownicy,Zmieniarka CD,Łopatki zmiany biegów,Światła LED,Światła Xenonowe,Światła do jazdy dziennej,Światła przeciwmgielne
0,Tak,Rolls-Royce,6 749 cm3,Czarny,Używane,Tak,Benzyna,599 KM,49 000 km,Cullinan,Tak,5,,1616999,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-cull...,Black Badge,2020,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,0,1,0,0,0,1,0,1,1,1,1,1,1,0,1,1,1,1
1,Tak,Rolls-Royce,6 592 cm3,Szary,Używane,,Benzyna,632 KM,1 800 km,Wraith,Tak,2,Włochy,1950000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-wrai...,,2019,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,0,0,1,1,0,1,0,0,0,0,1,1,0,0,1,1,1,0,0,1,0,1,0,1,0,1,0,1,1,0,1,1,0,0,1,0,1,0
2,,Rolls-Royce,5 379 cm3,Biały,Używane,Tak,Benzyna,326 KM,86 400 km,Silver Seraph,,4,,197000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1999,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,1,0,0,0,1,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,1,0,0,0,1,0,0
3,,Rolls-Royce,6 750 cm3,Biały,Używane,,Benzyna,200 KM,650 000 km,Silver Shadow,,4,,59900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1975,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1
4,Tak,Rolls-Royce,5 379 cm3,Zielony,Używane,,Benzyna,326 KM,58 650 km,Silver Seraph,,4,Kanada,189900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1999,1,1,1,1,0,0,0,1,1,1,0,1,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,1,0,0,1,0,1,0,0,0,0,0,1,0,0,0,0,1,1,0,1,1,0,0,0,0,0,0,0,0,0,1,0,1,0,0,1,1,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
73008,Tak,Volvo,1 969 cm3,Biały,Używane,Tak,Diesel,190 KM,175 000 km,XC 60,Tak,5,Polska,139000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/volvo-xc-60-4x4-...,D4 AWD Momentum,2017,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,0,0,1,1,0,1,0,0,0,1,1,1,1,0,1,0,1,0,0,0,1,1,1,1,1,0,1,0,0,1,1,0,1,0,1,0,0,1,1,0,0,1,0,1,1
73009,Tak,Volvo,1 560 cm3,Inny kolor,Używane,,Diesel,109 KM,249 000 km,V50,Tak,5,Belgia,14700,PLN,Manualna,,https://www.otomoto.pl/oferta/volvo-v50-lift-1...,,2008,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,1,1,0,1,0,0,0,0,0,1,1,0,1,0,0,0,1,1,1,0,0,0,0,0,1,0,0,0,1,1,1,0,0,1,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
73010,Tak,Volvo,1 969 cm3,Złoty,Używane,Tak,Hybryda,320 KM,110 000 km,XC 90,Tak,5,Polska,223860,PLN,Manualna,,https://www.otomoto.pl/oferta/volvo-xc-90-pole...,,2016,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,0,1,1,0,1,1,0,0,1,0,1,1
73011,Tak,Volvo,1 969 cm3,Niebieski,Używane,Tak,Hybryda,303 KM,28 242 km,XC 90,Tak,5,Szwecja,357900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/volvo-xc-90-xc90...,T8 AWD Plug-In Hybrid Inscription 7os,2020,1,0,1,1,0,1,1,0,1,1,1,0,1,1,0,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,0,1,1,1,0,1,0,1,0,0,0,1,1,1,1,1,1,1,1,1,0,0,0,1,0,1,0,1,1,0,1,0,0,0,1,0,1,1


In [231]:
df.loc[0, 'capacity']

'6 749 cm3'

In [232]:
def map_aso(row): 
    if row == 'Tak': 
        return 1 
    else: 
        return 0 

def map_capacity(row): 
    split_list = row.split(' ')
    if len(split_list) == 2: 
        return int(''.join(split_list[:1]))
    else: 
        return int(''.join(split_list[:2]))

def map_condition(row): 
    if row == 'Używane':
        return 0
    else: 
        return 1 

In [233]:
df['aso'] = df['aso'].apply(map_aso)
df = pd.concat([df.drop(columns='brand'), pd.get_dummies(df['brand'], drop_first=True)], axis=1)
df['capacity'] = df['capacity'].dropna().apply(map_capacity)
df['horse_power'] = df['horse_power'].dropna().apply(map_capacity)
df['mileage'] = df['mileage'].dropna().apply(map_capacity)
df = df.loc[df['fuel_type'].isin(['Benzyna', 'Diesel', 'Hybryda', 'Benzyna+LPG', 'Elektryczny'])]
df = pd.concat([df.drop(columns='fuel_type'), pd.get_dummies(df['fuel_type'], drop_first=True)], axis=1)
df['no_accidents'] = df['no_accidents'].apply(map_aso)
df['first_owner'] = df['first_owner'].apply(map_aso)
df['condition'] = df['condition'].apply(map_condition)
df = df.rename(columns={'condition': 'new'})
df = pd.concat([df.drop(columns='color'), pd.get_dummies(df['color'], drop_first=True)], axis=1).drop(columns='price_currency')


In [234]:
df['no_accidents'].value_counts()

1    46273
0    26730
Name: no_accidents, dtype: int64

In [236]:
df['origin_country'].value_counts()

Polska               26838
Niemcy               12163
Francja               1817
Belgia                1218
Stany Zjednoczone      975
Szwajcaria             756
Holandia               684
Włochy                 577
Austria                499
Szwecja                373
Dania                  290
Kanada                 149
Inny                   138
Czechy                 100
Wielka Brytania         48
Luksemburg              42
Hiszpania               34
Finlandia               25
Słowacja                23
Słowenia                11
Norwegia                11
Irlandia                 4
Węgry                    3
Estonia                  3
Rosja                    2
Litwa                    2
Łotwa                    2
Rumunia                  1
Monako                   1
Bułgaria                 1
Islandia                 1
Grecja                   1
Name: origin_country, dtype: int64

In [237]:
data

Unnamed: 0,aso,brand,capacity,color,condition,features,first_owner,fuel_type,horse_power,mileage,model,no_accidents,number_of_doors,origin_country,price,price_currency,transmission,type,url,version,year
0,Tak,Rolls-Royce,6 749 cm3,Czarny,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",Tak,Benzyna,599 KM,49 000 km,Cullinan,Tak,5,,1616999,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-cull...,Black Badge,2020
2,Tak,Rolls-Royce,6 592 cm3,Szary,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Benzyna,632 KM,1 800 km,Wraith,Tak,2,Włochy,1950000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-wrai...,,2019
3,,Rolls-Royce,5 379 cm3,Biały,Używane,"[ABS, Immobilizer, Alufelgi, Gniazdo SD, Podgr...",Tak,Benzyna,326 KM,86 400 km,Silver Seraph,,4,,197000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1999
5,,Rolls-Royce,6 750 cm3,Biały,Używane,"[Elektryczne szyby przednie, Klimatyzacja manu...",,Benzyna,200 KM,650 000 km,Silver Shadow,,4,,59900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1975
6,Tak,Rolls-Royce,5 379 cm3,Zielony,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Benzyna,326 KM,58 650 km,Silver Seraph,,4,Kanada,189900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/rolls-royce-silv...,,1999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
93258,Tak,Volvo,1 969 cm3,Biały,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",Tak,Diesel,190 KM,175 000 km,XC 60,Tak,5,Polska,139000,PLN,Automatyczna,,https://www.otomoto.pl/oferta/volvo-xc-60-4x4-...,D4 AWD Momentum,2017
93259,Tak,Volvo,1 560 cm3,Inny kolor,Używane,"[ABS, Elektryczne szyby przednie, Poduszka pow...",,Diesel,109 KM,249 000 km,V50,Tak,5,Belgia,14700,PLN,Manualna,,https://www.otomoto.pl/oferta/volvo-v50-lift-1...,,2008
93260,Tak,Volvo,1 969 cm3,Złoty,Używane,"[ABS, Elektrycznie ustawiane lusterka, Poduszk...",Tak,Hybryda,320 KM,110 000 km,XC 90,Tak,5,Polska,223860,PLN,Manualna,,https://www.otomoto.pl/oferta/volvo-xc-90-pole...,,2016
93262,Tak,Volvo,1 969 cm3,Niebieski,Używane,"[ABS, Elektrycznie ustawiane lusterka, Poduszk...",Tak,Hybryda,303 KM,28 242 km,XC 90,Tak,5,Szwecja,357900,PLN,Automatyczna,,https://www.otomoto.pl/oferta/volvo-xc-90-xc90...,T8 AWD Plug-In Hybrid Inscription 7os,2020
