In [1]:
import re
import pandas as pd

pd.set_option("max_columns", 10)

df = pd.read_csv('electric_secondary_220114.csv', index_col=0)
df.dropna(thresh=4, inplace=True)
df.columns

Index(['url', 'price', 'Oferta', 'Kategoria', 'Marka', 'Model', 'Rok',
       'Przebieg', 'Rodzaj', 'Moc', 'Skrzynia', 'Napęd', 'Typ', 'Liczba',
       'Kolor', 'Możliwość', 'Faktura', 'Kraj', 'Pierwsza', 'Numer',
       'Zarejestrowany', 'Pierwszy', 'Bezwypadkowy', 'Stan', 'Wersja',
       'Serwisowany', 'VAT', 'Kierownica', 'Leasing', 'distance', 'Uszkodzony',
       'Generacja', 'Emisja', 'Okres', 'lub', 'Gwarancja', 'Homologacja',
       'Opłata', 'Miesięczna', 'Wartość', 'Filtr', 'Tuning', 'Spalanie'],
      dtype='object')

In [2]:
df['Kraj'].describe()

count        383
unique        16
top       Polska
freq         275
Name: Kraj, dtype: object

In [3]:
df['Kolor'].value_counts().head(10)

Biały        225
Czarny       101
Niebieski     98
Szary         81
Czerwony      41
Innykolor     41
Srebrny       32
Zielony       18
Żółty         13
Bordowy       13
Name: Kolor, dtype: int64

In [4]:
df['Skrzynia'].value_counts()

Automatyczna    687
Manualna          1
Name: Skrzynia, dtype: int64

In [5]:
view = ['Marka', 'Model', 'Rok', 'price', 'Przebieg', 'Rodzaj', 'Typ', 'Kolor', 'Stan', 'url', 'distance']
df[df['Skrzynia'] == 'Manualna'][view]

Unnamed: 0,Marka,Model,Rok,price,Przebieg,...,Typ,Kolor,Stan,url,distance
11,Inny,Inny,2010.0,36900,44400km,...,Autamiejskie,Biały,Używane,https://www.otomoto.pl/oferta/germany-e-cars-s...,['- Zasięg na jednym ładowaniu: 100-120 km']


In [6]:
def get_number(string):
    return re.findall(r'\d+', string)[0]

In [7]:
df['price'] = df['price'].apply(lambda x: get_number(x)).astype('int')
df['price'].dtype

dtype('int32')

In [8]:
df['Rok'] = df['Rok'].astype('int')
df['Rok'].value_counts().head(5)

2021    189
2020    174
2018     71
2019     61
2016     52
Name: Rok, dtype: int64

In [9]:
df['Marka'].value_counts().head(10)

BMW              96
Tesla            80
Nissan           62
Renault          60
Mercedes-Benz    49
Kia              40
Citroën          34
Hyundai          26
Smart            25
Audi             24
Name: Marka, dtype: int64

In [10]:
df['Model'].value_counts().head(5)

i3        75
Leaf      62
Zoe       54
ModelS    39
Model3    25
Name: Model, dtype: int64

In [11]:
df[df['Marka'] == 'BMW']['Model'].value_counts()

i3      75
iX3     10
iX       9
X3       1
Inny     1
Name: Model, dtype: int64

In [12]:
df[df['Marka'] == 'Tesla']['Model'].value_counts()

ModelS    39
Model3    25
ModelX    14
Y          2
Name: Model, dtype: int64

In [13]:
df[df['Marka'] == 'Mercedes-Benz']['Model'].value_counts()

EQV       24
EQC       12
Vito       7
EQS        3
KlasaV     2
Inny       1
Name: Model, dtype: int64

In [14]:
df['Typ'].value_counts().head(10)

Autamiejskie    205
SUV             138
Kompakt         103
Autamałe         94
Sedan            89
Minivan          40
Coupe             9
Kombi             8
Kabriolet         3
Name: Typ, dtype: int64

In [15]:
df['Moc'] = df['Moc'].fillna('0').apply(lambda x: x.rstrip('KM'))

In [16]:
df['Moc'].sort_values(ascending=False).head(3)

648    92
368    92
604    92
Name: Moc, dtype: object

In [17]:
df['Moc'].value_counts().head(10)

204    81
136    72
170    48
109    35
88     25
150    23
184    23
82     22
118    20
145    18
Name: Moc, dtype: int64

In [18]:
df[df['Moc'] == '204KM']['Model'].value_counts().head(10)

Series([], Name: Model, dtype: int64)

In [19]:
df[df['Moc'] == '136KM']['Model'].value_counts().head(10)

Series([], Name: Model, dtype: int64)

In [20]:
df['Uszkodzony'].value_counts().head(10)

Tak    52
Name: Uszkodzony, dtype: int64

In [21]:
df['Leasing'].value_counts().head(10)

Tak    237
Name: Leasing, dtype: int64

In [22]:
df['Oferta'].value_counts().head(10)

Firmy             512
Osobyprywatnej    177
Name: Oferta, dtype: int64

In [23]:
df['Stan'].value_counts().head(10)

Używane    630
Nowe        59
Name: Stan, dtype: int64

In [24]:
df['distance'].fillna(0, inplace=True)
df[df['distance'] != 0][view]

Unnamed: 0,Marka,Model,Rok,price,Przebieg,...,Typ,Kolor,Stan,url,distance
8,Hyundai,Kona,2021,165000,8205km,...,SUV,Biały,Używane,https://www.otomoto.pl/oferta/hyundai-kona-hyu...,"['pompa ciepła, radio, ABS, wspomaganie, skóry..."
9,Tesla,Model3,2020,114900,26691km,...,Sedan,Biały,Używane,https://www.otomoto.pl/oferta/tesla-model-3-st...,"['rzeczywisty zasięg ok. 400 km, zimą do 30% m..."
11,Inny,Inny,2010,36900,44400km,...,Autamiejskie,Biały,Używane,https://www.otomoto.pl/oferta/germany-e-cars-s...,['- Zasięg na jednym ładowaniu: 100-120 km']
16,Hyundai,Kona,2020,135900,19000km,...,SUV,Czerwony,Używane,https://www.otomoto.pl/oferta/hyundai-kona-ele...,['Zasięg do 480km']
26,Nissan,Leaf,2012,39360,109800km,...,Kompakt,Biały,Używane,https://www.otomoto.pl/oferta/nissan-leaf-niss...,[' Nissan LEAF pierwszej generacji. W 1...
...,...,...,...,...,...,...,...,...,...,...,...
660,Opel,Corsa,2020,111900,3681km,...,Autamiejskie,Innykolor,Używane,https://www.otomoto.pl/oferta/opel-corsa-corsa...,['Pojemność energetyczna akumulatorów 50 kWh –...
668,Nissan,Leaf,2021,149900,5655km,...,Autamiejskie,Niebieski,Używane,https://www.otomoto.pl/oferta/nissan-leaf-e-le...,['Tryb jazdy ECO (optymalizacja zużycia energi...
669,Fiat,500,2016,49900,66200km,...,Autamałe,Biały,Używane,https://www.otomoto.pl/oferta/fiat-500-fiat-50...,['Zasięg na jednym ładowaniu średnio 140km-170...
676,Mercedes-Benz,EQV,2021,364000,7500km,...,Minivan,Niebieski,Używane,https://www.otomoto.pl/oferta/mercedes-benz-eq...,['Zasięg (WLTP): 356km']


In [25]:
dfb = pd.read_csv('electric_secondary_220131.csv', index_col=0)
merged = pd.merge(df, dfb, on=['url'], how='inner')
merged

Unnamed: 0,url,price_x,Oferta_x,Kategoria_x,Marka_x,...,Homologacja_y,Emisja_y,Pojemność,Tuning_y,Kierownica_y
0,https://www.otomoto.pl/oferta/tesla-model-s-s1...,324900,Firmy,Osobowe,Tesla,...,,,,,
1,https://www.otomoto.pl/oferta/tesla-model-3-te...,252900,Firmy,Osobowe,Tesla,...,,,,,
2,https://www.otomoto.pl/oferta/bmw-i3-kamera-co...,76137,Firmy,Osobowe,BMW,...,,,,,Tak
3,https://www.otomoto.pl/oferta/renault-zoe-bate...,49900,Firmy,Osobowe,Renault,...,,,,,
4,https://www.otomoto.pl/oferta/audi-e-tron-salo...,329900,Firmy,Osobowe,Audi,...,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
464,https://www.otomoto.pl/oferta/kia-niro-e-niro-...,136900,Firmy,Osobowe,Kia,...,,,,,
465,https://www.otomoto.pl/oferta/citroen-c4-auto-...,139900,Firmy,Osobowe,Citroën,...,,,,,
466,https://www.otomoto.pl/oferta/kia-niro-e-niro-...,180290,Firmy,Osobowe,Kia,...,,,,,
467,https://www.otomoto.pl/oferta/bmw-i3-bmw-i3-re...,76000,Osobyprywatnej,Osobowe,BMW,...,,,,,


In [26]:
df.dropna(subset=['Numer'], inplace=True)
df['Numer'].value_counts()

SL5956F     2
WE925XU     2
FRANCJA     2
WE752YJ     2
ZSD         2
           ..
TJE47650    1
GWE8472N    1
K84065      1
DW1HK86     1
LZ77372     1
Name: Numer, Length: 188, dtype: int64

In [27]:
dfb.dropna(subset=['Numer'], inplace=True)
dfb['Numer'].value_counts()

WE925XU          2
DW5HK78          2
WE752YJ          2
W0NIEMAM         2
ZSD              2
                ..
KR687YC          1
K84065           1
KR1GR73          1
BEZWYPADKOWY!    1
SG381271         1
Name: Numer, Length: 195, dtype: int64

In [28]:
plate = pd.merge(df, dfb, on=['Numer'], how='inner')
plate = plate[plate['Model_x'] == plate['Model_y']]
plate['differ'] = plate['price_x'] - plate['price_y']
view = ['Marka_x', 'Model_y','price_x', 'price_y', 'differ', 'Numer']
plate[plate['price_x'] > plate['price_y']][view].sort_values(by='differ', ascending=False)

Unnamed: 0,Marka_x,Model_y,price_x,price_y,differ,Numer
142,Mercedes-Benz,EQV,399000,313650.0,85350.0,RZ006AG
53,Audi,e-tron,399900,379900.0,20000.0,SO0049U
76,Mercedes-Benz,EQV,325950,313650.0,12300.0,DW3HK76
81,BMW,i3,129900,119900.0,10000.0,W0NIEMAM
43,Porsche,Taycan,484900,475000.0,9900.0,WE752YJ
105,BMW,i3,134900,125900.0,9000.0,W0NIEMA
154,Volkswagen,Golf,105900,99900.0,6000.0,SM98492
127,Hyundai,Kona,179900,173900.0,6000.0,WB5047U
26,Volvo,XC40,284900,279900.0,5000.0,ST0022U
82,BMW,i3,129900,125900.0,4000.0,W0NIEMAM


In [29]:
df_false = df[~df['url'].isin(dfb['url'])]
df_false

Unnamed: 0,url,price,Oferta,Kategoria,Marka,...,Miesięczna,Wartość,Filtr,Tuning,Spalanie
11,https://www.otomoto.pl/oferta/germany-e-cars-s...,36900,Firmy,Osobowe,Inny,...,,,,,
30,https://www.otomoto.pl/oferta/renault-zoe-mode...,36898,Osobyprywatnej,Osobowe,Renault,...,,,,,
32,https://www.otomoto.pl/oferta/honda-e-5d-109-a...,129600,Firmy,Osobowe,Honda,...,,,,,
64,https://www.otomoto.pl/oferta/mercedes-benz-eq...,313650,Firmy,Osobowe,Mercedes-Benz,...,,,,,
70,https://www.otomoto.pl/oferta/hyundai-kona-sty...,119000,Firmy,Osobowe,Hyundai,...,,,,,
76,https://www.otomoto.pl/oferta/renault-zoe-z-e-...,23900,Firmy,Osobowe,Renault,...,,,,,
87,https://www.otomoto.pl/oferta/smart-forfour-sm...,52900,Osobyprywatnej,Osobowe,Smart,...,,,,,
103,https://www.otomoto.pl/oferta/smart-fortwo-for...,72500,Osobyprywatnej,Osobowe,Smart,...,,,,,
163,https://www.otomoto.pl/oferta/porsche-taycan-p...,86100,Osobyprywatnej,Osobowe,Porsche,...,,,,,
164,https://www.otomoto.pl/oferta/nissan-leaf-40-k...,90000,Firmy,Osobowe,Nissan,...,463PLN,,,,


In [30]:
dfb_false = dfb[~dfb['url'].isin(df['url'])]
dfb_false

Unnamed: 0,url,price,Oferta,Kategoria,Marka,...,Homologacja,Emisja,Pojemność,Tuning,Kierownica
12,https://www.otomoto.pl/oferta/volkswagen-golf-...,84870.0,Osobyprywatnej,Osobowe,Volkswagen,...,,,,,
19,https://www.otomoto.pl/oferta/tesla-model-s-te...,219000.0,Osobyprywatnej,Osobowe,Tesla,...,,,,,
21,https://www.otomoto.pl/oferta/nissan-leaf-pier...,55000.0,Osobyprywatnej,Osobowe,Nissan,...,,,,,
23,https://www.otomoto.pl/oferta/renault-zoe-mode...,38130.0,Osobyprywatnej,Osobowe,Renault,...,,,,,
31,https://www.otomoto.pl/oferta/nissan-leaf-2019...,129990.0,Firmy,Osobowe,Nissan,...,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
652,https://www.otomoto.pl/oferta/renault-zoe-rena...,74900.0,Osobyprywatnej,Osobowe,Renault,...,,,,,
658,https://www.otomoto.pl/oferta/bmw-i3-bmw-i3-po...,121770.0,Osobyprywatnej,Osobowe,BMW,...,,,,,
665,https://www.otomoto.pl/oferta/ford-focus-elect...,41500.0,Osobyprywatnej,Osobowe,Ford,...,,,,,
695,https://www.otomoto.pl/oferta/nissan-leaf-niss...,36900.0,Firmy,Osobowe,Nissan,...,,,,,


In [31]:
df_false[df_false['Numer'].isin(dfb_false['Numer'])][['url','Numer', 'price']].dropna()

Unnamed: 0,url,Numer,price
30,https://www.otomoto.pl/oferta/renault-zoe-mode...,TLW12HT,36898
175,https://www.otomoto.pl/oferta/porsche-taycan-s...,WE752YJ,484900
226,https://www.otomoto.pl/oferta/audi-e-tron-e-tr...,SO0049U,399900
433,https://www.otomoto.pl/oferta/fiat-500-elektry...,G97T,54500
550,https://www.otomoto.pl/oferta/bmw-x3-bmw-ix3-I...,WY576VN,249900
588,https://www.otomoto.pl/oferta/renault-zoe-r135...,WE274YJ,119900
667,https://www.otomoto.pl/oferta/mazda-mx-3-enso-...,BI005EH,137999


In [32]:
dfb_false['Marka'].value_counts()

Nissan           13
Tesla             8
Fiat              6
BMW               6
Renault           5
Audi              4
Kia               3
Volkswagen        2
Ford              2
Citroën           2
Mazda             2
Hyundai           2
Smart             2
Mitsubishi        1
Mercedes-Benz     1
Porsche           1
Opel              1
Jaguar            1
Name: Marka, dtype: int64

In [33]:
df_false['Marka'].value_counts()

Smart            7
Nissan           7
BMW              7
Renault          6
Kia              4
Tesla            4
Porsche          3
Fiat             3
Audi             2
Mercedes-Benz    2
Volkswagen       2
Opel             2
Seat             1
Mazda            1
Jaguar           1
Inny             1
Citroën          1
Hyundai          1
Honda            1
Ford             1
Name: Marka, dtype: int64

In [34]:
# ## Drop less popular columns
# df.dropna(axis='columns', thresh=600, inplace=True)
# df.columns