In [2]:
import pandas as pd

pd.options.mode.chained_assignment = None # this turns off insignificant warning when processing dataset
# loading standardized data
data = pd.read_csv('../data/recruitment_data_standardized.csv',
                   encoding='utf-8',
                   sep=',',
                   on_bad_lines='skip',
                   quotechar='"',
                   doublequote=True,
                   names=['URL', 'Voivodeship', 'Scrap_time', 'Name', 'Price', 'Brand', 'Condition', 'Offer_from', 'Type', 'Description', 'Added_at', 'Views', 'User_since'],
                   skiprows=1)

In [3]:
data

Unnamed: 0,URL,Voivodeship,Scrap_time,Name,Price,Brand,Condition,Offer_from,Type,Description,Added_at,Views,User_since
0,https://www.olx.pl/oferta/iphone-11-64-jak-now...,pomorskie,2021-02-22 06:55:30,Iphone 11 64 jak nowy 95% gwarancja wyświetlacz,2799.0,iPhone,Używane,Osoby prywatnej,Sprawny,Jak nowy . Kondycja baterii 95%. Kupiony w med...,2021-02-22 00:09:00,37,2013-05-01 00:00:00;;;;
1,https://www.olx.pl/oferta/skup-uszkodzonych-te...,pomorskie,2021-02-22 06:55:34,Skup uszkodzonych telefonów iPhone xs xs max 1...,,,,Firmy,,Witam. Kupię uszkodzone/ zablokowane/ zalane/...,2021-02-22 00:05:00,5242,2020-04-01 00:00:00;;;;
2,https://www.olx.pl/oferta/iphone-11-64-gb-czar...,pomorskie,2021-02-22 06:55:40,"IPhone 11 64 GB czarny, idealny z gwarancją. W...",2700.0,iPhone,Używane,Osoby prywatnej,Sprawny,Witam! Mam na sprzedaż iPhone’a 11 w wersji 64...,2021-02-21 19:00:00,186,2014-12-01 00:00:00;;;;
3,https://www.olx.pl/oferta/iphone-11-CID99-IDIk...,pomorskie,2021-02-22 06:55:44,Iphone 11,3000.0,iPhone,Nowe,Osoby prywatnej,Sprawny,Nowy 128GB Oryginalnie zapakowany kolor czar...,2021-02-21 18:24:00,250,2016-06-01 00:00:00;;;;
4,https://www.olx.pl/oferta/jak-nowy-apple-iphon...,pomorskie,2021-02-22 06:55:52,Jak Nowy Apple Iphone 11 256gbGB White Gwarancja,2899.0,iPhone,Używane,Firmy,Sprawny,Witaj. Jesteśmy sklepem - serwisem z 12 le...,2021-02-21 17:38:00,845,2012-08-01 00:00:00;;;;
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4979,https://www.olx.pl/oferta/iphone-11-red-64-gb-...,podkarpackie,2021-02-22 05:54:53,"IPhone 11 Red, 64 GB",2990.0,iPhone,Nowe,Osoby prywatnej,Sprawny,"Witam mam na sprzedaż nowego IPhona 11 64 GB, ...",2021-02-21 12:16:00,177,2018-06-01 00:00:00;;;;
4980,https://www.olx.pl/oferta/iphone-11-white-64gb...,podkarpackie,2021-02-22 05:55:26,Iphone 11 white 64gb,1650.0,iPhone,Używane,Osoby prywatnej,Sprawny,Na sprzedaż posiadam iphone 11 white o pojemno...,2021-02-20 13:42:00,980,2021-02-01 00:00:00;;;;
4981,https://www.olx.pl/oferta/etui-iphone-11-CID99...,podlaskie,2021-02-22 06:28:04,Etui iPhone 11,100.0,,Używane,Osoby prywatnej,,"Witam, mam na sprzedaż dwa oryginalne etui od ...",2021-02-22 04:51:00,78,2016-06-01 00:00:00;;;;
4982,https://www.olx.pl/oferta/iphone-11-purple-fio...,podlaskie,2021-02-22 06:28:11,IPhone 11 purple fioletowy nowy 64 GB,2680.0,iPhone,Nowe,Osoby prywatnej,Sprawny,Dzień Dobry. Posiadam na sprzedaż iphone 11 pu...,2021-02-21 19:21:00,72,2017-02-01 00:00:00;;;;


It is clear that data is loaded correctly (every column contains proper information type)

In [4]:
data.isna().sum()

URL              0
Voivodeship      0
Scrap_time       0
Name             0
Price          336
Brand          437
Condition      130
Offer_from       0
Type           432
Description      0
Added_at         0
Views            0
User_since       0
dtype: int64

In [5]:
data.Added_at.value_counts()

2021-01-03 11:18:00    8
2021-02-08 14:21:00    7
2021-01-08 20:22:00    6
2021-02-19 17:01:00    5
2021-01-08 16:14:00    5
                      ..
2021-01-16 14:29:00    1
2021-01-16 09:55:00    1
2021-01-16 13:36:00    1
2021-01-17 02:12:00    1
2021-02-21 09:35:00    1
Name: Added_at, Length: 4585, dtype: int64

In [6]:
data.dtypes

URL             object
Voivodeship     object
Scrap_time      object
Name            object
Price          float64
Brand           object
Condition       object
Offer_from      object
Type            object
Description     object
Added_at        object
Views            int64
User_since      object
dtype: object

In [7]:
data_dropped_price_nans = data.dropna(subset=['Price']).reset_index(drop=True)

In [8]:
data_dropped_price_nans.isna().sum() # we can see that there are no more NaNs in 'Price' columns

URL              0
Voivodeship      0
Scrap_time       0
Name             0
Price            0
Brand          312
Condition       14
Offer_from       0
Type           308
Description      0
Added_at         0
Views            0
User_since       0
dtype: int64

In [9]:
data_dropped_price_nans.Condition.value_counts()

Używane    2861
Nowe       1773
Name: Condition, dtype: int64

In [10]:
# changing date format
data_dropped_price_nans['Date'] = pd.to_datetime(data_dropped_price_nans['Added_at']).dt.date

# filtering samples according to the task
data_reduced_dims = data_dropped_price_nans.query("Condition == 'Używane' & Type == 'Sprawny' & Brand == 'iPhone'")

# dropping unused features
data_reduced_dims = data_reduced_dims.drop(columns=['Voivodeship', 'Scrap_time', 'Views', 'User_since', 'Added_at', 'URL', 'Brand', 'Condition', 'Offer_from', 'Type'])

In [11]:
data_reduced_dims

Unnamed: 0,Name,Price,Description,Date
0,Iphone 11 64 jak nowy 95% gwarancja wyświetlacz,2799.0,Jak nowy . Kondycja baterii 95%. Kupiony w med...,2021-02-22
1,"IPhone 11 64 GB czarny, idealny z gwarancją. W...",2700.0,Witam! Mam na sprzedaż iPhone’a 11 w wersji 64...,2021-02-21
3,Jak Nowy Apple Iphone 11 256gbGB White Gwarancja,2899.0,Witaj. Jesteśmy sklepem - serwisem z 12 le...,2021-02-21
4,Apple Iphone 11 biały 64GB - jak nowy GWARANCJ...,2500.0,Sprzedam zakupiony w dniu 31.10.2020 w salonie...,2021-02-21
6,IPhone 11 64 GB + gwarancja,2150.0,"Witam, mam na sprzedaż IPhone 11 64GB biały. T...",2021-02-21
...,...,...,...,...
4639,IPHONE 11 Black 64GB,2299.0,Sprzedam Iphone 11 64 GB kolor: czarny. Satn I...,2021-02-21
4640,I phone 11 64 gb Cena tylko dzis,1900.0,Cena tylko dzisiaj Na sprzedaż powiadam i ph...,2021-02-21
4642,"Iphone 11 128 gb gwarancja , 100% bateria",2800.0,Sprzedam IPhone 11 z pamięcią 128 GB . Telefon...,2021-02-21
4644,Iphone 11 white 64gb,1650.0,Na sprzedaż posiadam iphone 11 white o pojemno...,2021-02-20


In [12]:
# some part of the data contains information about insignificant products (phone cases, services, fake products), filtering based on price
data_reduced_dims[data_reduced_dims.Price < 1000]

Unnamed: 0,Name,Price,Description,Date
22,"IPHON 8 64GB,kolor Gold + etui 11 sztuk",990.0,Iphon 8 64GB kolor Gold.Telefon zakupiony w ma...,2021-02-21
26,HTC U11 Dual Sim 4/64GB Amazing Silver KPL,249.0,Przedmiotem sprzedaży jest telefon: HTC...,2021-02-21
133,Iphone 7 rose gold oryginalny etui szkło grati...,780.0,Sprzedam Iphone 7 rose gold Oryginalny nig...,2021-01-02
317,IPhone 5S 16 GB IOS11.4.1,200.0,"Sprawny, działający ale bez ładowarki, 2 x etu...",2021-01-04
537,IPhone SE rosegold +11 case,350.0,"Witam, sprzedam w 100% sprawnego iPhone SE w k...",2021-01-06
632,I phone 7 128g rose gold nie 6 6s XS XR 11 12,570.0,Sprzedam i phone 7 128 gb w kolorze rose gold ...,2021-01-07
675,"IPhone 7 Plus (8,8plus,7,6s,6splus,x,xs,11,sam...",990.0,Sprzedam iPhone 7 Plus. Stan widoczny na zdj...,2021-01-08
863,"Iphone 6 32 GB, 11 case gratis, stan bardzo do...",550.0,IPhone 6 32 GB STAN BARDZI DOBRY + 11 etu...,2021-01-09
870,Iphone 11 PRO Max - słuchawki,270.0,Oferuje na sprzedaż słuchawki od Iphona 11 PR...,2021-01-10
971,"Iphone se 64gb ,gwarancja 11 miesiecy",490.0,Witam Na sprzedaż posiadam smartfon iphone S...,2021-01-10


In [13]:
# clip it here by Price
data_filtered = data_reduced_dims[data_reduced_dims.Price > 1000]

In [14]:
data_filtered

Unnamed: 0,Name,Price,Description,Date
0,Iphone 11 64 jak nowy 95% gwarancja wyświetlacz,2799.0,Jak nowy . Kondycja baterii 95%. Kupiony w med...,2021-02-22
1,"IPhone 11 64 GB czarny, idealny z gwarancją. W...",2700.0,Witam! Mam na sprzedaż iPhone’a 11 w wersji 64...,2021-02-21
3,Jak Nowy Apple Iphone 11 256gbGB White Gwarancja,2899.0,Witaj. Jesteśmy sklepem - serwisem z 12 le...,2021-02-21
4,Apple Iphone 11 biały 64GB - jak nowy GWARANCJ...,2500.0,Sprzedam zakupiony w dniu 31.10.2020 w salonie...,2021-02-21
6,IPhone 11 64 GB + gwarancja,2150.0,"Witam, mam na sprzedaż IPhone 11 64GB biały. T...",2021-02-21
...,...,...,...,...
4639,IPHONE 11 Black 64GB,2299.0,Sprzedam Iphone 11 64 GB kolor: czarny. Satn I...,2021-02-21
4640,I phone 11 64 gb Cena tylko dzis,1900.0,Cena tylko dzisiaj Na sprzedaż powiadam i ph...,2021-02-21
4642,"Iphone 11 128 gb gwarancja , 100% bateria",2800.0,Sprzedam IPhone 11 z pamięcią 128 GB . Telefon...,2021-02-21
4644,Iphone 11 white 64gb,1650.0,Na sprzedaż posiadam iphone 11 white o pojemno...,2021-02-20


In [15]:
# make all strings lowercase for the model
data_filtered['Name'] = data_filtered.loc[:, 'Name'].str.lower()
data_filtered['Description'] = data_filtered.loc[:, 'Description'].str.lower()

In [16]:
data_filtered

Unnamed: 0,Name,Price,Description,Date
0,iphone 11 64 jak nowy 95% gwarancja wyświetlacz,2799.0,jak nowy . kondycja baterii 95%. kupiony w med...,2021-02-22
1,"iphone 11 64 gb czarny, idealny z gwarancją. w...",2700.0,witam! mam na sprzedaż iphone’a 11 w wersji 64...,2021-02-21
3,jak nowy apple iphone 11 256gbgb white gwarancja,2899.0,witaj. jesteśmy sklepem - serwisem z 12 le...,2021-02-21
4,apple iphone 11 biały 64gb - jak nowy gwarancj...,2500.0,sprzedam zakupiony w dniu 31.10.2020 w salonie...,2021-02-21
6,iphone 11 64 gb + gwarancja,2150.0,"witam, mam na sprzedaż iphone 11 64gb biały. t...",2021-02-21
...,...,...,...,...
4639,iphone 11 black 64gb,2299.0,sprzedam iphone 11 64 gb kolor: czarny. satn i...,2021-02-21
4640,i phone 11 64 gb cena tylko dzis,1900.0,cena tylko dzisiaj na sprzedaż powiadam i ph...,2021-02-21
4642,"iphone 11 128 gb gwarancja , 100% bateria",2800.0,sprzedam iphone 11 z pamięcią 128 gb . telefon...,2021-02-21
4644,iphone 11 white 64gb,1650.0,na sprzedaż posiadam iphone 11 white o pojemno...,2021-02-20


In [17]:
# Merge Name and description strings
data_filtered['Concatenated_description'] = data_filtered['Name'] + ' ' + data_filtered['Description']

In [18]:
data_filtered

Unnamed: 0,Name,Price,Description,Date,Concatenated_description
0,iphone 11 64 jak nowy 95% gwarancja wyświetlacz,2799.0,jak nowy . kondycja baterii 95%. kupiony w med...,2021-02-22,iphone 11 64 jak nowy 95% gwarancja wyświetlac...
1,"iphone 11 64 gb czarny, idealny z gwarancją. w...",2700.0,witam! mam na sprzedaż iphone’a 11 w wersji 64...,2021-02-21,"iphone 11 64 gb czarny, idealny z gwarancją. w..."
3,jak nowy apple iphone 11 256gbgb white gwarancja,2899.0,witaj. jesteśmy sklepem - serwisem z 12 le...,2021-02-21,jak nowy apple iphone 11 256gbgb white gwaranc...
4,apple iphone 11 biały 64gb - jak nowy gwarancj...,2500.0,sprzedam zakupiony w dniu 31.10.2020 w salonie...,2021-02-21,apple iphone 11 biały 64gb - jak nowy gwarancj...
6,iphone 11 64 gb + gwarancja,2150.0,"witam, mam na sprzedaż iphone 11 64gb biały. t...",2021-02-21,"iphone 11 64 gb + gwarancja witam, mam na sprz..."
...,...,...,...,...,...
4639,iphone 11 black 64gb,2299.0,sprzedam iphone 11 64 gb kolor: czarny. satn i...,2021-02-21,iphone 11 black 64gb sprzedam iphone 11 64 gb ...
4640,i phone 11 64 gb cena tylko dzis,1900.0,cena tylko dzisiaj na sprzedaż powiadam i ph...,2021-02-21,i phone 11 64 gb cena tylko dzis cena tylko dz...
4642,"iphone 11 128 gb gwarancja , 100% bateria",2800.0,sprzedam iphone 11 z pamięcią 128 gb . telefon...,2021-02-21,"iphone 11 128 gb gwarancja , 100% bateria spr..."
4644,iphone 11 white 64gb,1650.0,na sprzedaż posiadam iphone 11 white o pojemno...,2021-02-20,iphone 11 white 64gb na sprzedaż posiadam ipho...


In [19]:
data_filtered.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2672 entries, 0 to 4647
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Name                      2672 non-null   object 
 1   Price                     2672 non-null   float64
 2   Description               2672 non-null   object 
 3   Date                      2672 non-null   object 
 4   Concatenated_description  2672 non-null   object 
dtypes: float64(1), object(4)
memory usage: 125.2+ KB


In [20]:
# create new column filled with earliest date found in the dataset
data_filtered['First_date'] = data_filtered['Date'].min()

In [21]:
# change formats of dates to datetime
data_filtered['Date'] = pd.to_datetime(data_filtered.Date, format='%Y-%m-%d')
data_filtered['First_date'] = pd.to_datetime(data_filtered.First_date, format='%Y-%m-%d')

In [22]:
# create a new column that contains information about progressing time series in data
data_filtered['Days_passed'] = data_filtered['Date'] - data_filtered['First_date']
data_filtered['Days_passed_name'] = data_filtered['Days_passed'].astype(str) + ' ' + data_filtered['Name']

In [23]:
data_filtered

Unnamed: 0,Name,Price,Description,Date,Concatenated_description,First_date,Days_passed,Days_passed_name
0,iphone 11 64 jak nowy 95% gwarancja wyświetlacz,2799.0,jak nowy . kondycja baterii 95%. kupiony w med...,2021-02-22,iphone 11 64 jak nowy 95% gwarancja wyświetlac...,2021-01-01,52 days,52 days iphone 11 64 jak nowy 95% gwarancja wy...
1,"iphone 11 64 gb czarny, idealny z gwarancją. w...",2700.0,witam! mam na sprzedaż iphone’a 11 w wersji 64...,2021-02-21,"iphone 11 64 gb czarny, idealny z gwarancją. w...",2021-01-01,51 days,"51 days iphone 11 64 gb czarny, idealny z gwar..."
3,jak nowy apple iphone 11 256gbgb white gwarancja,2899.0,witaj. jesteśmy sklepem - serwisem z 12 le...,2021-02-21,jak nowy apple iphone 11 256gbgb white gwaranc...,2021-01-01,51 days,51 days jak nowy apple iphone 11 256gbgb white...
4,apple iphone 11 biały 64gb - jak nowy gwarancj...,2500.0,sprzedam zakupiony w dniu 31.10.2020 w salonie...,2021-02-21,apple iphone 11 biały 64gb - jak nowy gwarancj...,2021-01-01,51 days,51 days apple iphone 11 biały 64gb - jak nowy ...
6,iphone 11 64 gb + gwarancja,2150.0,"witam, mam na sprzedaż iphone 11 64gb biały. t...",2021-02-21,"iphone 11 64 gb + gwarancja witam, mam na sprz...",2021-01-01,51 days,51 days iphone 11 64 gb + gwarancja
...,...,...,...,...,...,...,...,...
4639,iphone 11 black 64gb,2299.0,sprzedam iphone 11 64 gb kolor: czarny. satn i...,2021-02-21,iphone 11 black 64gb sprzedam iphone 11 64 gb ...,2021-01-01,51 days,51 days iphone 11 black 64gb
4640,i phone 11 64 gb cena tylko dzis,1900.0,cena tylko dzisiaj na sprzedaż powiadam i ph...,2021-02-21,i phone 11 64 gb cena tylko dzis cena tylko dz...,2021-01-01,51 days,51 days i phone 11 64 gb cena tylko dzis
4642,"iphone 11 128 gb gwarancja , 100% bateria",2800.0,sprzedam iphone 11 z pamięcią 128 gb . telefon...,2021-02-21,"iphone 11 128 gb gwarancja , 100% bateria spr...",2021-01-01,51 days,"51 days iphone 11 128 gb gwarancja , 100% bat..."
4644,iphone 11 white 64gb,1650.0,na sprzedaż posiadam iphone 11 white o pojemno...,2021-02-20,iphone 11 white 64gb na sprzedaż posiadam ipho...,2021-01-01,50 days,50 days iphone 11 white 64gb


In [24]:
# drop insignificant columns
data_concatenated = data_filtered.drop(columns=['Name', 'Description', 'Date', 'First_date', 'Days_passed']).reset_index(drop=True)

In [25]:
data_concatenated

Unnamed: 0,Price,Concatenated_description,Days_passed_name
0,2799.0,iphone 11 64 jak nowy 95% gwarancja wyświetlac...,52 days iphone 11 64 jak nowy 95% gwarancja wy...
1,2700.0,"iphone 11 64 gb czarny, idealny z gwarancją. w...","51 days iphone 11 64 gb czarny, idealny z gwar..."
2,2899.0,jak nowy apple iphone 11 256gbgb white gwaranc...,51 days jak nowy apple iphone 11 256gbgb white...
3,2500.0,apple iphone 11 biały 64gb - jak nowy gwarancj...,51 days apple iphone 11 biały 64gb - jak nowy ...
4,2150.0,"iphone 11 64 gb + gwarancja witam, mam na sprz...",51 days iphone 11 64 gb + gwarancja
...,...,...,...
2667,2299.0,iphone 11 black 64gb sprzedam iphone 11 64 gb ...,51 days iphone 11 black 64gb
2668,1900.0,i phone 11 64 gb cena tylko dzis cena tylko dz...,51 days i phone 11 64 gb cena tylko dzis
2669,2800.0,"iphone 11 128 gb gwarancja , 100% bateria spr...","51 days iphone 11 128 gb gwarancja , 100% bat..."
2670,1650.0,iphone 11 white 64gb na sprzedaż posiadam ipho...,50 days iphone 11 white 64gb
