# Imports

In [21]:
# Import necessary libraries
import pandas as pd
import numpy as np
import ast

# Ignore all warnings
import warnings
warnings.filterwarnings("ignore")

# Load Data

In [22]:
df = pd.read_csv("Data/cars.csv")

# Organize Columns

## Id

In [23]:
df['id'] = df['id'].str[4:-2].astype(int)
df.rename(columns={'id': 'Id'}, inplace=True)
df.set_index('Id', inplace=True)

In [24]:
df.sample(2)

Unnamed: 0_level_0,location,price,specifications-1,specifications-2,stickers
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
95484594,"['დუშეთი', '154ნახვა2 დღე']","['20,893']","[['მწარმოებელი', 'Mitsubishi'], ['მოდელი', 'L ...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'No...",['']
94232150,"['გორი', '145ნახვა22 დღე']","['30,056']","[['მწარმოებელი', 'Mitsubishi'], ['მოდელი', 'Ec...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[]


## Location

In [25]:
df['location'] = df['location'].apply(ast.literal_eval).str[0]
df.rename(columns={'location': 'Location'}, inplace=True)

In [26]:
df['Location'].value_counts()

თბილისი                  10989
რუსთავის ავტობაზრობა      1730
რუსთავი                   1308
ბათუმი                    1270
კავკასიის ავტომარკეტი      804
ქუთაისი                    721
გორი                       709
ფოთი                       191
ზესტაფონი                  159
ზუგდიდი                    154
თელავი                     138
მარნეული                   133
ახალციხე                   119
ხაშური                     115
კასპი                       90
მცხეთა                      83
გურჯაანი                    64
ახალქალაქი                  56
ქარელი                      53
ქობულეთი                    50
ბორჯომი                     45
ოზურგეთი                    44
სენაკი                      43
საგარეჯო                    43
ფოთის "გეზ"-ი               41
სამტრედია                   35
სიღნაღი                     34
ლაგოდეხი                    32
ჭიათურა                     30
საჩხერე                     29
ყვარელი                     27
ბოლნისი                     21
ახმეტა  

## Price

In [27]:
df['price'] = df['price'].str[2:-2].str.replace(',', '').astype(int)
df.rename(columns={'price': 'Price'}, inplace=True)

In [28]:
# Set pandas display option to show floats without scientific notation
pd.set_option('display.float_format', lambda x: '{:.5f}'.format(x))

df['Price'].describe()

count     19557.00000
mean      33448.02889
std       65611.96403
min           1.00000
25%       13058.00000
50%       24811.00000
75%       41787.00000
max     7777780.00000
Name: Price, dtype: float64

## specifications-1

In [29]:
df['specifications-1']

Id
93284442    [['მწარმოებელი', 'Mercedes-Benz'], ['მოდელი', ...
94416194    [['მწარმოებელი', 'BMW'], ['მოდელი', '428'], ['...
95335570    [['მწარმოებელი', 'Toyota'], ['მოდელი', 'RAV 4'...
95470114    [['მწარმოებელი', 'Mercedes-Benz'], ['მოდელი', ...
85990507    [['მწარმოებელი', 'Toyota'], ['მოდელი', 'Prius'...
                                  ...                        
95698770    [['მწარმოებელი', 'Volkswagen'], ['მოდელი', 'Ti...
92268310    [['მწარმოებელი', 'Volkswagen'], ['მოდელი', 'Pa...
95695366    [['მწარმოებელი', 'Volkswagen'], ['მოდელი', 'CC...
95698710    [['მწარმოებელი', 'Volkswagen'], ['მოდელი', 'CC...
95699122    [['მწარმოებელი', 'Volkswagen'], ['მოდელი', 'Je...
Name: specifications-1, Length: 19557, dtype: object

In [30]:
# Turn string of list into a python list
df['specifications-1'] = df['specifications-1'].apply(lambda x: ast.literal_eval(x))

In [31]:
# Function to find the index of the set containing the specification
def find_index_of_set_with_spec(set_list, spec):
    for i, s in enumerate(set_list):
        if spec in s:
            return round(i)
    return None

In [32]:
# Extract Specs from each set
def extract_specs(s, spec_name):
    if pd.notna(s):
        return [spec for spec in s if not spec.startswith(spec_name)][0]
    else:
        return pd.NA

### Manufacturer

In [33]:
# Find the index of the set containing the Manufacturer name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'მწარმოებელი'))
df['Index_of_set'].unique()

array([0])

In [34]:
df['Manufacturer'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Manufacturer'] = df['Manufacturer'].str[1]

# Manufacturer description table
df['Manufacturer'].value_counts()

Toyota           3183
Mercedes-Benz    2130
Nissan           1379
BMW              1337
Hyundai          1289
Subaru           1282
Honda            1213
Mazda            1179
Mitsubishi       1177
Volkswagen       1133
Ford             1115
Lexus            1094
Kia              1037
Chevrolet        1009
Name: Manufacturer, dtype: int64

### Model

In [35]:
# Find the index of the set containing the Model name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'მოდელი'))
df['Index_of_set'].unique()

array([1])

In [36]:
df['Model'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Model'] = df['Model'].str[1]

# Model description table
df['Model'].value_counts()

Camry         888
FIT           648
Forester      601
RAV 4         545
Prius         528
             ... 
Freestar        1
CLK 500         1
FTO             1
GLC 63 AMG      1
Scirocco        1
Name: Model, Length: 588, dtype: int64

### Year

In [37]:
# Find the index of the set containing the Year name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'წელი'))
df['Index_of_set'].unique()

array([2])

In [38]:
df['Year'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Year'] = df['Year'].str[1]

# Year description table
df['Year'].value_counts()

2019    1580
2017    1546
2018    1516
2015    1361
2014    1334
2013    1327
2016    1312
2012    1137
2020    1130
2021     779
2005     705
2011     671
2022     638
2004     471
2003     465
2006     428
2010     425
2007     405
2008     376
2002     353
2001     259
2009     238
2000     238
1999     180
2023     159
1998     145
1997     118
1996      93
1995      54
1994      45
1992      16
1991      14
1993      13
1989       6
1984       5
1990       4
1979       2
1986       2
1988       2
1974       1
1985       1
1971       1
1983       1
1943       1
Name: Year, dtype: int64

### Category

In [39]:
# Find the index of the set containing the Category name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'კატეგორია'))
df['Index_of_set'].unique()

array([3])

In [40]:
df['Category'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Category'] = df['Category'].str[1]

# Category description table
df['Category'].value_counts()

სედანი        7825
ჯიპი          7103
ჰეტჩბექი      2733
მინივენი       578
კუპე           422
ფურგონი        331
უნივერსალი     300
პიკაპი         117
კაბრიოლეტი      75
კროსოვერი       73
Name: Category, dtype: int64

### Mileage

In [41]:
# Find the index of the set containing the Mileage name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'გარბენი'))
df['Index_of_set'].unique()

array([4])

In [42]:
df['Mileage'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Mileage'] = df['Mileage'].str[1].str[:-3].astype(int)

# Set the float_format option to display one decimal point
pd.options.display.float_format = '{:.5f}'.format

df['Mileage'].describe()

count     19557.00000
mean     126416.12880
std       97356.80621
min           0.00000
25%       53000.00000
50%      115000.00000
75%      180000.00000
max     1554008.00000
Name: Mileage, dtype: float64

### Fuel type

In [43]:
# Find the index of the set containing the Fuel type name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'საწვავის ტიპი'))
df['Index_of_set'].unique()

array([5])

In [44]:
df['Fuel type'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Fuel type'] = df['Fuel type'].str[1]

# Fuel type description table
df['Fuel type'].value_counts()

ბენზინი              14289
ჰიბრიდი               2299
დიზელი                1519
ბუნებრივი გაზი         657
თხევადი გაზი           365
დატენვადი ჰიბრიდი      264
ელექტრო                164
Name: Fuel type, dtype: int64

### Engine Volume

In [45]:
# Find the index of the set containing the Engine Volume name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'ძრავის მოცულობა'))
df['Index_of_set'].unique()

array([6])

In [46]:
df['Engine Volume'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Engine Volume'] = df['Engine Volume'].str[1]

# Engine Volume description table
df['Engine Volume'].value_counts()

2.5          3607
2.0          2998
2.4          1365
1.5          1328
1.8          1196
             ... 
5.2             1
13.0            1
6.3 turbo       1
2.1 turbo       1
5.6             1
Name: Engine Volume, Length: 99, dtype: int64

### Cylinders

In [47]:
df['Cylinders'] = df['specifications-1'].str[7].str[1]
df['Cylinders'].value_counts()

4             14587
6              3347
8               832
5               276
3               147
1               146
12              112
2                57
10               23
9                10
7                 8
ვარიატორი         7
11                3
ავტომატიკა        2
Name: Cylinders, dtype: int64

In [48]:
df[(df['Cylinders']=='ვარიატორი') | (df['Cylinders']=='ავტომატიკა')]

Unnamed: 0_level_0,Location,Price,specifications-1,specifications-2,stickers,Index_of_set,Manufacturer,Model,Year,Category,Mileage,Fuel type,Engine Volume,Cylinders
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
77714573,რუსთავის ავტობაზრობა,35257,"[[მწარმოებელი, BMW], [მოდელი, I3], [წელი, 2014...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,BMW,I3,2014,ჰეტჩბექი,22257,ელექტრო,0.0,ვარიატორი
79780065,რუსთავის ავტობაზრობა,39959,"[[მწარმოებელი, Nissan], [მოდელი, Leaf], [წელი,...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,Nissan,Leaf,2018,ჰეტჩბექი,40847,ელექტრო,0.0,ავტომატიკა
77714573,რუსთავის ავტობაზრობა,35257,"[[მწარმოებელი, BMW], [მოდელი, I3], [წელი, 2014...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,BMW,I3,2014,ჰეტჩბექი,22257,ელექტრო,0.0,ვარიატორი
79780065,რუსთავის ავტობაზრობა,39959,"[[მწარმოებელი, Nissan], [მოდელი, Leaf], [წელი,...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,Nissan,Leaf,2018,ჰეტჩბექი,40847,ელექტრო,0.0,ავტომატიკა
82848299,რუსთავი,14364,"[[მწარმოებელი, Mitsubishi], [მოდელი, i-Miev], ...","[['ჰიდრავლიკა', 'No'], ['ბორტკომპიუტერი', 'Yes...",[''],6,Mitsubishi,i-Miev,2013,ჰეტჩბექი,120000,ელექტრო,0.0,ვარიატორი
82839947,რუსთავი,40481,"[[მწარმოებელი, Nissan], [მოდელი, Leaf], [წელი,...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,Nissan,Leaf,2017,სედანი,120000,ელექტრო,0.0,ვარიატორი
77715793,რუსთავის ავტობაზრობა,39436,"[[მწარმოებელი, BMW], [მოდელი, I3], [წელი, 2016...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,BMW,I3,2016,ჰეტჩბექი,56536,ელექტრო,0.0,ვარიატორი
77715793,რუსთავის ავტობაზრობა,39420,"[[მწარმოებელი, BMW], [მოდელი, I3], [წელი, 2016...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,BMW,I3,2016,ჰეტჩბექი,56536,ელექტრო,0.0,ვარიატორი
77777357,რუსთავის ავტობაზრობა,24288,"[[მწარმოებელი, BMW], [მოდელი, I3], [წელი, 2014...","[['ჰიდრავლიკა', 'Yes'], ['ბორტკომპიუტერი', 'Ye...",[''],6,BMW,I3,2014,ჰეტჩბექი,58328,ელექტრო,0.0,ვარიატორი


In [49]:
df.loc[(df['Cylinders']=='ვარიატორი') | (df['Cylinders']=='ავტომატიკა'), 'Cylinders'] = np.nan

In [50]:
df.Cylinders = df.Cylinders.astype('Int64')
df['Cylinders'].value_counts()

4     14587
6      3347
8       832
5       276
3       147
1       146
12      112
2        57
10       23
9        10
7         8
11        3
Name: Cylinders, dtype: Int64

### Gear box type

In [51]:
# Find the index of the set containing the Gear box type name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'გადაცემათა კოლოფი'))
df['Index_of_set'].unique()

array([8, 7])

In [52]:
df['Gear box type'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Gear box type'] = df['Gear box type'].str[1]

# Gear box type description table
df['Gear box type'].value_counts()

ავტომატიკა    8144
ტიპტრონიკი    7880
მექანიკა      1768
ვარიატორი     1765
Name: Gear box type, dtype: int64

### Drive wheels

In [53]:
# Find the index of the set containing the Drive wheels name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'წამყვანი თვლები'))
df['Index_of_set'].unique()

array([ 9.,  8., nan])

In [54]:
df['Drive wheels'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Drive wheels'] = df['Drive wheels'].str[1]

# Drive wheels description table
df['Drive wheels'].value_counts()

წინა     10245
4x4       6949
უკანა     2357
Name: Drive wheels, dtype: int64

### Doors

In [55]:
# Find the index of the set containing the Doors name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'კარები'))
df['Index_of_set'].unique()

array([10.,  9., nan])

In [56]:
df['Doors'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Doors'] = df['Doors'].str[1]

# Doors description table
df.Doors.value_counts()

4/5    18103
2/3      843
>5       608
Name: Doors, dtype: int64

### Airbags

In [57]:
# Find the index of the set containing the Airbags name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'აირბეგი'))
df['Index_of_set'].unique()

array([11., nan, 10.,  9.])

In [58]:
df['Airbags'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Airbags'] = df['Airbags'].str[1].astype('Int64')

# Airbags description table
df.Airbags.value_counts()

12    4788
9     3652
8     3231
6     1988
4     1832
10    1684
2      948
5      380
7      217
3       83
11      76
1       69
Name: Airbags, dtype: Int64

### Wheel

In [59]:
# Find the index of the set containing the Wheel name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'საჭე'))
df['Index_of_set'].unique()

array([12, 11, 10])

In [60]:
df['Wheel'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Wheel'] = df['Wheel'].str[1]

# Wheel description table
df.Wheel.value_counts()

მარცხენა    17063
მარჯვენა     2494
Name: Wheel, dtype: int64

### Color

In [61]:
# Find the index of the set containing the Color name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'ფერი'))
df['Index_of_set'].unique()

array([13., 12., nan, 11.])

In [62]:
df['Color'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Color'] = df['Color'].str[1]

# Color description table
df.Color.value_counts()

შავი            5209
თეთრი           3697
რუხი            3235
ვერცხლისფერი    3215
ლურჯი           1817
წითელი           792
შინდისფერი       428
მწვანე           259
ცისფერი          238
ყავისფერი        235
ოქროსფერი        157
ჩალისფერი         97
ნარინჯისფერი      67
ყვითელი           54
იისფერი           48
ვარდისფერი         6
Name: Color, dtype: int64

### Interior color

In [63]:
# Find the index of the set containing the Interior color name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'სალონის ფერი'))
df['Index_of_set'].unique()

array([14., 13., 12., nan])

In [64]:
df['Interior color'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Interior color'] = df['Interior color'].str[1]

# Interior color description table
df['Interior color'].value_counts()

შავი            12372
რუხი             3335
ჩალისფერი        1665
თეთრი             882
ყავისფერი         476
წითელი            265
ლურჯი             125
ყვითელი           118
ნარინჯისფერი      113
ოქროსფერი         109
შინდისფერი         96
Name: Interior color, dtype: int64

### Interior material

In [65]:
# Find the index of the set containing the Interior material name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'სალონის მასალა'))
df['Index_of_set'].unique()

array([15., 14., 13., nan])

In [66]:
df['Interior material'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Interior material'] = df['Interior material'].str[1]

# Interior material description table
df['Interior material'].value_counts()

ტყავი              8937
ნაჭერი             8706
კომბინირებული      1409
ალკანტარა           393
ხელოვნური ტყავი     111
Name: Interior material, dtype: int64

### Exchange

In [67]:
# Find the index of the set containing the Exchange name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'გაცვლა'))
df['Index_of_set'].unique()

array([16, 15, 14])

In [68]:
df['Exchange'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Exchange'] = df['Exchange'].str[1]

# Exchange description table
df.Exchange.value_counts()

არა    18915
კი       642
Name: Exchange, dtype: int64

### Technical inspection

In [69]:
# Find the index of the set containing the Technical inspection name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'ტექ. დათვალიერება'))
df['Index_of_set'].unique()

array([17, 16, 15])

In [70]:
df['Technical inspection'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Technical inspection'] = df['Technical inspection'].str[1]

# Technical inspection description table
df['Technical inspection'].value_counts()

კი     18914
არა      643
Name: Technical inspection, dtype: int64

### Catalyst

In [71]:
# Find the index of the set containing the Catalyst name for each row
df['Index_of_set'] = df['specifications-1'].apply(lambda x: find_index_of_set_with_spec(x, 'კატალიზატორი'))
df['Index_of_set'].unique()

array([18., nan, 17., 16.])

In [72]:
df['Catalyst'] = df.apply(lambda row: row['specifications-1'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Catalyst'] = df['Catalyst'].str[1]

# Catalyst description table
df.Catalyst.value_counts()

კი     15239
არა     2192
Name: Catalyst, dtype: int64

## specifications-2

In [73]:
# Turn string of list into a python list
df['specifications-2'] = df['specifications-2'].apply(lambda x: ast.literal_eval(x))

In [74]:
df['specifications-2']

Id
93284442    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
94416194    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
95335570    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
95470114    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
85990507    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
                                  ...                        
95698770    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
92268310    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
95695366    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
95698710    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, Yes], [კო...
95699122    [[ჰიდრავლიკა, Yes], [ბორტკომპიუტერი, No], [კონ...
Name: specifications-2, Length: 19557, dtype: object

### Steering Hydraulics

In [75]:
# Find the index of the set containing the ჰიდრავლიკა name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'ჰიდრავლიკა'))
df['Index_of_set'].unique()

array([0])

In [76]:
df['Steering Hydraulics'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Steering Hydraulics'] = df['Steering Hydraulics'].str[1]

# Catalyst description table
df['Steering Hydraulics'].value_counts()

Yes    17953
No      1604
Name: Steering Hydraulics, dtype: int64

### On-Board Computer

In [77]:
# Find the index of the set containing the ბორტკომპიუტერი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'ბორტკომპიუტერი'))
df['Index_of_set'].unique()

array([1])

In [78]:
df['On-Board Computer'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['On-Board Computer'] = df['On-Board Computer'].str[1]

# ბორტკომპიუტერი description table
df['On-Board Computer'].value_counts()

Yes    15551
No      4006
Name: On-Board Computer, dtype: int64

### Air Conditioning

In [79]:
# Find the index of the set containing the კონდიციონერი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'კონდიციონერი'))
df['Index_of_set'].unique()

array([2])

In [80]:
df['Air Conditioning'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Air Conditioning'] = df['Air Conditioning'].str[1]

# კონდიციონერი description table
df['Air Conditioning'].value_counts()

Yes    17729
No      1828
Name: Air Conditioning, dtype: int64

### Parking Control

In [81]:
# Find the index of the set containing the პარკინგკონტროლი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'პარკინგკონტროლი'))
df['Index_of_set'].unique()

array([3])

In [82]:
df['Parking Control'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Parking Control'] = df['Parking Control'].str[1]

# პარკინგკონტროლი description table
df['Parking Control'].value_counts()

Yes    11495
No      8062
Name: Parking Control, dtype: int64

### Rear View Camera

In [83]:
# Find the index of the set containing the უკანა ხედვის კამერა name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'უკანა ხედვის კამერა'))
df['Index_of_set'].unique()

array([4])

In [84]:
df['Rear View Camera'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Rear View Camera'] = df['Rear View Camera'].str[1]

# უკანა ხედვის კამერა description table
df['Rear View Camera'].value_counts()

Yes    13802
No      5755
Name: Rear View Camera, dtype: int64

### Electric Side Mirros

In [85]:
# Find the index of the set containing the ელექტრო შუშები name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'ელექტრო შუშები'))
df['Index_of_set'].unique()

array([5])

In [86]:
df['Electric Side Mirros'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Electric Side Mirros'] = df['Electric Side Mirros'].str[1]

# ელექტრო შუშები description table
df['Electric Side Mirros'].value_counts()

Yes    17906
No      1651
Name: Electric Side Mirros, dtype: int64

### Climate Control

In [87]:
# Find the index of the set containing the კლიმატკონტროლი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'კლიმატკონტროლი'))
df['Index_of_set'].unique()

array([6])

In [88]:
df['Climate Control'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Climate Control'] = df['Climate Control'].str[1]

# კლიმატკონტროლი description table
df['Climate Control'].value_counts()

Yes    15937
No      3620
Name: Climate Control, dtype: int64

### Cruise Control

In [89]:
# Find the index of the set containing the კრუიზ-კონტროლი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'კრუიზ-კონტროლი'))
df['Index_of_set'].unique()

array([7])

In [90]:
df['Cruise Control'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Cruise Control'] = df['Cruise Control'].str[1]

# კრუიზ-კონტროლი description table
df['Cruise Control'].value_counts()

Yes    14440
No      5117
Name: Cruise Control, dtype: int64

### Start-Stop System

In [91]:
# Find the index of the set containing the Start/Stop სისტემა name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'Start/Stop სისტემა'))
df['Index_of_set'].unique()

array([8])

In [92]:
df['Start-Stop System'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Start-Stop System'] = df['Start-Stop System'].str[1]

# Start/Stop სისტემა description table
df['Start-Stop System'].value_counts()

Yes    10915
No      8642
Name: Start-Stop System, dtype: int64

### Sunroof

In [93]:
# Find the index of the set containing the ლუქი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'ლუქი'))
df['Index_of_set'].unique()

array([9])

In [94]:
df['Sunroof'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Sunroof'] = df['Sunroof'].str[1]

# ლუქი description table
df['Sunroof'].value_counts()

No     10764
Yes     8793
Name: Sunroof, dtype: int64

### Heated Seats

In [95]:
# Find the index of the set containing the სავარძლის გათბობა name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'სავარძლის გათბობა'))
df['Index_of_set'].unique()

array([10])

In [96]:
df['Heated Seats'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Heated Seats'] = df['Heated Seats'].str[1]

# სავარძლის გათბობა description table
df['Heated Seats'].value_counts()

Yes    12055
No      7502
Name: Heated Seats, dtype: int64

### Memory Seats

In [97]:
# Find the index of the set containing the სავარძლის მეხსიერება name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'სავარძლის მეხსიერება'))
df['Index_of_set'].unique()

array([11])

In [98]:
df['Memory Seats'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Memory Seats'] = df['Memory Seats'].str[1]

# სავარძლის მეხსიერება description table
df['Memory Seats'].value_counts()

Yes    10255
No      9302
Name: Memory Seats, dtype: int64

### ABS

In [99]:
# Find the index of the set containing the ABS name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'ABS'))
df['Index_of_set'].unique()

array([12])

In [100]:
df['ABS'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['ABS'] = df['ABS'].str[1]

# ABS description table
df['ABS'].value_counts()

Yes    17377
No      2180
Name: ABS, dtype: int64

### ESP

In [101]:
# Find the index of the set containing the მოცურების საწინააღმდეგო სისტემა name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'მოცურების საწინააღმდეგო სისტემა'))
df['Index_of_set'].unique()

array([13])

In [102]:
df['ESP'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['ESP'] = df['ESP'].str[1]

# მოცურების საწინააღმდეგო სისტემა description table
df['ESP'].value_counts()

Yes    16600
No      2957
Name: ESP, dtype: int64

### Central Locking

In [103]:
# Find the index of the set containing the ცენტრალური საკეტი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'ცენტრალური საკეტი'))
df['Index_of_set'].unique()

array([14])

In [104]:
df['Central Locking'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Central Locking'] = df['Central Locking'].str[1]

# ცენტრალური საკეტი description table
df['Central Locking'].value_counts()

Yes    17850
No      1707
Name: Central Locking, dtype: int64

### Alarm System

In [105]:
# Find the index of the set containing the სიგნალიზაცია name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'სიგნალიზაცია'))
df['Index_of_set'].unique()

array([15])

In [106]:
df['Alarm System'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Alarm System'] = df['Alarm System'].str[1]

# სიგნალიზაცია description table
df['Alarm System'].value_counts()

Yes    15329
No      4228
Name: Alarm System, dtype: int64

### Fog Lamp

In [107]:
# Find the index of the set containing the სანისლე ფარები name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'სანისლე ფარები'))
df['Index_of_set'].unique()

array([16])

In [108]:
df['Fog Lamp'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Fog Lamp'] = df['Fog Lamp'].str[1]

# სანისლე ფარები description table
df['Fog Lamp'].value_counts()

Yes    14735
No      4822
Name: Fog Lamp, dtype: int64

### Central Screen (Navigation)

In [109]:
# Find the index of the set containing the მონიტორი (ნავიგაცია) name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'მონიტორი (ნავიგაცია)'))
df['Index_of_set'].unique()

array([17])

In [110]:
df['Central Screen (Navigation)'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Central Screen (Navigation)'] = df['Central Screen (Navigation)'].str[1]

# მონიტორი (ნავიგაცია) description table
df['Central Screen (Navigation)'].value_counts()

Yes    14576
No      4981
Name: Central Screen (Navigation), dtype: int64

### AUX

In [111]:
# Find the index of the set containing the AUX name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'AUX'))
df['Index_of_set'].unique()

array([18])

In [112]:
df['AUX'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['AUX'] = df['AUX'].str[1]

# AUX description table
df['AUX'].value_counts()

Yes    15896
No      3661
Name: AUX, dtype: int64

### Bluetooth

In [113]:
# Find the index of the set containing the Bluetooth name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'Bluetooth'))
df['Index_of_set'].unique()

array([19])

In [114]:
df['Bluetooth'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Bluetooth'] = df['Bluetooth'].str[1]

# Bluetooth description table
df['Bluetooth'].value_counts()

Yes    15802
No      3755
Name: Bluetooth, dtype: int64

### Multifunction Steering Wheel

In [115]:
# Find the index of the set containing the მულტი საჭე name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'მულტი საჭე'))
df['Index_of_set'].unique()

array([20])

In [116]:
df['Multifunction Steering Wheel'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Multifunction Steering Wheel'] = df['Multifunction Steering Wheel'].str[1]

# მულტი საჭე description table
df['Multifunction Steering Wheel'].value_counts()

Yes    15162
No      4395
Name: Multifunction Steering Wheel, dtype: int64

### Rims

In [117]:
# Find the index of the set containing the დისკები name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'დისკები'))
df['Index_of_set'].unique()

array([21])

In [118]:
df['Rims'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Rims'] = df['Rims'].str[1]

# დისკები description table
df['Rims'].value_counts()

Yes    16681
No      2876
Name: Rims, dtype: int64

### Spare Tyre

In [119]:
# Find the index of the set containing the სათადარიგო საბურავი name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'სათადარიგო საბურავი'))
df['Index_of_set'].unique()

array([22])

In [120]:
df['Spare Tyre'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Spare Tyre'] = df['Spare Tyre'].str[1]

# სათადარიგო საბურავი description table
df['Spare Tyre'].value_counts()

Yes    15259
No      4298
Name: Spare Tyre, dtype: int64

### Didabled Accessible

In [121]:
# Find the index of the set containing the სსმპ ადაპტირებული name for each row
df['Index_of_set'] = df['specifications-2'].apply(lambda x: find_index_of_set_with_spec(x, 'სსმპ ადაპტირებული'))
df['Index_of_set'].unique()

array([23])

In [122]:
df['Didabled Accessible'] = df.apply(lambda row: row['specifications-2'][int(row['Index_of_set'])] if pd.notna(row['Index_of_set']) else np.nan, axis=1)
df['Didabled Accessible'] = df['Didabled Accessible'].str[1]

# სსმპ ადაპტირებული description table
df['Didabled Accessible'].value_counts()

No     15826
Yes     3731
Name: Didabled Accessible, dtype: int64

## Stcikers

In [123]:
def extract_stickers(stickers, where_to_look, df):
    for sticker in stickers:
        column = df.stickers.str.contains('დაურტყმელი').astype(int).replace({0: 'No', 1: 'Yes'})
        df[sticker] = column

stickers = [
    'დაურტყმელი', 'სუფთა ისტორია', 'ახალი ჩამოყვანილი', 'ეკონომიური', 
    'ლიმიტირებული', 'შეუღებავი', 'ერთი მფლობელი', 'სასწრაფოდ', 'ევროპული', 
    'იდეალურ მდგომარეობაში', 'ოჯახისთვის', 'ლომბარდის გადაბარებით', 'მესამე რიგი'
]

extract_stickers(stickers, df.stickers, df)

In [124]:
#### drop unnecessary columns
df.drop(['specifications-1', 'specifications-2', 'stickers', 'Index_of_set'], axis=1, inplace=True)

# Translate from Georgian to English

## Column Names

In [125]:
df.columns

Index(['Location', 'Price', 'Manufacturer', 'Model', 'Year', 'Category',
       'Mileage', 'Fuel type', 'Engine Volume', 'Cylinders', 'Gear box type',
       'Drive wheels', 'Doors', 'Airbags', 'Wheel', 'Color', 'Interior color',
       'Interior material', 'Exchange', 'Technical inspection', 'Catalyst',
       'Steering Hydraulics', 'On-Board Computer', 'Air Conditioning',
       'Parking Control', 'Rear View Camera', 'Electric Side Mirros',
       'Climate Control', 'Cruise Control', 'Start-Stop System', 'Sunroof',
       'Heated Seats', 'Memory Seats', 'ABS', 'ESP', 'Central Locking',
       'Alarm System', 'Fog Lamp', 'Central Screen (Navigation)', 'AUX',
       'Bluetooth', 'Multifunction Steering Wheel', 'Rims', 'Spare Tyre',
       'Didabled Accessible', 'დაურტყმელი', 'სუფთა ისტორია',
       'ახალი ჩამოყვანილი', 'ეკონომიური', 'ლიმიტირებული', 'შეუღებავი',
       'ერთი მფლობელი', 'სასწრაფოდ', 'ევროპული', 'იდეალურ მდგომარეობაში',
       'ოჯახისთვის', 'ლომბარდის გადაბარებით', 'მესამ

In [126]:
df.columns = [
    'Location', 'Price', 'Manufacturer', 'Model', 'Year', 'Category',
    'Mileage', 'Fuel type', 'Engine Volume', 'Cylinders', 'Gear box type',
    'Drive wheels', 'Doors', 'Airbags', 'Wheel', 'Color', 'Interior color',
    'Interior material', 'Exchange', 'Technical inspection', 'Catalyst',
    'Steering Hydraulics', 'On-Board Computer', 'Air Conditioning',
    'Parking Control', 'Rear View Camera', 'Electric Side Mirros',
    'Climate Control', 'Cruise Control', 'Start-Stop System', 'Sunroof',
    'Heated Seats', 'Memory Seats', 'ABS', 'ESP', 'Central Locking',
    'Alarm System', 'Fog Lamp', 'Central Screen (Navigation)', 'AUX',
    'Bluetooth', 'Multifunction Steering Wheel', 'Rims', 'Spare Tyre',
    'Didabled Accessible', 'Undamaged', 'Clean History',
    'Newly Imported', 'Low Consumption', 'Limited edition', 'Unpainted',
    'One owner', 'Urgently', 'European', 'Perfect condition',
    'For family', 'Pawnshop', 'Third row'
    ]

In [127]:
df.columns

Index(['Location', 'Price', 'Manufacturer', 'Model', 'Year', 'Category',
       'Mileage', 'Fuel type', 'Engine Volume', 'Cylinders', 'Gear box type',
       'Drive wheels', 'Doors', 'Airbags', 'Wheel', 'Color', 'Interior color',
       'Interior material', 'Exchange', 'Technical inspection', 'Catalyst',
       'Steering Hydraulics', 'On-Board Computer', 'Air Conditioning',
       'Parking Control', 'Rear View Camera', 'Electric Side Mirros',
       'Climate Control', 'Cruise Control', 'Start-Stop System', 'Sunroof',
       'Heated Seats', 'Memory Seats', 'ABS', 'ESP', 'Central Locking',
       'Alarm System', 'Fog Lamp', 'Central Screen (Navigation)', 'AUX',
       'Bluetooth', 'Multifunction Steering Wheel', 'Rims', 'Spare Tyre',
       'Didabled Accessible', 'Undamaged', 'Clean History', 'Newly Imported',
       'Low Consumption', 'Limited edition', 'Unpainted', 'One owner',
       'Urgently', 'European', 'Perfect condition', 'For family', 'Pawnshop',
       'Third row'],
      dtyp

## Location

In [128]:
df.Location.unique()

array(['თბილისი', 'რუსთავის ავტობაზრობა', 'რუსთავი', 'ქუთაისი', 'გორი',
       'კავკასიის ავტომარკეტი', 'ბათუმი', 'ფოთი', 'სენაკი', 'ახალციხე',
       'მარნეული', 'ზუგდიდი', 'საგარეჯო', 'სამტრედია', 'ჭიათურა',
       'ხაშური', 'ქობულეთი', 'ახალქალაქი', 'მცხეთა', 'თელავი',
       'ზესტაფონი', 'ფოთის "გეზ"-ი', 'ლაგოდეხი', 'საჩხერე', 'გურჯაანი',
       'კასპი', 'ოზურგეთი', 'ქარელი', 'ტყიბული', 'ყვარელი', 'წალენჯიხა',
       'დედოფლისწყარო', 'სიღნაღი', 'ბოლნისი', 'ახმეტა', 'ბორჯომი',
       'წალკა', 'ჩხოროწყუ', 'აბაშა', 'ხობი', 'ონი', 'ხონი', 'დუშეთი',
       'ასპინძა', 'თეთრიწყარო', 'გარდაბანი', 'ხარაგაული', 'ცაგერი',
       'მარტვილი', 'სართიჭალა', 'მესტია', 'ლანჩხუთი', 'ნინოწმინდა',
       'წყალტუბო', 'ამბროლაური', 'თიანეთი', 'წეროვანი'], dtype=object)

In [129]:
mapper = {
    'თბილისი': 'Tbilisi', 'რუსთავის ავტობაზრობა': 'Rustavi Car Market', 
    'რუსთავი': 'Rustavi', 'ქუთაისი': 'Kutaisi', 'გორი': 'Gori',
    'კავკასიის ავტომარკეტი': 'Caucasus Auto Market', 'ბათუმი': 'Batumi', 
    'ფოთი': 'Poti', 'სენაკი': 'Senaki', 'ახალციხე': 'Akhaltsikhe',
    'მარნეული': 'Marneuli', 'ზუგდიდი': 'Zugdidi', 'საგარეჯო': 'Sagarejo', 
    'სამტრედია': 'Samtredia', 'ჭიათურა': 'Chiatura', 'ხაშური': 'Khashuri', 
    'ქობულეთი': 'Kobuleti', 'ახალქალაქი': 'Akhalkalaki', 'მცხეთა': 'Mtskheta', 
    'თელავი': 'Telavi', 'ზესტაფონი': 'Zestaphoni', 'ფოთის "გეზ"-ი': 'POTI "ECZ"', 
    'ლაგოდეხი': 'Lagodekhi', 'საჩხერე': 'Sachkhere', 'გურჯაანი': 'Gurjaani',
    'კასპი': 'Kaspi', 'ოზურგეთი': 'Ozurgeti', 'ქარელი': 'Kareli', 'ტყიბული': 'Tkibuli', 
    'ყვარელი': 'kvareli', 'წალენჯიხა': 'Tsalenjikha', 'დედოფლისწყარო': 'Dedoplistskaro', 
    'სიღნაღი': 'Sighnagh', 'ბოლნისი': 'Bolnisi', 'ახმეტა': 'Akhmeta', 'ბორჯომი': 'Borjomi',
    'წალკა': 'Tsalka', 'ჩხოროწყუ': 'Chkhorotsku', 'აბაშა': 'Abasha', 'ხობი': 'Khobi', 
    'ონი': 'Oni', 'ხონი': 'Khoni', 'დუშეთი': 'Dusheti', 'ასპინძა': 'Aspindza', 
    'თეთრიწყარო': 'Tetritskaro', 'გარდაბანი': 'Gardabani', 'ხარაგაული': 'Kharagauli', 
    'ცაგერი': 'Tsageri', 'მარტვილი': 'Martvili', 'სართიჭალა': 'Sartichala', 'მესტია': 'Mestia', 
    'ლანჩხუთი': 'Lanchkhuti', 'ნინოწმინდა': 'Ninotsminda', 'წყალტუბო': 'Tskaltubo', 
    'ამბროლაური': 'Ambrolauri', 'თიანეთი': 'Tianeti', 'წეროვანი': 'Tserovani'}

df.Location = df.Location.map(mapper)

## Category

In [130]:
df.Category.unique()

array(['ჯიპი', 'სედანი', 'ფურგონი', 'მინივენი', 'კუპე', 'კროსოვერი',
       'კაბრიოლეტი', 'ჰეტჩბექი', 'პიკაპი', 'უნივერსალი'], dtype=object)

In [131]:
mapper = {
    'ჯიპი': 'Jeep', 'სედანი': 'Sedan', 'ფურგონი': 'Goods wagon', 'მინივენი': 'Minivan', 
    'კუპე': 'Coupe', 'კროსოვერი': 'Crossover', 'კაბრიოლეტი': 'Cabriolet', 
    'ჰეტჩბექი': 'Hetchback', 'პიკაპი': 'Pickup', 'უნივერსალი': 'Universal'
}

df.Category = df.Category.map(mapper)

## Fuel type

In [132]:
df['Fuel type'].unique()

array(['ბენზინი', 'ჰიბრიდი', 'დიზელი', 'დატენვადი ჰიბრიდი', 'ელექტრო',
       'ბუნებრივი გაზი', 'თხევადი გაზი'], dtype=object)

In [133]:
mapper = {
    'ბენზინი': 'Petrol', 'ჰიბრიდი': 'Hybrid', 'დიზელი': 'Diesel', 'დატენვადი ჰიბრიდი': 'Plug-in Hybrid', 
    'ელექტრო': 'Electric', 'ბუნებრივი გაზი': 'CNG', 'თხევადი გაზი': 'LPG'
}

df['Fuel type'] = df['Fuel type'].map(mapper)

## Gear box type

In [134]:
df['Gear box type'].unique()

array(['ტიპტრონიკი', 'ავტომატიკა', 'ვარიატორი', 'მექანიკა'], dtype=object)

In [135]:
mapper = {
    'ტიპტრონიკი': 'Tiptronic', 'ავტომატიკა': 'Automatic', 'ვარიატორი': 'Variator', 'მექანიკა': 'Manual'
}

df['Gear box type'] = df['Gear box type'].map(mapper)

## Drive wheels

In [136]:
df['Drive wheels'].unique()

array(['4x4', 'უკანა', 'წინა', nan], dtype=object)

In [137]:
mapper = {
    '4x4': '4x4', 'უკანა': 'Rear', 'წინა': 'Front'
}

df['Drive wheels'] = df['Drive wheels'].map(mapper)

## Wheel

In [138]:
df['Wheel'].unique()

array(['მარცხენა', 'მარჯვენა'], dtype=object)

In [139]:
mapper = {
    'მარცხენა': 'Left', 'მარჯვენა': 'Right'
}

df['Wheel'] = df['Wheel'].map(mapper)

## Color

In [140]:
df['Color'].unique()

array(['შავი', 'თეთრი', 'ლურჯი', 'წითელი', 'რუხი', 'ვერცხლისფერი',
       'ოქროსფერი', 'ყვითელი', 'ყავისფერი', 'ნარინჯისფერი', 'ცისფერი',
       'შინდისფერი', 'მწვანე', 'ჩალისფერი', 'იისფერი', 'ვარდისფერი', nan],
      dtype=object)

In [141]:
mapper = {
    'შავი': 'Black', 'თეთრი': 'White', 'ლურჯი': 'Blue', 'წითელი': 'Red', 'რუხი': 'Grey', 
    'ვერცხლისფერი': 'Silver', 'ოქროსფერი': 'Golden', 'ყვითელი':' Yellow', 'ყავისფერი': 'Brown',
    'ნარინჯისფერი': 'Orange', 'ცისფერი': 'Sky Blue', 'შინდისფერი': 'Carnelian red', 
    'მწვანე': 'Green', 'ჩალისფერი': 'Beige', 'იისფერი': 'Violet', 'ვარდისფერი': 'Pink'
}

df['Color'] = df['Color'].map(mapper)

## Interior color

In [142]:
df['Interior color'].unique()

array(['შავი', 'წითელი', 'რუხი', 'ყავისფერი', 'თეთრი', 'ჩალისფერი',
       'ნარინჯისფერი', 'შინდისფერი', 'ოქროსფერი', 'ლურჯი', 'ყვითელი', nan],
      dtype=object)

In [143]:
mapper = {
    'შავი': 'Black', 'წითელი': 'Red', 'რუხი': 'Grey', 'ყავისფერი': 'Brown', 'თეთრი': 'White', 
    'ჩალისფერი': 'Beige','ნარინჯისფერი': 'Orange', 'შინდისფერი': 'Carnelian red', 
    'ოქროსფერი': 'Golden', 'ლურჯი': 'Blue', 'ყვითელი': 'Yellow'
}

df['Interior color'] = df['Interior color'].map(mapper)

## Interior material

In [144]:
df['Interior material'].unique()

array(['ტყავი', 'კომბინირებული', 'ნაჭერი', 'ალკანტარა', 'ხელოვნური ტყავი',
       nan], dtype=object)

In [145]:
mapper = {
    'ტყავი': 'Leather', 'კომბინირებული': 'Combined', 'ნაჭერი': 'Fabric', 
    'ალკანტარა': 'Alcantara', 'ხელოვნური ტყავი': 'Artificial leather'
}

df['Interior material'] = df['Interior material'].map(mapper)

## Exchange, Technical inspection, Catalyst

In [146]:
print('Exchange', ' - ', df['Exchange'].unique())
print('Technical inspection', ' - ', df['Technical inspection'].unique())
print('Catalyst', ' - ', df['Catalyst'].unique())

Exchange  -  ['კი' 'არა']
Technical inspection  -  ['კი' 'არა']
Catalyst  -  ['კი' 'არა' nan]


In [147]:
mapper = {
    'კი': 'Yes', 'არა': 'No'
}

df['Exchange'] = df['Exchange'].map(mapper)
df['Technical inspection'] = df['Technical inspection'].map(mapper)
df['Catalyst'] = df['Catalyst'].map(mapper)

In [148]:
df.to_csv('Data/cars-eng.csv')

# Clean Data

## Drop Duplicates

In [172]:
df = pd.read_csv("Data/cars-eng.csv", index_col='Id')

In [173]:
df = df.drop_duplicates()

In [174]:
df.shape

(17035, 58)

## Handle Missing Values

In [175]:
df.iloc[:, :20].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17035 entries, 93284442 to 95699122
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Location              17035 non-null  object 
 1   Price                 17035 non-null  int64  
 2   Manufacturer          17035 non-null  object 
 3   Model                 17035 non-null  object 
 4   Year                  17035 non-null  int64  
 5   Category              17035 non-null  object 
 6   Mileage               17035 non-null  int64  
 7   Fuel type             17035 non-null  object 
 8   Engine Volume         17035 non-null  object 
 9   Cylinders             17028 non-null  float64
 10  Gear box type         17035 non-null  object 
 11  Drive wheels          17029 non-null  object 
 12  Doors                 17032 non-null  object 
 13  Airbags               16463 non-null  float64
 14  Wheel                 17035 non-null  object 
 15  Color    

### Cylinders

In [176]:
df.loc[df.Cylinders.isna()].iloc[:, :20]

Unnamed: 0_level_0,Location,Price,Manufacturer,Model,Year,Category,Mileage,Fuel type,Engine Volume,Cylinders,Gear box type,Drive wheels,Doors,Airbags,Wheel,Color,Interior color,Interior material,Exchange,Technical inspection
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
77714573,Rustavi Car Market,35257,BMW,I3,2014,Hetchback,22257,Electric,0.0,,Variator,Front,2/3,10.0,Left,White,Brown,Leather,No,No
79780065,Rustavi Car Market,39959,Nissan,Leaf,2018,Hetchback,40847,Electric,0.0,,Automatic,Front,4/5,8.0,Left,Black,Black,Leather,No,No
82848299,Rustavi,14364,Mitsubishi,i-Miev,2013,Hetchback,120000,Electric,0.0,,Variator,Rear,4/5,12.0,Right,Grey,Black,Fabric,No,Yes
82839947,Rustavi,40481,Nissan,Leaf,2017,Sedan,120000,Electric,0.0,,Variator,Front,4/5,12.0,Left,Grey,Black,Fabric,No,Yes
77715793,Rustavi Car Market,39436,BMW,I3,2016,Hetchback,56536,Electric,0.0,,Variator,Front,2/3,10.0,Left,Black,Grey,Fabric,No,No
77715793,Rustavi Car Market,39420,BMW,I3,2016,Hetchback,56536,Electric,0.0,,Variator,Front,2/3,10.0,Left,Black,Grey,Fabric,No,No
77777357,Rustavi Car Market,24288,BMW,I3,2014,Hetchback,58328,Electric,0.0,,Variator,Front,2/3,10.0,Left,Orange,White,Fabric,No,No


In [177]:
df.Cylinders.fillna(0, inplace=True)

### Drive wheels

In [178]:
df.loc[df['Drive wheels'].isna()].iloc[:, :20]

Unnamed: 0_level_0,Location,Price,Manufacturer,Model,Year,Category,Mileage,Fuel type,Engine Volume,Cylinders,Gear box type,Drive wheels,Doors,Airbags,Wheel,Color,Interior color,Interior material,Exchange,Technical inspection
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
94244118,Caucasus Auto Market,57457,Toyota,RAV 4,2020,Jeep,15000,Petrol,2.5,4.0,Automatic,,4/5,8.0,Left,Black,Black,Fabric,No,Yes
95215702,Poti,195878,Mercedes-Benz,AMG GT,2019,Coupe,0,Petrol,3.0,6.0,Automatic,,,12.0,Left,Silver,Red,Leather,No,Yes
94735222,Caucasus Auto Market,57499,Mazda,CX-5,2022,Jeep,581,Petrol,2.4,4.0,Automatic,,4/5,8.0,Left,White,Black,Fabric,No,Yes
92079822,Caucasus Auto Market,44169,Subaru,Outback,2019,Jeep,74000,Petrol,2.5,4.0,Automatic,,4/5,8.0,Left,Black,Black,Leather,No,Yes
92077066,Caucasus Auto Market,44431,Kia,Optima,2020,Sedan,86000,Petrol,2.0 turbo,4.0,Automatic,,4/5,8.0,Left,Black,Black,Leather,No,Yes
94945954,Caucasus Auto Market,39204,Subaru,Crosstrek,2019,Jeep,36000,Petrol,2.0,4.0,Automatic,,4/5,8.0,Left,Grey,Black,Leather,No,Yes


In [179]:
df = df.dropna(subset=['Drive wheels'])

### Doors

In [180]:
df.loc[df.Doors.isna()].iloc[:, :20]

Unnamed: 0_level_0,Location,Price,Manufacturer,Model,Year,Category,Mileage,Fuel type,Engine Volume,Cylinders,Gear box type,Drive wheels,Doors,Airbags,Wheel,Color,Interior color,Interior material,Exchange,Technical inspection
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
94796922,Poti,20893,Volkswagen,Jetta,2019,Sedan,140835,Petrol,1.4 turbo,4.0,Automatic,Front,,12.0,Left,Blue,White,Fabric,No,Yes
94796922,Poti,20884,Volkswagen,Jetta,2019,Sedan,140835,Petrol,1.4 turbo,4.0,Automatic,Front,,12.0,Left,Blue,White,Fabric,No,Yes


In [181]:
df.Doors.fillna('4/5', inplace=True)

### Airbags

In [182]:
df.Airbags.fillna(0, inplace=True)

### Color

In [183]:
df.loc[df.Color.isna()].iloc[:, :20]

Unnamed: 0_level_0,Location,Price,Manufacturer,Model,Year,Category,Mileage,Fuel type,Engine Volume,Cylinders,Gear box type,Drive wheels,Doors,Airbags,Wheel,Color,Interior color,Interior material,Exchange,Technical inspection
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
95497026,Tbilisi,10055,Nissan,Tiida,2005,Hetchback,174000,Petrol,1.5,4.0,Variator,Front,4/5,6.0,Right,,Black,Combined,No,Yes
95431414,Tbilisi,10055,Honda,FIT,2006,Hetchback,170000,Petrol,1.3,4.0,Variator,Front,4/5,6.0,Right,,Black,Combined,No,Yes
87475647,Tbilisi,8624,Mazda,CX-7,2008,Jeep,146533,Petrol,2.3,5.0,Automatic,Front,4/5,0.0,Left,,Grey,Fabric,No,Yes


In [184]:
df.loc[95497026, 'Color'] = 'Grey'
df.loc[95431414, 'Color'] = 'Grey'
df.loc[87475647, 'Color'] = 'Black'

### Interior color

In [185]:
df.loc[df['Interior color'].isna()].iloc[:, :20]

Unnamed: 0_level_0,Location,Price,Manufacturer,Model,Year,Category,Mileage,Fuel type,Engine Volume,Cylinders,Gear box type,Drive wheels,Doors,Airbags,Wheel,Color,Interior color,Interior material,Exchange,Technical inspection
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
91729922,Caucasus Auto Market,30056,Mazda,Mazda 3,2018,Sedan,29000,Petrol,2.5,4.0,Automatic,Front,4/5,8.0,Left,Blue,,,No,Yes


In [186]:
df.loc[91729922, 'Interior color'] = 'Black'
df.loc[91729922, 'Interior material'] = 'Leather'

---

In [187]:
df.iloc[:, 20:40].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17029 entries, 93284442 to 95699122
Data columns (total 20 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Catalyst                     15162 non-null  object
 1   Steering Hydraulics          17029 non-null  object
 2   On-Board Computer            17029 non-null  object
 3   Air Conditioning             17029 non-null  object
 4   Parking Control              17029 non-null  object
 5   Rear View Camera             17029 non-null  object
 6   Electric Side Mirros         17029 non-null  object
 7   Climate Control              17029 non-null  object
 8   Cruise Control               17029 non-null  object
 9   Start-Stop System            17029 non-null  object
 10  Sunroof                      17029 non-null  object
 11  Heated Seats                 17029 non-null  object
 12  Memory Seats                 17029 non-null  object
 13  ABS                  

### Catalyst

In [188]:
df.Catalyst.fillna('No', inplace=True)

---

In [189]:
df.iloc[:, 40:].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17029 entries, 93284442 to 95699122
Data columns (total 18 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Bluetooth                     17029 non-null  object
 1   Multifunction Steering Wheel  17029 non-null  object
 2   Rims                          17029 non-null  object
 3   Spare Tyre                    17029 non-null  object
 4   Didabled Accessible           17029 non-null  object
 5   Undamaged                     17029 non-null  object
 6   Clean History                 17029 non-null  object
 7   Newly Imported                17029 non-null  object
 8   Low Consumption               17029 non-null  object
 9   Limited edition               17029 non-null  object
 10  Unpainted                     17029 non-null  object
 11  One owner                     17029 non-null  object
 12  Urgently                      17029 non-null  object
 13  Europe

## Clean Price

In [190]:
# Convert to Dollar values and round to nearest hundreds 
df.Price = round(df.Price/2.62515625, -2).astype(int)

In [191]:
# drop prices equal to 0
df = df[df.Price!=0]

In [192]:
df.Price

Id
93284442    71600
94416194    14500
95335570    30800
95470114     8400
95216426    27400
            ...  
95698770    26400
92268310    23800
95695366    10400
95698710    10400
95699122     6700
Name: Price, Length: 16668, dtype: int64

## Drop Models with only one occurrance

In [193]:
df.Model.value_counts()

Camry       692
FIT         551
Forester    551
CX-5        465
Optima      448
           ... 
C 280         1
Maxima        1
E 190         1
CLK 350       1
Scirocco      1
Name: Model, Length: 585, dtype: int64

In [194]:
remove_from_model = df.Model.value_counts()[df.Model.value_counts()<2].index.tolist()
df = df.loc[df.Model.isin(remove_from_model)==False]

In [196]:
import pandas as pd

In [197]:
df = pd.read_csv('Data/cars-cleaned.csv', index_col='Id')

In [201]:
### Rearange columns

df = df[
    [
        'Price', 'Location', 'Manufacturer', 'Model', 'Year', 'Category',
        'Mileage', 'Fuel type', 'Engine Volume', 'Cylinders', 'Gear box type',
        'Drive wheels', 'Doors', 'Airbags', 'Wheel', 'Color', 'Interior color',
        'Interior material', 'Exchange', 'Technical inspection', 'Catalyst',
        'Steering Hydraulics', 'On-Board Computer', 'Air Conditioning',
        'Parking Control', 'Rear View Camera', 'Electric Side Mirros',
        'Climate Control', 'Cruise Control', 'Start-Stop System', 'Sunroof',
        'Heated Seats', 'Memory Seats', 'ABS', 'ESP', 'Central Locking',
        'Alarm System', 'Fog Lamp', 'Central Screen (Navigation)', 'AUX',
        'Bluetooth', 'Multifunction Steering Wheel', 'Rims', 'Spare Tyre',
        'Didabled Accessible', 'Undamaged', 'Clean History', 'Newly Imported',
        'Low Consumption', 'Limited edition', 'Unpainted', 'One owner',
        'Urgently', 'European', 'Perfect condition', 'For family', 'Pawnshop',
        'Third row'
       ]
       ]

In [195]:
df.to_csv('Data/cars-cleaned.csv')