In [5]:
import pandas as pd
%matplotlib inline

In [6]:
data = pd.read_csv('modified_smartphone_data.csv')
data

Unnamed: 0,brand_name,model,price,rating,has_5g,has_nfc,has_ir_blaster,num_cores,processor_speed,battery_capacity,...,ram_capacity,internal_memory,screen_size,refresh_rate,resolution,num_rear_cameras,primary_camera_rear,extended_memory_available,extended_upto,color
0,oneplus,OnePlus 11 5G,54999,89.0,True,True,False,8.0,3.20,5000.0,...,12.0,256.0,6.70,120,1440 x 3216,3,50.0,0,,Brick Red
1,oneplus,OnePlus Nord CE 2 Lite 5G,19989,81.0,True,False,False,8.0,2.20,5000.0,...,6.0,128.0,6.59,120,1080 x 2412,3,64.0,1,1024.0,Copper White
2,samsung,Samsung Galaxy A14 5G,16499,75.0,True,False,False,8.0,2.40,5000.0,...,4.0,64.0,6.60,90,1080 x 2408,3,50.0,1,1024.0,Prism Dot Gray
3,motorola,Motorola Moto G62 5G,14999,81.0,True,False,False,8.0,2.20,5000.0,...,6.0,128.0,6.55,120,1080 x 2400,3,50.0,1,1024.0,Bolivia Blue
4,realme,Realme 10 Pro Plus,24999,82.0,True,False,False,8.0,2.60,5000.0,...,6.0,128.0,6.70,120,1080 x 2412,3,108.0,0,,Deep Black
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
964,motorola,Motorola Moto Edge S30 Pro,34990,83.0,True,False,False,8.0,3.00,5000.0,...,8.0,128.0,6.67,120,1080 x 2460,3,64.0,0,,Pink Gold
965,honor,Honor X8 5G,14990,75.0,True,False,False,8.0,2.20,5000.0,...,6.0,128.0,6.50,60,720 x 1600,3,48.0,1,1024.0,Stealth Black
966,poco,POCO X4 GT 5G (8GB RAM + 256GB),28990,85.0,True,True,True,8.0,2.85,5080.0,...,8.0,256.0,6.60,144,1080 x 2460,3,64.0,0,,Pacific Blue
967,motorola,Motorola Moto G91 5G,19990,80.0,True,True,False,8.0,2.20,5000.0,...,6.0,128.0,6.80,60,1080 x 2400,3,108.0,1,1024.0,Bronze Gold


In [4]:
data.isnull().sum()

brand_name                     0
model                          0
price                          0
rating                        99
has_5g                         0
has_nfc                        0
has_ir_blaster                 0
num_cores                      6
processor_speed               41
battery_capacity              11
fast_charging_available        0
fast_charging                205
ram_capacity                   0
internal_memory                0
screen_size                    0
refresh_rate                   0
resolution                     0
num_rear_cameras               0
primary_camera_rear            0
extended_memory_available      0
extended_upto                472
dtype: int64

Пропущенные значения содержатся в столбцах rating, processor_brand, num_cores, processor_speed, battery_capacity, fast_charging, num_front_cameras, os, primary_camera_front и extended_upto. Колонка extended_upto содержит 480 пропущенных значений, а ее информация может быть скоррелирована с другими признаками. Таким образом, колонка extended_upto не является важной для решения нашей задачи.

In [7]:
data.drop('extended_upto', axis=1, inplace=True)

Для более точного анализа, пропущенные значения в колонке rating заполним на основе данных о бренде. Необходимо сгруппировать телефоны по бренду и вычислить медианный рейтинг для каждой группы с помощью метода groupby() и функции median(). Затем мы использовать цикл for для заполнения пропущенных значений

In [8]:
data.brand_name.unique()

array(['oneplus', 'samsung', 'motorola', 'realme', 'apple', 'xiaomi',
       'nothing', 'oppo', 'vivo', 'poco', 'iqoo', 'jio', 'gionee',
       'tecno', 'google', 'infinix', 'letv', 'ikall', 'nokia', 'lava',
       'honor', 'nubia', 'redmi', 'asus', 'itel', 'royole', 'sony',
       'oukitel', 'lyf', 'huawei', 'zte', 'lenovo', 'lg', 'micromax',
       'doogee'], dtype=object)

In [9]:
median_rating_by_brand = data.groupby('brand_name')['rating'].median()

# заполнить пропущенные значения медианными для каждой группы
for brand in data.brand_name.unique():
    data.loc[data['rating'].isnull() & (data['brand_name'] == brand), 'rating'] = median_rating_by_brand[brand]

Пропуски в остальных колонках заполним модой.

In [11]:
most_frequent_num_cores = data['num_cores'].mode()[0]
data['num_cores'].fillna(most_frequent_num_cores, inplace=True)

most_frequent_processor_speed = data['processor_speed'].mode()[0]
data['processor_speed'].fillna(most_frequent_processor_speed, inplace=True)

most_frequent_battery_capacity = data['battery_capacity'].mode()[0]
data['battery_capacity'].fillna(most_frequent_battery_capacity, inplace=True)

Проверим теперь датасет на пропуски:

In [13]:
data.isnull().sum()

brand_name                   0
model                        0
price                        0
rating                       0
has_5g                       0
has_nfc                      0
has_ir_blaster               0
num_cores                    0
processor_speed              0
battery_capacity             0
fast_charging_available      0
ram_capacity                 0
internal_memory              0
screen_size                  0
refresh_rate                 0
resolution                   0
num_rear_cameras             0
primary_camera_rear          0
extended_memory_available    0
color                        0
dtype: int64

Выполним кодирование категориального признака color, обозначающего цвет телефона. Используем one-hot кодирование.

In [15]:
color_dummies = pd.get_dummies(data['color'], prefix='Color')
data_oh = pd.concat([data, color_dummies], axis=1)
data_oh.drop('color', axis=1, inplace=True)

In [17]:
data.color.unique()

array(['Brick Red', 'Copper White', 'Prism Dot Gray', 'Bolivia Blue',
       'Deep Black', 'Clearly White', 'Genuine Leather Black', 'Garlic',
       'Cloud Pink', 'Diamond Glow', 'Dusk Blue', 'Gunmetal Silver',
       'Electric Black', 'Dashing Blue', 'Cloud Mint', 'Matrix Purple',
       'Sandstone Black', 'Starry purple', 'Volcano Grey', 'Starry Night',
       'Crystal Black', 'Infinite Black', 'Orchid Grey', 'Tempered Blue',
       'Lavender  ', 'Vanilla Mint', 'Midnight Black',
       'Prism Crush Black', 'Phantom Violet', 'Shadow Black', 'Fine Gold',
       'Mercury Silver', 'White  ', 'Pacific Pearl', 'Aurora Silver',
       'Nebula Blue', 'Twilight Purple', 'Pearl white', 'Moss Green',
       'White & Copper', 'Black/Tuxedo Black', 'Mirage Blue', 'So Blue',
       'Celestial Snow', 'Voyager Grey', 'Black & Copper', 'Pheonix Red',
       'Frosted Pearl', 'Blazing Blue', 'Ruby Red', 'Magic Blue', 'Brown',
       'Prism Crush Blue', 'Meteor Grey', 'Armoured Edition',
       'Class

In [18]:
data_oh

Unnamed: 0,brand_name,model,price,rating,has_5g,has_nfc,has_ir_blaster,num_cores,processor_speed,battery_capacity,...,Color_Watery Blue,Color_Watery Grey,Color_White,Color_White.1,Color_White & Copper,Color_White Knight,Color_Wine Red,Color_black sapphire,Color_dark gold,Color_midnight blue
0,oneplus,OnePlus 11 5G,54999,89.0,True,True,False,8.0,3.20,5000.0,...,False,False,False,False,False,False,False,False,False,False
1,oneplus,OnePlus Nord CE 2 Lite 5G,19989,81.0,True,False,False,8.0,2.20,5000.0,...,False,False,False,False,False,False,False,False,False,False
2,samsung,Samsung Galaxy A14 5G,16499,75.0,True,False,False,8.0,2.40,5000.0,...,False,False,False,False,False,False,False,False,False,False
3,motorola,Motorola Moto G62 5G,14999,81.0,True,False,False,8.0,2.20,5000.0,...,False,False,False,False,False,False,False,False,False,False
4,realme,Realme 10 Pro Plus,24999,82.0,True,False,False,8.0,2.60,5000.0,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
964,motorola,Motorola Moto Edge S30 Pro,34990,83.0,True,False,False,8.0,3.00,5000.0,...,False,False,False,False,False,False,False,False,False,False
965,honor,Honor X8 5G,14990,75.0,True,False,False,8.0,2.20,5000.0,...,False,False,False,False,False,False,False,False,False,False
966,poco,POCO X4 GT 5G (8GB RAM + 256GB),28990,85.0,True,True,True,8.0,2.85,5080.0,...,False,False,False,False,False,False,False,False,False,False
967,motorola,Motorola Moto G91 5G,19990,80.0,True,True,False,8.0,2.20,5000.0,...,False,False,False,False,False,False,False,False,False,False


В датасете можно выполнить масштабирование данных с помощью методов MinMaxScaler и StandardScaler из модуля sklearn.preprocessing.

С помощью метода MinMaxScaler приведем значения в колонке Rating к диапазону от 0 до 1

In [19]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

data['rating_scaled'] = scaler.fit_transform(data[['rating']])

In [20]:
data

Unnamed: 0,brand_name,model,price,rating,has_5g,has_nfc,has_ir_blaster,num_cores,processor_speed,battery_capacity,...,ram_capacity,internal_memory,screen_size,refresh_rate,resolution,num_rear_cameras,primary_camera_rear,extended_memory_available,color,rating_scaled
0,oneplus,OnePlus 11 5G,54999,89.0,True,True,False,8.0,3.20,5000.0,...,12.0,256.0,6.70,120,1440 x 3216,3,50.0,0,Brick Red,1.000000
1,oneplus,OnePlus Nord CE 2 Lite 5G,19989,81.0,True,False,False,8.0,2.20,5000.0,...,6.0,128.0,6.59,120,1080 x 2412,3,64.0,1,Copper White,0.724138
2,samsung,Samsung Galaxy A14 5G,16499,75.0,True,False,False,8.0,2.40,5000.0,...,4.0,64.0,6.60,90,1080 x 2408,3,50.0,1,Prism Dot Gray,0.517241
3,motorola,Motorola Moto G62 5G,14999,81.0,True,False,False,8.0,2.20,5000.0,...,6.0,128.0,6.55,120,1080 x 2400,3,50.0,1,Bolivia Blue,0.724138
4,realme,Realme 10 Pro Plus,24999,82.0,True,False,False,8.0,2.60,5000.0,...,6.0,128.0,6.70,120,1080 x 2412,3,108.0,0,Deep Black,0.758621
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
964,motorola,Motorola Moto Edge S30 Pro,34990,83.0,True,False,False,8.0,3.00,5000.0,...,8.0,128.0,6.67,120,1080 x 2460,3,64.0,0,Pink Gold,0.793103
965,honor,Honor X8 5G,14990,75.0,True,False,False,8.0,2.20,5000.0,...,6.0,128.0,6.50,60,720 x 1600,3,48.0,1,Stealth Black,0.517241
966,poco,POCO X4 GT 5G (8GB RAM + 256GB),28990,85.0,True,True,True,8.0,2.85,5080.0,...,8.0,256.0,6.60,144,1080 x 2460,3,64.0,0,Pacific Blue,0.862069
967,motorola,Motorola Moto G91 5G,19990,80.0,True,True,False,8.0,2.20,5000.0,...,6.0,128.0,6.80,60,1080 x 2400,3,108.0,1,Bronze Gold,0.689655


Используем метод StandardScaler (на основе Z-оценки) (удаляет среднее значение и масштабирует данные до единичной дисперсии). Это означает, что среднее значение всех значений признака будет равно 0, а стандартное отклонение будет равно 1. Вычисляет среднее значение и стандартное отклонение для каждого признака и применяет следующее преобразование для каждого значения признака

In [21]:
from sklearn.preprocessing import StandardScaler
standartScaler = StandardScaler()

data['price_scaled'] = scaler.fit_transform(data[['price']])

In [22]:
data

Unnamed: 0,brand_name,model,price,rating,has_5g,has_nfc,has_ir_blaster,num_cores,processor_speed,battery_capacity,...,internal_memory,screen_size,refresh_rate,resolution,num_rear_cameras,primary_camera_rear,extended_memory_available,color,rating_scaled,price_scaled
0,oneplus,OnePlus 11 5G,54999,89.0,True,True,False,8.0,3.20,5000.0,...,256.0,6.70,120,1440 x 3216,3,50.0,0,Brick Red,1.000000,0.108080
1,oneplus,OnePlus Nord CE 2 Lite 5G,19989,81.0,True,False,False,8.0,2.20,5000.0,...,128.0,6.59,120,1080 x 2412,3,64.0,1,Copper White,0.724138,0.034606
2,samsung,Samsung Galaxy A14 5G,16499,75.0,True,False,False,8.0,2.40,5000.0,...,64.0,6.60,90,1080 x 2408,3,50.0,1,Prism Dot Gray,0.517241,0.027282
3,motorola,Motorola Moto G62 5G,14999,81.0,True,False,False,8.0,2.20,5000.0,...,128.0,6.55,120,1080 x 2400,3,50.0,1,Bolivia Blue,0.724138,0.024134
4,realme,Realme 10 Pro Plus,24999,82.0,True,False,False,8.0,2.60,5000.0,...,128.0,6.70,120,1080 x 2412,3,108.0,0,Deep Black,0.758621,0.045121
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
964,motorola,Motorola Moto Edge S30 Pro,34990,83.0,True,False,False,8.0,3.00,5000.0,...,128.0,6.67,120,1080 x 2460,3,64.0,0,Pink Gold,0.793103,0.066088
965,honor,Honor X8 5G,14990,75.0,True,False,False,8.0,2.20,5000.0,...,128.0,6.50,60,720 x 1600,3,48.0,1,Stealth Black,0.517241,0.024115
966,poco,POCO X4 GT 5G (8GB RAM + 256GB),28990,85.0,True,True,True,8.0,2.85,5080.0,...,256.0,6.60,144,1080 x 2460,3,64.0,0,Pacific Blue,0.862069,0.053496
967,motorola,Motorola Moto G91 5G,19990,80.0,True,True,False,8.0,2.20,5000.0,...,128.0,6.80,60,1080 x 2400,3,108.0,1,Bronze Gold,0.689655,0.034609
