In [1]:
import pandas as pd
%matplotlib inline 

In [2]:
data = pd.read_csv('Flipkart_Mobiles.csv')
data

Unnamed: 0,Brand,Model,Color,Memory,Storage,Rating,Selling Price,Original Price
0,OPPO,A53,Moonlight Black,4 GB,64 GB,4.5,11990,15990
1,OPPO,A53,Mint Cream,4 GB,64 GB,4.5,11990,15990
2,OPPO,A53,Moonlight Black,6 GB,128 GB,4.3,13990,17990
3,OPPO,A53,Mint Cream,6 GB,128 GB,4.3,13990,17990
4,OPPO,A53,Electric Black,4 GB,64 GB,4.5,11990,15990
...,...,...,...,...,...,...,...,...
3109,SAMSUNG,M52 5G,Blazing Black,6 GB,128 GB,4.3,25990,25990
3110,SAMSUNG,M52 5G,Icy Blue,6 GB,128 GB,4.3,25489,28449
3111,SAMSUNG,M52 5G,Icy Blue,8 GB,128 GB,4.3,27239,31489
3112,SAMSUNG,M52 5G,Slate Black,8 GB,128 GB,4.2,22989,22989


## Обработка пропусков

In [3]:
data.isnull().sum()

Пропущенные значения содержатся в столбцах Memory, Storage и Rating. Колонка Memory содержит 43 пропущенных значений, а ее информация может быть скоррелирована с другими признаками. Таким образом, колонка Memory не является важной для решения нашей задачи.

In [4]:
data.drop('Memory', axis=1, inplace=True)

Для более точного анализа, пропущенные значения в колонке Rating заполним на основе данных о бренде. Необходимо сгруппировать телефоны по бренду и вычислить медианный рейтинг для каждой группы с помощью метода groupby() и функции median(). Затем мы использовать цикл for для заполнения пропущенных значений.

In [5]:
data.Brand.unique()

In [6]:
median_rating_by_brand = data.groupby('Brand')['Rating'].median()

# заполнить пропущенные значения медианными для каждой группы
for brand in data.Brand.unique():
    data.loc[data['Rating'].isnull() & (data['Brand'] == brand), 'Rating'] = median_rating_by_brand[brand]

Пропуски в Storage заполним модой.

In [7]:
most_frequent_storage = data['Storage'].mode()[0]
data['Storage'].fillna(most_frequent_storage, inplace=True)

Проверим датасет на пропуски

In [8]:
data.isnull().sum()

In [17]:
data

Unnamed: 0,Brand,Model,Color,Storage,Rating,Selling Price,Original Price,Rating_scaled,Original Price Scaled
0,OPPO,A53,Moonlight Black,64 GB,4.5,11990,15990,0.814815,0.079313
1,OPPO,A53,Mint Cream,64 GB,4.5,11990,15990,0.814815,0.079313
2,OPPO,A53,Moonlight Black,128 GB,4.3,13990,17990,0.740741,0.089895
3,OPPO,A53,Mint Cream,128 GB,4.3,13990,17990,0.740741,0.089895
4,OPPO,A53,Electric Black,64 GB,4.5,11990,15990,0.814815,0.079313
...,...,...,...,...,...,...,...,...,...
3109,SAMSUNG,M52 5G,Blazing Black,128 GB,4.3,25990,25990,0.740741,0.132223
3110,SAMSUNG,M52 5G,Icy Blue,128 GB,4.3,25489,28449,0.740741,0.145234
3111,SAMSUNG,M52 5G,Icy Blue,128 GB,4.3,27239,31489,0.740741,0.161318
3112,SAMSUNG,M52 5G,Slate Black,128 GB,4.2,22989,22989,0.703704,0.116345


## 2) Кодирование категориальных признаков
Выполним кодирование категориального признака Color, обозначающего цвет телефона. Используем one-hot кодирование.

In [9]:
color_dummies = pd.get_dummies(data['Color'], prefix='Color')
data_oh = pd.concat([data, color_dummies], axis=1)
data_oh.drop('Color', axis=1, inplace=True)

In [18]:
data.Color.unique()

In [10]:
data_oh

Unnamed: 0,Brand,Model,Storage,Rating,Selling Price,Original Price,Color_ Tornado Black,Color_AURORA SILVER,Color_Absolute black,Color_Aegean Blue,...,Color_White & Copper,Color_White Birch,Color_White Frost,Color_White Knight,Color_White Pearl,Color_Wine Red,Color_Yellow,Color_black sapphire,Color_dark gold,Color_midnight blue
0,OPPO,A53,64 GB,4.5,11990,15990,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,OPPO,A53,64 GB,4.5,11990,15990,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,OPPO,A53,128 GB,4.3,13990,17990,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,OPPO,A53,128 GB,4.3,13990,17990,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,OPPO,A53,64 GB,4.5,11990,15990,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3109,SAMSUNG,M52 5G,128 GB,4.3,25990,25990,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3110,SAMSUNG,M52 5G,128 GB,4.3,25489,28449,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3111,SAMSUNG,M52 5G,128 GB,4.3,27239,31489,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3112,SAMSUNG,M52 5G,128 GB,4.2,22989,22989,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## 3) Масштабирование данных
В датасете можно выполнить масштабирование данных с помощью методов MinMaxScaler и StandardScaler из модуля sklearn.preprocessing.

С помощью метода MinMaxScaler приведем значения в колонке Rating к диапазону от 0 до 1

In [11]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

In [12]:
data['Rating_scaled'] = scaler.fit_transform(data[['Rating']])

In [13]:
data

Unnamed: 0,Brand,Model,Color,Storage,Rating,Selling Price,Original Price,Rating_scaled
0,OPPO,A53,Moonlight Black,64 GB,4.5,11990,15990,0.814815
1,OPPO,A53,Mint Cream,64 GB,4.5,11990,15990,0.814815
2,OPPO,A53,Moonlight Black,128 GB,4.3,13990,17990,0.740741
3,OPPO,A53,Mint Cream,128 GB,4.3,13990,17990,0.740741
4,OPPO,A53,Electric Black,64 GB,4.5,11990,15990,0.814815
...,...,...,...,...,...,...,...,...
3109,SAMSUNG,M52 5G,Blazing Black,128 GB,4.3,25990,25990,0.740741
3110,SAMSUNG,M52 5G,Icy Blue,128 GB,4.3,25489,28449,0.740741
3111,SAMSUNG,M52 5G,Icy Blue,128 GB,4.3,27239,31489,0.740741
3112,SAMSUNG,M52 5G,Slate Black,128 GB,4.2,22989,22989,0.703704


Используем метод StandardScaler (на основе Z-оценки) (удаляет среднее значение и масштабирует данные до единичной дисперсии). Это означает, что среднее значение всех значений признака будет равно 0, а стандартное отклонение будет равно 1. Вычисляет среднее значение и стандартное отклонение для каждого признака и применяет следующее преобразование для каждого значения признака.

In [14]:
from sklearn.preprocessing import StandardScaler
standartScaler = StandardScaler()

In [15]:
data['Original Price Scaled'] = scaler.fit_transform(data[['Original Price']])

In [16]:
data

Unnamed: 0,Brand,Model,Color,Storage,Rating,Selling Price,Original Price,Rating_scaled,Original Price Scaled
0,OPPO,A53,Moonlight Black,64 GB,4.5,11990,15990,0.814815,0.079313
1,OPPO,A53,Mint Cream,64 GB,4.5,11990,15990,0.814815,0.079313
2,OPPO,A53,Moonlight Black,128 GB,4.3,13990,17990,0.740741,0.089895
3,OPPO,A53,Mint Cream,128 GB,4.3,13990,17990,0.740741,0.089895
4,OPPO,A53,Electric Black,64 GB,4.5,11990,15990,0.814815,0.079313
...,...,...,...,...,...,...,...,...,...
3109,SAMSUNG,M52 5G,Blazing Black,128 GB,4.3,25990,25990,0.740741,0.132223
3110,SAMSUNG,M52 5G,Icy Blue,128 GB,4.3,25489,28449,0.740741,0.145234
3111,SAMSUNG,M52 5G,Icy Blue,128 GB,4.3,27239,31489,0.740741,0.161318
3112,SAMSUNG,M52 5G,Slate Black,128 GB,4.2,22989,22989,0.703704,0.116345
