### Боб основал собственную компанию мобильной связи. Он хочет дать жесткий бой таким крупным компаниям, как Apple, Samsung и т.д. Он не знает, как оценить цену мобильных телефонов, которые создает его компания. На этом конкурентном рынке мобильных телефонов вы не можете просто предполагать что-то. Чтобы решить эту проблему, он собирает данные о продажах мобильных телефонов различных компаний.

### Цель: выяснить связь между функциями мобильного телефона и его продажной ценой.

In [84]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn import svm
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix, accuracy_score,f1_score,precision_score,recall_score,roc_auc_score
from sklearn.model_selection import train_test_split

In [85]:
testdf = pd.read_csv('test.csv')
traindf = pd.read_csv('train.csv')
traindf.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
0,842,0,2.2,0,1,0,7,0.6,188,2,...,20,756,2549,9,7,19,0,0,1,1
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
3,615,1,2.5,0,0,0,10,0.8,131,6,...,1216,1786,2769,16,8,11,1,0,0,2
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1208,1212,1411,8,2,15,1,1,0,1


### y_train, X_test, X_train

In [86]:
y = traindf['price_range']
X = traindf
X = X.drop('price_range', axis=1)

In [87]:
X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.3, random_state=42)

# Перекрестная проверка с использованием различных алгоритмов классификации для выбора наилучшей модели

## Random Forest

In [88]:
model = RandomForestClassifier(n_estimators = 40)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [89]:
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
feature_importances=pd.DataFrame({'features':X_train.columns,'feature_importance':model.feature_importances_})

with pd.option_context("display.max_rows", 100):
        print(feature_importances.sort_values('feature_importance',ascending=False))

         features  feature_importance
13            ram            0.467660
0   battery_power            0.075331
11      px_height            0.059329
12       px_width            0.056576
8       mobile_wt            0.039091
6      int_memory            0.037613
10             pc            0.032075
16      talk_time            0.030427
14           sc_h            0.030273
2     clock_speed            0.030056
15           sc_w            0.027682
7           m_dep            0.026600
4              fc            0.025442
9         n_cores            0.023145
1            blue            0.007856
3        dual_sim            0.007064
18   touch_screen            0.006671
5          four_g            0.006230
19           wifi            0.005720
17        three_g            0.005161


In [90]:
precision=precision_score(y_test,y_pred, average=None)
recall=recall_score(y_test,y_pred, average=None)
print(precision)
print(recall)

[0.90625    0.82191781 0.81428571 0.90909091]
[0.9602649  0.82191781 0.77027027 0.90322581]


## KNeighborsClassifier Cross validation

In [91]:
model = KNeighborsClassifier(n_neighbors=7)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [95]:
precision=precision_score(y_test,y_pred, average=None)
recall=recall_score(y_test,y_pred, average=None)
print(precision)
print(recall)

[0.99319728 0.91139241 0.94366197 0.96732026]
[0.96688742 0.98630137 0.90540541 0.95483871]


### Разные наборы параметров не влияют на точность предсказаний для данного классификатора

## SVC Cross validation

In [93]:
model = SVC()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [94]:
precision=precision_score(y_test,y_pred, average=None)
recall=recall_score(y_test,y_pred, average=None)
print(precision)
print(recall)

[0.99319728 0.91139241 0.94366197 0.96732026]
[0.96688742 0.98630137 0.90540541 0.95483871]


### В данном примере разница незначительна, поэтому возьмем выборку с самой высокой точностью

# Вывод

In [82]:
df_y_pred = pd.DataFrame(y_pred)

In [83]:
df_y_pred.head(10)

Unnamed: 0,0
0,0
1,2
2,1
3,3
4,1
5,1
6,2
7,0
8,3
9,1


## В данном случае Support Vector Machine показывает наиболее высокий результат, потому что она лучше всего справилась с k-кратной перекрестной проверкой