# Задание №1 (easy)

In [1]:
import pandas
import sklearn.model_selection
import sklearn.ensemble
import sklearn.metrics

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas


In [2]:
%%time

data = pandas.read_csv("../data/merc.csv")

x, y = data.drop(columns=["model", "price", "transmission", "fuelType"]), data["price"]
x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x, y, train_size=0.8, random_state=2)

model = sklearn.ensemble.RandomForestClassifier(n_jobs=8, random_state=2)
model.fit(x_train, y_train)

y_pred = model.predict(x_test)
print(sklearn.metrics.r2_score(y_pred, y_test), '\n', pandas.DataFrame(zip(model.feature_names_in_, model.feature_importances_)))

0.860109097261408 
             0         1
0        year  0.047259
1     mileage  0.696300
2         tax  0.049054
3         mpg  0.166710
4  engineSize  0.040678
CPU times: total: 3min 54s
Wall time: 44.6 s


Наиболее важной характеристикой оказался пробег (неудивительно, ведь чем больше автомобиль проехал, тем меньший ресурс у него остался, что также повышает риски поломок). Далее потребление топлива (что также весьма логично, ведь чем больше автомобиль потребляет топлива, тем больше будет денежных затрат на единицу пройденного расстояния). Размер двигателя и год производства примерно в равной степени влияют на цену. 

# Задание №2 (medium)

In [3]:
import os

In [4]:
%%time

data = pandas.DataFrame()
for path in os.listdir("../data/"):
    item = pandas.read_csv("../data/" + path)
    item["brand"] = path
    data = pandas.concat([data, item], ignore_index=True)
data = data.drop(columns=["tax(£)", "fuel type", "engine size", "mileage2", "fuel type2", "engine size2", "reference"])
data = data.dropna()
data = data.sample(len(data) // 100, random_state=2)  # 100k too much for my PC :)

# some data are stored weirdly
for i in data.index:
    if isinstance(data.loc[i, "mileage"], str):
        data.loc[i, "mileage"] = int(data.loc[i, "mileage"].split()[0].replace(',', ''))

# map nonnumeric to int
features_hm = dict()
for feature in ["model", "transmission", "fuelType", "brand"]:
    for index, key in enumerate(set(data[feature])):
        features_hm[key] = index

for feature in ["model", "transmission", "fuelType", "brand"]:
    data[feature + "_mapped"] = data[feature].apply(lambda x: features_hm[x])

x, y = data.drop(columns=["model", "transmission", "fuelType", "brand", "price"]), data["price"].astype("float64")
x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x, y, train_size=0.8, random_state=2)

model = sklearn.ensemble.RandomForestClassifier(n_jobs=8, random_state=2)

# default params: [100, "gini", None, "sqrt"]
params = {
    "n_estimators" : [10, 25, 50, 100, 150],
    "criterion"    : ["gini", "entropy", "log_loss"],
    "max_depth"    : [10, 25, 50, None],
    "max_features" : ["sqrt", "log2", None]
}
search = sklearn.model_selection.GridSearchCV(model, params)
search.fit(x_train, y_train)

model = search.best_estimator_
model.fit(x_train, y_train)

y_pred = model.predict(x_test)
print(model, '\n', sklearn.metrics.r2_score(y_pred, y_test), '\n', pandas.DataFrame(zip(model.feature_names_in_, model.feature_importances_)))



RandomForestClassifier(max_depth=25, n_jobs=8, random_state=2) 
 0.722449907585951 
                      0         1
0                 year  0.106652
1              mileage  0.266945
2                  tax  0.087685
3                  mpg  0.165604
4           engineSize  0.084337
5         model_mapped  0.141520
6  transmission_mapped  0.040797
7      fuelType_mapped  0.028799
8         brand_mapped  0.077663
CPU times: total: 12min 39s
Wall time: 5min 13s


Всё также главенствующими характеристиками остаются пробег и потребление топлива. Марка автомобиля влияет на цену сильнее, чем тип топлива или коробка передач (даже вместе взятые!), но не так сильно, как модель автомобиля, год производста или размер двигателя.