Эта тетрадь представляет собой упражнение из промежуточного курса машинного обучения. Вы можете ознакомиться с учебным пособием по этой ссылке.

В качестве разминки вы ознакомитесь с некоторыми основами машинного обучения и представите свои первоначальные результаты на конкурс Kaggle.

# Установка

Ответы на вопросы, приведенные ниже, помогут вам оценить вашу работу. Запустите следующую ячейку, чтобы настроить систему обратной связи.

In [None]:
# Set up code checking
import os
if not os.path.exists("../input/train.csv"):
    os.symlink("../input/home-data-for-ml-course/train.csv", "../input/train.csv")  
    os.symlink("../input/home-data-for-ml-course/test.csv", "../input/test.csv")  
from learntools.core import binder
binder.bind(globals())
from learntools.ml_intermediate.ex1 import *
print("Setup Complete")

Вы будете работать с данными конкурса цен на жилье для пользователей Kaggle Learn, чтобы прогнозировать цены на жилье в Айове, используя 79 независимых переменных, описывающих (почти) все аспекты домов.
![image.png](attachment:image.png)
Запустите следующую ячейку кода без изменений, чтобы загрузить функции обучения и проверки в X_train и X_valid, а также цели прогнозирования в y_train и y_valid. Тестовые функции загружены в X_test. (Если вам нужно ознакомиться с функциями и целями прогнозирования, пожалуйста, ознакомьтесь с этим кратким руководством. Чтобы прочитать о проверке модели, посмотрите здесь. В качестве альтернативы, если вы предпочитаете ознакомиться с полным курсом по всем этим темам, начните здесь.)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Read the data
X_full = pd.read_csv('../input/train.csv', index_col='Id')
X_test_full = pd.read_csv('../input/test.csv', index_col='Id')

# Obtain target and predictors
y = X_full.SalePrice
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = X_full[features].copy()
X_test = X_test_full[features].copy()

# Break off validation set from training data
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,
                                                      random_state=0)

Используйте следующую ячейку, чтобы напечатать первые несколько строк данных. Это отличный способ получить общее представление о данных, которые вы будете использовать в своей модели прогнозирования цен.

In [None]:
X_train.head()

Следующая ячейка кода определяет пять различных моделей случайных лесов. Запустите эту ячейку кода без изменений. (Чтобы просмотреть случайные леса, посмотрите здесь.)

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Define the models
model_1 = RandomForestRegressor(n_estimators=50, random_state=0)
model_2 = RandomForestRegressor(n_estimators=100, random_state=0)
model_3 = RandomForestRegressor(n_estimators=100, criterion='absolute_error', random_state=0)
model_4 = RandomForestRegressor(n_estimators=200, min_samples_split=20, random_state=0)
model_5 = RandomForestRegressor(n_estimators=100, max_depth=7, random_state=0)

models = [model_1, model_2, model_3, model_4, model_5]

Чтобы выбрать лучшую модель из пяти, мы определяем функцию score_model() ниже. Эта функция возвращает среднюю абсолютную ошибку (MAE) из набора результатов проверки. Напомним, что лучшая модель получит наименьший MAE. (Чтобы просмотреть значение абсолютной ошибки, посмотрите здесь.)

Запустите ячейку кода без изменений.

In [None]:
from sklearn.metrics import mean_absolute_error

# Function for comparing different models
def score_model(model, X_t=X_train, X_v=X_valid, y_t=y_train, y_v=y_valid):
    model.fit(X_t, y_t)
    preds = model.predict(X_v)
    return mean_absolute_error(y_v, preds)

for i in range(0, len(models)):
    mae = score_model(models[i])
    print("Model %d MAE: %d" % (i+1, mae))

# Шаг 1: Оцените несколько моделей

Используйте приведенные выше результаты, чтобы заполнить строку ниже. Какая модель является лучшей? Ваш ответ должен быть одним из model_1, model_2, model_3, model_4 или model_5.

In [None]:
# Укажите лучшую модель
best_model = ____

# Шаг 2: Создание прогнозов тестирования

- отлично. Вы знаете, как оценить точность модели. Теперь пришло время пройти процесс моделирования и сделать прогнозы. В строке ниже создайте случайную модель леса с именем переменной my_model.

In [None]:
# Определите модель
my_model = ____ # Ваш код здесь

Запустите следующую ячейку кода без изменений. Код сопоставляет модель с данными обучения и проверки, а затем генерирует тестовые прогнозы, которые сохраняются в CSV-файле. Эти тестовые прогнозы можно отправить непосредственно на конкурс!

In [None]:
# Приведите модель в соответствие с обучающими данными
my_model.fit(X, y)

# Генерировать тестовые прогнозы
preds_test = my_model.predict(X_test)

# Сохраняйте прогнозы в формате, используемом для подсчета очков в соревнованиях
output = pd.DataFrame({'Id': X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)

# Отправьте свои результаты

Как только вы успешно выполните шаг 2, вы будете готовы внести свои результаты в таблицу лидеров! Сначала вам нужно будет присоединиться к соревнованию, если вы еще этого не сделали. Поэтому откройте новое окно, перейдя по этой ссылке. Затем нажмите на кнопку Присоединиться к соревнованию. (Если вы видите кнопку "Отправить прогнозы" вместо кнопки "Присоединиться к конкурсу", значит, вы уже присоединились к конкурсу, и вам не нужно делать это снова.)

Далее следуйте приведенным ниже инструкциям:

Для начала нажмите на кнопку "Сохранить версию" в правом верхнем углу окна. При этом будет создано всплывающее окно.
Убедитесь, что выбран параметр Сохранить и запустить все, а затем нажмите на кнопку Сохранить.
В результате в левом нижнем углу записной книжки откроется окно. После завершения работы нажмите на цифру справа от кнопки Сохранить версию. Откроется список версий в правой части экрана. Щелкните по многоточию (...) справа от самой последней версии и выберите "Открыть в программе просмотра". После этого вы перейдете в режим просмотра той же страницы. Вам нужно будет прокрутить страницу вниз, чтобы вернуться к этим инструкциям.
Перейдите на вкладку "Данные" в верхней части экрана. Затем выберите файл, который вы хотите отправить, и нажмите кнопку "Отправить", чтобы добавить свои результаты в таблицу лидеров.
Теперь вы успешно приняли участие в конкурсе!

Если вы хотите продолжить работу над улучшением своей производительности, нажмите кнопку "Редактировать" в правом верхнем углу экрана. Затем вы можете изменить свой код и повторить процесс. Есть много возможностей для улучшения, и по мере работы вы будете подниматься в таблице лидеров.

# Продолжай

Вы создали свою первую модель. Но как вы можете быстро усовершенствовать ее?

Узнайте, как улучшить результаты своих соревнований, включив столбцы с пропущенными значениями.