# Ваша первая модель машинного обучения
Создание вашей первой модели. Ура!

# Выбор данных для моделирования¶
В вашем наборе данных было слишком много переменных, чтобы их можно было осмыслить или даже распечатать. Как вы можете свести этот огромный объем данных к чему-то понятному для вас?

Мы начнем с выбора нескольких переменных, используя нашу интуицию. В последующих курсах мы познакомим вас со статистическими методами автоматической расстановки приоритетов переменных.

Чтобы выбрать переменные/столбцы, нам нужно просмотреть список всех столбцов в наборе данных. Это делается с помощью свойства columns фрейма данных (нижняя строка кода ниже).

In [1]:
import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

FileNotFoundError: [Errno 2] No such file or directory: '../input/melbourne-housing-snapshot/melb_data.csv'

In [2]:
# В данных по Мельбурну есть несколько пропущенных значений (некоторые дома, для которых не были записаны некоторые переменные).
# Мы научимся обрабатывать пропущенные значения в следующем руководстве.  
# В ваших данных по Айове нет пропущенных значений в столбцах, которые вы используете. 
# Итак, на данный момент мы воспользуемся самым простым вариантом и удалим дома из наших данных. 
# Пока не беспокойтесь об этом, хотя код такой:

# dropna удаляет пропущенные значения (считайте, что na означает "недоступно").
melbourne_data = melbourne_data.dropna(axis=0)

NameError: name 'melbourne_data' is not defined

Существует множество способов выбора подмножества ваших данных. В курсе Pandas они рассматриваются более подробно, но пока мы сосредоточимся на двух подходах.

Точечная запись, которую мы используем для выбора "цели прогнозирования".
Выбор с помощью списка столбцов, который мы используем для выбора "функций".

# Выбор цели прогнозирования¶
Вы можете вывести переменную с точечной нотацией. Этот отдельный столбец хранится в виде серии, которая в целом похожа на фрейм данных, содержащий только один столбец данных.

Мы будем использовать точечное обозначение для выбора столбца, который мы хотим предсказать, и который называется целью прогнозирования. Согласно соглашению, цель прогнозирования называется y. Итак, код, который нам нужен для сохранения цен на жилье в данных по Мельбурну, следующий

In [None]:
y = melbourne_data.Price

# Выбираем "Характеристики"¶
Столбцы, которые вводятся в нашу модель (и позже используются для составления прогнозов), называются "характеристики". В нашем случае это столбцы, используемые для определения цены на жилье. Иногда в качестве характеристик используются все столбцы, кроме целевого. В других случаях вам будет лучше использовать меньшее количество функций.

На данный момент мы создадим модель, содержащую всего несколько функций. Позже вы увидите, как выполнять итерацию и сравнивать модели, построенные с различными функциями.

Мы выбираем несколько объектов, предоставляя список имен столбцов в квадратных скобках. Каждый элемент в этом списке должен быть строкой (в кавычках).

Вот пример:

In [3]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

По соглашению, эти данные называются X.

In [4]:
X = melbourne_data[melbourne_features]

NameError: name 'melbourne_data' is not defined

Давайте кратко рассмотрим данные, которые мы будем использовать для прогнозирования цен на жилье, используя методы describe и head, которые показывают несколько верхних строк.

In [5]:
X.describe()

NameError: name 'X' is not defined

In [None]:
X.head()

Визуальная проверка данных с помощью этих команд является важной частью работы специалиста по обработке данных. В наборе данных часто можно обнаружить сюрпризы, заслуживающие дальнейшего изучения.

# Построение вашей модели¶
Для создания ваших моделей вы будете использовать библиотеку scikit-learn. При написании кода эта библиотека записывается как sklearn, как вы увидите в примере кода. Scikit-learn, несомненно, является самой популярной библиотекой для моделирования типов данных, которые обычно хранятся во фреймах данных.

Шаги по созданию и использованию модели следующие:

Определите: какой тип модели это будет? Дерево решений? Какой-либо другой тип модели? Также указаны некоторые другие параметры типа модели.
Fit (Подгонка): Фиксация шаблонов на основе предоставленных данных. Это основа моделирования.
Predict (прогнозирование): именно то, на что это похоже
Оценить: определить, насколько точны прогнозы модели.
Ниже приведен пример определения модели дерева решений с помощью scikit-learn и сопоставления ее с функциями и целевой переменной.

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Определите модель. Укажите число для random_state, чтобы гарантировать одинаковые результаты при каждом запуске
melbourne_model = DecisionTreeRegressor(random_state=1)

# Подходящая модель
melbourne_model.fit(X, y)

Многие модели машинного обучения допускают некоторую случайность при обучении модели. Указание числа для random_state гарантирует получение одинаковых результатов при каждом запуске. Это считается хорошей практикой. Вы можете использовать любое число, и качество модели не будет существенно зависеть от того, какое именно значение вы выберете.

Теперь у нас есть готовая модель, которую мы можем использовать для составления прогнозов.

На практике вам захочется делать прогнозы для новых домов, поступающих на рынок, а не для домов, цены на которые у нас уже есть. Но мы сделаем прогнозы для первых нескольких строк обучающих данных, чтобы увидеть, как работает функция прогнозирования.

In [None]:
print("Составление прогнозов для следующих 5 домов:")
print(X.head())
print("Эти прогнозы таковы")
print(melbourne_model.predict(X.head()))

# ваш ход¶
Попробуйте это сами в упражнении по созданию модели