# 1. Введение

✍ Как известно, специалист в области Data Science занимается построением моделей, которые помогают в принятии верных решений, — например, построением нейронной сети, которая по медицинским данным о пациенте способна предсказать развитие у него онкологии, или модели, которая будет прогнозировать цены акций на бирже.

Однако не все знают, что перед тем как построить свою модель, дата-сайентист проходит через огромный этап под названием Предобработка данных и их подготовка к анализу и подаче в модель.

Под предобработкой понимаются следующие этапы работы с данными:

- очистка данных от аномальных значений (выбросов);
- работа с пропущенными значениями;
- удаление признаков, которые не несут полезной информации;
- создание новых признаков;
- преобразование признаков и приведение данных к необходимому для анализа и модели формату.

Этап подготовки данных является самым трудоёмким и времязатратным при работе с любой бизнес-задачей. В среднем он занимает около 60-70% общей работы специалиста!

?
Почему этот этап так важен?

Ответ на этот вопрос кроется в распространённой среди специалистов поговорке «Мусор на входе — мусор на выходе», что означает следующее: если данные плохо подготовлены, то и результат прогнозирования даже самой мощной в мире нейронной сети будет сильно разниться с действительностью.

## FEATURE ENGINEERING

Одним из этапов подготовки данных является удаление, преобразование и создание столбцов таблицы.

? Зачем нужны такие манипуляции? 

Оказывается, что при правильных преобразованиях таблицы можно добиваться лучшего качества прогноза, а также извлекать новую информацию из данных и интерпретировать её для заказчика. 

Такой подход часто называют Feature Engineering, или генерацией признаков (фичей).

→ На самом деле, в этом термине заложен более глубокий смысл, ведь Feature Engineering — это целая методология получения более качественных и более производительных моделей за счёт манипуляций над данными. Специалисты часто называют данную методологию настоящим искусством, которое может быть освоено лишь с годами практики решения задач, ведь необходимо быть экспертом в исследуемой предметной области, чтобы понимать, как признаки влияют друг на друга и какое преобразование стоит к ним применить. 

В данном модуле мы сделаем первые шаги в изучении темы подготовки данных и рассмотрим базовые подходы и методы магии под кодовым названием Feature Engineering.

Цели данного модуля:

- Научиться создавать новые признаки в данных с помощью базовых операций со столбцами.
- Освоить методы работы с датой и временем в Pandas.
- Научиться применять собственные функции для преобразования столбцов и создания новых признаков.
- Познакомиться с новым типом данных category и научиться использовать его при работе с данными.

## ВСПОМНИМ, С КАКИМИ ДАННЫМИ МЫ РАБОТАЕМ

В этом модуле мы продолжим работу с датасетом о продажах объектов недвижимости в Мельбурне и его пригородах. Напомним, что в прошлый раз мы совершили несколько преобразований типов столбцов в нашей изначальной таблице, когда исследовали её структуру.

Скачать обновлённый набор данных в формате csv (разделитель — ',') можно [здесь](https://lms.skillfactory.ru/assets/courseware/v1/5ede138b70107a618949677b325096ca/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/melb_data_ps.zip) (csv-файл находится в zip-архиве — распакуйте архив, прежде чем продолжать работу!)

Чтобы освежить в памяти информацию о столбцах таблицы, вы можете вернуться [сюда](https://lms.skillfactory.ru/courses/course-v1:SkillFactory+DST-3.0+28FEB2021/jump_to_id/05678bab4f4443b99eb6999d1483c9eb).

Импортируем Pandas, прочитаем наш csv-файл в DataFrame и выведем первые пять строк таблицы, чтобы убедиться в том, что файл прочитан верно.

In [1]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


✍ Для того чтобы закрепить теоретический материал, предлагаем вам ответить на несколько вопросов ↓

### Задание 1.1
Что такое Feature Engineering?
- Методология проведения статистического анализа, которая заключается в разбиении выборки на две группы и проведении испытаний с разными параметрами на каждой группе
- Методология выявления выбросов в данных на основе межквартильного расстояния
- Методология преобразования исходных данных для повышения качества моделей и увеличения скорости их обучения
- Бесцельное создание признаков, которые не несут никакой полезной информации

Ответ: Методология преобразования исходных данных для повышения качества моделей и увеличения скорости их обучения 

### Задание 1.2
Какие этапы включает в себя подготовка данных?
- A Feature Engineering
- B Очистка данных
- C Настройка веб-приложения
- D Построение прогнозов
- E Тестирование
- F Поиск и удаление ненужной информации

Ответ: A, B, F