# 1. Введение

перед тем как построить свою модель, дата-сайентист проходит через огромный этап под названием **Предобработка данных и их подготовка к анализу и подаче в модель.**
Под предобработкой понимаются следующие этапы работы с данными:<br>
- очистка данных от аномальных значений (выбросов);<br>
- работа с пропущенными значениями;<br>
- удаление признаков, которые не несут полезной информации;<br>
- создание новых признаков;<br>
- преобразование признаков и приведение данных к необходимому для анализа и модели формату.<br><br>

Почему этот этап так важен?<br>

Ответ на этот вопрос кроется в распространённой среди специалистов поговорке «Мусор на входе — мусор на выходе», что означает следующее: если данные плохо подготовлены, то и результат прогнозирования даже самой мощной в мире нейронной сети будет сильно разниться с действительностью.<br>

$\color{green}{\text{FEATURE ENGINEERING}}$ 

Одним из этапов подготовки данных является удаление, преобразование и создание столбцов таблицы.<br>
преобразованиях таблицы можно добиваться лучшего качества прогноза, а также извлекать новую информацию из данных и интерпретировать её для заказчика. 

Такой подход часто называют **Feature Engineering, или генерацией признаков (фичей).**<br>
**Feature Engineering** — это целая методология получения более качественных и более производительных моделей за счёт манипуляций над данными. Специалисты часто называют данную методологию настоящим искусством, которое может быть освоено лишь с годами практики решения задач, ведь необходимо быть экспертом в исследуемой предметной области, чтобы понимать, как признаки влияют друг на друга и какое преобразование стоит к ним применить. 

In [1]:
import pandas as pd

melb_data = pd.read_csv('C:\Курс DS-3.0\IDE\Python_10\data\melb_data.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


# 2. Базовые операции со столбцами DataFrame

$\color{green}{\text{СОЗДАНИЕ КОПИИ ТАБЛИЦЫ}}$ 

In [2]:
melb_df= melb_data.copy()

Старайтесь всегда оставлять переменную с первоначальным DataFrame неизменной, создавайте копию исходной таблицы и совершайте преобразования на ней. Это оградит вас от ошибок, которые можно совершить при подготовке данных. Например, если вы понимаете, что преобразование оказалось неудачным, достаточно будет лишь запустить ячейку, в которой вы производите копирование, а не читать таблицу заново.

$\color{green}{\text{УДАЛЕНИЕ СТОЛБЦОВ}}$ 

За удаление строк и столбцов в таблице отвечает метод **drop()**.<br>
Основные параметры метода drop():<br>

**labels** — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;<br>
**axis** — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;<br>
**inplace** — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.<br>

In [5]:
# Удалим столбцы index и Coordinates из таблицы с помощью метода drop().
#Выведем первые пять строк таблицы и убедимся, что всё прошло успешно.
melb_df = melb_df.drop(["index", "Coordinates"], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1.0,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2.0,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


$\color{green}{\text{МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ СО СТОЛБЦАМИ}}$ 

**Pandas** поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень. С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми. Все операции со столбцами совершаются поэлементно, очень быстро, а самое главное — без написания циклов.

In [6]:
#создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании.
#Для этого выполним сложение столбцов с количеством комнат, ванн и спален:
total_rooms = melb_df["Rooms"] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5.0
1         5.0
2         8.0
3         8.0
4         8.0
         ... 
13575    10.0
13576     8.0
13577     8.0
13578     9.0
13579     9.0
Length: 13580, dtype: float64

In [8]:
#введём признак MeanRoomsSquare, который соответствует средней площади одной комнаты для каждого 
#объекта. Для этого разделим площадь здания на полученное ранее общее количество комнат:
melb_df["MeanRoomsSquare"] = melb_df["BuildingArea"]/total_rooms
display(melb_df['MeanRoomsSquare'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

In [10]:
#признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize).
#Для этого разницу двух площадей поделим на их сумму:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df["BuildingArea"] + melb_df["Landsize"]
melb_df["AreaRatio"] = diff_area/sum_area
display(melb_df["AreaRatio"])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

AreaRatio лежит в интервале от -1 до 1.<br>
Таким образом, значение в столбце **AreaRatio** служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1, во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.