Предобработка данных и их подготовка к анализу и подаче в модель.

Под предобработкой понимаются следующие этапы работы с данными:

очистка данных от аномальных значений (выбросов);
работа с пропущенными значениями;
удаление признаков, которые не несут полезной информации;
создание новых признаков;
преобразование признаков и приведение данных к необходимому для анализа и модели формату.

FEATURE ENGINEERING

Одним из этапов подготовки данных является удаление, преобразование и создание столбцов таблицы.

In [2]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data_ps.csv')

In [10]:
# СОЗДАНИЕ КОПИИ ТАБЛИЦЫ
melbdf = melb_data.copy() 

In [7]:
# УДАЛЕНИЕ СТОЛБЦОВ
melbdf = melbdf.drop(['index', 'Coordinates'], axis=1)

In [11]:
# Альтернативный вариант:
melbdf.drop(['index','Coordinates'],axis=1,inplace=True)

Основные параметры метода drop()
labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ СО СТОЛБЦАМИ

→ Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень. С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.

In [None]:
# создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании
total_rooms = melbdf['Rooms'] + melbdf['Bathroom'] + melbdf['Bedroom']
total_rooms

In [None]:
# введём признак MeanRoomsArea, который соответствует средней площади одной комнаты для каждого объекта
melbdf['MeanRoomsArea'] = melbdf['BuildingArea'] / total_rooms
display(melbdf['MeanRoomsArea'])

In [None]:
# Можно ввести ещё один интересный признак — AreaRatio, 
# коэффициент соотношения площади здания (BuildingArea)
# и площади участка (Landsize)
diff_area = melbdf['BuildingArea'] - melbdf['Landsize']
sum_area = melbdf['BuildingArea'] + melbdf['Landsize']
melbdf['AreaRatio'] = diff_area/sum_area
display(melbdf['AreaRatio'])