<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> 

✍ Как известно, специалист в области Data Science занимается построением моделей, которые помогают в принятии верных решений, — например, построением нейронной сети, которая по медицинским данным о пациенте способна предсказать развитие у него онкологии, или модели, которая будет прогнозировать цены акций на бирже.

Однако не все знают, что перед тем как построить свою модель, дата-сайентист проходит через огромный этап под названием Предобработка данных и их подготовка к анализу и подаче в модель.
<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">
Под предобработкой понимаются следующие этапы работы с данными:

- очистка данных от аномальных значений (выбросов);
- работа с пропущенными значениями;
- удаление признаков, которые не несут полезной информации;
- создание новых признаков;
- преобразование признаков и приведение данных к необходимому для анализа и модели формату.
</div>
Этап подготовки данных является самым трудоёмким и времязатратным при работе с любой бизнес-задачей. В среднем он занимает около 60-70% общей работы специалиста!

?
Почему этот этап так важен?

Ответ на этот вопрос кроется в распространённой среди специалистов поговорке «Мусор на входе — мусор на выходе», что означает следующее: если данные плохо подготовлены, то и результат прогнозирования даже самой мощной в мире нейронной сети будет сильно разниться с действительностью.


# Feature Engineering

Одним из этапов подготовки данных является удаление, преобразование и создание столбцов таблицы.

?
Зачем нужны такие манипуляции? 

Оказывается, что при правильных преобразованиях таблицы можно добиваться лучшего качества прогноза, а также извлекать новую информацию из данных и интерпретировать её для заказчика. 

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Такой подход часто называют Feature Engineering, или генерацией признаков (фичей).

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ На самом деле, в этом термине заложен более глубокий смысл, ведь Feature Engineering — это целая методология получения более качественных и более производительных моделей за счёт манипуляций над данными. Специалисты часто называют данную методологию настоящим искусством, которое может быть освоено лишь с годами практики решения задач, ведь необходимо быть экспертом в исследуемой предметной области, чтобы понимать, как признаки влияют друг на друга и какое преобразование стоит к ним применить. 

В данном модуле мы сделаем первые шаги в изучении темы подготовки данных и рассмотрим базовые подходы и методы магии под кодовым названием Feature Engineering.

Цели данного модуля:

- Научиться создавать новые признаки в данных с помощью базовых операций со столбцами.
- Освоить методы работы с датой и временем в Pandas.
- Научиться применять собственные функции для преобразования столбцов и создания новых признаков.
- Познакомиться с новым типом данных category и научиться использовать его при работе с данными.


## Вспомним, с какими данными мы работаем

В этом модуле мы продолжим работу с датасетом о продажах объектов недвижимости в Мельбурне и его пригородах. Напомним, что в прошлый раз мы совершили несколько преобразований типов столбцов в нашей изначальной таблице, когда исследовали её структуру.

<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> Импортируем Pandas, прочитаем наш csv-файл в DataFrame и выведем первые пять строк таблицы, чтобы убедиться в том, что файл прочитан верно.

In [1]:
import pandas as pd

melb_data = pd.read_csv("../Module4/data/melb_data.csv", sep=",")
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


## Создание копии таблицы

На протяжении всего модуля мы будем производить множество тренировочных преобразований с нашей таблицей. Поэтому, чтобы не переопределять переменную melb_data и тем самым не повредить первоначальный DataFrame, создадим копию melb_df с помощью метода copy():

In [2]:
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">На протяжении всего модуля наши данные будут множество раз меняться (будут добавляться и удаляться столбцы), поэтому, чтобы у вас не было расхождений с ответами в заданиях и в уроке, советуем следить за изменениями на протяжении модуля и фиксировать их у себя в ноутбуке.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">⭐ Лайфхак. Старайтесь всегда оставлять переменную с первоначальным DataFrame неизменной, создавайте копию исходной таблицы и совершайте преобразования на ней. Это оградит вас от ошибок, которые можно совершить при подготовке данных. Например, если вы понимаете, что преобразование оказалось неудачным, достаточно будет лишь запустить ячейку, в которой вы производите копирование, а не читать таблицу заново. Особенно критичным это может быть, когда количество строк в таблице исчисляется миллионами и её чтение занимает до нескольких минут.

## Удаление столбцов

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Среди списка базовых операций над столбцами в Pandas важное место занимает возможность удаления столбцов из таблицы. Это может быть полезно, например, когда в данных есть признаки, которые не несут полезной информации.

Представим, что мы хотим построить модель, которая бы предсказывала цену объекта недвижимости в Мельбурне. Даже не будучи профессиональными риелторами, мы можем легко сделать следующие выводы:

- цена объекта никак не зависит от его порядкового номера (столбец index);
- признак, описывающий долготу и широту в виде кортежа Coordinates, дублирует информацию, представленную в столбцах Longitude и Lattitude.


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">За удаление строк и столбцов в таблице отвечает метод <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html">drop().</a></div>

### Основные параметры метода drop()

- labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
- axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
- inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.


Удалим столбцы index и Coordinates из таблицы с помощью метода drop(). Выведем первые пять строк таблицы и убедимся, что всё прошло успешно.

In [3]:
melb_df = melb_df.drop(["index", "Coordinates"], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1.0,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2.0,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


Альтернативный вариант:

In [4]:
melb_df.drop(["index", "Coordinates"], axis=1, inplace=True)
melb_df.head()

KeyError: "['index', 'Coordinates'] not found in axis"

# Математические операции со столбцами

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень. С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.</div``>

Причём все операции со столбцами совершаются поэлементно, очень быстро, а самое главное — без написания циклов.

<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Такая производительность достигается за счёт того, что все математические операции со столбцами выполняются на языке программирования С, что значительно повышает скорость вычислений по сравнению с перебором элементов в цикле. </div>

Например, давайте создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании. Для этого выполним сложение столбцов с количеством комнат, ванн и спален:

In [5]:
total_rooms = melb_df["Rooms"] + melb_df["Bedroom"] + melb_df["Bathroom"]
display(total_rooms)

0         5.0
1         5.0
2         8.0
3         8.0
4         8.0
         ... 
13575    10.0
13576     8.0
13577     8.0
13578     9.0
13579     9.0
Length: 13580, dtype: float64

А теперь введём признак MeanRoomsSquare, который соответствует средней площади одной комнаты для каждого объекта. Для этого разделим площадь здания на полученное ранее общее количество комнат:

In [6]:
melb_df["MeanRoomsSquare"] = melb_df["BuildingArea"] / total_rooms
display(melb_df["MeanRoomsSquare"])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

Можно ввести ещё один интересный признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize). Для этого разницу двух площадей поделим на их сумму:

In [7]:
diff_area = melb_df["BuildingArea"] - melb_df["Landsize"]
sum_area = melb_df["BuildingArea"] + melb_df["Landsize"]
melb_df["AreaRatio"] = diff_area / sum_area
display(melb_df["AreaRatio"])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Что показывает такой коэффициент? Если присмотреться, можно увидеть, что AreaRatio лежит в интервале от -1 до 1.

Рассмотрим три случая, чтобы понять его значение:

- Если рассматриваемые площади равны, то числитель дроби зануляется и коэффициент тоже равен 0.
- Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот.
- Наконец, в предельном случае, если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент равен 1.

Таким образом, значение в столбце AreaRatio служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1, во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
✍ Мы рассмотрели базовые операции со столбцами.  Даже сейчас, не имея представления о специальных математических преобразованиях данных, мы можем создавать интересные признаки и извлекать большее количество информации из таблицы.

Подумайте, какие ещё признаки можно ввести в нашу таблицу с помощью простых математических операций.

Предлагаем вам решить несколько задач, чтобы закрепить пройденный материал ↓
</div>

###  Задание 2.1

Среди приведённых ниже вариантов кода выберите тот, который найдёт квадрат цены объекта недвижимости за наименьшее время и не выдаст ошибку.

Результат должен быть занесён в переменную price_square и представлять собой объект Series:

    price_square = []
    for price in melb_df['Price']:
        price_square.append(price**2)
    price_square = pd.Series(price_square)

    price_square = melb_df['Price'] * 2

    price_square = melb_df['Price'] **2

    importmath
    price_square = math.pow(melb_df['Price'], 2)
    price_square


<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
     price_square = melb_df['Price'] **2
</code>
</details>

###  Задание 2.2

Задан DataFrame customer_df, содержащий столбцы:

- cust_id — идентификатор клиента;
- cust_age — возраст клиента (точкой отсчёта возраста считается 2021 год);
- cust_sale — персональная скидка клиента;
- cust_year_birth — год рождения клиента;
- cust_order — сумма заказа клиента.

        customer_df = pd.DataFrame({
            'number': [0, 1, 2, 3, 4],
            'cust_id': [128, 1201, 9832, 4392, 7472],
            'cust_age': [13, 21, 19, 21, 60],
            'cust_sale': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
            'cust_order': [1400, 14142, 900, 1240, 8430]
        })

Какие столбцы не несут полезной информации/дублируют информацию из других столбцов и поэтому могут быть удалены?

В качестве ответа запишите названия этих столбцов по порядку их следования в коде, через запятую, без пробелов и кавычек.
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
number,cust_age
</code>
</details>

### Задание 2.3

Напишите функцию delete_columns(df, col=[]), которая удаляет столбцы из DataFrame и возвращает новую таблицу. Если одного из указанных столбцов не существует в таблице, то функция должна возвращать None.

Пример DataFrame:

    customer_df = pd.DataFrame({
                'number': [0, 1, 2, 3, 4],
                'cust_id': [128, 1201, 9832, 4392, 7472],
                'cust_age': [13, 21, 19, 21, 60],
                'cust_sale': [0, 0, 0.2, 0.15, 0.3],
                'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
                'cust_order': [1400, 14142, 900, 1240, 8430]
            })

Примечание. Не забудьте импортировать библиотеки.

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 def delete_columns(df, col=[]):
    df_copy = df.copy()
    for cl in col:
        if cl not in df_copy.columns:
            return None
    return df_copy.drop(col, axis=1)
</code>
</details>

In [8]:
customer_df = pd.DataFrame(
    {
        "number": [0, 1, 2, 3, 4],
        "cust_id": [128, 1201, 9832, 4392, 7472],
        "cust_age": [13, 21, 19, 21, 60],
        "cust_sale": [0, 0, 0.2, 0.15, 0.3],
        "cust_year_birth": [2008, 2000, 2002, 2000, 1961],
        "cust_order": [1400, 14142, 900, 1240, 8430],
    }
)

In [16]:
def delete_columns(df, col=[]):
    df_copy = df.copy()
    for cl in col:
        if cl not in df_copy.columns:
            return None
    return df_copy.drop(col, axis=1)


new_df = delete_columns(customer_df, ["number"])
delete_columns(new_df, ["number"])

###  Задание 2.4

Задан DataFrame countries_df, содержащий следующие столбцы: название страны, население (population) в миллионах человек и площадь страны (square) в квадратных километрах.

    countries_df = pd.DataFrame({
        'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
        'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
        'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
    })

Для каждой страны рассчитайте плотность населения (количество человек на квадратный километр).

Затем по полученным данным рассчитайте среднее по плотностям населения в указанных странах. Ответ округлите до сотых.

Плотность населения рассчитывается как количество человек, проживающих на территории отдельной страны, делённое на площадь этой страны. Обратите внимание, что население в таблице представлено в миллионах.

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
Подсказка (1 из 1): Чтобы рассчитать плотность населения, необходимо столбец с населением (population) умножить на миллион, чтобы получить общее количество людей, и разделить на столбец с площадью (square). На полученной Series нужно вычислить среднее значение и округлить его до второго знака после запятой.
</code>
</details>

In [17]:
countries_df = pd.DataFrame(
    {
        "country": [
            "Англия",
            "Канада",
            "США",
            "Россия",
            "Украина",
            "Беларусь",
            "Казахстан",
        ],
        "population": [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
        "square": [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902],
    }
)

In [22]:
countries_df["density"] = countries_df["population"] * 10**6 / countries_df["square"]
round(countries_df["density"].mean(), 2)

84.93