<br>Под предобработкой понимаются следующие этапы работы с данными:
<br> - очистка данных от аномальных значений (выбросов);
<br> - работа с пропущенными значениями;
<br> - удаление признаков, которые не несут полезной информации;
<br> - создание новых признаков;
<br> - преобразование признаков и приведение данных к необходимому для анализа и модели формату

In [1]:
import pandas as pd

melb_data_ps = pd.read_csv(filepath_or_buffer='data/melb_data_ps.csv', sep=',')
print(melb_data_ps.head())


   index      Suburb           Address  Rooms Type      Price Method SellerG  \
0      0  Abbotsford      85 Turner St      2    h  1480000.0      S  Biggin   
1      1  Abbotsford   25 Bloomburg St      2    h  1035000.0      S  Biggin   
2      2  Abbotsford      5 Charles St      3    h  1465000.0     SP  Biggin   
3      3  Abbotsford  40 Federation La      3    h   850000.0     PI  Biggin   
4      4  Abbotsford       55a Park St      4    h  1600000.0     VB  Nelson   

        Date  Distance  ...  Car  Landsize  BuildingArea  YearBuilt  \
0  3/12/2016       2.5  ...    1     202.0         126.0       1970   
1  4/02/2016       2.5  ...    0     156.0          79.0       1900   
2  4/03/2017       2.5  ...    0     134.0         150.0       1900   
3  4/03/2017       2.5  ...    1      94.0         126.0       1970   
4  4/06/2016       2.5  ...    2     120.0         142.0       2014   

   CouncilArea  Lattitude  Longtitude             Regionname  Propertycount  \
0        Yarr

In [2]:
# Чтобы данные изначальной таблицы были консистентны, создаем копию для дальйшей работы
melb_df = melb_data_ps.copy()
print(melb_df.head())

   index      Suburb           Address  Rooms Type      Price Method SellerG  \
0      0  Abbotsford      85 Turner St      2    h  1480000.0      S  Biggin   
1      1  Abbotsford   25 Bloomburg St      2    h  1035000.0      S  Biggin   
2      2  Abbotsford      5 Charles St      3    h  1465000.0     SP  Biggin   
3      3  Abbotsford  40 Federation La      3    h   850000.0     PI  Biggin   
4      4  Abbotsford       55a Park St      4    h  1600000.0     VB  Nelson   

        Date  Distance  ...  Car  Landsize  BuildingArea  YearBuilt  \
0  3/12/2016       2.5  ...    1     202.0         126.0       1970   
1  4/02/2016       2.5  ...    0     156.0          79.0       1900   
2  4/03/2017       2.5  ...    0     134.0         150.0       1900   
3  4/03/2017       2.5  ...    1      94.0         126.0       1970   
4  4/06/2016       2.5  ...    2     120.0         142.0       2014   

   CouncilArea  Lattitude  Longtitude             Regionname  Propertycount  \
0        Yarr

<br> УДАЛЕНИЕ СТОЛБЦОВ
<br>
<br> Среди списка базовых операций над столбцами в Pandas важное место занимает возможность удаления столбцов из таблицы. Это может быть полезно, <br> например, когда в данных есть признаки, которые не несут полезной информации.
<br> 
<br> За удаление строк и столбцов в таблице отвечает метод drop().
<br> - labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
<br> - axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
<br>- inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

<br> МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ СО СТОЛБЦАМИ
<br>
<br> Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также <br> возводить в степень. С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.
<br>
<br> Причём все операции со столбцами совершаются поэлементно, очень быстро, а самое главное — без написания циклов.

In [3]:
# Например, давайте создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании. Для этого выполним сложение столбцов с количеством комнат, ванн и спален:

total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [4]:
# А теперь введём признак MeanRoomsSquare, который соответствует средней площади одной комнаты для каждого объекта. Для этого разделим площадь здания на полученное ранее общее количество комнат:

melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsSquare'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

<br> ПРИЗНАКИ ДАТЫ И ВРЕМЕНИ
<br> При генерации новых признаков очень ценным может стать временной признак (признак даты и времени). Это особый тип данных, с которым приходится <br> сталкиваться в большинстве задач по обработке данных. В реальных задачах часто нужно сравнивать даты, выделять день недели или час, вычислять <br> различные интервалы между датами. 

<br> Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в <br> следующем порядке: год, месяц, день, час, минута, секунда

<br> ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME
<br> 
<br> Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца, такие как:
<br> 
<br> date — дата;
<br> year, month, day — год, месяц, день;
<br> time — время;
<br> hour, minute, second — час, минута, секунда;
<br> dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
<br> day_name — название дня недели;
<br> dayofyear — порядковый день года;
<br> quarter — квартал (интервал в три месяца).

<br> РАБОТА С ИНТЕРВАЛАМИ

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:
<br>



In [5]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

TypeError: unsupported operand type(s) for -: 'numpy.ndarray' and 'Timestamp'

 ## Создание и преобразование столбцов с помощью функций
 <br> Библиотека Pandas предоставляет большое количество возможностей для преобразований данных, однако иногда необходимо совершать более сложные манипуляции над столбцами. Например, из столбцов, содержащих в себе некоторый текст, необходимо специальным образом извлечь определённые слова, даты или числа.

Для таких случаев Pandas не имеет специальных методов, однако позволяет расширить свою функциональность за счёт использования пользовательских функций. 

Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода apply(). В результате применения этой функции будет возвращён объект Series, элементы которого будут представлять результат работы этой функции
<br>

In [6]:
# В наших данных есть столбец с адресами объектов недвижимости. Проблема этого столбца в том, что в нём слишком большое количество 
# уникальных значений: почти на каждый объект недвижимости в таблице приходится свой уникальный адрес. Убедимся в этом, вычислив 
# количество уникальных значений в столбце с помощью метода nunique():
    
display(melb_df['Address'].nunique())

13378

Если мы прогнозируем цену объекта, то такое большое количество возможных категорий может плохо сказаться на модели, которую мы бы хотели в дальнейшем построить на наших данных. Говорят, что такой признак, скорее всего, не имеет статистической значимости, потому что не позволяет разделить данные на группы, которые можно сравнить по целевому признаку.

<br> Из-за таких признаков зависимость между целевым признаком, который мы хотим предсказать, и признаками, на основе которых мы делаем предсказание, становится очень сложной. При этом точность моделирования при учёте такого признака может не повыситься, а даже снизиться, а производительность однозначно резко упадёт.

Обычно подобные признаки удаляют, однако можно поступить умнее: давайте извлечём из признака адреса характеристику подтипа улицы (улица, шоссе, авеню, бульвар). Для этого сначала внимательнее посмотрим на структуру адреса, выберем несколько строк столбца Address
<br>

In [7]:
display(melb_df['Address'].loc[177])
display(melb_df['Address'].loc[1812])
display(melb_df['Address'].loc[9001])

'2/119 Railway St N'

'9/400 Dandenong Rd'

'172 Danks St'

Итак, адрес строится следующим образом: сначала указывается номер дома и корпус, после указывается название улицы, а в конце — подтип улицы, но в некоторых случаях к подтипу добавляется географическая отметка (N — север, S — юг и т. д.), она нам не нужна . Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

In [9]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [10]:
# Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type в аргумент метода столбца apply(). 
# В результате получим объект Series, который положим в переменную street_types:

street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

In [12]:
# Обратите внимание, что функция пишется для одного элемента столбца, а метод apply() применяется к каждому его элементу. 
# Используемая функция обязательно должна иметь возвращаемое значение.

# Итак, мы смогли выделить подтип улицы. Посмотрим, сколько уникальных значений у нас получилось:

display(street_types.nunique())
# 56
# У нас есть 56 уникальных значений. Однако наш результат можно улучшить. Давайте для начала посмотрим на частоту каждого 
# подтипа улицы с помощью метода value_counts:

display(street_types.value_counts())

56

Address
St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Co

Из данного вывода можно увидеть, что есть группа наиболее популярных подтипов улиц, а дальше частота подтипов быстро падает.

В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).

Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:

In [13]:
popular_stypes = street_types.value_counts().nlargest(10).index
display(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object', name='Address')

Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём lambda-функцию, которая будет проверять, есть ли строка x в этом перечне, и, если это так, lambda-функция будет возвращать x, в противном случае она будет возвращать строку 'other'. Наконец, применим такую функцию к Series street_types, полученной ранее, а результат определим в новый столбец таблицы StreetType:

In [14]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

Резюмируя, поделимся общими рекомендациями по уменьшению числа уникальных значений в признаке, который описывается категориями:

1
Определите (хотя бы на глаз) соотношение числа уникальных категорий интересующего вас признака к общему числу объектов в таблице. Если это соотношение превышает значение 30 %, то это уже повод задуматься над уменьшением числа категорий и перейти к шагу 2.

2
Если ваш признак уникален для каждого объекта, например адрес, имя или название, то такой признак, скорее всего, не имеет статистической значимости. От таких признаков чаще всего избавляются. Однако можно попробовать выделить из этого признака какие-то общие черты, например, как мы это сделали с подтипами улиц. Такой же трюк можно произвести, например, с названиями компаний, в которых может быть скрыт признак типа организации (из строки «ООО Три Слепые Мыши» можно извлечь ООО — общество с ограниченной ответственностью).

Далее переходите к шагу 3.

3
Если даже после преобразования число уникальных категорий всё ещё велико, можно попробовать с помощью метода value_counts() оценить, есть ли в данных категории, которые употребляются гораздо реже, чем остальные. Если такие категории присутствуют, переходите к шагу 4.

4
Можно подобрать число  популярных категорий таким образом, чтобы эти категории покрывали большую часть ваших данных.

Когда вы выбрали оптимальное число, переходите к шагу 5.

5
Наконец, можно совершить преобразование, обозначив категории, не попавшие в число популярных, как «другие».

# Признаки категориальные и числовые
<br>
    Под числовыми признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.

    Числовые признаки могут быть:

    * дискретными (например, количество комнат, пациентов, дней, отток сотрудников);
    * непрерывными (например, масса, цена, площадь).
    Дискретные признаки чаще всего представлены целыми числами, а непрерывные — целыми числами и числами с плавающей точкой.

    Под категориальными признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории.

    Категориальные признаки могут быть:
    
    * номинальными (например, пол, национальность, район);
    * порядковыми (например, уровень образования, уровень комфорта, стадия заболевания).
    Такие признаки имеют ограниченный набор значений. Они чаще всего представлены в виде текстового описания и кодируются в Pandas типом данных object.

    Однако это не всегда так. Например, созданный нами ранее признак месяца продажи кодируется числом (от 1 до 12), но на самом деле является категориальным, поскольку диапазон его значений ограничен и каждому числу мы можем поставить в соответствие название месяца.
<br>

Для хранения и оптимизации работы с категориальными признаками в Pandas предусмотрен специальный тип данных — category.

Этот тип данных является гибридным: внешне он выглядит как строка, но внутренне представлен массивом целых чисел. Так как данные вместо изначальных строк хранятся в памяти как число, то объём памяти, занимаемой таблицей при использовании типа category, резко уменьшается, что повышает эффективность хранения и работы с таблицей.

Более того, этот тип данных расширяет возможности работы с категориальными признаками: мы можем легко преобразовывать категории, строить графики по таким данным (что сложно сделать для типа данных object). Также резко повышается производительность операций, совершаемых с такими столбцами.

Самый простой способ преобразования столбцов к типу данных category — это использование уже знакомого нам метода astype(), в параметры которого достаточно передать строку 'category'

Можно сформулировать несколько рекомендаций по его использованию:

1
Необязательно каждый раз преобразовывать категориальные данные в тип данных category. Зачастую это делается исключительно для оптимизации работы с большими данными.

2
Если набор данных занимает значительный процент используемой оперативной памяти, рассмотрите возможность использования типа category.

3
Если у вас очень серьёзные проблемы с производительностью, обратите внимание на использование типа category.

4
Если вы решили использовать тип category, будьте осторожны при добавлении новой информации в вашу таблицу. Убедитесь, что вы собрали всю необходимую информацию, произведите предобработку данных и только после этого используйте преобразование типов.