In [100]:
import pandas as pd 

Под предобработкой понимаются следующие этапы работы с данными:

1. очистка данных от аномальных значений (выбросов);
2. работа с пропущенными значениями;
3. удаление признаков, которые не несут полезной информации;
4. создание новых признаков;
5. преобразование признаков и приведение данных к необходимому для анализа и модели формату.

При правильных преобразованиях таблицы можно добиваться лучшего качества прогноза, а также извлекать новую информацию из данных и интерпретировать её для заказчика. Такой подход часто называют Feature Engineering, или генерацией признаков (фичей).

In [3]:
melb_data_ps = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data_ps.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [9]:
melb_df = melb_data_ps.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


За удаление строк и столбцов в таблице отвечает метод drop()
Основные параметры метода drop():
1. labels - порядковые номера/имена столбцов, подлежащих удалению; если их несколько - список
2. axis - ось; если = 0, то удаляются строки, если = 1 удаляются столбцы
3. inplace - если =True, то происходит замена изначального датафрейма на НОВЫЙ. Если =False, то возвращается КОПИЯ датафрейма, из которого удалены соответствующие строки/столбцы, при этом первоначальный датафрейм не меняется (по умолчанию False)

In [11]:
melb_df.drop(['index', 'Coordinates'], axis = 1, inplace = True)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


In [12]:
# в переменной хранится общее кол-во комнат в здании
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
total_rooms

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [13]:
# вводим новый признак - средняя площадь одной комнаты для каждого объекта
# для этого делим площадь здания на полученное ранее общее кол-во комнат в здании
melb_df['MeanRoomsSquare'] = melb_df['BuildingArea']/total_rooms
melb_df['MeanRoomsSquare']

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

In [15]:
# новый признак = коэффициент соотношения площади здания и площади участка
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
melb_df['AreaRatio']

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

-Если рассматриваемые площади равны, то числитель = 0 и, следовательно, коэф = 0;
-Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот;
-Если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент равен 1.

In [16]:
# найдем квадрат цены объекта недвижимости
price_square = melb_df['Price'] ** 2
price_square

0        2.190400e+12
1        1.071225e+12
2        2.146225e+12
3        7.225000e+11
4        2.560000e+12
             ...     
13575    1.550025e+12
13576    1.062961e+12
13577    1.368900e+12
13578    6.250000e+12
13579    1.651225e+12
Name: Price, Length: 13580, dtype: float64

In [20]:
# Напишите функцию delete_columns(df, col=[]), которая удаляет столбцы из DataFrame и возвращает новую таблицу. 
# Если одного из указанных столбцов не существует в таблице, то функция должна возвращать None.

def delete_columns(df, col=[]):
    for cc in col:
        if cc not in df.columns:
            return None
    return df.drop(col, axis = 1)
     

customer_df = pd.DataFrame({
            'number': [0, 1, 2, 3, 4],
            'cust_id': [128, 1201, 9832, 4392, 7472],
            'cust_age': [13, 21, 19, 21, 60],
            'cust_sale': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
            'cust_order': [1400, 14142, 900, 1240, 8430]
        })
print(delete_columns(customer_df, col=['cust_sale']))

   number  cust_id  cust_age  cust_year_birth  cust_order
0       0      128        13             2008        1400
1       1     1201        21             2000       14142
2       2     9832        19             2002         900
3       3     4392        21             2000        1240
4       4     7472        60             1961        8430


In [21]:
countries_df = pd.read_csv('data/countries.csv', sep=';')
countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [27]:
# рассчитать плотность населения (кол-во человек на кв м)
# по полученным данным рассчитать среднее по плотностям населения в странах
density = countries_df['population']*1000000/countries_df['square']
mean_density = density.mean()
mean_density

np.float64(84.93080566562001)

# Работа с датами


Формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда

In [28]:
melb_df['Date']

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

In [29]:
# преобразуем столбец с датой в формат datetime
# укажем параметр dayfirst=True, ктр означает, что в первоначальном признаке первым идет день
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
melb_df['Date']

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца:
1. date - дата;
2. year, month, day - год, месяц, день;
3. time - время;
4. hour, minute, second - час, минута, секунда;
5. dayofweek - номер дня недели, от 0 до 6, где 0-пн, 6 -вс;
6. day_name - название дня недели;
7. dayofyear - порядковый день года;
8. quarter - квартал (интервал в три месяца)

In [34]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [35]:
# заносим в столбец MonthSale результаты по месяцам
# находим относительную частоту продаж для каждого месяца
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)
# из результатов можно сделать вывод, что чаще покупают недвижимость в мае, июле и сентябре, а месяцами застоя являются январь, февраль и октябрь

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

In [36]:
# вычислим сколько дней прошло с 1 января 2016 года (дата указана в формате datetime) до момента продажи объекта
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01')
delta_days
# тип полученных данных - timedelta

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [37]:
# чтобы перевести кол-во дней из формата интервала в формат целого числа
# воспользуемся dt с атрибутом days
delta_days.dt.days

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [38]:
# создадим новый признак ВозрастОбъекта
# для этого вычтем из года продажи год постройки здания
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
melb_df['AgeBuilding']

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [40]:
# удалим столбец с годом постройки здания (т к в таблице теперь есть столбец с возрастом здания)
melb_df = melb_df.drop('YearBuilt', axis = 1)

KeyError: "['YearBuilt'] not found in axis"

In [41]:
melb_df.head(3)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,BuildingArea,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,...,126.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,...,79.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,...,150.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117


In [43]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek

In [44]:
melb_df.head(3)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,...,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46,5
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,...,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116,3
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,...,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117,5


In [51]:
# сколько объектов было продано в сб
weekend_count = (melb_df['WeekdaySale'] == 5).sum()
weekend_count

np.int64(11759)

In [48]:
# сколько объектов было продано в вс
weekend_count2 = (melb_df['WeekdaySale'] == 6).sum()
weekend_count2

np.int64(1063)

In [52]:
ufo_csv = pd.read_csv('data/ufo.csv', sep=',')
ufo_csv

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00
...,...,...,...,...,...
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45


In [53]:
ufo_csv['Time'] = pd.to_datetime(ufo_csv['Time'], dayfirst=False)
ufo_csv['Time']

0       1930-06-01 22:00:00
1       1930-06-30 20:00:00
2       1931-02-15 14:00:00
3       1931-06-01 13:00:00
4       1933-04-18 19:00:00
                ...        
18236   2000-12-31 23:00:00
18237   2000-12-31 23:00:00
18238   2000-12-31 23:45:00
18239   2000-12-31 23:45:00
18240   2000-12-31 23:59:00
Name: Time, Length: 18241, dtype: datetime64[ns]

In [55]:
# в каком году отмечается наиболее кол-во случаев наблюдения НЛО?
ufo_csv['Time'].dt.year.mode()[0]

np.int32(1999)

In [70]:
# выделили дату из столбца Time и поместили ее в новый столбец
ufo_csv['Date'] = ufo_csv['Time'].dt.date
ufo_csv.head(3)

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time,Date
0,Ithaca,,TRIANGLE,NY,1930-06-01 22:00:00,1930-06-01
1,Willingboro,,OTHER,NJ,1930-06-30 20:00:00,1930-06-30
2,Holyoke,,OVAL,CO,1931-02-15 14:00:00,1931-02-15


In [71]:
# вычислили разницу между двумя соседними датами в столбце Date
# конкретно в штате Невада 
# перевели из формата timedelta и взяли среднее
ufo_csv[ufo_csv['State'] == 'NV']['Date'].diff().dt.days.mean() 

np.float64(68.92932862190813)

# Создание и преобразование столбцов с помощью функций

In [72]:
melb_df['Address'].nunique()

13378

In [73]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


In [74]:
# напишем функцию, ктр на вход принимает строку адреса 
# и возвращает подтип улицы
def get_street_type(address):
    exclude_list = ['N', 'S', 'E', 'W']
    address_list = address.split(' ')
    street_type = address_list[-1]
    if street_type in exclude_list:
        street_type = address_list[-2]
    return street_type

In [75]:
# функция пишется для ОДНОГО элемента столбца, 
# а метод apply() применяется к КАЖДОМУ элементу столбца
street_types = melb_df['Address'].apply(get_street_type)
street_types

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

In [102]:
# задание из скилфэктори
# напишем столбец таблицы с опытом работы кандидатов
work = pd.Series(data = ['Опыт работы 8 лет 3 месяца', 'Опыт работы 3 года 5 месяцев', 'Опыт работы 1 год 9 месяцев', 'Опыт работы 3 месяца', 'Опыт работы 6 лет'], 
                 name = 'experience')
work

0      Опыт работы 8 лет 3 месяца
1    Опыт работы 3 года 5 месяцев
2     Опыт работы 1 год 9 месяцев
3            Опыт работы 3 месяца
4               Опыт работы 6 лет
Name: experience, dtype: object

In [103]:
# напишем функцию, ктр получает строку из этой таблицы и должна вывести опыт работы кандидата в месяцах (только число)
def get_experience(arg):
    arg_splited = arg.split(' ')[2:]
    if len(arg_splited) == 2:
        if arg_splited[-1] == 'лет' or arg_splited[-1] == 'года' or arg_splited[-1] == 'год':
            return int(arg_splited[-2]) * 12
        elif arg_splited[-1] == 'месяца' or arg_splited[-1] == 'месяцев' or arg_splited[-1] == 'месяц':
            return int(arg_splited[-2])
    elif len(arg_splited) == 4:
        return int(arg_splited[-4]) * 12 + int(arg_splited[-2])

In [104]:
# применим функцию к каждой строке столбца (не забудем изменить тип данных на числовой)
experience = work.apply(get_experience)
experience


0    99
1    41
2    21
3     3
4    72
Name: experience, dtype: int64

In [76]:
# продолжение задачи, ктр была тремя строками выше
street_types.nunique()

56

In [77]:
street_types.value_counts()
# наша задача сократить кол-во уникальных значений подтипов

Address
St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Co

In [80]:
# с помощью nlargest(n) выделим n подтипов, ктр встречаются чаще всего, а остальные обозначим за other
# с помощью атрибута index мы извлекли именно названия без указания частоты встречаемости
popular_stypes = street_types.value_counts().nlargest(10).index
popular_stypes

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object', name='Address')

In [81]:
# создаем новый признак StreetType
# lambda функция проверяет есть ли х (название подтипа улицы) в перечне популярных названий
# если есть - выводит его, если нет - выводит other
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
melb_df['StreetType']

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [82]:
melb_df['StreetType'].nunique()
# сократили кол-во уникальных названий с 56 до 11

11

In [83]:
# теперь можно удалить признак Address, т к, если конкретное местоположение и влияет на стоимость, то оно определяется столбцами Longitude и Lattitude
melb_df = melb_df.drop('Address', axis = 1)

Рекомендации по уменьшению числа уникальных значений в признаке, который описывается категориями:
1. Определите (хотя бы на глаз) соотношение числа уникальных категорий интересующего вас признака к общему числу объектов в таблице. Если это соотношение превышает значение 30 %, то это уже повод задуматься над уменьшением числа категорий и перейти к шагу 2.

2. Если ваш признак уникален для каждого объекта, например адрес, имя или название, то такой признак, скорее всего, не имеет статистической значимости. От таких признаков чаще всего избавляются. Однако можно попробовать выделить из этого признака какие-то общие черты, например, как мы это сделали с подтипами улиц. Такой же трюк можно произвести, например, с названиями компаний, в которых может быть скрыт признак типа организации (из строки «ООО Три Слепые Мыши» можно извлечь ООО — общество с ограниченной ответственностью).

3. Если даже после преобразования число уникальных категорий всё ещё велико, можно попробовать с помощью метода value_counts() оценить, есть ли в данных категории, которые употребляются гораздо реже, чем остальные. Если такие категории присутствуют, переходите к шагу 4.

4. Можно подобрать число  популярных категорий таким образом, чтобы эти категории покрывали большую часть ваших данных.

5. Наконец, можно совершить преобразование, обозначив категории, не попавшие в число популярных, как «другие».

In [84]:
melb_df.head(3)

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Lattitude,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType
0,Abbotsford,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,2,...,-37.7996,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46,5,St
1,Abbotsford,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,2,...,-37.8079,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116,3,St
2,Abbotsford,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,3,...,-37.8093,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117,5,St


In [85]:
# напишем функцию, ктр принимает на вход элемент столбца WeekdaySale 
# и возвращает 1, если это выходной, и 0, если будний день
def get_weekend(weekend):
    if weekend == 5 or weekend == 6:
        return 1
    return 0

In [86]:
# создаем новый признак Weekend
# применяем функцию ко всем элементам столбца WeekdaySale
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
melb_df.head()

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,WeekdaySale,StreetType,Weekend
0,Abbotsford,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46,5,St,1
1,Abbotsford,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116,3,St,0
2,Abbotsford,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117,5,St,1
3,Abbotsford,3,h,850000.0,PI,Biggin,2017-03-04,2.5,3067,3,...,144.9969,Northern Metropolitan,4019,15.75,0.145455,3,47,5,other,1
4,Abbotsford,4,h,1600000.0,VB,Nelson,2016-06-04,2.5,3067,3,...,144.9941,Northern Metropolitan,4019,17.75,0.083969,6,2,5,St,1


In [88]:
# вычисляем среднюю цену объекта недвижимости, проданного в выходные дни
melb_df[melb_df['Weekend'] == 1]['Price'].mean()

np.float64(1081198.6406956792)

In [89]:
melb_df['SellerG'].nunique()

268

In [95]:
# выделяем 49 самых популярных агенств
popular_sellers = melb_df['SellerG'].value_counts().nlargest(49).index
popular_sellers

Index(['Nelson', 'Jellis', 'hockingstuart', 'Barry', 'Ray', 'Marshall',
       'Buxton', 'Biggin', 'Brad', 'Fletchers', 'Woodards', 'Jas', 'Greg',
       'McGrath', 'Sweeney', 'Noel', 'Miles', 'RT', 'Gary', 'Harcourts',
       'Hodges', 'YPA', 'Stockdale', 'Village', 'Kay', 'Raine', 'Williams',
       'Love', 'Douglas', 'Chisholm', 'RW', 'Rendina', 'HAR', 'O'Brien', 'C21',
       'Collins', 'Cayzer', 'Eview', 'Purplebricks', 'Philip', 'Buckingham',
       'Bells', 'Thomson', 'Nick', 'Alexkarbon', 'McDonald', 'Burnham',
       'Moonee', 'LITTLE'],
      dtype='object', name='SellerG')

In [97]:
# меняем значения в столбце с риэлторскими агенствами
# если название не входит в 49 самых популярных, меняем его на other
melb_df['SellerG'] = melb_df['SellerG'].apply(lambda x: x if x in popular_sellers else 'other')
melb_df['SellerG']

0          Biggin
1          Biggin
2          Biggin
3          Biggin
4          Nelson
           ...   
13575       Barry
13576    Williams
13577       Raine
13578     Sweeney
13579     Village
Name: SellerG, Length: 13580, dtype: object

In [99]:
# определим во сколько раз мин цена объектов, проданных Nelson, больше мин цены объектов, проданных other
min_price_nelson = melb_df[melb_df['SellerG'] == 'Nelson']['Price'].min()
min_price_other = melb_df[melb_df['SellerG'] == 'other']['Price'].min()
print(min_price_nelson/min_price_other)

1.297709923664122


# Тип данных Category

Под ЧИСЛОВЫМИ признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.

Числовые признаки могут быть:

1. дискретными (например, количество комнат, пациентов, дней, отток сотрудников) - целые числа;
2. непрерывными (например, масса, цена, площадь) - целые числа и числа с плавающей точкой.

Под КАТЕГОРИАЛЬНЫМИ признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории. (Такие признаки имеют ограниченный набор значений)

Категориальные признаки могут быть:

1. номинальными (например, пол, национальность, район) - object;
2. порядковыми (например, уровень образования, уровень комфорта, стадия заболевания) - object.

In [106]:
# создадим вспомогательную таблицу unique_counts, 
# куда поместим название каждого столбца таблицы melb_df и кол-во уникальных значений в каждом (+ их тип данных)
unique_list = []
# пробегамеся по именам столбцов в таблице
for col in melb_df.columns:
    # создаем кортеж (имя столбца, кол-во уникальных значений, тип)
    item = (col, melb_df[col].nunique(), melb_df[col].dtypes)
    # добавляем кортеж в пустой список
    unique_list.append(item)
# с помощьб списка создаем таблицу
# сортируем ее в порядке возрастания уникальных значений (.sort_values())
unique_counts = pd.DataFrame(
    unique_list, 
    columns = ['Column_Name', 'Num_unique', 'Type']
).sort_values(by = 'Num_unique', ignore_index=True)
unique_counts

Unnamed: 0,Column_Name,Num_unique,Type
0,Weekend,2,int64
1,Type,3,object
2,Method,5,object
3,WeekdaySale,5,int32
4,Regionname,8,object
5,Bathroom,9,int64
6,Rooms,9,int64
7,Car,11,int64
8,StreetType,11,object
9,Bedroom,12,int64


Условимся, что категориальными будем считать признаки, у которых число уникальных значений меньше 150.

Тип данных Category является гибридным: внешне он выглядит как строка, но внутренне представлен массивом целых чисел.

Самый простой споосб преобразования столбцов к типу данных category - использование метода astype(), в параметры которого передаем строку 'category'

In [107]:
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  object        
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  object        
 5   SellerG          13580 non-null  object        
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  objec

In [109]:
# список столбцов, ктр мы не берем во внимание, т.к. ранее меняли их тип
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car']
# задаем макс число уникальных категорий
max_unique_count = 150
for col in melb_df.columns:
    # проверяем условие
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude:
        # преобразуем тип данных
        melb_df[col] = melb_df[col].astype('category')
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

В результате преобразования типов объем занимаемой памяти сократился с 2.6+ до 1.9+ (почти в 1.5 раза)

In [110]:
# получим список уникальных категорий в  столбце Regionname
melb_df['Regionname'].cat.categories

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')

In [111]:
# чтобы посмотреть каким образом столбец кодируется в виде чисел в памяти компа
melb_df['Regionname'].cat.codes

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

In [112]:
# переименуем категории признака типа постройки
# в метод rename_categories передаем словарь, где ключи - старые имена категорий, а значения - новые
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
melb_df['Type']

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

In [114]:
# создадим объект Series, в котором будут храниться типы зданий новой партии домов (добавились flat)
# и приведем тип этих данных к типу столбца Type
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
new_houses_types

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

Nan'ы появились, потому что тип данных category хранит только категории, которые были объявлены при его инициализации. При встрече с новой, неизвестной ранее категорией, этот тип превратит её в пустое значение, так как он просто не знает о существовании этой категории.

In [115]:
# решаем проблему
# нужно добавить категорию flat в столбец Type
# а потом выполнить действия из предыдущей ячейки
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
new_houses_types

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

!!! Добавление новой категории в столбец Type не отразится на самом столбце — текущие категории не изменятся, однако такое преобразование позволит добавлять в таблицу новые данные о домах с новой категорией — flat.

In [116]:
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

In [117]:
melb_df['Suburb'].nunique()

314

In [118]:
# создаем список из 119 самых популярных пригородов
popular_suburbs = melb_df['Suburb'].value_counts().nlargest(119).index
popular_suburbs

Index(['Reservoir', 'Richmond', 'Bentleigh East', 'Preston', 'Brunswick',
       'Essendon', 'South Yarra', 'Glen Iris', 'Hawthorn', 'Coburg',
       ...
       'Albion', 'Hoppers Crossing', 'Sunbury', 'Greensborough', 'Bundoora',
       'Hughesdale', 'Chadstone', 'Caulfield North', 'Mont Albert',
       'Alphington'],
      dtype='object', name='Suburb', length=119)

In [119]:
# если пригород не входит в этот список, мы меняем его название на other
melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in popular_suburbs else 'other')
melb_df['Suburb']


0          Abbotsford
1          Abbotsford
2          Abbotsford
3          Abbotsford
4          Abbotsford
             ...     
13575           other
13576    Williamstown
13577    Williamstown
13578    Williamstown
13579      Yarraville
Name: Suburb, Length: 13580, dtype: object

In [120]:
# приводим данные к категориальному типу и смотрим на разницу в занимаемой памяти
melb_df['Suburb'] = melb_df['Suburb'].astype('category')
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  category      
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ