### Препроцессинг

Импортируем библиотеки

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('../../data/_data.csv')

In [3]:
df = data.copy()

Проверяем каждый столбец на наличие пустых строк.

In [4]:
df.isnull().sum()

Unnamed: 0                      0
ID  объявления                  0
Количество комнат            1041
Тип                             0
Метро                        1315
Адрес                           0
Площадь, м2                     0
Дом                             0
Парковка                    13417
Цена                            0
Телефоны                        0
Описание                        0
Ремонт                       2755
Площадь комнат, м2           8910
Балкон                       7978
Окна                         6613
Санузел                      2672
Можно с детьми/животными     6096
Дополнительно                 357
Название ЖК                 17520
Серия дома                  21205
Высота потолков, м          12162
Лифт                         5500
Мусоропровод                10522
Ссылка на объявление            0
dtype: int64

Из вы вывода видно, что в большенстве столбцов есть пропущенные значения. Рассмотрим каждый столбец отдельно и решим, как устранить пробелы.

1. Удаляем не нужный столбец Unnamed: 0 и реиндескируем данные

In [5]:
df = df.drop(columns=['Unnamed: 0']).reset_index(drop=True)

2. Удаляем столбец Ссылка на объявление, за малой информативностью

In [6]:
df = df.drop(columns=['Ссылка на объявление'])

3. Поскольку в столбце "Тип" представлен только один тип недвижимости - квартира, пропусков в данных нет, то - удаляем.

In [7]:
# Перепроверяем себя, убеждаемся, что в столбце одно значение 
# и его количество равно количеству строк в датасете
df[['Тип']].value_counts() == df.shape[0]

Тип     
Квартира    True
Name: count, dtype: bool

In [8]:
df = df.drop(['Тип'], axis=1)

4. На наше исследование столбец Телефоны не влияет, поэтому - удален.

In [9]:
df = df.drop(columns=['Телефоны'])

5. Столбец Описание нам, также не нужен

In [10]:
df = df.drop(columns=['Описание'])

6. Удаляем столбец Дополнительно, поскольку для нас он не информативен

In [11]:
df = df.drop(columns=['Дополнительно'], axis=1)

7. Поскольку в датасете есть данные про общую площадь квартиры, то можем смело удалять столбец 'Площадь комнат, м2'

In [12]:
df = df.drop(columns=['Площадь комнат, м2'], axis=1)

8. Столбец 'Название ЖК' нам так же не интересен, поскольку не информативен

In [13]:
df.drop(columns=['Название ЖК'], axis=1, inplace=True)

9. 'Серия дома' - по той же причине.

In [14]:
df.drop(columns=['Серия дома'], axis=1, inplace=True)

In [15]:
df.columns

Index(['ID  объявления', 'Количество комнат', 'Метро', 'Адрес', 'Площадь, м2',
       'Дом', 'Парковка', 'Цена', 'Ремонт', 'Балкон', 'Окна', 'Санузел',
       'Можно с детьми/животными', 'Высота потолков, м', 'Лифт',
       'Мусоропровод'],
      dtype='object')

## Переходим к заполнению данных

Оставляем столбец ID объявления без изменений, так как он пригодится для сравнения результатов.

In [16]:
# Уточняем наличие id у каждой строки.
df['ID  объявления'].isnull().sum()
# Как видим пропусков нет.

np.int64(0)

In [17]:
df.isnull().sum()

ID  объявления                  0
Количество комнат            1041
Метро                        1315
Адрес                           0
Площадь, м2                     0
Дом                             0
Парковка                    13417
Цена                            0
Ремонт                       2755
Балкон                       7978
Окна                         6613
Санузел                      2672
Можно с детьми/животными     6096
Высота потолков, м          12162
Лифт                         5500
Мусоропровод                10522
dtype: int64

In [18]:
df.dtypes

ID  объявления                int64
Количество комнат            object
Метро                        object
Адрес                        object
Площадь, м2                  object
Дом                          object
Парковка                     object
Цена                         object
Ремонт                       object
Балкон                       object
Окна                         object
Санузел                      object
Можно с детьми/животными     object
Высота потолков, м          float64
Лифт                         object
Мусоропровод                 object
dtype: object

1. Приводим столбец Площадь в соответствие. Оставляем только общую площадь квартиры и переводим тип данных столбеца в число

In [19]:
df['Площадь, м2'] = df['Площадь, м2'].str.split('.').str[0].astype(int)

2. Обрабатываем пропуски в стобце Парковка

In [20]:
df[['Парковка']].value_counts()

Парковка      
наземная          6043
подземная         2772
открытая          1017
многоуровневая     118
на крыше             1
Name: count, dtype: int64

In [21]:
df[['Парковка']] = df[['Парковка']].fillna('наземная')
df[['Парковка']].value_counts()

Парковка      
наземная          19460
подземная          2772
открытая           1017
многоуровневая      118
на крыше              1
Name: count, dtype: int64

3. Заменим пропущенные значения в столбеце Мусоропровод

In [22]:
df[['Мусоропровод']].value_counts()

Мусоропровод
Да              10897
Нет              1949
Name: count, dtype: int64

In [23]:
df[['Мусоропровод']] = df[['Мусоропровод']].fillna('Нет')
# Перепроверяем себя
df[['Мусоропровод']].value_counts()

Мусоропровод
Нет             12471
Да              10897
Name: count, dtype: int64

4. Заменяем пропущенные значения в столбец Можно с детьми/животными на "не указано"

In [24]:
df[['Можно с детьми/животными']].value_counts()

Можно с детьми/животными         
Можно с детьми                       10134
Можно с детьми, Можно с животными     6899
Можно с животными                      239
Name: count, dtype: int64

In [25]:
df['Можно с детьми/животными'] = df['Можно с детьми/животными'].fillna('Не указано')

In [26]:
df[['Можно с детьми/животными']].value_counts()

Можно с детьми/животными         
Можно с детьми                       10134
Можно с детьми, Можно с животными     6899
Не указано                            6096
Можно с животными                      239
Name: count, dtype: int64

5. Проверяем столбец Ремонт. В столбце имеюся пропуски, поэтому заменяем их на 'Без ремонта'

In [27]:
df['Ремонт'].value_counts()

Ремонт
Косметический    8499
Евроремонт       8470
Дизайнерский     3474
Без ремонта       170
Name: count, dtype: int64

In [28]:
df['Ремонт'] = df['Ремонт'].fillna('Без ремонта')
df['Ремонт'].value_counts()

Ремонт
Косметический    8499
Евроремонт       8470
Дизайнерский     3474
Без ремонта      2925
Name: count, dtype: int64

6. Из столбца "Количество комнат" вычленяем число комнат. 
Заменяем пропущенные значения на 0 (Свободная планировка).

In [29]:
df['Количество комнат'].value_counts()

Количество комнат
1                   7917
2, Изолированная    4623
2                   2591
3                   1717
3, Изолированная    1583
3, Оба варианта      875
4                    674
2, Смежная           637
2, Оба варианта      615
4, Оба варианта      253
5                    235
4, Изолированная     223
6                     87
3, Смежная            87
5, Оба варианта       81
5, Изолированная      47
6, Оба варианта       31
6, Изолированная      17
4, Смежная            13
1, Изолированная       8
1, Оба варианта        4
5, Смежная             4
6, Смежная             3
1, Смежная             2
Name: count, dtype: int64

In [30]:
df['Количество комнат'] = df['Количество комнат'].str.split(',').str[0]
df['Количество комнат'].value_counts()

Количество комнат
2    8466
1    7931
3    4262
4    1163
5     367
6     138
Name: count, dtype: int64

In [31]:
df['Количество комнат'].isnull().sum()
df['Количество комнат'] = df['Количество комнат'].fillna(0)
# меняем тип данных в столбце
df['Количество комнат'] = df['Количество комнат'].astype(int)

In [32]:
df['Количество комнат'].value_counts()

Количество комнат
2    8466
1    7931
3    4262
4    1163
0    1041
5     367
6     138
Name: count, dtype: int64

7. Пропущенные значения в столбце "Окна" меняем на значение 'во двор'

In [33]:
df[['Окна']].value_counts()

Окна           
Во двор            10870
На улицу и двор     3295
На улицу            2590
Name: count, dtype: int64

In [34]:
df[['Окна']].isnull().sum()

Окна    6613
dtype: int64

In [35]:
df['Окна'] = df['Окна'].fillna('Во двор')
df[['Окна']].value_counts()

Окна           
Во двор            17483
На улицу и двор     3295
На улицу            2590
Name: count, dtype: int64

8. Заменяем пропущенные значения в столбце 'Санузел'

In [36]:
df[['Санузел']].value_counts()

Санузел                        
Совмещенный (1)                    10078
Раздельный (1)                      7158
Совмещенный (2)                     1437
Совмещенный (1), Раздельный (1)      812
Раздельный (2)                       534
Совмещенный (3)                      241
Совмещенный (2), Раздельный (1)      188
Совмещенный (4)                       77
Раздельный (3)                        52
Совмещенный (1), Раздельный (2)       30
Совмещенный (3), Раздельный (1)       27
Совмещенный (2), Раздельный (2)       25
Раздельный (4)                        15
Совмещенный (3), Раздельный (3)        6
Совмещенный (4), Раздельный (1)        6
Совмещенный (4), Раздельный (2)        4
Совмещенный (2), Раздельный (3)        2
Совмещенный (1), Раздельный (3)        2
Совмещенный (2), Раздельный (4)        1
Совмещенный (3), Раздельный (2)        1
Name: count, dtype: int64

In [37]:
df['Санузел'] = df['Санузел'].fillna('Совмещенный (1)')

In [38]:
df[['Санузел']].isnull().sum()

Санузел    0
dtype: int64

9. Заменяем пропущенные значения в столбце 'Балкон'

In [39]:
df['Балкон'].value_counts()

Балкон
Балкон (1)                7428
Лоджия (1)                6007
Балкон (1), Лоджия (1)     716
Лоджия (2)                 568
Балкон (2)                 474
Балкон (3)                  55
Лоджия (3)                  45
Балкон (2), Лоджия (2)      25
Балкон (1), Лоджия (2)      24
Балкон (2), Лоджия (1)      20
Балкон (4)                   6
Балкон (3), Лоджия (1)       5
Балкон (1), Лоджия (3)       5
Лоджия (4)                   5
Балкон (2), Лоджия (3)       3
Балкон (1), Лоджия (4)       2
Балкон (3), Лоджия (3)       1
Балкон (4), Лоджия (4)       1
Name: count, dtype: int64

In [40]:
df['Балкон'] = df['Балкон'].fillna('Балкон (0), Лоджия (0) ')

10. Заменяем пропущенные значения в столбце 'Лифт'

In [41]:
df['Лифт'].value_counts()

Лифт
Пасс (1)               5911
Пасс (2)               4326
Пасс (1), Груз (1)     3962
Пасс (2), Груз (1)     1224
Пасс (2), Груз (2)      654
Пасс (3)                636
Пасс (4)                346
Пасс (3), Груз (1)      187
Пасс (1), Груз (2)      185
Груз (1)                 95
Пасс (4), Груз (2)       65
Пасс (4), Груз (1)       64
Пасс (3), Груз (3)       45
Пасс (3), Груз (2)       44
Пасс (4), Груз (4)       28
Груз (4)                 25
Груз (2)                 20
Груз (3)                 15
Пасс (4), Груз (3)        7
Пасс (1), Груз (3)        6
Пасс (6)                  6
Пасс (2), Груз (3)        3
Пасс (50)                 2
Пасс (60)                 2
Пасс (1), Груз (12)       1
Пасс (8), Груз (8)        1
Пасс (7)                  1
Пасс (1), Груз (4)        1
Пасс (5), Груз (1)        1
Пасс (5), Груз (3)        1
Пасс (2), Груз (4)        1
Груз (6)                  1
Груз (8)                  1
Пасс (5)                  1
Name: count, dtype: int64

In [42]:
df['Лифт'] = df['Лифт'].fillna('Пасс (1)')

In [43]:
df['Лифт'].value_counts()

Лифт
Пасс (1)               11411
Пасс (2)                4326
Пасс (1), Груз (1)      3962
Пасс (2), Груз (1)      1224
Пасс (2), Груз (2)       654
Пасс (3)                 636
Пасс (4)                 346
Пасс (3), Груз (1)       187
Пасс (1), Груз (2)       185
Груз (1)                  95
Пасс (4), Груз (2)        65
Пасс (4), Груз (1)        64
Пасс (3), Груз (3)        45
Пасс (3), Груз (2)        44
Пасс (4), Груз (4)        28
Груз (4)                  25
Груз (2)                  20
Груз (3)                  15
Пасс (4), Груз (3)         7
Пасс (1), Груз (3)         6
Пасс (6)                   6
Пасс (2), Груз (3)         3
Пасс (50)                  2
Пасс (60)                  2
Пасс (1), Груз (12)        1
Пасс (8), Груз (8)         1
Пасс (7)                   1
Пасс (1), Груз (4)         1
Пасс (5), Груз (1)         1
Пасс (5), Груз (3)         1
Пасс (2), Груз (4)         1
Груз (6)                   1
Груз (8)                   1
Пасс (5)                   1
Name: cou

11. При формировании цены за месяц было обнаружено, что в данных есть стоимости квартир в долларах и евро, решили конверитровать стоимость квартиры в валюте в рубли по курсу

In [47]:
def month_price(price):
    if '$' in price.split('/')[0]:
        return float(price.split('/')[0][:price.split('/')[0].find('$')]) * 100
    elif '€' in price.split('/')[0]:
        return float(price.split('/')[0][:price.split('/')[0].find('$')]) * 108
    else:
        return price.split('/')[0][:price.split('/')[0].find('р')]

In [48]:
df['Цена'] = df['Цена'].astype(str).apply(month_price)
df.loc[df['Цена'] == 'na', 'Цена'] = np.nan
df['Цена'] = pd.to_numeric(df['Цена'])
df['Цена'] = df['Цена'].astype(int)

In [None]:
df.isnull().sum()

ID  объявления                  0
Количество комнат               0
Метро                        1315
Адрес                           0
Площадь, м2                     0
Дом                             0
Парковка                        0
Цена                            0
Ремонт                          0
Балкон                          0
Окна                            0
Санузел                         0
Можно с детьми/животными        0
Высота потолков, м          12162
Лифт                            0
Мусоропровод                    0
dtype: int64

In [50]:
# del 'Телефоны' 'Описание' 'Площадь комнат, м2' 'Дополнительно' 
# task 'Ремонт' [0 - Без ремонта, 1 - Косметический, 2 - Евроремонт, 3 - Дизайнерский] 
# 'Санузел' [Совмещенный - 0, Раздельный - 1, Совмещенный, Раздельный - 2]
# 'Можно с детьми/животными' [не указано - 0, Можно с детьми/Можно с животными - 1,  Можно с детьми и Можно с животными - 2]


# "Окна' Во двор - 0 На улицу - 1 На улицу и двор - 2

# исходя из названия и адреса находим метро

In [51]:
#Напишем функцию, которая заменит значение выбросов на среднее

def replace_mean(val, lower, upper, mean):
    if pd.isna(val):
        return val
    elif val < lower or val > upper:
        return mean
    else:
        return val

In [52]:
potolki = df['Высота потолков, м'].dropna()
# Изначально пытался определять квантилями (quantile()), но получалась фигня, поэтому вручную прописал значения
low = 2.0
up = 5.0
clean = potolki[
    (potolki >= low) & (potolki <= up)
]

mean_val = round(clean.mean(), 2)

df['Высота потолков, м'] = df['Высота потолков, м'].apply(
    replace_mean, lower=low, upper=up, mean=mean_val
)

In [53]:
df['Высота потолков, м'] = df['Высота потолков, м'].fillna(round(df['Высота потолков, м'].mean(), 2))

In [54]:
df['Высота потолков, м'].value_counts()

Высота потолков, м
2.76    12196
2.64     4467
3.00     1322
2.70     1040
2.48      676
        ...  
3.07        1
4.15        1
4.05        1
2.43        1
3.02        1
Name: count, Length: 78, dtype: int64

## METRO

In [55]:
df['Метро'].value_counts()

Метро
м. Академическая (10 мин пешком)            41
м. Водный стадион (5 мин пешком)            40
м. Приморская (None мин пешком)             35
м. Щелковская (15 мин пешком)               34
м. Динамо (7 мин пешком)                    33
                                            ..
м. Раменки (4 мин пешком)                    1
м. Студенческая (8 мин на машине)            1
м. Парк Победы (57 мин пешком)               1
м. Ломоносовский проспект (1 мин пешком)     1
м. Солнцево (5 мин на машине)                1
Name: count, Length: 5866, dtype: int64

In [56]:
# Обработка колонки метро. Изначально была идея вытаскивать метро + по адресу его записывать и потом заполнять, но времени нет, скоро рассвет..
#df['Метро'].fillna('Далеко')

In [57]:
# Напишем функцию, которая заполняет пропущенные значения, а также заменяет строку на "далеко" или "близко" исходя из того, что написано в скобках
def metro(val):
    if isinstance(val, str):
        if "пешком" in val:
            try: 
                minuts = int(val.split('(')[1].split(' ')[0])
                return "Рядом" if minuts < 15 else "Далеко"
            except (ValueError, IndexError):
                return "Далеко"
        else:
            return "Далеко"
    else:
        return "Далеко"

In [58]:
df['Метро'] = df['Метро'].apply(metro)

In [59]:
df['Метро'].value_counts()

Метро
Рядом     14421
Далеко     8947
Name: count, dtype: int64

### Как результат - у нас есть почти "чистые" данные, то есть удалены и/или заполненны все значения NaN и т.д.


In [72]:
df.isna().sum()

ID  объявления              0
Количество комнат           0
Метро                       0
Адрес                       0
Площадь, м2                 0
Дом                         0
Парковка                    0
Цена                        0
Ремонт                      0
Балкон                      0
Окна                        0
Санузел                     0
Можно с детьми/животными    0
Высота потолков, м          0
Лифт                        0
Мусоропровод                0
dtype: int64

### Выделяем москву и в путь!


In [67]:
moscow = df[df['Адрес'].str.startswith('Москва', na=False)].reset_index()

In [70]:
moscow.drop('index', axis=1, inplace=True)

In [73]:
moscow = moscow.rename(columns={'ID  объявления': 'id',
                    'Количество комнат': 'number_of_rooms',
                    'Метро': 'metro',
                    'Адрес': 'adress',
                    'Площадь, м2': 'apartment_area',
                    'Дом': 'house',
                    'Парковка': 'parking',
                    'Цена': 'price_per_month',
                    'Ремонт': 'repair',
                    'Балкон': 'balcony',
                    'Окна': 'windows',
                    'Санузел': 'bathroom',
                    'Можно с детьми/животными': 'ceiling_height',
                    'Высота потолков, м': '',
                    'Лифт': 'elevator',
                    'Мусоропровод': 'garbage_chute'})

In [74]:
moscow.head(1)

Unnamed: 0,id,number_of_rooms,metro,adress,apartment_area,house,parking,price_per_month,repair,balcony,windows,bathroom,ceiling_height,Unnamed: 14,elevator,garbage_chute
0,271271157,4,Рядом,"Москва, улица Новый Арбат, 27",200,"5/16, Монолитный",подземная,500000,Дизайнерский,"Балкон (0), Лоджия (0)",Во двор,Совмещенный (1),"Можно с детьми, Можно с животными",3.0,"Пасс (4), Груз (1)",Да


In [76]:
moscow.to_csv('data.csv', index=False, encoding='utf-8')