In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import json

In [2]:
# Загрузка данных (вторичка, 1-4+ комнаты + студия)
room1 = pd.read_excel('вторичка 1 комната.xlsx')
room2 = pd.read_excel('вторичка 2 комнаты.xlsx')
room3 = pd.read_excel('вторичка 3 комнаты.xlsx')
room4 = pd.read_excel('вторичка 4+ комнаты.xlsx')
room_stud = pd.read_excel('вторичка студия.xlsx')

In [3]:
# объединение в один набор данных
df = pd.concat([room1, room2, room3, room4, room_stud], ignore_index=True)

In [4]:
def processing(df):
    
    """
    Docstring
    Функция преобразовывает получаенные в ходе парсинга значения.
    1. Price (удаление ненужных символов в строке и приведение к формату int)
    2. metro (удаление ненужных символов в строке и преобразование к обычной строке)
    3. minutes (приведение к формату строки)
    4. addres (приведение у формату строки)
    5. apartment_info (так как у нас в исходных данных - словарь, то каждый ключ - это признак, а каждое значение ключа - это
    значение данного признака, поэтому после преобразования данного столбца, в набор данных добавляются признаки, влияющие на
    цену квартиры)
    6. additional_info - так как прзниак - это список дополнительной инфрасруктуры, то создаютя метки для каждой 
    инфраструктуры (то есть в столбце будет стоять 1  если у данного наблюдения есть эта инфраструктура и NaN если про нее нет 
    информации)
    7. links - ссылка на обхявление дома
    
    После преобразований (изменился размер исходного набора данных - количество признаков стало больше), мы так же добавили
    такие столбцы как 
    Количество информации в объявлении - подсчет количества признаков, которые были указаны в объявлении (int)
    Количество указанной инфраструктуры - подсчет количества признаков, которые были указаны в инфраструктуре (int)
    
    Удалили столбцы 'apartment_info', 'additional_info', 0 - так как из них мы сделали новые признаки и они нам больше не нуждны 
    (мы просто разделили на другие признаки и столбцы исходные данные и при удалении данных столбцов не потеряем информацию)
    
    Перевели столбцы (чтобы все признаки имели один язык - русский) - 'Цена', 'Метро', 'Минут до метро', 'Адрес', 'Ссылка'
    И поставил признак 'Ссылка' в конец
    """
    
    
    # Работа со столбцом price(цена)
    df['price'] = df['price'].apply(lambda x:
        x.replace("']", '')\
        .replace("['", '')\
        .replace('\\xa0₽', '')\
        .replace(' ', '')\
        .replace("]", '')\
        .replace("[", '')\
        .replace("[]", '')\
    )  # Заменяем все ненужные символы, чтобы оставить только число (это целевая переменная)

    # Работа со столбцом merto(метро)
    df['metro'] = df['metro'].apply(lambda x: x.replace('[', '')\
        .replace(']','')\
        .replace("'",'')) # Заменяем все ненужные символы, чтобы оставить только станции метро

    # Работа с путыми значениями
    df['metro'] = df['metro'].apply(lambda x: np.nan if len(x) < 1 else x)

    # Работа со столбцом minutes(сколько минут до метро)
    df['minutes'] = df['minutes'].apply(lambda x: x.replace("[",'')\
        .replace("]",'')\
        .replace("'", '')\
        .replace("\\xa0",'')\
        .replace(' ','')\
        .replace('.','')\
        .replace('мин', '')) # Заменяем все ненужные символы, чтобы оставить только сколько минут до метро (соответственно)

    # Работа с пустыми значениями
    df['minutes'] = df['minutes'].apply(lambda x: np.nan if len(x) < 1 else x) # если встречается значение [] - значит ставим NaN

    # Работа со столбцом address (адрес дома)
    df['address'] = df['address'].apply(lambda x: x.replace('[', '')\
        .replace(']', '')\
        .replace("'", '')) # Заменяем все ненужные символы, чтобы оставить только адреса (строкой)

    # Обработка пустых значений
    df['address'] = df['address'].apply(lambda x: np.nan if len(x) < 1 else x) # если встречается значение [] - значит ставим NaN

    # Работа со столбцом apartment_info
    df['apartment_info'] = df['apartment_info'].apply(lambda x: x.replace('[', '')\
        .replace(']','')\
        .replace("'", '"')\
        .replace('\\xa0м2', '')\
        .replace('\\xa0', '')) # Заменяем все ненужные символы, чтобы оставить только ключ (то есть признак) и его значение без лишних символов

    # Создаем dataframe для записи данных в отдельные столбцы
    data = pd.DataFrame()
    res = []
    # Записываем каждое значение в отдельный столбец
    for i in range(len(df['apartment_info'])): # проходим по каждому значению в столбце apartment_info
        data_dict = json.loads(df['apartment_info'][i]) # из строки создаем словарь
        data = pd.concat([data, pd.DataFrame([data_dict])], ignore_index=True) # добавляем к датафрейму значения (строки и столбцы с признаками)
        count = 0
        for keys in data_dict:
            count += 1
        res.append(count)

    # Присваиваем основному набору данных эти столбцы
    for i in data.columns: # идем по каждому столбцу из
        df[i] = data[i].to_list() # в столбец записываем признаки и добавляем к основному набору данных

    # Работа со столбцом additional_info
    df['additional_info'] = df['additional_info'].replace('[]', np.nan) # если встречается значение [] - значит ставим NaN

    info_count = []
    # Словарь с метками какая есть инфраструктура
    data_dict = []                        # Создаем список для следующего цикла
    for i in df['additional_info']:       # проходим по каждому значению
        d = {}                            # Создаем словарь для определенного значения
        try:                              # Если код выполняется
            lst = eval(i)                 # Строку преобразовываем в список (list)
            for l in lst:                 # Идем по этому списку (то есть по каждому слову)
                d[l] = 1                  # Каждому слову добавляем значени 1 (то есть то, что этот объект есть)
            data_dict.append(d)           # Добавляем данное значение в список
            info_count.append(len(lst))   # Добавляем количество инфраструктуры (длину списка)
        except:                           # если код не выполняется
            data_dict.append(np.nan)      # Добавляем в список значение NaN, то есть то, что никакой инфраструктуры не указано
            info_count.append(len(lst))   # Если ничего нет, то пишем 0

    info = pd.DataFrame()                 # Создаем датафрейм для разделения значений на разные столбцы
    for i in data_dict:                   # Идем по каждому значению в списке
        info = pd.concat([info, pd.DataFrame([i])], ignore_index=True) # Добавляем (вниз) строки с разделенными значениями

    # Присваиваем основному набору данных эти столбцы
    for i in info.columns: # идем по каждому столбцу из
        df[i] = info[i].to_list() # в столбец записываем признаки и добавляем к основному набору данных

    df['Количество информации в объявлении'] = res
    df['Количество указанной инфраструктуры'] = info_count
    
    # Удаляем ненуждные признаки (которые мы уже обработали)
    df.drop(['apartment_info', 'additional_info', 0], axis = 1, inplace = True)
    
    # Переводим английские колонки
    rus_columns = ['Цена', 'Метро', 'Минут до метро', 'Адрес', 'Ссылка'] + list(df.columns[5:])
    df.columns = rus_columns
    
    # Ставим ссылку в конец
    order_columns = ['Цена', 'Метро', 'Минут до метро', 'Адрес'] + list(df.columns[5:]) + ['Ссылка']
    df = df[order_columns]
    
    # Значения None из столбца price исключаем (так как целевая переменная)
    df = df[df['Цена'] != 'None']
    
   
    #  Создаем набор данных для просмотра данных по каждому признаку - type, count, количество NaN, % NaN
    info_df = pd.DataFrame()
    info_df.index = df.columns
    info_df['dtypes'] = df.dtypes
    info_df['count'] = df.count()
    info_df['NaN'] = df.isna().sum()
    info_df['NaN%'] = round((info_df['NaN'] / df.shape[0])*100,2)

    # Признаки которые мы будем использовать (в которых меньше 43% пропусков)
    columns = info_df[info_df['NaN%'] <= 43].index
    df = df[columns]

    # изменить типы данных (где числа - float)
    integer = ['Цена', 'Комнат', 'Площадь', 'Жилая', 'Кухня', 'Этаж', 'Год постройки', 'Количество этажей']
    # Меняем , на .
    df['Площадь'] = df['Площадь'].apply(lambda x: x.replace(',', '.'))
    df['Жилая'] = df['Жилая'].apply(lambda x: str(x).replace(',', '.'))
    df['Кухня'] = df['Кухня'].apply(lambda x: str(x).replace(',', '.'))
    
    # Меняем типы данных
    for i in integer:
        df[i] = df[i].astype('float')
        
    """
    Так как при сборе данных, вместо значения студия ничего не указывалось, поэтому все данные о студиях не были помечены
    поэтому, заполняем пропуски значением 0 - то есть это будет студия
    """
    df.loc[df['Комнат'].isna(), 'Комнат'] = df.loc[df['Комнат'].isna(), 'Комнат'].fillna(0)
    
    # Возвращаем обработанный набор данных
    return df

In [5]:
df = processing(df)
df.head(3)

Unnamed: 0,Цена,Метро,Минут до метро,Адрес,Комнат,Площадь,Жилая,Кухня,Этаж,Тип сделки,Год постройки,Материал стен,Серия дома,Количество этажей,Лифт,Тип перекрытий,Ремонт,Количество информации в объявлении,Количество указанной инфраструктуры,Ссылка
0,11000000.0,Некрасовка,17.0,Москва улица Лавриненко 3А,1.0,37.5,19.0,8.0,3.0,Свободная продажа,2018.0,Иные,П-44Т,17.0,есть,Железобетонный,,14,2,https://domclick.ru/card/sale__flat__1866393858
1,4650000.0,,,Москва посёлок Рогово Юбилейная улица 12к2,1.0,38.0,18.0,9.0,5.0,Свободная продажа,2019.0,Кирпичный,,5.0,,Железобетонный,косметический,14,2,https://domclick.ru/card/sale__flat__1691896126
2,10800000.0,"Прокшино, Филатов Луг",1345.0,Москва поселение Сосенское Прокшинский проспект 9,1.0,33.8,15.2,12.0,15.0,Свободная продажа,2022.0,Монолитно-кирпичный,,18.0,,Железобетонный,Отсутствует,13,1,https://domclick.ru/card/sale__flat__1691935139


In [6]:
df.dtypes

Цена                                   float64
Метро                                   object
Минут до метро                          object
Адрес                                   object
Комнат                                 float64
Площадь                                float64
Жилая                                  float64
Кухня                                  float64
Этаж                                   float64
Тип сделки                              object
Год постройки                          float64
Материал стен                           object
Серия дома                              object
Количество этажей                      float64
Лифт                                    object
Тип перекрытий                          object
Ремонт                                  object
Количество информации в объявлении       int64
Количество указанной инфраструктуры      int64
Ссылка                                  object
dtype: object

In [7]:
df.isna().sum()

Цена                                      0
Метро                                  1035
Минут до метро                         1033
Адрес                                    28
Комнат                                    0
Площадь                                   0
Жилая                                  2246
Кухня                                  1926
Этаж                                      0
Тип сделки                              386
Год постройки                           446
Материал стен                           458
Серия дома                             4184
Количество этажей                        90
Лифт                                   2533
Тип перекрытий                         1757
Ремонт                                 1821
Количество информации в объявлении        0
Количество указанной инфраструктуры       0
Ссылка                                    0
dtype: int64

In [12]:
df.to_excel('domclick.xlsx', index=False)