In [70]:
import pandas as pd 
import numpy as np  
import matplotlib.pyplot as plt

In [71]:
df4 = pd.read_csv('../data/_data.csv')
print(df4.columns.to_list())

['Unnamed: 0', 'ID  объявления', 'Количество комнат', 'Тип', 'Метро', 'Адрес', 'Площадь, м2', 'Дом', 'Парковка', 'Цена', 'Телефоны', 'Описание', 'Ремонт', 'Площадь комнат, м2', 'Балкон', 'Окна', 'Санузел', 'Можно с детьми/животными', 'Дополнительно', 'Название ЖК', 'Серия дома', 'Высота потолков, м', 'Лифт', 'Мусоропровод', 'Ссылка на объявление']


In [72]:
# Вытаскиваю нужны мне столбцы, удалнием не нужных
col_to_drop = [
    'Unnamed: 0',
    'Количество комнат',
    'Тип',
    'Метро',
    'Адрес',
    'Площадь, м2',
    'Дом',
    'Парковка',
    'Цена',
    'Телефоны',
    'Описание',
    'Ремонт',
    'Площадь комнат, м2',
    'Балкон',
    'Окна',
    # 'Санузел',
    # 'Можно с детьми/животными',
    'Дополнительно',
    # 'Название ЖК',
    # 'Серия дома',
    'Высота потолков, м',
    # 'Лифт',
    'Мусоропровод',
    'Ссылка на объявление', 
]

# Удаляем только существующие столбцы
existing_cols = [col for col in col_to_drop if col in df4.columns]
df4 = df4.drop(columns=existing_cols)


df4.head()

Unnamed: 0,ID объявления,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)"
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)"
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1)
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1)
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)"


In [73]:
# замена имени столбца ID

df4 = df4.rename(columns={'ID  объявления': 'ID'}) 
df4.head() 

Unnamed: 0,ID,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)"
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)"
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1)
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1)
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)"


In [74]:
# Обработка столбца Можно с детьми/животными 
# 0 - отстствие значения, 1 - можно с детьми, 2 - можно с животными, 3 - можно с детьми/животными

# Создаем словарь для замены значений
mapping = {
    np.nan: 0,
    'Можно с детьми': 1,
    'Можно с животными': 2, 
    'Можно с детьми, Можно с животными': 3
}

# Применяем замену и создаем новый столбец
df4['animal_and_children'] = df4['Можно с детьми/животными'].map(mapping)

df4.head()

Unnamed: 0,ID,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт,animal_and_children
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)",3
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)",1
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1),1
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1),2
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)",0


In [75]:
# Обработка столбца Можно с детьми/животными

# Создаем новый столбец: 1 если есть название, 0 если NaN
df4['resedent_name'] = np.where(df4['Название ЖК'].isna(), 0, 1)

df4.head()

Unnamed: 0,ID,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт,animal_and_children,resedent_name
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)",3,1
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)",1,1
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1),1,1
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1),2,0
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)",0,1


In [76]:
# Обработка столбца Серии дома
# Создаем новый столбец: 1 если есть название, 0 если NaN
df4['series_build'] = np.where(df4['Серия дома'].isna(), 0, 1)

df4.head()

Unnamed: 0,ID,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт,animal_and_children,resedent_name,series_build
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)",3,1,0
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)",1,1,0
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1),1,1,0
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1),2,0,0
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)",0,1,0


In [77]:
# Ячейка Lift извлекает основную ифнормаю - кол-во лифтов в доме
# 0 - отсутствие знения

# Функция для извлечения и сложения чисел из скобок
def sum_lifts(text):
    if pd.isna(text):  # Если NaN
        return 0
    # Ищем все числа в скобках и суммируем их
    import re
    numbers = re.findall(r'\((\d+)\)', str(text))
    return sum(map(int, numbers)) if numbers else 0

# Создаем новый столбец
df4['lift'] = df4['Лифт'].apply(sum_lifts)

df4.head()

Unnamed: 0,ID,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт,animal_and_children,resedent_name,series_build,lift
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)",3,1,0,5
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)",1,1,0,2
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1),1,1,0,1
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1),2,0,0,1
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)",0,1,0,2


In [78]:
# Ячейка bathroom извлекает основную ифнормаю - кол-во санузлов в квартире
# 0 - отсутствие знения
df4['bathroom'] = df4['Санузел'].apply(sum_lifts)

df4.head()

Unnamed: 0,ID,Санузел,Можно с детьми/животными,Название ЖК,Серия дома,Лифт,animal_and_children,resedent_name,series_build,lift,bathroom
0,271271157,,"Можно с детьми, Можно с животными","Новый Арбат, 2010",,"Пасс (4), Груз (1)",3,1,0,5,0
1,271634126,"Совмещенный (2), Раздельный (1)",Можно с детьми,Новый Арбат,,"Пасс (1), Груз (1)",1,1,0,2,3
2,271173086,Совмещенный (3),Можно с детьми,Новый Арбат,,Пасс (1),1,1,0,1,3
3,272197456,Совмещенный (3),Можно с животными,,,Пасс (1),2,0,0,1,3
4,273614615,Совмещенный (2),,The Book,,"Пасс (1), Груз (1)",0,1,0,2,2


In [None]:
# Затираю старые колонки

drop_past = [
    'Можно с детьми/животными',
    'Название ЖК',
    'Серия дома',
    'Лифт',
    'Санузел',
]

df4 = df4.drop(columns=drop_past)
df4.to_csv('koshelev_data.csv', index = False)
