# Исследование объявлений о продаже квартир

В данном проекте проводится исследовательский анализ данных - архива объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. В процессе работы были выполнены следующие шаги:
1. Первичное знакомство с данными;
2. Предообработка данных (обработка пропусков и дубликатов, изменение типов данных);
3. Добавление в датафрейм новой информации (с помощью расчетов);
4. Исследовательский анализ данных с определением ключевых признаков, влияющих на целевой показатель.

## Первичное знакомство с данными

### Импортирование библиотек и открытие файла

In [2]:
import pandas as pd
import matplotlib.pyplot as plt

In [5]:
try:
    data = pd.read_csv('/real_estate_data.csv', sep='\t')
except:
    data = pd.read_csv('/Educational-projects/exploratory data analysis/real_estate_data.csv', sep='\t')

FileNotFoundError: [Errno 2] No such file or directory: '/Educational-projects/exploratory data analysis/real_estate_data.csv'

In [None]:
display(data.head())

### Получение первичной информации о данных

In [None]:
data.info()

### Построение гистограмм для визуальной оценки данных

In [None]:
display(data.hist(figsize=(15, 20), bins=50))

In [None]:
display(data['last_price'].describe())

In [None]:
display(data['ceiling_height'].describe())

**Выводы по первичному знакомству с данными:** 
- В данных содержится **23 699 наблюдений** и **22 столбца** с информацией;
- В данных есть пропуски (больше всего в колонке "is_apartment");
- Гистограммы "ceiling_height" и "last_price" выглядят сомнительно. Скорее всего в данных есть аномальные значения (метод describe подтверждает наличие таких данных).

## Предобработка данных

### Обработка пропусков

Определение в каких столбцах есть пропуски, и какие из них можно заполнить

In [None]:
data.info()

**Всего в таблице 22 столбца**: из них **14** имеют пропуски ('ceiling_height', 'floors_total', 'living_area', 'floor', 'is_apartment', 'kitchen_area', 'balcony', 'locality_name', 'airports_nearest', 'cityCenters_nearest', 'parks_around3000', 'parks_nearest', 'ponds_around3000', 'ponds_nearest', 'days_exposition').

Из них точно нельзя заполнить **12** столбцов: 'ceiling_height', 'floors_total', 'living_area', 'floor', 'kitchen_area', 'locality_name', 'airports_nearest', 'cityCenters_nearest', 'parks_around3000', 'parks_nearest', 'ponds_around3000', 'ponds_nearest', 'days_exposition'.

Попробуем обработать следующие **2** столбца: 'is_apartment', 'balcony'.

**Обрабатываем пропуски в столбце 'is_apartment'**

In [None]:
display(data[data['is_apartment'].isna()].head())
display(data['is_apartment'].isna().sum())

In [None]:
display(data['is_apartment'].value_counts())

Считаем, что, если продавец не указал значение в столбце 'is_apartment', значит тип жилья - квартира (False)

In [None]:
data['is_apartment'] = data['is_apartment'].fillna(False)
display(data['is_apartment'].isna().sum())

**Обрабатываем пропуски в столбце 'balcony'**

In [None]:
display(data[data['balcony'].isna()].head())
display(data['balcony'].isna().sum())

In [None]:
display(data['balcony'].value_counts())

Считаем, что, если продавец не указал значение в столбце 'balcony', значит количество балконов равно нулю

In [None]:
data['balcony'] = data['balcony'].fillna(0)
display(data['balcony'].isna().sum())
data['balcony'] = data['balcony'].astype('int', errors='ignore')

**Возможные причины появления пропусков:**
- Человеческий фактор (незаполнение некоторых полей);
- Отсутствие информации по причине пропусков в смежных столбцах (связанных);
- Ошибки при работе с данными.

### Рассмотрение типов данных столбцов

**Определение столбцов, в которых необходимо изменить тип данных**

In [None]:
data.info()

Исходя из полученной информации, необходимо изменить только тип данных в столбце 'first_day_exposition'. Стоить провести замену с типа 'object' в тип 'datetime'.

**Преобрзование типа данных в выбранном столбце**

In [None]:
display(data['first_day_exposition'].head())

In [None]:
data['first_day_exposition'] = pd.to_datetime(data['first_day_exposition'], format='%Y-%m-%d') 

In [None]:
display(data.head())

**Причины изменения типов данных:**
- Для быстрой и корректной работы тип 'object' был изменен на 'datetime'.

### Обработка дубликатов

**Определение наличия явных дубликатов**

In [None]:
display(data.duplicated().sum())

**Определение наличия неявных дубликатов и их обработка**

In [None]:
display(data['locality_name'].unique())
display(data['locality_name'].nunique())

In [None]:
def rename_pos(loc_name):
    for symbol in loc_name:
        if symbol < 'а' and symbol != ' ':
            return loc_name[loc_name.index(symbol):]

data['cor_locality_name'] = data[data['locality_name'].notna()]['locality_name'].apply(rename_pos)

In [None]:
display(sorted(data[data['cor_locality_name'].notna()]['cor_locality_name'].unique()))
display(data['cor_locality_name'].nunique())

**Выводы по обработке дубликатов:** 
- В датасете отсутствовали явные дубликаты;
- В датасете были обнаружены и откорректированы **59** (364 - 305) неявных дубликатов в столбце 'locality_name'.

## Добавление в датафрейм новой информации

Добавление столбца "Цена одного квадратного метра"

In [None]:
data['price_per_m2'] = round(data['last_price'] / data['total_area'], 2)
display(data.head())

Добавление столбца "День недели публикации объявления"

In [None]:
data['day_of_week'] = data['first_day_exposition'].dt.dayofweek
display(data.head())

Добавление столбца "Месяц публикации объявления"

In [None]:
data['month'] = data['first_day_exposition'].dt.month
display(data.head())

Добавление столбца "Год публикации объявления"

In [None]:
data['year'] = data['first_day_exposition'].dt.year
display(data.head())

Добавление столбца "Тип этажа квартиры"

In [None]:
# Данная категоризация сделана для простоты работы с данными при их анализе
def type_of_floor(row):
    if row['floor'] == 1:
        return 0 # Первый этап
    elif row['floor'] == row['floors_total']:
        return 2 # Последний этап
    else:
        return 1 # Другой
    
data['type_of_floor'] = data.apply(type_of_floor, axis=1)
display(data.head())

Добавление столбца "Расстояние до центра города в километрах"

In [None]:
data['centre_nearest'] = round(data['cityCenters_nearest'] / 1000)
display(data.head())

**Вывод по разделу:**
- В таблицу были добавлены новые столбцы: 'centre_nearest' (расстояние от центра в км), 'type_of_floor' (0-'первый этаж', 1-'другой', 2-'последний'), 'year', 'month', 'day_of_week', 'price_per_m2'.

## Исследовательский анализ данных 

### Изучение параметров и обработка аномалий

In [None]:
parametrs = ['total_area', 'living_area', 'kitchen_area', 'last_price', 'rooms', 'ceiling_height',
             'floors_total', 'cityCenters_nearest', 'parks_nearest']

for parametr in parametrs:
    display(data[parametr].describe())
    data[parametr].hist(bins = 300, figsize = (12, 4), color='#78d975')
    sigma_p = round(data[parametr].median() + 2 * data[parametr].std(), 0)
    display(f'Правая граница графика распределения: {sigma_p}')
    plt.xlim(0, sigma_p)
    plt.title(f'Распределение значений {parametr}')
    plt.xlabel(f'{parametr}') 
    plt.ylabel('Количество объявлений')
    plt.show()

In [None]:
display(data['type_of_floor'].describe())
display(data['type_of_floor'].hist(grid=True, bins=3))

**Обнаруженные аномалии по указанным параметрам:**
1. Столбец 'total_area'. Основная масса квартир имеет площадь до 150 м2. Для дальнейшего анализа предлагается исключить из выборки квартиры с площадью больше 150 м2.
2. Столбец 'living_area'. Основная масса квартир имеет жилую площадь до 80 м2. В связи с мультиколлинеарностью фактора со значениями столбца 'total_area' данный столбец можно не фильтровать.
3. Столбец 'kitchen_area'. Основная масса квартир имеет площадь кухни до 30 м2. В связи с мультиколлинеарностью фактора со значениями столбца 'total_area' данный столбец можно не фильтровать.
4. Столбец 'last_price'. Основная масса квартир имеет стоимость до 27 000 000. Для дальнейшего анализа предлагается исключить из выборки квартиры со стоимостью больше 27 000 000.
5. Столбец 'rooms'. Основная масса квартир имеет до 5 комнат. В связи с мультиколлинеарностью фактора со значениями столбца 'total_area' данный столбец можно не фильтровать.
6. Столбец 'ceiling_height'. Основная масса квартир имеет высоту потолков до 4 метров. Стоит провести анализ квартир, у которых высота потолка выше 4 метров, так как, скорее, всего была допущена ошибка при внесении значений в данный столбец.
7. Столбец 'floors_total'. Основная масса квартир располагаются в зданиях с этажностью до 35. Однако в столбце есть значения от 35 до 60 этажей. Данные значения стоит оставить без изменений в связи с возможностью их существования.
8. Столбец 'cityCenters_nearest'. Основная масса квартир располагаются на расстоянии до 35 км от центра. Однако в столбце есть значения до 66 км. Данные значения стоит оставить без изменений в связи с возможностью их существования.
9. Столбец 'parks_nearest'. Основная масса квартир располагаются на расстоянии до 1 км до ближайшего парка. Однако в столбце есть значения до 3,3 км. Данные значения стоит оставить без изменений в связи с возможностью их существования.
10. Столбец 'parks_nearest'. Основная масса квартир располагаются на расстоянии до 1 км до ближайшего парка. Однако в столбце есть значения до 3,3 км. Данные значения стоит оставить без изменений в связи с возможностью их существования.
11. Столбец 'type_of_floor'. Данные столбец не подлежит корректировке в связи с категориальным характером его значений.

In [None]:
new_data = data.query('(total_area < 150) and (last_price < 27_000_000)')
new_data.reset_index(drop=True, inplace=True)

In [None]:
new_data.shape[0] / 23699

In [None]:
display(new_data.head())

In [None]:
def cor_height(ceiling_height):
    if ceiling_height > 50:
        return None
    elif ceiling_height > 24:
        return (ceiling_height / 10)
    elif ceiling_height > 5:
        return None
    elif ceiling_height > 2.49:
        return ceiling_height
    return None
        
    
new_data['correct_height'] = new_data['ceiling_height'].apply(cor_height)

In [None]:
display(new_data['correct_height'].describe())

**Выводы по изучению параметров и обработке аномалий:**
- Изучение параметров проводилось с помощью анализа описательной части значений, а тажке графика (гистограммы) распределения значений. В ходе изучение были обнаружены ряд аномалий.
- Один тип аномалий был связан с невозможностью существования данных значений (высота потолков - до 27 м). Анамолия была обработана с помощью логических преобразований.
- Другой тип аномалий был связан с ограниченностью (непопулярностью) данных объявлений (площадь жилья - 900 м2). Анамолия была обработана с помощью фильтрации данных. 

### Определение скорости продажи квартир

In [None]:
display(new_data['days_exposition'].describe())

new_data['days_exposition'].plot(kind='hist', grid=1, bins=50)
plt.xlabel('Количество дней до покупки', size=11)
plt.ylabel('Количество объявлений', size=11)
plt.title('Гистограмма распределения значений количества дней до покупки', size=13)

plt.show()

**Выводы по разделу:**
Среднее значение количества дней, за которые продается квартира, - 178; медиана равна 94 дням. Будем считать, что срок продажи квартиры больше 226 дней будет необычайно долгим (около 25% наблюдений), а срок меньше 44 дней - необычайно коротким (около 25% наблюдений).

### Определение факторов, которые больше всего влияют на общую стоимость объекта

Проведем комплексный анализ влияния указанных параметров (факторов) на общую стоимость без учета влияния города.

In [None]:
parametrs_11 = ['total_area', 'living_area', 'kitchen_area']

for parametr in parametrs_11:
    correlation = round(new_data['last_price'].corr(new_data[parametr]), 2)
    display(f'Коэффициент корреляции Пирсона цены и {parametr}: {correlation}')
    new_data.plot(x='last_price', y=parametr, kind='scatter', grid=True, alpha=0.3, figsize=(7, 5), color='#78d975')
    plt.title(f'Средняя цена квартиры в зависимости от {parametr}', size=13)
    plt.xlabel(f'{parametr}', size=11)
    plt.ylabel('Средняя цена квартиры', size=11)
    
    plt.show()

parametrs_12 = ['type_of_floor', 'rooms', 'year', 'month', 'day_of_week']

for parametr in parametrs_12:
    correlation = round(new_data['last_price'].corr(new_data[parametr]), 2)
    display(f'Коэффициент корреляции Пирсона цены и {parametr}: {correlation}')
    new_data.groupby(parametr)['last_price'].mean().plot(kind='bar', figsize=(5, 5), color='#78d975')
    plt.xticks(rotation=0)
    plt.title(f'Средняя цена квартиры в зависимости от {parametr}', size=13)
    plt.xlabel(f'{parametr}', size=12)
    plt.ylabel('Средняя цена квартиры', size=11)
    
    plt.show()

Опеределим значения корреляции Пирсона в зависимости от населенных пунктов. Для анализа примем 5 самых "популярных" населенных пунктов.

In [None]:
top_city = new_data['cor_locality_name'].value_counts()[:5]
for city in top_city.index:
    parametrs_2 = new_data[new_data['cor_locality_name'] == city]
    param_table = parametrs_2.pivot_table(index='first_day_exposition', values=['total_area', 'type_of_floor', 'last_price',
                                                                                'rooms', 'year', 'month', 'day_of_week', 
                                                                                'living_area', 'kitchen_area'], aggfunc='median')
    display(param_table.corr())

**Выводы по разделу:**
- Из указанных параметров больше всего влияние на стоимость объекта имеет его общая площадь. Стоимость объекта имеет положительную корреляцию с площадью объектов со среднем значением 0.76. В засимости от города данное значение изменяется и может достигать 0.84.
- Стоит отметить, что средняя положительная корреляция также наблюдается со следующими факторами: площадь кухни, жилая площадь, количество комнат. Данное явление обусловлено мультиколлиеарностью факторов с общей площадью объекта.

### Определение стоимости квадртаного метра в различных населенных пунктах

In [None]:
top_cities = new_data['cor_locality_name'].value_counts()[:10]
table = new_data.query('cor_locality_name in @top_cities.index').pivot_table(index='cor_locality_name',
                                                                                   values=['last_price', 'total_area'])
table['price_per_m2'] = round(table['last_price'] / table['total_area'], 2)
table['count'] = top_cities
table.columns = ['price_mean', 'total_area_mean', 'price_per_m2', 'number of ads']
display(table.sort_values(by='price_per_m2', ascending=0))

**Выводы по разделу:**
- Самая высокая средняя стоимость 1 м2 квартиры из 10 самых "популярных" городов - в Санкт-Петербурге (111 232,32). 
- Самая низкая средняя стоимость 1 м2 квартиры из 10 самых "популярных" городов - в Выборге (57 665,248).

### Определение влияние параметра "расстояние до центра города" на стоимость квартиры

In [None]:
saint_p = new_data[new_data['cor_locality_name'] == 'Санкт-Петербург'].pivot_table(index='centre_nearest', 
                                                                                   values=['last_price', 'total_area'])
saint_p['centre_nearest'] = saint_p.index
saint_p['price_per_m2'] = round(saint_p['last_price'] / saint_p['total_area'], 2)
display(saint_p.head())

In [None]:
display(round(saint_p['last_price'].corr(saint_p['centre_nearest']), 2))
saint_p.plot(y='last_price', grid=1, kind='line', title='Средняя стоимость квартиры в зависимости от удаленности от центра', style='o-')
plt.show()
display(round(saint_p['price_per_m2'].corr(saint_p['centre_nearest']), 2))
saint_p.plot(y='price_per_m2', grid=1, kind='line', title='Средняя стоимость 1 м2 в зависимости от удаленности от центра', style='o-')
plt.show()

In [None]:
display(new_data[(new_data['cor_locality_name'] == 'Санкт-Петербург') & (new_data['centre_nearest'] == 27)])

**Выводы по разделу:** 
- По результатам проведенного анализа была обнаружена высокая отрицательная корреляция (-0.77) стоимости квартиры и удаленности от центра города.
- На расстоянии 27 км от центра была обнаружена аномалия (выброс). Скорее всего данный выброс образовался в связи с ограниченностью количеством объявлений с такой удаленностью (2 шт.)

## Общий вывод

**Общие выводы по работе:**
1. В рамках получения и первичного анализа данных были получены 23 699 наблюдений с 22 колонками показателей;

2. После первичного анализа данных были выполнены следующие операции:
- Заполнены пропуски по столбцам 'is_apartment' и 'balcony', а также указаны возможные причины появления всех пропусков в таблице;
- Изменен тип данных столбца 'first_day_exposition' с 'object' на 'datetime';

3. В процессе анализа данных в части значений показателей были обнаружены и исключены аномалии в следующих столбцах: 'total_area', 'living_area', 'kitchen_area', 'last_price', 'rooms', 'ceiling_height

4. По результатам исследовательского анализа были сделаны следующие выводы:
- Среднее значение количества дней, за которые продается квартира, - 179; медиана равна 98 дням. Будем считать, что срок продажи квартиры больше 450 дней будет необычайно долгим (около 10% наблюдений), а срок меньше 18 дней - необычайно коротким (около 10% наблюдений).
- Больше всего влияние на стоимость объекта имеет его общая площадь. Стоимость объекта имеет положительную корреляцию с площадью объектов со среднем значением 0.73. В засимости от города данное значение изменяется и может достигать 0.86.
- Стоит отметить, что средняя положительная корреляция также наблюдается со следующими факторами: площадь кухни, жилая площадь, количество комнат. Данное явление обусловлено мультиколлиеарностью факторов с общей площадью объекта.
- Самая высокая средняя стоимость 1 м2 квартиры из 10 самых "популярных" городов - в Санкт-Петербурге (106 251,27). 
- Самая низкая средняя стоимость 1 м2 квартиры из 10 самых "популярных" городов - во Всеволожске (66 752,62).
- В Санкт-Петербурге на стоимость квартиры также влияет показатель удаленности от центра города. Была обнаружена высокая отрицательная корреляция (-0.77) стоимости квартиры и удаленности от центра города.