# Анализ инвестиционных объектов недвижимости

В данном анализе мы:
1. Загрузим и подготовим данные
2. Сформируем арендные зоны (кластеры)
3. Подберем оптимальное количество кластеров
4. Проведем валидацию модели
5. Найдем перспективные объекты для инвестирования

In [None]:
# Импортируем необходимые библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import silhouette_score, r2_score, accuracy_score
from sklearn.preprocessing import StandardScaler

# Настраиваем отображение
%matplotlib inline
sns.set_style("whitegrid")  # Устанавливаем стиль seaborn
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [None]:
# Загружаем данные
rent_data = pd.read_csv('../scrapers/cleaned_rent_data.csv')
sale_data = pd.read_csv('../scrapers/cleaned_sale_data.csv')

print('Данные о продаже:')
print(f'Количество записей: {len(sale_data)}')
print('\nДанные об аренде:')
print(f'Количество записей: {len(rent_data)}')

## Подготовка данных для кластеризации

Подготовим данные для кластеризации, используя координаты объектов.

In [None]:
# Подготовка данных для кластеризации
def prepare_data_for_clustering(df):
    # Выбираем только нужные колонки
    clustering_data = df[['lat', 'lon', 'total_price', 'price_per_meter']].copy()
    
    # Удаляем записи с отсутствующими координатами
    clustering_data = clustering_data.dropna(subset=['lat', 'lon'])
    
    # Нормализуем данные
    scaler = StandardScaler()
    coordinates = scaler.fit_transform(clustering_data[['lat', 'lon']])
    
    return clustering_data, coordinates, scaler

# Подготавливаем данные
rent_clustering_data, rent_coordinates, rent_scaler = prepare_data_for_clustering(rent_data)
sale_clustering_data, sale_coordinates, sale_scaler = prepare_data_for_clustering(sale_data)

print('Подготовленные данные для кластеризации:')
print(f'Аренда: {len(rent_clustering_data)} записей')
print(f'Продажа: {len(sale_clustering_data)} записей')

## Подбор оптимального количества кластеров

Проведем анализ для разного количества кластеров и найдем оптимальное значение.

In [None]:
def evaluate_clustering(n_clusters, coordinates, random_state=42):
    # Создаем и обучаем модель кластеризации
    kmeans = KMeans(n_clusters=n_clusters, random_state=random_state)
    cluster_labels = kmeans.fit_predict(coordinates)
    
    # Разделяем данные на обучающую и валидационную выборки
    X_train, X_val, y_train, y_val = train_test_split(
        coordinates, cluster_labels, test_size=0.2, random_state=random_state
    )
    
    # Подбираем оптимальное количество соседей для KNN
    knn_params = {'n_neighbors': range(3, 21, 2)}
    knn = KNeighborsClassifier()
    grid_search = GridSearchCV(knn, knn_params, cv=5)
    grid_search.fit(X_train, y_train)
    
    # Получаем метрики
    silhouette = silhouette_score(coordinates, cluster_labels)
    best_cv_err = 1 - grid_search.best_score_
    val_pred = grid_search.predict(X_val)
    accuracy = accuracy_score(y_val, val_pred)
    
    return {
        'n_clusters': n_clusters,
        'silhouette_score': silhouette,
        'best_cv_error': best_cv_err,
        'best_n_neighbors': grid_search.best_params_['n_neighbors'],
        'validation_accuracy': accuracy
    }

# Оцениваем разное количество кластеров
n_clusters_range = [50, 100, 150, 200, 250, 300, 350, 400, 450, 500]
clustering_results = []

for n_clusters in n_clusters_range:
    print(f'Оценка для {n_clusters} кластеров...')
    result = evaluate_clustering(n_clusters, rent_coordinates)
    clustering_results.append(result)

# Создаем DataFrame с результатами
results_df = pd.DataFrame(clustering_results)
print('\nРезультаты оценки кластеризации:')
display(results_df)

In [None]:
# Создаем фигуру с несколькими графиками
plt.figure(figsize=(20, 15))

# График 1: Метрики качества кластеризации
plt.subplot(2, 2, 1)
plt.plot(results_df['n_clusters'], results_df['silhouette_score'], 'b-o', label='Silhouette Score')
plt.plot(results_df['n_clusters'], results_df['validation_accuracy'], 'g-o', label='Validation Accuracy')
plt.plot(results_df['n_clusters'], 1 - results_df['best_cv_error'], 'r-o', label='CV Score')
plt.title('Метрики качества кластеризации')
plt.xlabel('Количество кластеров')
plt.ylabel('Значение метрики')
plt.legend()
plt.grid(True)

# График 2: Географическое распределение кластеров (для оптимального количества)
plt.subplot(2, 2, 2)
best_n_clusters = 50  # Используем оптимальное значение
kmeans = KMeans(n_clusters=best_n_clusters, random_state=42)
cluster_labels = kmeans.fit_predict(rent_coordinates)

# Создаем scatter plot с разными цветами для кластеров
scatter = plt.scatter(rent_clustering_data['lon'], rent_clustering_data['lat'], 
                     c=cluster_labels, cmap='tab20', alpha=0.6, s=50)
plt.title(f'Географическое распределение {best_n_clusters} кластеров')
plt.xlabel('Долгота')
plt.ylabel('Широта')
plt.colorbar(scatter, label='Номер кластера')

# График 3: Распределение размеров кластеров
plt.subplot(2, 2, 3)
cluster_sizes = pd.Series(cluster_labels).value_counts().sort_index()
plt.bar(range(len(cluster_sizes)), cluster_sizes)
plt.title('Распределение размеров кластеров')
plt.xlabel('Номер кластера')
plt.ylabel('Количество объектов')
plt.grid(True)

# График 4: Распределение цен аренды по кластерам
plt.subplot(2, 2, 4)
cluster_prices = rent_clustering_data.groupby(cluster_labels)['price_per_meter'].median()
plt.boxplot([rent_clustering_data[cluster_labels == i]['price_per_meter'] 
            for i in range(best_n_clusters)], 
            flierprops={'marker': 'o', 'markerfacecolor': 'gray', 'markersize': 4})
plt.title('Распределение цен аренды по кластерам')
plt.xlabel('Номер кластера')
plt.ylabel('Цена за м²')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# Выводим статистику по кластерам
cluster_stats = pd.DataFrame({
    'Размер кластера': cluster_sizes,
    'Медианная цена': cluster_prices,
    'Мин. цена': rent_clustering_data.groupby(cluster_labels)['price_per_meter'].min(),
    'Макс. цена': rent_clustering_data.groupby(cluster_labels)['price_per_meter'].max()
}).round(2)

print('\nСтатистика по кластерам:')
display(cluster_stats.sort_values('Медианная цена', ascending=False).head(10))

In [None]:
# Создаем график плотности распределения цен по топ-5 кластерам
plt.figure(figsize=(15, 6))

# Выбираем топ-5 кластеров по размеру
top_clusters = cluster_sizes.nlargest(5).index

for cluster in top_clusters:
    prices = rent_clustering_data[cluster_labels == cluster]['price_per_meter']
    sns.kdeplot(data=prices, label=f'Кластер {cluster}')

plt.title('Плотность распределения цен в крупнейших кластерах')
plt.xlabel('Цена за м²')
plt.ylabel('Плотность')
plt.legend()
plt.grid(True)
plt.show()

# Выводим географические центры крупнейших кластеров
centers = pd.DataFrame(
    kmeans.cluster_centers_,
    columns=['lat_scaled', 'lon_scaled']
)

# Преобразуем обратно в исходный масштаб
centers_original = pd.DataFrame({
    'Широта': centers['lat_scaled'] * rent_scaler.scale_[0] + rent_scaler.mean_[0],
    'Долгота': centers['lon_scaled'] * rent_scaler.scale_[1] + rent_scaler.mean_[1]
})

print('\nКоординаты центров крупнейших кластеров:')
display(centers_original.loc[top_clusters].round(6))

## Формирование арендных зон

Используем оптимальное количество кластеров для формирования арендных зон.

In [None]:
# Создаем финальную модель кластеризации
final_kmeans = KMeans(n_clusters=int(best_n_clusters), random_state=42)
rent_clusters = final_kmeans.fit_predict(rent_coordinates)

# Добавляем информацию о кластерах в исходные данные
rent_clustering_data['cluster'] = rent_clusters

# Рассчитываем статистики по кластерам
cluster_stats = rent_clustering_data.groupby('cluster').agg({
    'total_price': ['mean', 'median', 'std', 'count'],
    'price_per_meter': ['mean', 'median', 'std']
}).round(2)

print('Статистика по арендным зонам:')
display(cluster_stats)

## Поиск перспективных объектов для инвестирования

Определим, какие объекты из базы продаж находятся в перспективных арендных зонах.

In [None]:
def find_investment_opportunities(sale_data, rent_clusters, cluster_stats, 
                                max_payback_years=7, min_rental_count=5):
    # Определяем кластер для каждого объекта продажи
    sale_clusters = final_kmeans.predict(sale_coordinates)
    sale_clustering_data['cluster'] = sale_clusters
    
    # Фильтруем кластеры с достаточным количеством арендных объектов
    valid_clusters = cluster_stats['total_price']['count'] >= min_rental_count
    valid_cluster_stats = cluster_stats[valid_clusters]
    
    # Рассчитываем окупаемость для каждого объекта
    opportunities = []
    
    for idx, row in sale_clustering_data.iterrows():
        cluster = row['cluster']
        if cluster not in valid_cluster_stats.index:
            continue
            
        # Рассчитываем годовой доход от аренды
        annual_rent = valid_cluster_stats.loc[cluster, ('total_price', 'median')] * 12
        sale_price = row['total_price']
        
        # Рассчитываем срок окупаемости
        payback_years = sale_price / annual_rent
        
        if payback_years <= max_payback_years:
            opportunities.append({
                'sale_id': idx,
                'cluster': cluster,
                'sale_price': sale_price,
                'annual_rent': annual_rent,
                'payback_years': payback_years,
                'rental_objects_in_area': valid_cluster_stats.loc[cluster, ('total_price', 'count')]
            })
    
    return pd.DataFrame(opportunities)

# Ищем перспективные объекты
investment_opportunities = find_investment_opportunities(
    sale_clustering_data, 
    rent_clusters, 
    cluster_stats
)

print('Найдены следующие инвестиционные возможности:')
display(investment_opportunities.sort_values('payback_years'))

In [None]:
# Визуализируем распределение сроков окупаемости
plt.figure(figsize=(10, 6))
sns.histplot(data=investment_opportunities, x='payback_years', bins=30)
plt.title('Распределение сроков окупаемости')
plt.xlabel('Срок окупаемости (лет)')
plt.ylabel('Количество объектов')

# Добавляем статистику
print('\nСтатистика по срокам окупаемости:')
print(investment_opportunities['payback_years'].describe())

## Анализ рынка недвижимости по городам

Рассмотрим распределение объектов, цен и кластеров в разрезе городов.

In [None]:
# Анализ данных по городам
plt.figure(figsize=(20, 15))

# График 1: Распределение объектов по городам
plt.subplot(2, 2, 1)
city_counts = rent_data['city'].value_counts()
plt.pie(city_counts, labels=city_counts.index, autopct='%1.1f%%')
plt.title('Распределение объектов по городам')

# График 2: Средние цены аренды по городам
plt.subplot(2, 2, 2)
city_prices = rent_data.groupby('city')['price_per_meter'].agg(['mean', 'median', 'std']).round(2)
city_prices.plot(kind='bar', y=['mean', 'median'], yerr='std', capsize=5)
plt.title('Статистика цен аренды по городам')
plt.xlabel('Город')
plt.ylabel('Цена за м²')
plt.xticks(rotation=45)
plt.legend(['Средняя цена', 'Медианная цена'])

# График 3: Распределение кластеров по городам
plt.subplot(2, 2, 3)
rent_clustering_data['city'] = rent_data['city']
rent_clustering_data['cluster'] = cluster_labels
cluster_city_counts = rent_clustering_data.groupby(['city', 'cluster']).size().unstack(fill_value=0)
cluster_city_counts.plot(kind='bar', stacked=True)
plt.title('Распределение кластеров по городам')
plt.xlabel('Город')
plt.ylabel('Количество объектов')
plt.legend(title='Кластер', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=45)

# График 4: Box plot цен по городам
plt.subplot(2, 2, 4)
sns.boxplot(data=rent_data, x='city', y='price_per_meter')
plt.title('Распределение цен аренды по городам')
plt.xlabel('Город')
plt.ylabel('Цена за м²')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# Выводим статистику по городам
print('\nСтатистика по городам:')
city_stats = pd.DataFrame({
    'Количество объектов': city_counts,
    'Средняя цена': city_prices['mean'],
    'Медианная цена': city_prices['median'],
    'Стандартное отклонение': city_prices['std'],
    'Количество кластеров': rent_clustering_data.groupby('city')['cluster'].nunique()
}).round(2)
display(city_stats)

# Анализ топ кластеров для каждого города
print('\nТоп-3 кластера по количеству объектов в каждом городе:')
for city in rent_clustering_data['city'].unique():
    print(f'\n{city}:')
    city_clusters = rent_clustering_data[rent_clustering_data['city'] == city]
    top_clusters = city_clusters['cluster'].value_counts().head(3)
    cluster_prices = city_clusters.groupby('cluster')['price_per_meter'].agg(['mean', 'median']).round(2)
    
    for cluster, count in top_clusters.items():
        print(f'Кластер {cluster}:')
        print(f'  Количество объектов: {count}')
        print(f'  Средняя цена: {cluster_prices.loc[cluster, "mean"]} за м²')
        print(f'  Медианная цена: {cluster_prices.loc[cluster, "median"]} за м²')

In [None]:
# Анализ корреляций между характеристиками объектов по городам
numeric_columns = ['total_price', 'price_per_meter', 'Общая площадь']

plt.figure(figsize=(15, 5))
for i, city in enumerate(rent_data['city'].unique()):
    plt.subplot(1, len(rent_data['city'].unique()), i+1)
    city_data = rent_data[rent_data['city'] == city][numeric_columns]
    sns.heatmap(city_data.corr(), annot=True, fmt='.2f', cmap='coolwarm')
    plt.title(f'Корреляции для {city}')
plt.tight_layout()
plt.show()