In [None]:
import pandas as pd


In [4]:
# Считываем датасет
df = pd.read_csv('Housing.csv')

In [5]:
# Потребление памяти до оптимизации
memory_before = df.memory_usage(deep=True).sum()
print(f"Потребление памяти до оптимизации: {memory_before / 1024:.2f} KB")

Потребление памяти до оптимизации: 221.92 KB


In [7]:
# Анализируем каждый столбец и выбираем оптимальные типы
print("\nАнализ столбцов:")
for col in df.columns:
    print(f"\n--- {col} ---")
    print(f"Текущий тип: {df[col].dtype}")
    print(f"Уникальных значений: {df[col].nunique()}")
    
    if df[col].dtype == 'object':
        # Для категориальных данных
        print("Рекомендуемый тип: category")
    else:
        # Для числовых данных анализируем диапазон значений
        min_val = df[col].min()
        max_val = df[col].max()
        print(f"Диапазон значений: {min_val} - {max_val}")
        
        if min_val >= 0:
            if max_val <= 255:
                print("Рекомендуемый тип: uint8")
            elif max_val <= 65535:
                print("Рекомендуемый тип: uint16")
            else:
                print("Рекомендуемый тип: uint32")
        else:
            if min_val >= -128 and max_val <= 127:
                print("Рекомендуемый тип: int8")
            elif min_val >= -32768 and max_val <= 32767:
                print("Рекомендуемый тип: int16")
            else:
                print("Рекомендуемый тип: int32")



Анализ столбцов:

--- price ---
Текущий тип: int64
Уникальных значений: 219
Диапазон значений: 1750000 - 13300000
Рекомендуемый тип: uint32

--- area ---
Текущий тип: int64
Уникальных значений: 284
Диапазон значений: 1650 - 16200
Рекомендуемый тип: uint16

--- bedrooms ---
Текущий тип: int64
Уникальных значений: 6
Диапазон значений: 1 - 6
Рекомендуемый тип: uint8

--- bathrooms ---
Текущий тип: int64
Уникальных значений: 4
Диапазон значений: 1 - 4
Рекомендуемый тип: uint8

--- stories ---
Текущий тип: int64
Уникальных значений: 4
Диапазон значений: 1 - 4
Рекомендуемый тип: uint8

--- mainroad ---
Текущий тип: object
Уникальных значений: 2
Рекомендуемый тип: category

--- guestroom ---
Текущий тип: object
Уникальных значений: 2
Рекомендуемый тип: category

--- basement ---
Текущий тип: object
Уникальных значений: 2
Рекомендуемый тип: category

--- hotwaterheating ---
Текущий тип: object
Уникальных значений: 2
Рекомендуемый тип: category

--- airconditioning ---
Текущий тип: object
Уник

In [11]:
# Оптимизируем типы данных
df_optimized = df.copy()

# Числовые столбцы
df_optimized['price'] = df_optimized['price'].astype('uint32')
df_optimized['area'] = df_optimized['area'].astype('uint16')
df_optimized['bedrooms'] = df_optimized['bedrooms'].astype('uint8')
df_optimized['bathrooms'] = df_optimized['bathrooms'].astype('uint8')
df_optimized['stories'] = df_optimized['stories'].astype('uint8')
df_optimized['parking'] = df_optimized['parking'].astype('uint8')

# Категориальные столбцы с бинарными значениями
binary_columns = ['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea']
for col in binary_columns:
    df_optimized[col] = df_optimized[col].map({'yes': True, 'no': False}).astype('bool')

# Категориальный столбец с несколькими значениями
df_optimized['furnishingstatus'] = df_optimized['furnishingstatus'].astype('category')

# Потребление памяти после оптимизации
memory_after = df_optimized.memory_usage(deep=True).sum()
print(f"\nПотребление памяти после оптимизации: {memory_after / 1024:.2f} KB")
print(f"Экономия памяти: {(memory_before - memory_after) / 1024:.2f} KB ({((memory_before - memory_after) / memory_before * 100):.1f}%)")

# Вывод информации об оптимизированных типах
print("\nОптимизированные типы данных:")
print(df_optimized.dtypes)



Потребление памяти после оптимизации: 9.46 KB
Экономия памяти: 212.46 KB (95.7%)

Оптимизированные типы данных:
price                 uint32
area                  uint16
bedrooms               uint8
bathrooms              uint8
stories                uint8
mainroad                bool
guestroom               bool
basement                bool
hotwaterheating         bool
airconditioning         bool
parking                uint8
prefarea                bool
furnishingstatus    category
dtype: object
