«Модель прогнозирования стоимости жилья для агентства недвижимости»



Дипломный проект

Data Science

Описание данных:

'status' — статус продажи;
'private pool' и 'PrivatePool' — наличие собственного бассейна;
'propertyType' — тип объекта недвижимости;
'street' — адрес объекта;
'baths' — количество ванных комнат;
'homeFacts' — сведения о строительстве объекта (содержит несколько
типов сведений, влияющих на оценку объекта);

'fireplace' — наличие камина;
'city' — город;
'schools' — сведения о школах в районе;
'sqft' — площадь в футах;
'zipcode' — почтовый индекс;
'beds' — количество спален;
'state' — штат;
'stories' — количество этажей;
'mls-id' и 'MlsId' — идентификатор MLS (Multiple Listing Service, система
мультилистинга);

target' — цена объекта недвижимости (целевой признак, который
необходимо спрогнозировать).

In [302]:
import numpy as np
import pandas as pd
import re
from geopy.geocoders import Nominatim
from fake_useragent import UserAgent
from geopy.exc import GeocoderTimedOut, GeocoderUnavailable
from geopy.exc import GeocoderServiceError

Предварительный просмотр

In [303]:
df = pd.read_csv('data/data.csv')
display(df.head())
df.info()

Unnamed: 0,status,private pool,propertyType,street,baths,homeFacts,fireplace,city,schools,sqft,zipcode,beds,state,stories,mls-id,PrivatePool,MlsId,target
0,Active,,Single Family Home,240 Heather Ln,3.5,"{'atAGlanceFacts': [{'factValue': '2019', 'fac...",Gas Logs,Southern Pines,"[{'rating': ['4', '4', '7', 'NR', '4', '7', 'N...",2900,28387,4,NC,,,,611019,"$418,000"
1,for sale,,single-family home,12911 E Heroy Ave,3 Baths,"{'atAGlanceFacts': [{'factValue': '2019', 'fac...",,Spokane Valley,"[{'rating': ['4/10', 'None/10', '4/10'], 'data...","1,947 sqft",99216,3 Beds,WA,2.0,,,201916904,"$310,000"
2,for sale,,single-family home,2005 Westridge Rd,2 Baths,"{'atAGlanceFacts': [{'factValue': '1961', 'fac...",yes,Los Angeles,"[{'rating': ['8/10', '4/10', '8/10'], 'data': ...","3,000 sqft",90049,3 Beds,CA,1.0,,yes,FR19221027,"$2,895,000"
3,for sale,,single-family home,4311 Livingston Ave,8 Baths,"{'atAGlanceFacts': [{'factValue': '2006', 'fac...",yes,Dallas,"[{'rating': ['9/10', '9/10', '10/10', '9/10'],...","6,457 sqft",75205,5 Beds,TX,3.0,,,14191809,"$2,395,000"
4,for sale,,lot/land,1524 Kiscoe St,,"{'atAGlanceFacts': [{'factValue': '', 'factLab...",,Palm Bay,"[{'rating': ['4/10', '5/10', '5/10'], 'data': ...",,32908,,FL,,,,861745,"$5,000"


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 377185 entries, 0 to 377184
Data columns (total 18 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   status        337267 non-null  object
 1   private pool  4181 non-null    object
 2   propertyType  342452 non-null  object
 3   street        377183 non-null  object
 4   baths         270847 non-null  object
 5   homeFacts     377185 non-null  object
 6   fireplace     103115 non-null  object
 7   city          377151 non-null  object
 8   schools       377185 non-null  object
 9   sqft          336608 non-null  object
 10  zipcode       377185 non-null  object
 11  beds          285903 non-null  object
 12  state         377185 non-null  object
 13  stories       226470 non-null  object
 14  mls-id        24942 non-null   object
 15  PrivatePool   40311 non-null   object
 16  MlsId         310305 non-null  object
 17  target        374704 non-null  object
dtypes: object(18)
memory usa

Пропуски

In [304]:
missing_data = df.isnull().sum()

In [305]:
for column_name, missing_count in missing_data.items():
    if missing_count > 0:
        percentage = (missing_count / len(df)) * 100
        print(f'{column_name}: {missing_count} пропусков ({percentage:.2f}%)')

status: 39918 пропусков (10.58%)
private pool: 373004 пропусков (98.89%)
propertyType: 34733 пропусков (9.21%)
street: 2 пропусков (0.00%)
baths: 106338 пропусков (28.19%)
fireplace: 274070 пропусков (72.66%)
city: 34 пропусков (0.01%)
sqft: 40577 пропусков (10.76%)
beds: 91282 пропусков (24.20%)
stories: 150715 пропусков (39.96%)
mls-id: 352243 пропусков (93.39%)
PrivatePool: 336874 пропусков (89.31%)
MlsId: 66880 пропусков (17.73%)
target: 2481 пропусков (0.66%)


Явные дубликаты

In [306]:

rows_before = df.shape[0] #удалим дубликаты
df = df.drop_duplicates(ignore_index=True)
rows_after = df.shape[0]
duplicates_removed = rows_before - rows_after
print(f'Удалено {duplicates_removed} дубликатов')

Удалено 50 дубликатов


Дополнительные дубликты

In [307]:
print(df['private pool'].unique())
print(df['PrivatePool'].unique())

[nan 'Yes']
[nan 'yes' 'Yes']


In [308]:

df['pool_encoded'] = df['private pool'].combine_first(df['PrivatePool'])
df = df.drop(['PrivatePool', 'private pool', 'MlsId', 'mls-id'], axis=1)
df['pool_encoded'] = df['pool_encoded'].fillna(False)
df['pool_encoded'] = df['pool_encoded'].replace(['yes', 'Yes'], True)
rows_before = df.shape[0] #удалим дубликаты
df = df.drop_duplicates(ignore_index=True)
rows_after = df.shape[0]
duplicates_removed = rows_before - rows_after
print(f'Удалено {duplicates_removed} дубликатов')

Удалено 91 дубликатов


Признак homeFacts

In [309]:
missing_values_count = df.homeFacts.isna().sum()
total_count = len(df)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df.homeFacts.nunique()}\n"
f"Уникальные значения: {list(df.homeFacts.unique()[:1])}")

Пропущенные значения: 0
Пропущенные значения: 0.00%
Уникальные значения: 321009
Уникальные значения: ["{'atAGlanceFacts': [{'factValue': '2019', 'factLabel': 'Year built'}, {'factValue': '', 'factLabel': 'Remodeled year'}, {'factValue': 'Central A/C, Heat Pump', 'factLabel': 'Heating'}, {'factValue': '', 'factLabel': 'Cooling'}, {'factValue': '', 'factLabel': 'Parking'}, {'factValue': None, 'factLabel': 'lotsize'}, {'factValue': '$144', 'factLabel': 'Price/sqft'}]}"]


In [310]:
label = df.homeFacts.str.findall(r"\bfactLabel': ([\s\S]+?)[}\b]")
label[100]

["'Year built'",
 "'Remodeled year'",
 "'Heating'",
 "'Cooling'",
 "'Parking'",
 "'lotsize'",
 "'Price/sqft'"]

In [311]:
Value = df.homeFacts.str.findall(r"\bfactValue': ([\s\S]+?), 'factLabel\b")
Value[:10]

0    ['2019', '', 'Central A/C, Heat Pump', '', '',...
1    ['2019', '', '', '', '', '5828 sqft', '$159/sq...
2    ['1961', '1967', 'Forced Air', 'Central', 'Att...
3    ['2006', '2006', 'Forced Air', 'Central', 'Det...
4            ['', '', '', '', '', '10,019 sqft', None]
5    ['1920', '', 'Forced Air', 'Central', '', '680...
6    ['2006', '2006', 'Electric, Heat Pump', 'Centr...
7    ['1976', '', '', '', '', '8,750 Sq. Ft.', '$57...
8    ['1970', '', 'Forced Air', 'Central', '', '124...
9    ['2019', None, 'Gas', 'Central', 'Attached Gar...
Name: homeFacts, dtype: object

In [312]:
list_label = ','.join(label[0]).replace("'","").split(',')
list_label

['Year built',
 'Remodeled year',
 'Heating',
 'Cooling',
 'Parking',
 'lotsize',
 'Price/sqft']

In [313]:
for i, val in enumerate(list_label):
    df[val]=Value.apply(lambda x: x[i])

In [314]:
# удаляем признак homeFacts 
df = df.drop('homeFacts', axis=1)

 Признак propertyType

In [315]:
missing_values_count = df.propertyType.isna().sum()
total_count = len(df)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
      f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
      f"Уникальные значения: {df.propertyType.nunique()}\n"
      f"Уникальные значения: {list(df.propertyType.unique()[:10])}")

Пропущенные значения: 34725
Пропущенные значения: 9.21%
Уникальные значения: 1280
Уникальные значения: ['Single Family Home', 'single-family home', 'lot/land', 'townhouse', 'Florida', nan, 'Single Family', 'coop', 'English', '2 Story']


In [317]:
df.propertyType = df.propertyType.str.lower()
missing_values_count = df.propertyType.isna().sum()
total_count = len(df)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
      f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
      f"Уникальные значения: {df.propertyType.nunique()}\n"
      f"Уникальные значения: {list(df.propertyType.unique()[:10])}")

Пропущенные значения: 34725
Пропущенные значения: 9.21%
Уникальные значения: 1272
Уникальные значения: ['single family home', 'single-family home', 'lot/land', 'townhouse', 'florida', nan, 'single family', 'coop', 'english', '2 story']


In [318]:
df.propertyType = df.propertyType \
.str.replace('single-family home','single family') \
.str.replace('single family home','single family') \
.str.replace('yes','Other') \
.str.replace('unknown','Other')
df['Type'] = df['propertyType'].str.split(',').str[0]

In [319]:
missing_values_count = df.Type.isna().sum()
total_count = len(df)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
      f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
      f"Уникальные значения: {df.Type.nunique()}\n"
      f"Уникальные значения: {list(df.Type.unique()[:10])}")

Пропущенные значения: 34725
Пропущенные значения: 9.21%
Уникальные значения: 256
Уникальные значения: ['single family', 'lot/land', 'townhouse', 'florida', nan, 'coop', 'english', '2 story', 'multi-family', 'penthouse']


In [320]:
synonyms_mapping = {
    'single_family_home': [
        'single family', '1 story', '2 story', 'detached', '1 story/ranch', '1 story traditional', 'single detached', 'singlefamilyresidence', 'single wide', 'single-wide mobile with land',
        'two story', 'one story', 'one level unit', 'rancher', '1 1/2 story', 'single wide mh', 'one story traditional'],
    'multi_family_home': [
        'multi-family', 'multi-family home', 'duplex', 'triplex', 'fourplex', 'multi_level', 'multi family', '2 unit condo', '2-story'],
    'condo': [
        'condo', 'coop', 'cooperative', 'condo/townhome/row home/co-op', 'condo/townhome', 'condominium', 'condo/unit', 'apartment/condo/townhouse', 'co-op', '2 story condo', 'high rise'],
    'townhouse': [
        'townhouse', 'townhome style', 'townhouse-interior', 'townhouse-end unit'],
    'apartment': [
        'apartment', 'condominium (single level)', 'high-rise', 'mid-rise', 'low-rise (1-3 stories)', 'Flats', 'studio'],
    'land': [
        'lot/land', 'land'],
    'mobile_home': [
        'mobile/manufactured', 'mobile / manufactured', 'manufactured house', 'mfd/mobile home', 'mobile home', 'manufactured home', 'manufactured double-wide', 'manufactured single-wide', 'mobile home 1 story', 'mobile manu - double wide'],
    'miscellaneous': [
        'miscellaneous'],
    'ranch': [
        'ranch', 'one story'],
    'modern': [
        'contemporary', 'contemporary/modern', "modern", 'mid-century modern', 'modern farmhouse', 'modernist'],
    'historical': [
        'historical', 'designated historical home', 'historical/conservation district', 'historic/older', 'historic vintage', 'historic'],
    'other': [
        'Other', 'english', 'urban contemporary', 'other style', 'florida', 'farms/ranches', 'carriage house', 'country english', 'straight thru', 'less than 4 floors', 'bungalow', 'custom', 'arts & crafts', 'tudor', 'new build 2019', 'split foyer', 'cottage', 'cottage/camp', 'garden home', 'farm/ranch', 'farm/ranch house', 'farm house', 'hi ranch', 'attached duplex', 'farmhouse', 'houseboat', 'ground floor', 'victorian', '3 story', '3+ stories', 'santa barbara/tuscan', 'old style', 'modular/prefab', 'post and beam', 'manuf/mobile', 'multiple occupancy', 'attached', 'hawaiian plantation', 'forest garden home', '1 1/2 story with basement', 'split-entry', 'texas hill country', 'lake house', '1 story with basement', 'hi-rise', 'coastal beach home', 'historical', 'key west/coastal', 'loft/balcony', 'english manor', 'mid-rise (4-7 stories)', 'mid-level', 'new englander', 'residential (<1 acre)', 'ranch','residential (1+ acre)', 'split', 'split level', 'split (4 level)', 'split (5+ level)', 'urban', 'patio', 'patio home', 'penthouse', 'manor', 'victorian/federal', 'coastal', 'coastal contemporary', 'coastal ii', 'coastal modern', 'coastal two story', 'mountain contemporary', 'key west', 'high ranch', 'end unit']
}


def replace_synonyms(value):
    for key, synonym_values in synonyms_mapping.items():
        if value in synonym_values:
            return key
    return "other"

In [321]:
df['Type'] = df['Type'].apply(replace_synonyms)
missing_values_count = df.Type.isna().sum()
total_count = len(df)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
      f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
      f"Уникальные значения: {df.Type.nunique()}\n"
      f"Уникальные значения: {list(df.Type.unique()[:10])}")

Пропущенные значения: 0
Пропущенные значения: 0.00%
Уникальные значения: 12
Уникальные значения: ['single_family_home', 'land', 'townhouse', 'other', 'condo', 'multi_family_home', 'mobile_home', 'apartment', 'modern', 'miscellaneous']


In [322]:
# удаляем propertyType 
df.drop('propertyType', axis=1, inplace=True)

In [323]:
df1=df.copy()

Признак Remodeled year

In [324]:
df1['Remodeled year'] = df1['Remodeled year'].str.replace("'",'', regex=True)
mask= df1['Remodeled year'].isin(['', '0', '1111'])
df1.loc[mask,'Remodeled year'] = 'None' #уникальные значения
display(df1['Remodeled year'].sort_values().unique()[:10])

array(['1738', '1800', '1845', '1846', '1853', '1862', '1869', '1870',
       '1874', '1876'], dtype=object)

In [325]:
missing_values_count = df1['Remodeled year'].isna().sum()
total_count = len(df1)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df1['Remodeled year'].nunique()}\n"
f"Уникальные значения: {list(df1['Remodeled year'].sort_values().unique()[:10])}")

Пропущенные значения: 0
Пропущенные значения: 0.00%
Уникальные значения: 152
Уникальные значения: ['1738', '1800', '1845', '1846', '1853', '1862', '1869', '1870', '1874', '1876']


In [326]:
#None
print(f"Процент None: {round(df1[df1['Remodeled year']=='None'].shape[0]/df.shape[0]*100, 2)}%")
print(f"Количество None: {df1.loc[df1['Remodeled year']=='None', 'Remodeled year'].count()}")

Процент None: 60.0%
Количество None: 226242


In [327]:
# удаляем 'Remodeled year'
df1 = df1.drop('Remodeled year', axis=1)

признак Cooling

In [328]:
df1['Cooling'].str.lower().value_counts().head(10)

'central'             158742
''                    120308
'central air'          14384
'no data'              10615
'has cooling'           9730
'none'                  7390
'central electric'      6154
'wall'                  4017
'central gas'           3573
none                    3533
Name: Cooling, dtype: int64

In [329]:
df1['Cooling'] = df1['Cooling'].str.replace("'",'', regex=True)
df1['Cooling_encoded'] = df1['Cooling'].apply(lambda x: True if x not in ['', 'no data', 'None', 'none'] else False)

In [330]:
# удаляем признак 'Cooling'
df1= df1.drop('Cooling', axis=1)

Признак Heating

In [331]:
display(df1['Heating'].str.lower().value_counts().head(10))

'forced air'          134307
''                    105672
'other'                29622
'electric'             10216
'gas'                   9295
'heat pump'             8851
'no data'               8610
'central air'           7814
'central electric'      7112
'central'               6247
Name: Heating, dtype: int64

In [332]:
df1['Heating'] = df1['Heating'].str.replace("'",'', regex=True)
df1['Heating_encoded'] = df1['Heating'].apply(lambda x: True if x not in ['', 'no data', 'None', 'none'] else False)

In [333]:
missing_values_count = df1['Heating_encoded'].isna().sum()
total_count = len(df1)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения:: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df1['Heating_encoded'].nunique()}\n"
f"Уникальные значения: {list(df1['Heating_encoded'].sort_values().unique())}")

Пропущенные значения: 0
Пропущенные значения:: 0.00%
Уникальные значения: 2
Уникальные значения: [False, True]


In [334]:
# удаляем признак 'Heating'
df1= df1.drop('Heating', axis=1)

Признак city

In [335]:
df1['city'] = df1['city'].str.title()
missing_values_count = df1['city'].isna().sum()
total_count = len(df1)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df1['city'].nunique()}\n"
f"Уникальные значения: {list(df1['city'].sort_values().unique()[:10])}")

Пропущенные значения: 32
Пропущенные значения: 0.01%
Уникальные значения: 1909
Уникальные значения: [' ', '--', 'Abilene', 'Abingdon', 'Accokeek', 'Adams', 'Addison', 'Adel', 'Adelphi', 'Advance']


In [336]:
df1['city'].str.lower().value_counts().sort_index().head(10)

             25
--            9
abilene     134
abingdon    116
accokeek      3
adams         5
addison      25
adel         13
adelphi       6
advance       3
Name: city, dtype: int64

In [337]:

df1['city'] = df1['city'].str.replace(' City', '') 
initial_row_count = df1.shape[0]
df1 = df1[~df1['city'].isin([' ', '--', np.nan])]
removed_row_count = initial_row_count - df1.shape[0]
print(f"Удаленные строки: {removed_row_count}")


Удаленные строки: 66


In [338]:
missing_values_count = df1['city'].isna().sum()
total_count = len(df1)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df1['city'].nunique()}\n"
f"Уникальные значения: {list(df1['city'].sort_values().unique()[:10])}")

Пропущенные значения: 0
Пропущенные значения: 0.00%
Уникальные значения: 1897
Уникальные значения: ['Abilene', 'Abingdon', 'Accokeek', 'Adams', 'Addison', 'Adel', 'Adelphi', 'Advance', 'Akron', 'Alamo Heights']


Признак sqft

In [339]:
missing_values_count = df1['sqft'].isna().sum()
total_count = len(df1)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df1['sqft'].nunique()}\n"
f"Уникальные значения: {list(df1['sqft'].sort_values().unique()[:10])}")

Пропущенные значения: 40517
Пропущенные значения: 10.75%
Уникальные значения: 25396
Уникальные значения: ['--', '-- sqft', '0', '1', '1 sqft', '1,000', '1,000 sqft', '1,001', '1,001 sqft', '1,002']


In [340]:
s_sqft = df1.sqft[df1.sqft.notna()]
s_sqft = s_sqft.str.findall(r"\d+")
s_sqft = s_sqft.apply(lambda x: ''.join(x))
df1.loc[df1.sqft.notna(), 'sqft']=s_sqft
df1.sqft = df1.sqft.fillna(0)
df1.loc[df1.sqft=='','sqft']=0
df1.sqft = df1.sqft.astype(int)

In [341]:
selected_rows = df1[(df1['sqft'] == 0) & ((df1['Type'] == 'other') | (df1['Type'] == 'land') | (df1['Type'] == 'ranch'))]
percent_selected = len(selected_rows) / len(df1) * 100
# Выводим полученные строки и процент выбранных строк
print(f"Выбранные строки: {len(selected_rows)}")
print(f"Выбранные строки: {percent_selected:.2f}%")

Выбранные строки: 46146
Выбранные строки: 12.24%


In [342]:
selected_rows = df1[(df1['sqft'] == 0) & ~(df1['Type'].isin(['other', 'land', 'ranch']))]
unique_statuses = selected_rows['Type'].unique()
# Выводим полученные строки и процент выбранных строк
percent_selected = len(selected_rows) / len(df1) * 100
print(f"Выбранные строки: {len(selected_rows)}")
print(f"Выбранные строки: {percent_selected:.2f}%")

Выбранные строки: 6981
Выбранные строки: 1.85%


Признак zipcode

In [343]:
df2=df1.copy()

In [344]:
missing_values_count = df2['zipcode'].isna().sum()
total_count = len(df2)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df2['zipcode'].nunique()}\n"
f"Уникальные значения: {list(df2['zipcode'].sort_values().unique()[:10])}")

Пропущенные значения: 0
Пропущенные значения: 0.00%
Уникальные значения: 4549
Уникальные значения: ['--', '0', '00000', '02108', '02109', '02110', '02111', '02113', '02114', '02115']


In [345]:
df2[(df2['zipcode']=='--') | (df2['zipcode']=='0')| (df2['zipcode']=='00000') ]

Unnamed: 0,status,street,baths,fireplace,city,schools,sqft,zipcode,beds,state,stories,target,pool_encoded,Year built,Parking,lotsize,Price/sqft,Type,Cooling_encoded,Heating_encoded
30258,Active,Gates Canyon Rd,,,Vacaville,"[{'rating': ['7', '4', '6', '6', '10', '2'], '...",0,0,,CA,,"$380,000",False,'','','222156',,land,False,False
83514,New,Cornejo Ricardo Descalzi,,,Quito Ecuador,"[{'rating': [], 'data': {'Distance': [], 'Grad...",0,0,,NY,,470000,False,'1995','','—',,other,True,False
231230,New construction,0 N Gopher Canyon Rd,,,Bonsall,"[{'rating': ['7/10', '7/10', '3/10'], 'data': ...",0,--,449 acres,CA,,"$60,000,000",False,'','','','',other,False,False
235154,,1744 N Dixie Hwy # 1744,3.0,,Fort Lauderdale,"[{'rating': ['3/10', '5/10', '7/10'], 'data': ...",2043,--,3,FL,,"$425,000",False,'2010','No Data','No Data','$208',townhouse,True,True
305481,for sale,000 U.S. Hwy 359,,,Laredo,"[{'rating': ['4/10'], 'data': {'Distance': ['7...",243849,0,,TX,,"$1,740,000",False,'','','58.00 acres','$7/sqft',land,False,False
308135,Active,435 pescador,,,Foreign Country,"[{'rating': [], 'data': {'Distance': [], 'Grad...",1100,00000,,OS,,125000,False,'1972','','—','$114 / Sq. Ft.',other,False,False


In [346]:
indexes_to_drop = df2[(df2['zipcode']=='--') | (df2['zipcode']=='0')| (df2['zipcode']=='00000')].index
df2 = df2.drop(indexes_to_drop)
df2.zipcode.sort_values().unique()[:10]

array(['02108', '02109', '02110', '02111', '02113', '02114', '02115',
       '02116', '02118', '02119'], dtype=object)

In [347]:
df2.zipcode = df2.zipcode.str.replace("-.+",'', regex=True)
df2.zipcode.sort_values().unique()[:10]

array(['02108', '02109', '02110', '02111', '02113', '02114', '02115',
       '02116', '02118', '02119'], dtype=object)

Признак beds

In [348]:
missing_values_count = df2['beds'].isna().sum()
total_count = len(df2)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df2['beds'].nunique()}\n"
f"Уникальные значения: {list(df2['beds'].sort_values().unique()[:10])}")

Пропущенные значения: 91156
Пропущенные значения: 24.18%
Уникальные значения: 1181
Уникальные значения: [' ', '# Bedrooms 1st Floor', '-- bd', '-- sqft', '0', '0.0', '0.25 acres', '0.26 acres', '0.27 acres', '0.28 acres']


In [349]:
# удаляем признак Beds
df2 = df2.drop('beds', axis=1)

Признак stories

In [350]:
missing_values_count = df2['stories'].isna().sum()
total_count = len(df2)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df2['stories'].nunique()}\n"
f"Уникальные значения: {list(df2['stories'].sort_values().unique()[:10])}")

Пропущенные значения: 150516
Пропущенные значения: 39.93%
Уникальные значения: 347
Уникальные значения: [', 1', ', 2', ', 3', '0', '0.0', '1', '1 1/2 Levels', '1 1/2 Story', '1 Level', '1 Level, 1.5 Level']


In [351]:
df2[df2.stories.isna()].Type.value_counts()

single_family_home    46300
other                 36999
land                  28817
condo                 24355
multi_family_home      5212
townhouse              3937
mobile_home            1499
ranch                  1389
modern                 1129
apartment               824
historical               44
miscellaneous            11
Name: Type, dtype: int64

In [352]:
# удаляем признак Beds
df2 = df2.drop('stories', axis=1)

Признак Target

In [353]:
missing_values_count = df2['target'].isna().sum()
total_count = len(df2)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
f"Уникальные значения: {df2['target'].nunique()}\n"
f"Уникальные значения: {list(df2['target'].sort_values().unique()[:10])}")

Пропущенные значения: 2475
Пропущенные значения: 0.66%
Уникальные значения: 43937
Уникальные значения: ['$1', '$1,000', '$1,000,000', '$1,000,000+', '$1,000,036', '$1,000,050', '$1,000,100', '$1,000,898', '$1,000/mo', '$1,001,713']


In [354]:
df2 = df2.dropna(subset=['target'])
df2.loc[:,'target'] = df2.loc[:,'target'].str.replace('[^0-9]','',regex=True)
df2.target = df2.target.astype(int)
display(df2[df2['target'] == df2['target']. min ()].head())
display(df2[df2['target'] == df2['target']. max ()].head())

Unnamed: 0,status,street,baths,fireplace,city,schools,sqft,zipcode,state,target,pool_encoded,Year built,Parking,lotsize,Price/sqft,Type,Cooling_encoded,Heating_encoded
15533,Active,1230 Old Dickerson Rd,2.0,,Goodlettsville,"[{'rating': ['3', '2', '3', '3', '2', '1', 'NR...",1596,37072,TN,1,False,'1940',"'Detached, ASPHT'",'87120','No Info',single_family_home,False,True
25334,,3205 N High School Rd,1.0,Yes,Indianapolis,"[{'rating': ['2/10', 'NA', '1/10'], 'data': {'...",1586,46224,IN,1,False,'1957','Detached Garage','0.54 acres',,single_family_home,True,True
84943,foreclosure,7804 Hamilton Ave,,yes,Cincinnati,"[{'rating': ['2/10'], 'data': {'Distance': ['0...",2536,45231,OH,1,False,'1865','Detached Garage','0.31 acres','$0/sqft',land,True,False
148219,Active,Cummings St,,,Huntley,"[{'rating': [], 'data': {'Distance': [], 'Grad...",0,60142,IL,1,False,'','','1558141',,land,False,False
205315,Active,Route 47 Hwy,,,Huntley,"[{'rating': ['8', '9', '8', '7', '7', 'NR'], '...",0,60142,IL,1,False,'','','671260',,land,False,False


Unnamed: 0,status,street,baths,fireplace,city,schools,sqft,zipcode,state,target,pool_encoded,Year built,Parking,lotsize,Price/sqft,Type,Cooling_encoded,Heating_encoded
132407,For sale,875 Nimes Rd,18.0,Yes,Los Angeles,"[{'rating': ['10/10', '7/10'], 'data': {'Dista...",0,90077,CA,195000000,True,'1935','40 spaces','6.49 acres','No Data',single_family_home,True,True


In [355]:
count = len(df2[df2['target'] < 900])
percentage = count / len(df2) * 100
print(f"Количество строк: {count}")
print(f"Процент строк: {percentage:.2f}%")

Количество строк: 91
Процент строк: 0.02%


In [356]:
df2 = df2.drop(df2[df2['target'] < 900].index)

In [357]:
display(df2[df2['target'] == df2['target']. min ()].head())

Unnamed: 0,status,street,baths,fireplace,city,schools,sqft,zipcode,state,target,pool_encoded,Year built,Parking,lotsize,Price/sqft,Type,Cooling_encoded,Heating_encoded
15005,,3110 4th Street Cir,,,Jacksonville,"[{'rating': ['2/10', '2/10', '3/10'], 'data': ...",0,32254,FL,900,False,,'No Data',,'$1',single_family_home,True,True
82420,for rent,378 Old Grist Mill Blvd,,,Gray,"[{'rating': ['6/10', '8/10'], 'data': {'Distan...",804,37615,TN,900,False,'','Garage Attached','',,single_family_home,False,False
115104,for rent,105 Alma Ave,,,Buffalo,"[{'rating': ['1/10', '4/10', 'None/10', '5/10'...",1400,14215,NY,900,False,'1920','','',,multi_family_home,False,False


In [358]:
missing_data = df2.isnull().sum()
missing_columns = missing_data[missing_data > 0]

if missing_columns.empty:
    print('Пропуски отсутствуют')
else:
    for column_name in missing_columns.index:
        missing_count = missing_columns[column_name]
        percentage = (missing_count / len(df2)) * 100
        print(f'{column_name}: {missing_count} Пропуски ({percentage:.2f}%)')

status: 39238 Пропуски (10.48%)
street: 2 Пропуски (0.00%)
baths: 105187 Пропуски (28.09%)
fireplace: 271899 Пропуски (72.62%)


In [359]:
# удаляем признаки status и baths
df2.drop('status', axis=1, inplace=True)
df2.drop('baths', axis=1, inplace=True)

признак Fireplace

In [360]:
df2['fireplace'].str.lower().value_counts().head(10)

yes               70624
1                 14532
2                  2432
not applicable     1990
fireplace           847
3                   563
living room         433
location            399
wood burning        311
gas/gas logs        300
Name: fireplace, dtype: int64

In [361]:
df2['fireplace_encoded'] = df1['fireplace'].apply(lambda x: True if x not in ['', 'no data', 'None', 'none', '0', 'not applicable', 'no'] and not pd.isna(x) else False)


In [362]:
# удаляем признак fireplace
df2.drop('fireplace', axis=1, inplace=True)

Признак  Street

In [363]:
missing_values_count = df2.street.isna().sum()
total_count = len(df)
missing_values_percentage = (missing_values_count / total_count) * 100

print(f"Пропущенные значения: {missing_values_count}\n"
      f"Пропущенные значения: {missing_values_percentage:.2f}%\n"
      f"Уникальные значения: {df.street.nunique()}")

Пропущенные значения: 2
Пропущенные значения: 0.00%
Уникальные значения: 337076


In [364]:
# удаляем строки, где есть пропуски в столбце street
df2 = df2.dropna(subset=['street'])

In [365]:
df3=df2.copy()

In [366]:
missing_data = df3.isnull().sum()
missing_columns = missing_data[missing_data > 0]

if missing_columns.empty:
    print('Пропуски отсутствуют')
else:
    for column_name in missing_columns.index:
        missing_count = missing_columns[column_name]
        percentage = (missing_count / len(df2)) * 100
        print(f'{column_name}: {missing_count} Пропуски ({percentage:.2f}%)')

Пропуски отсутствуют


In [367]:
df3.duplicated().sum() 

42

In [368]:
# Удаляем дубликаты
df3 = df3.drop_duplicates(ignore_index=True)