In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
import numpy as np
import matplotlib.pyplot as plt
from prepare_data_framework import Data_Preparer as dp

In [2]:
data = pd.read_csv('train.csv')

In [3]:
tdata = data.copy()
tdata['MSSubClass'] = tdata['MSSubClass'].astype('str')

In [4]:
data.sample(5)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
1106,1107,20,RL,114.0,10357,Pave,,IR1,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,179900
1297,1298,180,RM,35.0,3675,Pave,,Reg,Lvl,AllPub,...,0,,,,0,6,2006,New,Partial,140000
238,239,20,RL,93.0,12030,Pave,,Reg,Lvl,AllPub,...,0,,,,0,12,2007,New,Partial,318000
675,676,160,RL,24.0,2289,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2009,WD,Normal,148500
1115,1116,20,RL,93.0,12085,Pave,,Reg,Lvl,AllPub,...,0,,,,0,11,2007,New,Partial,318000


In [5]:
data.shape

(1460, 81)

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [7]:
preparer = dp(data, cat_threshold=25)

In [8]:
nan_cols = preparer.print_nans()
nan_cols

LotFrontage: Количество NANов: 259, Относительное кол-во NANов: 0.177, Тип признака: float64
Alley: Количество NANов: 1369, Относительное кол-во NANов: 0.938, Тип признака: object
MasVnrType: Количество NANов: 872, Относительное кол-во NANов: 0.597, Тип признака: object
MasVnrArea: Количество NANов: 8, Относительное кол-во NANов: 0.005, Тип признака: float64
BsmtQual: Количество NANов: 37, Относительное кол-во NANов: 0.025, Тип признака: object
BsmtCond: Количество NANов: 37, Относительное кол-во NANов: 0.025, Тип признака: object
BsmtExposure: Количество NANов: 38, Относительное кол-во NANов: 0.026, Тип признака: object
BsmtFinType1: Количество NANов: 37, Относительное кол-во NANов: 0.025, Тип признака: object
BsmtFinType2: Количество NANов: 38, Относительное кол-во NANов: 0.026, Тип признака: object
Electrical: Количество NANов: 1, Относительное кол-во NANов: 0.001, Тип признака: object
FireplaceQu: Количество NANов: 690, Относительное кол-во NANов: 0.473, Тип признака: object
Garage

['LotFrontage',
 'Alley',
 'MasVnrType',
 'MasVnrArea',
 'BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinType2',
 'Electrical',
 'FireplaceQu',
 'GarageType',
 'GarageYrBlt',
 'GarageFinish',
 'GarageQual',
 'GarageCond',
 'PoolQC',
 'Fence',
 'MiscFeature']

In [9]:
num_cols, cat_cols, other_cols = preparer.get_columns_type(cat_threshold=25)

Id: int64

Id
1       1
982     1
980     1
979     1
978     1
       ..
485     1
484     1
483     1
482     1
1460    1
Name: count, Length: 1460, dtype: int64

1460

MSSubClass: int64

MSSubClass
20     536
60     299
50     144
120     87
30      69
160     63
70      60
80      58
90      52
190     30
85      20
75      16
45      12
180     10
40       4
Name: count, dtype: int64

15

MSZoning: object

MSZoning
RL         1151
RM          218
FV           65
RH           16
C (all)      10
Name: count, dtype: int64

5

LotFrontage: float64

LotFrontage
60.0     143
70.0      70
80.0      69
50.0      57
75.0      53
        ... 
137.0      1
141.0      1
38.0       1
140.0      1
46.0       1
Name: count, Length: 110, dtype: int64

110

LotArea: int64

LotArea
7200     25
9600     24
6000     17
9000     14
8400     14
         ..
14601     1
13682     1
4058      1
17104     1
9717      1
Name: count, Length: 1073, dtype: int64

1073

Street: object

Street
Pave    1454
Grvl 

In [10]:
cat_cols

['MSSubClass',
 'MSZoning',
 'Street',
 'Alley',
 'LotShape',
 'LandContour',
 'Utilities',
 'LotConfig',
 'LandSlope',
 'Neighborhood',
 'Condition1',
 'Condition2',
 'BldgType',
 'HouseStyle',
 'OverallQual',
 'OverallCond',
 'RoofStyle',
 'RoofMatl',
 'Exterior1st',
 'Exterior2nd',
 'MasVnrType',
 'ExterQual',
 'ExterCond',
 'Foundation',
 'BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinType2',
 'Heating',
 'HeatingQC',
 'CentralAir',
 'Electrical',
 'LowQualFinSF',
 'BsmtFullBath',
 'BsmtHalfBath',
 'FullBath',
 'HalfBath',
 'BedroomAbvGr',
 'KitchenAbvGr',
 'KitchenQual',
 'TotRmsAbvGrd',
 'Functional',
 'Fireplaces',
 'FireplaceQu',
 'GarageType',
 'GarageFinish',
 'GarageCars',
 'GarageQual',
 'GarageCond',
 'PavedDrive',
 '3SsnPorch',
 'PoolArea',
 'PoolQC',
 'Fence',
 'MiscFeature',
 'MiscVal',
 'MoSold',
 'YrSold',
 'SaleType',
 'SaleCondition']

In [11]:
preparer.print_feature_types()

Id: Тип признака: int64, Совпадает с истинным?: True
MSSubClass: Тип признака: int64, Совпадает с истинным?: True
MSZoning: Тип признака: object, Совпадает с истинным?: True
LotFrontage: Тип признака: float64, Совпадает с истинным?: True
LotArea: Тип признака: int64, Совпадает с истинным?: True
Street: Тип признака: object, Совпадает с истинным?: True
Alley: Тип признака: object, Совпадает с истинным?: True
LotShape: Тип признака: object, Совпадает с истинным?: True
LandContour: Тип признака: object, Совпадает с истинным?: True
Utilities: Тип признака: object, Совпадает с истинным?: True
LotConfig: Тип признака: object, Совпадает с истинным?: True
LandSlope: Тип признака: object, Совпадает с истинным?: True
Neighborhood: Тип признака: object, Совпадает с истинным?: True
Condition1: Тип признака: object, Совпадает с истинным?: True
Condition2: Тип признака: object, Совпадает с истинным?: True
BldgType: Тип признака: object, Совпадает с истинным?: True
HouseStyle: Тип признака: object, С

  check = int(self.data[col].sample())


[]

In [12]:
import seaborn as sns
sns.set_style('darkgrid')

In [13]:
data.drop(columns=nan_cols, inplace=True)


In [14]:
data

Unnamed: 0,Id,MSSubClass,MSZoning,LotArea,Street,LotShape,LandContour,Utilities,LotConfig,LandSlope,...,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,8450,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,0,0,0,0,0,2,2008,WD,Normal,208500
1,2,20,RL,9600,Pave,Reg,Lvl,AllPub,FR2,Gtl,...,0,0,0,0,0,5,2007,WD,Normal,181500
2,3,60,RL,11250,Pave,IR1,Lvl,AllPub,Inside,Gtl,...,0,0,0,0,0,9,2008,WD,Normal,223500
3,4,70,RL,9550,Pave,IR1,Lvl,AllPub,Corner,Gtl,...,272,0,0,0,0,2,2006,WD,Abnorml,140000
4,5,60,RL,14260,Pave,IR1,Lvl,AllPub,FR2,Gtl,...,0,0,0,0,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,7917,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,0,0,0,0,0,8,2007,WD,Normal,175000
1456,1457,20,RL,13175,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,0,0,0,0,0,2,2010,WD,Normal,210000
1457,1458,70,RL,9042,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,0,0,0,0,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,9717,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,112,0,0,0,0,4,2010,WD,Normal,142125


In [15]:
remain_cols = list(set(cat_cols) - set(nan_cols))
remain_cols

['OverallCond',
 'Fireplaces',
 'MSZoning',
 'Condition1',
 'MSSubClass',
 'OverallQual',
 'Exterior1st',
 'ExterQual',
 'BsmtFullBath',
 'Neighborhood',
 'HalfBath',
 'Exterior2nd',
 'RoofStyle',
 'MoSold',
 'ExterCond',
 'Street',
 'BldgType',
 'LandSlope',
 'HouseStyle',
 'YrSold',
 'CentralAir',
 'TotRmsAbvGrd',
 'Heating',
 'BedroomAbvGr',
 'SaleType',
 'Condition2',
 '3SsnPorch',
 'PoolArea',
 'KitchenAbvGr',
 'LotConfig',
 'KitchenQual',
 'RoofMatl',
 'PavedDrive',
 'GarageCars',
 'LandContour',
 'SaleCondition',
 'Functional',
 'FullBath',
 'LotShape',
 'LowQualFinSF',
 'BsmtHalfBath',
 'HeatingQC',
 'Foundation',
 'MiscVal',
 'Utilities']

In [16]:
le = LabelEncoder()
for col in remain_cols:
    data[col] = le.fit_transform(data[col])

data.head(5)

Unnamed: 0,Id,MSSubClass,MSZoning,LotArea,Street,LotShape,LandContour,Utilities,LotConfig,LandSlope,...,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,5,3,8450,1,3,3,0,4,0,...,0,0,0,0,0,1,2,8,4,208500
1,2,0,3,9600,1,3,3,0,2,0,...,0,0,0,0,0,4,1,8,4,181500
2,3,5,3,11250,1,0,3,0,4,0,...,0,0,0,0,0,8,2,8,4,223500
3,4,6,3,9550,1,0,3,0,0,0,...,272,0,0,0,0,1,0,8,0,140000
4,5,5,3,14260,1,0,3,0,2,0,...,0,0,0,0,0,11,2,8,4,250000


In [17]:
num_cols

['Id',
 'LotFrontage',
 'LotArea',
 'YearBuilt',
 'YearRemodAdd',
 'MasVnrArea',
 'BsmtFinSF1',
 'BsmtFinSF2',
 'BsmtUnfSF',
 'TotalBsmtSF',
 '1stFlrSF',
 '2ndFlrSF',
 'GrLivArea',
 'GarageYrBlt',
 'GarageArea',
 'WoodDeckSF',
 'OpenPorchSF',
 'EnclosedPorch',
 'ScreenPorch',
 'SalePrice']

In [22]:
num_cols = list(set(num_cols) - set(nan_cols))
num_cols.remove('SalePrice')
num_cols

['GrLivArea',
 'OpenPorchSF',
 'EnclosedPorch',
 'BsmtFinSF1',
 'ScreenPorch',
 'TotalBsmtSF',
 'BsmtUnfSF',
 '1stFlrSF',
 'YearRemodAdd',
 'WoodDeckSF',
 'YearBuilt',
 '2ndFlrSF',
 'GarageArea',
 'Id',
 'LotArea',
 'BsmtFinSF2']

In [24]:
num_cols.remove("Id")

In [25]:
# num_cols = list(set(num_cols) - set(nan_cols))
scaler = StandardScaler()
data[num_cols] = scaler.fit_transform(data[num_cols])
data.head(5)

Unnamed: 0,MSSubClass,MSZoning,LotArea,Street,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,...,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,5,3,-0.207142,1,3,3,0,4,0,5,...,-0.359325,0,-0.270208,0,0,1,2,8,4,208500
1,0,3,-0.091886,1,3,3,0,2,0,24,...,-0.359325,0,-0.270208,0,0,4,1,8,4,181500
2,5,3,0.07348,1,0,3,0,4,0,5,...,-0.359325,0,-0.270208,0,0,8,2,8,4,223500
3,6,3,-0.096897,1,0,3,0,0,0,6,...,4.092524,0,-0.270208,0,0,1,0,8,0,140000
4,5,3,0.375148,1,0,3,0,2,0,15,...,-0.359325,0,-0.270208,0,0,11,2,8,4,250000


In [20]:
data.drop(columns='Id', inplace= True)


In [None]:
data.to_csv("prepared_reg_data.csv")