# Linear Regression

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## About data

In [2]:
df = pd.read_csv("D:/Machine Learning/Новая папка/_DATA/Ames_NO_Missing_Data.csv")
df.head()

Unnamed: 0,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Lot Shape,Land Contour,Utilities,Lot Config,Land Slope,...,Enclosed Porch,3Ssn Porch,Screen Porch,Pool Area,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
0,20,RL,141.0,31770,Pave,IR1,Lvl,AllPub,Corner,Gtl,...,0,0,0,0,0,5,2010,WD,Normal,215000
1,20,RH,80.0,11622,Pave,Reg,Lvl,AllPub,Inside,Gtl,...,0,0,120,0,0,6,2010,WD,Normal,105000
2,20,RL,81.0,14267,Pave,IR1,Lvl,AllPub,Corner,Gtl,...,0,0,0,0,12500,6,2010,WD,Normal,172000
3,20,RL,93.0,11160,Pave,Reg,Lvl,AllPub,Corner,Gtl,...,0,0,0,0,0,4,2010,WD,Normal,244000
4,60,RL,74.0,13830,Pave,IR1,Lvl,AllPub,Inside,Gtl,...,0,0,0,0,0,3,2010,WD,Normal,189900


## Feature Engineering (one-hot encoding)

Признак MSSubClass содержит категориальные переменные, представленные в виде числовых значений. Данная числовая кодировка является номинальной и не отражает какой-либо линейной зависимости или порядка между категориями.

В целях избежания некорректной интерпретации этих значений при дальнейшем анализе и моделировании, необходимо преобразовать данный признак таким образом, чтобы исключить восприятие его как непрерывной числовой шкалы.

Для корректного использования признаков, содержащих категориальные данные, будет применено one-hot кодирование, в результате которого они будут преобразованы в набор фиктивных (dummy) переменных.

MSSubClass: Identifies the type of dwelling involved in the sale.	

        20	1-STORY 1946 & NEWER ALL STYLES
        30	1-STORY 1945 & OLDER
        40	1-STORY W/FINISHED ATTIC ALL AGES
        45	1-1/2 STORY - UNFINISHED ALL AGES
        50	1-1/2 STORY FINISHED ALL AGES
        60	2-STORY 1946 & NEWER
        70	2-STORY 1945 & OLDER
        75	2-1/2 STORY ALL AGES
        80	SPLIT OR MULTI-LEVEL
        85	SPLIT FOYER
        90	DUPLEX - ALL STYLES AND AGES
       120	1-STORY PUD (Planned Unit Development) - 1946 & NEWER
       150	1-1/2 STORY PUD - ALL AGES
       160	2-STORY PUD - 1946 & NEWER
       180	PUD - MULTILEVEL - INCL SPLIT LEV/FOYER
       190	2 FAMILY CONVERSION - ALL STYLES AND AGES


In [3]:
# Конвертация в строку
df['MS SubClass'] = df['MS SubClass'].apply(str)

Набор данных df разделён на два отдельных фрейма данных на основе типа данных. df_nums содержит все числовые признаки, тогда как df_objs включает в себя все категориальные (тип 'object') признаки. 

In [4]:
df_nums = df.select_dtypes(exclude='object')
df_objs = df.select_dtypes(include='object')

Для преобразования категориальных данных в числовой формат, необходимый для построения прогностических моделей, к фрейму данных df_objs применена процедура one-hot encoding. Использование параметра drop_first=True позволяет избежать мультиколлинеарности, удаляя одну из фиктивных (dummy) переменных для каждой исходной категории.

In [5]:
df_objs = pd.get_dummies(df_objs,drop_first=True)

После завершения этапов предварительной обработки, фреймы данных df_nums и df_objs объединены в единый набор данных final_df с использованием операции конкатенации по оси axis=1, что соответствует объединению по столбцам.

In [6]:
final_df = pd.concat([df_nums,df_objs],axis=1)

In [7]:
final_df

Unnamed: 0,Lot Frontage,Lot Area,Overall Qual,Overall Cond,Year Built,Year Remod/Add,Mas Vnr Area,BsmtFin SF 1,BsmtFin SF 2,Bsmt Unf SF,...,Sale Type_ConLw,Sale Type_New,Sale Type_Oth,Sale Type_VWD,Sale Type_WD,Sale Condition_AdjLand,Sale Condition_Alloca,Sale Condition_Family,Sale Condition_Normal,Sale Condition_Partial
0,141.000000,31770,6,5,1960,1960,112.0,639.0,0.0,441.0,...,0,0,0,0,1,0,0,0,1,0
1,80.000000,11622,5,6,1961,1961,0.0,468.0,144.0,270.0,...,0,0,0,0,1,0,0,0,1,0
2,81.000000,14267,6,6,1958,1958,108.0,923.0,0.0,406.0,...,0,0,0,0,1,0,0,0,1,0
3,93.000000,11160,7,5,1968,1968,0.0,1065.0,0.0,1045.0,...,0,0,0,0,1,0,0,0,1,0
4,74.000000,13830,5,5,1997,1998,0.0,791.0,0.0,137.0,...,0,0,0,0,1,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2920,37.000000,7937,6,6,1984,1984,0.0,819.0,0.0,184.0,...,0,0,0,0,1,0,0,0,1,0
2921,75.144444,8885,5,5,1983,1983,0.0,301.0,324.0,239.0,...,0,0,0,0,1,0,0,0,1,0
2922,62.000000,10441,5,5,1992,1992,0.0,337.0,0.0,575.0,...,0,0,0,0,1,0,0,0,1,0
2923,77.000000,10010,5,5,1974,1975,0.0,1071.0,123.0,195.0,...,0,0,0,0,1,0,0,0,1,0


In [8]:
#final_df.to_csv('AMES_Final_DF.csv')