# House-Prices

## Importação das Bibliotecas

In [1]:
import numpy as np # álgebra linear
import pandas as pd # processamento de dados

## Carregamento das bases de dados

In [2]:
train = pd.read_csv('train.csv') 
test  = pd.read_csv('test.csv')

In [3]:
train.shape

(1460, 81)

# Pre-processamento

In [4]:
# Remove qualquer linha que tenha o valor SalePrice nulo
Target = 'SalePrice'
train.dropna(axis=0, subset=[Target], inplace=True)

In [5]:
train.shape

(1460, 81)

In [6]:
# Junta os DataFrames de treino e teste em apenas um, para ganhar consistência.
data=pd.concat([train.iloc[:,:-1],test],axis=0)

print('train df possui {} linhas e {} colunas'.format(train.shape[0],train.shape[1]))
print('test df possui {} linhas e {} colunas'.format(test.shape[0],test.shape[1]))
print('data df possui {} linhas e {} colunas'.format(data.shape[0],data.shape[1]))

train df possui 1460 linhas e 81 colunas
test df possui 1459 linhas e 80 colunas
data df possui 2919 linhas e 80 colunas


In [7]:
data = data.drop(columns=['Id'],axis=1)

## Valores Nulos

In [8]:
# Exibe os valores faltantes e a porcentagem com relação ao total
def missingValuesInfo(df):
    total = df.isnull().sum().sort_values(ascending = False)
    percent = round(df.isnull().sum().sort_values(ascending = False)/len(df)*100, 2)
    temp = pd.concat([total, percent], axis = 1,keys= ['Total', 'Percent'])
    return temp.loc[(temp['Total'] > 0)]

missingValuesInfo(train)

Unnamed: 0,Total,Percent
PoolQC,1453,99.52
MiscFeature,1406,96.3
Alley,1369,93.77
Fence,1179,80.75
FireplaceQu,690,47.26
LotFrontage,259,17.74
GarageCond,81,5.55
GarageType,81,5.55
GarageYrBlt,81,5.55
GarageFinish,81,5.55


In [9]:
# Manipulação dos valores faltantes

def HandleMissingValues(df):
    # para colunas do tipo Object preenche com 'UNKNOWN'
    # para colunas do tipo Numeric preenche com a média
    
    # para cada coluna em df.columns (nomeadas como 'cname'), seleciona-se aquelas que são de tipo numérico
    num_cols = [cname for cname in df.columns if df[cname].dtype in ['int64', 'float64']]
    
    # para cada coluna em df.columns (nomeadas como 'cname'), seleciona-se aquelas que são de tipo objeto(colunas categóricas)
    cat_cols = [cname for cname in df.columns if df[cname].dtype == "object"]
   
    # Monta-se um array para receber os valores substitutos
    values = {}
    
    # colunas do tipo object recebem 'UNKNOWN'
    for a in cat_cols:
        values[a] = 'UNKNOWN'
    
     # colunas do tipo numérico recebem a média
    for a in num_cols:
        values[a] = df[a].median()
    
    # substitui todos os valores nulos do dataframe pelos contidos no array 'values'
    df.fillna(value=values,inplace=True)
    
HandleMissingValues(data)
data.head()

Unnamed: 0,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,60,RL,65.0,8450,Pave,UNKNOWN,Reg,Lvl,AllPub,Inside,...,0,0,UNKNOWN,UNKNOWN,UNKNOWN,0,2,2008,WD,Normal
1,20,RL,80.0,9600,Pave,UNKNOWN,Reg,Lvl,AllPub,FR2,...,0,0,UNKNOWN,UNKNOWN,UNKNOWN,0,5,2007,WD,Normal
2,60,RL,68.0,11250,Pave,UNKNOWN,IR1,Lvl,AllPub,Inside,...,0,0,UNKNOWN,UNKNOWN,UNKNOWN,0,9,2008,WD,Normal
3,70,RL,60.0,9550,Pave,UNKNOWN,IR1,Lvl,AllPub,Corner,...,0,0,UNKNOWN,UNKNOWN,UNKNOWN,0,2,2006,WD,Abnorml
4,60,RL,84.0,14260,Pave,UNKNOWN,IR1,Lvl,AllPub,FR2,...,0,0,UNKNOWN,UNKNOWN,UNKNOWN,0,12,2008,WD,Normal


In [10]:
data.Alley.unique()

array(['UNKNOWN', 'Grvl', 'Pave'], dtype=object)

In [11]:
# Conferindo os valores nulos:
data.isnull().sum().sum()

0

## Transformação dos valores categóricos em numéricos

In [12]:
# Categorical Feature Encoding: transformação dos valores categóricos em valores numéricos
# Utiliza-se One-Hot-Encoding

# Retorna as colunas do tipo 'object'
def getObjectColumnsList(df):
    return [cname for cname in df.columns if df[cname].dtype == "object"]

# Executa o One-Hot-Encoding
def PerformOneHotEncoding(df,columnsToEncode):
    return pd.get_dummies(df,columns = columnsToEncode)

cat_cols = getObjectColumnsList(data)
data = PerformOneHotEncoding(data,cat_cols)
data.head()

Unnamed: 0,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,BsmtFinSF2,...,SaleType_New,SaleType_Oth,SaleType_UNKNOWN,SaleType_WD,SaleCondition_Abnorml,SaleCondition_AdjLand,SaleCondition_Alloca,SaleCondition_Family,SaleCondition_Normal,SaleCondition_Partial
0,60,65.0,8450,7,5,2003,2003,196.0,706.0,0.0,...,0,0,0,1,0,0,0,0,1,0
1,20,80.0,9600,6,8,1976,1976,0.0,978.0,0.0,...,0,0,0,1,0,0,0,0,1,0
2,60,68.0,11250,7,5,2001,2002,162.0,486.0,0.0,...,0,0,0,1,0,0,0,0,1,0
3,70,60.0,9550,7,5,1915,1970,0.0,216.0,0.0,...,0,0,0,1,1,0,0,0,0,0
4,60,84.0,14260,8,5,2000,2000,350.0,655.0,0.0,...,0,0,0,1,0,0,0,0,1,0


In [13]:
data.shape

(2919, 311)

In [14]:
# re-divide o dataframe 'data' em 'train' e 'test', uma vez que os valores estão pre-processados
train_data=data.iloc[:1460,:] # Pega do começo até a linha 1460
test_data=data.iloc[1460:,:] # Pega da linha 1460 (não incluída) até o final
print(train_data.shape)
test_data.shape

(1460, 311)


(1459, 311)

# Dados estão Transformados!!!

# Mineração

In [15]:
# Get X,y for modelling
X=train_data
y=train.loc[:,'SalePrice']

## Utilização do RidgeCV

In [16]:
from sklearn.linear_model import RidgeCV # Regressão de Ridge com validação cruzada incorporada

# Configura, realiza o fit e as predições no dataframe 'test'
ridge_cv = RidgeCV(alphas=(0.01, 0.05, 0.1, 0.3, 1, 3, 5, 10))
ridge_cv.fit(X, y)
ridge_cv_preds=ridge_cv.predict(test_data)

## Utilização do xgboost

In [17]:
import xgboost as xgb # Extreme Gradient Boosting

# Configura, realiza o fit e as predições no dataframe 'test'
model_xgb = xgb.XGBRegressor(n_estimators=340, max_depth=2, learning_rate=0.2)
model_xgb.fit(X, y)
xgb_preds=model_xgb.predict(test_data)

In [18]:
# O python é tão foda que quando vc escreve o que está aqui embaixo,
# ele vê que os dois arrays (ridge_cv_preds, xgb_preds) tem o mesmo tamanho,
# assim soma o valores de mesma posição e divide por 2, 
# ou seja, o resultado é a média das predições.
predictions = ( ridge_cv_preds + xgb_preds )/2

In [19]:
# criar o dataframe para submissão
submission = {
    'Id': test.Id.values,
    'SalePrice': predictions
}
solution = pd.DataFrame(submission)
solution.head()

Unnamed: 0,Id,SalePrice
0,1461,111614.487626
1,1462,160072.882557
2,1463,179114.489019
3,1464,187362.449547
4,1465,202247.071168


In [20]:
#salva para o arquivo csv
solution.to_csv('submission.csv',index=False)

## Regressão Linear

In [21]:
from sklearn import linear_model

# Configura, realiza o fit e as predições no dataframe 'test'
lr = linear_model.LinearRegression()
model = lr.fit(X, y)
linear_pred = model.predict(test_data)

In [34]:
# criar o dataframe para submissão (Apenas linear)
submission = {
    'Id': test.Id.values,
    'SalePrice': linear_pred
}
solution = pd.DataFrame(submission)
#salva para o arquivo csv
solution.to_csv('submissionLinear.csv',index=False)

In [None]:
# criar o dataframe para submissão (Apenas XGB)
submission = {
    'Id': test.Id.values,
    'SalePrice': xgb_preds
}
solution = pd.DataFrame(submission)
#salva para o arquivo csv
solution.to_csv('submissionXgb.csv',index=False)

# Verificando os resultados

In [32]:
print ('RIDGE_CV RMSE: \n', ridge_cv.score(X, y))
print ('XGB RMSE: \n', model_xgb.score(X, y))
print ('Linear RMSE: \n', model.score(X, y))

RIDGE_CV RMSE: 
 0.9012323949854957
XGB RMSE: 
 0.9794108873590193
Linear RMSE: 
 0.9332668684407703
