In [2]:
import pickle
import pathlib

import numpy as np
import pandas as pd

In [3]:
DATA_DIR = pathlib.Path.cwd().parent / 'data'
print(DATA_DIR)

/Users/alexwever/Desktop/2023.2/Machine Learning/MachineLearning-23.2-1/data


In [4]:
clean_data_path = DATA_DIR / 'processed' / 'ames_clean.pkl'

In [5]:
with open(clean_data_path, 'rb') as file:
    data = pickle.load(file)

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2877 entries, 0 to 2929
Data columns (total 70 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   MS.SubClass      2877 non-null   category
 1   MS.Zoning        2877 non-null   category
 2   Lot.Frontage     2877 non-null   float64 
 3   Lot.Area         2877 non-null   float64 
 4   Lot.Shape        2877 non-null   category
 5   Land.Contour     2877 non-null   category
 6   Lot.Config       2877 non-null   category
 7   Land.Slope       2877 non-null   category
 8   Neighborhood     2877 non-null   category
 9   Bldg.Type        2877 non-null   category
 10  House.Style      2877 non-null   category
 11  Overall.Qual     2877 non-null   category
 12  Overall.Cond     2877 non-null   category
 13  Roof.Style       2877 non-null   category
 14  Mas.Vnr.Type     2877 non-null   category
 15  Mas.Vnr.Area     2877 non-null   float64 
 16  Exter.Qual       2877 non-null   category


In [7]:
model_data = data.copy()

In [8]:
categorical_columns = []
ordinal_columns = []
for col in model_data.select_dtypes('category').columns:
    if model_data[col].cat.ordered:
        ordinal_columns.append(col)
    else:
        categorical_columns.append(col)

In [9]:
ordinal_columns

['Lot.Shape',
 'Land.Slope',
 'Overall.Qual',
 'Overall.Cond',
 'Exter.Qual',
 'Exter.Cond',
 'Heating.QC',
 'Electrical',
 'Kitchen.Qual',
 'Functional',
 'Paved.Drive',
 'Fence']

In [10]:
categorical_columns

['MS.SubClass',
 'MS.Zoning',
 'Land.Contour',
 'Lot.Config',
 'Neighborhood',
 'Bldg.Type',
 'House.Style',
 'Roof.Style',
 'Mas.Vnr.Type',
 'Foundation',
 'Bsmt.Qual',
 'Bsmt.Cond',
 'Bsmt.Exposure',
 'BsmtFin.Type.1',
 'BsmtFin.Type.2',
 'Central.Air',
 'Garage.Type',
 'Garage.Finish',
 'Sale.Type',
 'Sale.Condition',
 'Condition',
 'Exterior']

In [11]:
for col in ordinal_columns:
    codes, _ = pd.factorize(data[col], sort=True)
    model_data[col] = codes

In [12]:
model_data[ordinal_columns].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2877 entries, 0 to 2929
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   Lot.Shape     2877 non-null   int64
 1   Land.Slope    2877 non-null   int64
 2   Overall.Qual  2877 non-null   int64
 3   Overall.Cond  2877 non-null   int64
 4   Exter.Qual    2877 non-null   int64
 5   Exter.Cond    2877 non-null   int64
 6   Heating.QC    2877 non-null   int64
 7   Electrical    2877 non-null   int64
 8   Kitchen.Qual  2877 non-null   int64
 9   Functional    2877 non-null   int64
 10  Paved.Drive   2877 non-null   int64
 11  Fence         2877 non-null   int64
dtypes: int64(12)
memory usage: 292.2 KB


In [13]:
model_data.head()

Unnamed: 0,MS.SubClass,MS.Zoning,Lot.Frontage,Lot.Area,Lot.Shape,Land.Contour,Lot.Config,Land.Slope,Neighborhood,Bldg.Type,...,Sale.Type,Sale.Condition,SalePrice,Condition,HasShed,HasAlley,Exterior,Garage.Age,Remod.Age,House.Age
0,20,RL,141.0,31770.0,1,Lvl,Corner,0,NAmes,1Fam,...,GroupedWD,Normal,5.332438,Norm,False,False,BrkFace,50.0,50.0,50.0
1,20,RH,80.0,11622.0,0,Lvl,Inside,0,NAmes,1Fam,...,GroupedWD,Normal,5.021189,Roads,False,False,VinylSd,49.0,49.0,49.0
2,20,RL,81.0,14267.0,1,Lvl,Corner,0,NAmes,1Fam,...,GroupedWD,Normal,5.235528,Norm,False,False,Wd Sdng,52.0,52.0,52.0
3,20,RL,93.0,11160.0,0,Lvl,Corner,0,NAmes,1Fam,...,GroupedWD,Normal,5.38739,Norm,False,False,BrkFace,42.0,42.0,42.0
4,60,RL,74.0,13830.0,1,Lvl,Inside,0,Gilbert,1Fam,...,GroupedWD,Normal,5.278525,Norm,False,False,VinylSd,13.0,12.0,13.0


In [14]:
original_data = model_data['Exterior']
encoded_data = pd.get_dummies(original_data)

aux_dataframe = encoded_data
aux_dataframe['Exterior'] = original_data.copy()

aux_dataframe.head().transpose()

Unnamed: 0,0,1,2,3,4
AsbShng,0,0,0,0,0
BrkFace,1,0,0,1,0
CemntBd,0,0,0,0,0
HdBoard,0,0,0,0,0
MetalSd,0,0,0,0,0
Plywood,0,0,0,0,0
Stucco,0,0,0,0,0
VinylSd,0,1,0,0,1
Wd Sdng,0,0,1,0,0
WdShing,0,0,0,0,0


In [15]:
original_data = model_data['Exterior']
encoded_data = pd.get_dummies(original_data, drop_first=True)

aux_dataframe = encoded_data
aux_dataframe['Exterior'] = original_data.copy()

aux_dataframe.head().transpose()

Unnamed: 0,0,1,2,3,4
BrkFace,1,0,0,1,0
CemntBd,0,0,0,0,0
HdBoard,0,0,0,0,0
MetalSd,0,0,0,0,0
Plywood,0,0,0,0,0
Stucco,0,0,0,0,0
VinylSd,0,1,0,0,1
Wd Sdng,0,0,1,0,0
WdShing,0,0,0,0,0
Other,0,0,0,0,0


In [16]:
model_test = model_data.copy()
model_data = pd.get_dummies(model_data, drop_first=True)

In [17]:
for cat in categorical_columns:
    dummies = []
    for col in model_data.columns:
        if col.startswith(cat + "_"):
            dummies.append(f'"{col}"')
    dummies_str = ', '.join(dummies)
    print(f'From column "{cat}" we made {dummies_str}\n')

From column "MS.SubClass" we made "MS.SubClass_30", "MS.SubClass_50", "MS.SubClass_60", "MS.SubClass_70", "MS.SubClass_80", "MS.SubClass_85", "MS.SubClass_90", "MS.SubClass_120", "MS.SubClass_160", "MS.SubClass_190", "MS.SubClass_Other"

From column "MS.Zoning" we made "MS.Zoning_RH", "MS.Zoning_RL", "MS.Zoning_RM"

From column "Land.Contour" we made "Land.Contour_HLS", "Land.Contour_Low", "Land.Contour_Lvl"

From column "Lot.Config" we made "Lot.Config_CulDSac", "Lot.Config_FR2", "Lot.Config_FR3", "Lot.Config_Inside"

From column "Neighborhood" we made "Neighborhood_BrDale", "Neighborhood_BrkSide", "Neighborhood_ClearCr", "Neighborhood_CollgCr", "Neighborhood_Crawfor", "Neighborhood_Edwards", "Neighborhood_Gilbert", "Neighborhood_IDOTRR", "Neighborhood_MeadowV", "Neighborhood_Mitchel", "Neighborhood_NAmes", "Neighborhood_NPkVill", "Neighborhood_NWAmes", "Neighborhood_NoRidge", "Neighborhood_NridgHt", "Neighborhood_OldTown", "Neighborhood_SWISU", "Neighborhood_Sawyer", "Neighborhood_Sa

In [18]:
X = model_data.drop(columns=['SalePrice']).copy()
y = model_data['SalePrice'].copy()

In [19]:
from sklearn.model_selection import train_test_split

RANDOM_SEED = 42

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [20]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2301 entries, 1446 to 873
Columns: 164 entries, Lot.Frontage to Exterior_Other
dtypes: bool(2), float64(33), int64(12), uint8(117)
memory usage: 1.1 MB


In [21]:
X_train.isna().sum()

Lot.Frontage        0
Lot.Area            0
Lot.Shape           0
Land.Slope          0
Overall.Qual        0
                   ..
Exterior_Stucco     0
Exterior_VinylSd    0
Exterior_Wd Sdng    0
Exterior_WdShing    0
Exterior_Other      0
Length: 164, dtype: int64

In [22]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

model = LinearRegression()

model.fit(X_train, y_train)

ypred = model.predict(X_test)

RMSE = np.sqrt(mean_squared_error(y_test, ypred))

error_percent = 100 * (10**RMSE - 1)
print(f'Average error is {error_percent:.2f}%')

Average error is 14.37%


In [23]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.model_selection import GridSearchCV
import numpy as np
import warnings
warnings.filterwarnings('ignore')

RANDOM_SEED = 42  # Definindo uma semente aleatória

def grid_search_regression(model, param_grid, X, y):
    grid_search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error', return_train_score=True)
    grid_search.fit(X, y)
    best_params = grid_search.best_params_
    best_score = np.sqrt(-grid_search.best_score_)
    return grid_search.best_estimator_, best_params, best_score


# Alphas para serem testados
alphas = np.logspace(-6, 6, 13)

### `Lasso`.

In [24]:
param_grid_lasso = {'alpha': alphas}
model_lasso, best_lasso_params, best_lasso_score = grid_search_regression(Lasso(random_state=RANDOM_SEED), param_grid_lasso, X_train, y_train)

alphas_fine = np.linspace(best_lasso_params['alpha']*0.5, best_lasso_params['alpha']*1.5, 20)
param_grid_lasso_fine = {'alpha': alphas_fine}
model_lasso, best_lasso_params_fine, best_lasso_score_fine = grid_search_regression(Lasso(random_state=RANDOM_SEED), param_grid_lasso_fine, X_train, y_train)

print(f"Best parameters for Lasso: {best_lasso_params_fine}, Best RMSE score: {best_lasso_score_fine}")

Best parameters for Lasso: {'alpha': 5e-05}, Best RMSE score: 0.0557674173722186


In [25]:
error_percent = 100 * (10**best_lasso_score - 1)
print(f'Average error is {error_percent:.2f}%')
error_percent = 100 * (10**best_lasso_score_fine - 1)
print(f'With fine tuning the average error  is {error_percent:.2f}%')

Average error is 13.73%
With fine tuning the average error  is 13.70%


### `Ridge`.

In [26]:
print(f'alphas: {alphas}')
param_grid_ridge = {'alpha': alphas}
model_ridge, best_ridge_params, best_ridge_score = grid_search_regression(Ridge(random_state=RANDOM_SEED), param_grid_ridge, X_train, y_train)

alphas_fine = np.linspace(best_ridge_params['alpha']*0.5, best_ridge_params['alpha']*1.5, 20)
param_grid_ridge_fine = {'alpha': alphas_fine}
model_ridge, best_ridge_params_fine, best_ridge_score_fine = grid_search_regression(Ridge(random_state=RANDOM_SEED), param_grid_ridge_fine, X_train, y_train)

print(f"Best parameters for Ridge: {best_ridge_params_fine}, Best RMSE score: {best_ridge_score_fine}")

alphas: [1.e-06 1.e-05 1.e-04 1.e-03 1.e-02 1.e-01 1.e+00 1.e+01 1.e+02 1.e+03
 1.e+04 1.e+05 1.e+06]
Best parameters for Ridge: {'alpha': 1.5}, Best RMSE score: 0.055772726835469785


In [27]:
error_percent = 100 * (10**best_ridge_score - 1)
print(f'Average error is {error_percent:.2f}%')
error_percent = 100 * (10**best_ridge_score_fine - 1)
print(f'With fine tuning the average error  is {error_percent:.2f}%')

Average error is 13.71%
With fine tuning the average error  is 13.70%


### `ElasticNet`.

In [28]:
param_grid_elastic_net = {'alpha': alphas, 'l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]}
model_elasticnet, best_elastic_net_params, best_elastic_net_score = grid_search_regression(ElasticNet(random_state=RANDOM_SEED), param_grid_elastic_net, X_train, y_train)

alphas_fine = np.linspace(best_elastic_net_params['alpha']*0.5, best_elastic_net_params['alpha']*1.5, 20)
param_grid_elastic_net_fine = {'alpha': alphas_fine, 'l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]}
model_elasticnet, best_elastic_net_params_fine, best_elastic_net_score_fine = grid_search_regression(ElasticNet(random_state=RANDOM_SEED), param_grid_elastic_net_fine, X_train, y_train)

print(f"Best parameters for Elastic Net: {best_elastic_net_params_fine}, Best RMSE score: {best_elastic_net_score_fine}")

Best parameters for Elastic Net: {'alpha': 0.00015000000000000001, 'l1_ratio': 0.3}, Best RMSE score: 0.0557610010406959


In [29]:
error_percent = 100 * (10**best_elastic_net_score - 1)
print(f'Average error is {error_percent:.2f}%')
error_percent = 100 * (10**best_elastic_net_score_fine - 1)
print(f'With fine tuning the average error  is {error_percent:.2f}%')

Average error is 13.70%
With fine tuning the average error  is 13.70%


Depois de otimizarmos os parâmetros e realizar a validação cruzada, resolvemos avaliar os modelos usando o conjunto completo de teste para determinar a precisão de cada um. Observamos que os modelos apresentam desempenhos semelhantes, com o modelo ElasticNet mostrando-se ligeiramente superior. No entanto, essa superioridade é mínima, levantando a questão se essa diferença é realmente significativa.

In [31]:
# make a ttest to see if the difference between the two models is significant
from scipy.stats import ttest_rel

ypred_ridge = model_ridge.predict(X_test)
ypred_lasso = model_lasso.predict(X_test)
ypred_elasticnet = model_elasticnet.predict(X_test)

pvalue_rl = ttest_rel(ypred_ridge, ypred_lasso).pvalue
pvalue_re = ttest_rel(ypred_ridge, ypred_elasticnet).pvalue
pvalue_le = ttest_rel(ypred_lasso, ypred_elasticnet).pvalue

if pvalue_rl < 0.05:
    print(f'A diferença entre os modelos Ridge e Lasso é significativa, pvalue: {pvalue_rl*100:.2f}%')
else:
    print(f'A diferença entre os modelos Ridge e Lasso não é significativa, pvalue: {pvalue_rl*100:.2f}%')

if pvalue_re < 0.05:
    print(f'A diferença entre os modelos Ridge e Elastic Net é significativa, pvalue: {pvalue_re*100:.2f}%')
else:
    print(f'A diferença entre os modelos Ridge e Elastic Net não é significativa, pvalue: {pvalue_re*100:.2f}%')

if pvalue_le < 0.05:
    print(f'A diferença entre os modelos Lasso e Elastic Net é significativa, pvalue: {pvalue_le*100:.2f}%')
else:
    print(f'A diferença entre os modelos Lasso e Elastic Net não é significativa, pvalue: {pvalue_le*100:.2f}%')


A diferença entre os modelos Ridge e Lasso não é significativa, pvalue: 58.40%
A diferença entre os modelos Ridge e Elastic Net não é significativa, pvalue: 61.48%
A diferença entre os modelos Lasso e Elastic Net não é significativa, pvalue: 37.87%


Para determinar a significância estatística dessa discrepância, aplicamos o teste de Wilcoxon, um método não paramétrico que avalia a diferença significativa entre dois conjuntos de dados.

### Resumo da Avaliação de Modelos

Investigamos três modelos de regressão regularizados: Ridge, Lasso e ElasticNet. Utilizamos uma busca em grade para otimizar seus hiperparâmetros e avaliamos a eficácia de cada um através do RMSE. O modelo ElasticNet teve um desempenho um pouco superior aos outros, mas a diferença não foi estatisticamente significativa, conforme confirmado pelos testes. Vale lembrar que esta análise se limitou a estes três modelos, deixando de lado outras abordagens de regressão. Embora o ElasticNet tenha se destacado levemente, a variação de desempenho entre os modelos não foi conclusiva. Também é relevante mencionar que a análise foi baseada em dados já pré-processados e fornecidos, sem alterações de nossa parte. Para uma avaliação mais abrangente, seria apropriado explorar outras técnicas de regressão, reanalisar os dados e considerar a engenharia de features.

### Focando um pouco mais no modelo `ElasticNet`.

In [32]:
from sklearn.linear_model import ElasticNetCV
from sklearn.metrics import mean_squared_error, r2_score

# Definindo os possíveis valores para os hiperparâmetros
alphas = np.logspace(-6, 6, 13)
l1_ratios = [0.1, 0.3, 0.5, 0.7, 0.9]

# Inicializando e treinando o ElasticNet com validação cruzada
elasticnet_cv = ElasticNetCV(alphas=alphas, l1_ratio=l1_ratios, cv=5)
elasticnet_cv.fit(X_train, y_train)

# Previsões no conjunto de teste
y_pred = elasticnet_cv.predict(X_test)

# Calculando métricas de avaliação
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"Melhor alpha: {elasticnet_cv.alpha_}")
print(f"Melhor l1_ratio: {elasticnet_cv.l1_ratio_}")
print(f"RMSE no conjunto de teste: {rmse}")
print(f"R^2 no conjunto de teste: {r2}")


Melhor alpha: 0.0001
Melhor l1_ratio: 0.5
RMSE no conjunto de teste: 0.05870098942129564
R^2 no conjunto de teste: 0.8832968592666874


Interpretando os resultados:

1. **Melhor alpha:** 0.0001
   - O valor de `alpha` é um parâmetro de regularização que combina as penalidades de L1 e L2. Um valor pequeno para `alpha` sugere que o modelo está dando mais peso aos dados de treinamento em comparação com a regularização. Isso pode ser bom se você acreditar que o conjunto de dados de treinamento é representativo e não possui muito ruído.

2. **Melhor l1_ratio:** 0.5
   - O l1_ratio é a proporção de regularização L1 em relação à L2. Um l1_ratio de 0.5 indica que ambas as penalidades L1 e L2 estão sendo aplicadas igualmente.

3. **RMSE no conjunto de teste:** 0.0587
   - O RMSE é uma métrica que nos dá uma ideia da magnitude dos erros do modelo. Quanto menor o RMSE, melhor. Um RMSE de 0.0587 sugere que, em média, as previsões do modelo estão a 0.0587 unidades de distância do valor real.

4. **R^2 no conjunto de teste:** 0.8833
   - O coeficiente de determinação, `R^2`, indica a proporção da variância da variável dependente que é previsível a partir das variáveis independentes. `Um R^2` de 0.8833 indica que aproximadamente 88.33% da variância na variável alvo pode ser explicada pelo modelo. Isso é um valor muito bom, sugerindo que o modelo tem um bom ajuste aos dados.

Em resumo, o modelo ElasticNet parece ter um desempenho muito bom no conjunto de teste. O alto valor de `R^2` e o baixo `RMSE` indicam que o modelo está fazendo previsões precisas e é capaz de explicar uma grande parte da variância nos dados.

Agora, com esses resultados em mãos, podemos fazer conclusões adicionais, considerando o contexto do problema e a aplicação prática do modelo. Por exemplo, o que esse desempenho significa em termos de prever os preços dos imóveis? Como isso se traduz em valor para um possível negócio ou aplicação?

### 1. **O que esse desempenho significa em termos de prever os preços dos imóveis?**

- Um `R^2` de 0.8833 indica que o modelo é capaz de explicar aproximadamente 88.33% da variabilidade nos preços dos imóveis com base nas características fornecidas. Isso sugere que o modelo tem uma compreensão sólida das relações entre as características dos imóveis (como tamanho, localização, número de quartos, etc.) e seus preços.
  
- O `RMSE` de 0.0587, dependendo da escala dos preços, pode ser considerado baixo. Isso significa que, em média, as previsões do modelo estão próximas dos preços reais. No entanto, é importante lembrar que o RMSE deve ser interpretado no contexto da escala dos preços dos imóveis. Por exemplo, se os preços variam entre 0 e 1, um RMSE de 0.0587 é excelente. Mas se os preços variam, digamos, entre 0 e 100, então um RMSE de 0.0587 é excepcionalmente bom.

### 2. **Como isso se traduz em valor para um possível negócio ou aplicação?**

- **Precisão nas Avaliações:** Para corretores de imóveis, construtoras ou plataformas de venda de imóveis, ter um modelo preciso significa que eles podem avaliar propriedades de forma mais acurada. Isso pode ajudar na precificação de imóveis, evitando subvalorizar ou superestimar um imóvel.

- **Ferramenta de Venda:** Para vendedores, ter um modelo que possa prever o preço com base em várias características pode ser uma ferramenta de venda valiosa. Os potenciais compradores podem ajustar características para ver como elas impactam o preço.

- **Investimento em Imóveis:** Para investidores no mercado imobiliário, um modelo preciso pode ajudar a identificar oportunidades de investimento, permitindo-lhes estimar o valor de um imóvel em diferentes cenários.

- **Decisões de Empréstimo:** Bancos e outras instituições financeiras podem usar o modelo para ajudar nas decisões de empréstimo hipotecário, avaliando o valor de um imóvel que está sendo usado como garantia.

- **Transparência:** Para o mercado imobiliário em geral, ter um modelo de previsão transparente e preciso pode aumentar a confiança dos consumidores e a transparência do mercado, ajudando os compradores a entenderem melhor o valor de um imóvel.

O modelo preciso de previsão de preços de imóveis pode agregar valor em muitos aspectos do mercado imobiliário, desde a avaliação e venda de imóveis até decisões de investimento e empréstimo. A chave é garantir que o modelo seja usado de forma adequada e que suas previsões sejam interpretadas corretamente no contexto do mercado local e das características individuais de cada imóvel.

### Deploy

In [35]:
from joblib import dump

# Salvar o modelo em um arquivo
dump(elasticnet_cv, 'elasticnet_model.joblib')


['elasticnet_model.joblib']

In [36]:
print(model.feature_names_in_)

['Lot.Frontage' 'Lot.Area' 'Lot.Shape' 'Land.Slope' 'Overall.Qual'
 'Overall.Cond' 'Mas.Vnr.Area' 'Exter.Qual' 'Exter.Cond' 'BsmtFin.SF.1'
 'BsmtFin.SF.2' 'Bsmt.Unf.SF' 'Total.Bsmt.SF' 'Heating.QC' 'Electrical'
 'X1st.Flr.SF' 'X2nd.Flr.SF' 'Low.Qual.Fin.SF' 'Gr.Liv.Area'
 'Bsmt.Full.Bath' 'Bsmt.Half.Bath' 'Full.Bath' 'Half.Bath' 'Bedroom.AbvGr'
 'Kitchen.AbvGr' 'Kitchen.Qual' 'TotRms.AbvGrd' 'Functional' 'Fireplaces'
 'Garage.Cars' 'Garage.Area' 'Paved.Drive' 'Wood.Deck.SF' 'Open.Porch.SF'
 'Enclosed.Porch' 'X3Ssn.Porch' 'Screen.Porch' 'Pool.Area' 'Fence'
 'Misc.Val' 'Mo.Sold' 'Yr.Sold' 'HasShed' 'HasAlley' 'Garage.Age'
 'Remod.Age' 'House.Age' 'MS.SubClass_30' 'MS.SubClass_50'
 'MS.SubClass_60' 'MS.SubClass_70' 'MS.SubClass_80' 'MS.SubClass_85'
 'MS.SubClass_90' 'MS.SubClass_120' 'MS.SubClass_160' 'MS.SubClass_190'
 'MS.SubClass_Other' 'MS.Zoning_RH' 'MS.Zoning_RL' 'MS.Zoning_RM'
 'Land.Contour_HLS' 'Land.Contour_Low' 'Land.Contour_Lvl'
 'Lot.Config_CulDSac' 'Lot.Config_FR2' 'Lot.Conf

In [44]:
# Creating the JSON using the provided features list

features_list = [
    "Lot.Frontage", "Lot.Area", "Lot.Shape", "Land.Slope", "Overall.Qual",
    "Overall.Cond", "Mas.Vnr.Area", "Exter.Qual", "Exter.Cond", "BsmtFin.SF.1",
    "BsmtFin.SF.2", "Bsmt.Unf.SF", "Total.Bsmt.SF", "Heating.QC", "Electrical",
    "X1st.Flr.SF", "X2nd.Flr.SF", "Low.Qual.Fin.SF", "Gr.Liv.Area",
    "Bsmt.Full.Bath", "Bsmt.Half.Bath", "Full.Bath", "Half.Bath", "Bedroom.AbvGr",
    "Kitchen.AbvGr", "Kitchen.Qual", "TotRms.AbvGrd", "Functional", "Fireplaces",
    "Garage.Cars", "Garage.Area", "Paved.Drive", "Wood.Deck.SF", "Open.Porch.SF",
    "Enclosed.Porch", "X3Ssn.Porch", "Screen.Porch", "Pool.Area", "Fence",
    "Misc.Val", "Mo.Sold", "Yr.Sold", "HasShed", "HasAlley", "Garage.Age",
    "Remod.Age", "House.Age", "MS.SubClass_30", "MS.SubClass_50",
    "MS.SubClass_60", "MS.SubClass_70", "MS.SubClass_80", "MS.SubClass_85",
    "MS.SubClass_90", "MS.SubClass_120", "MS.SubClass_160", "MS.SubClass_190",
    "MS.SubClass_Other", "MS.Zoning_RH", "MS.Zoning_RL", "MS.Zoning_RM",
    "Land.Contour_HLS", "Land.Contour_Low", "Land.Contour_Lvl",
    "Lot.Config_CulDSac", "Lot.Config_FR2", "Lot.Config_FR3",
    "Lot.Config_Inside", "Neighborhood_BrDale", "Neighborhood_BrkSide",
    "Neighborhood_ClearCr", "Neighborhood_CollgCr", "Neighborhood_Crawfor",
    "Neighborhood_Edwards", "Neighborhood_Gilbert", "Neighborhood_IDOTRR",
    "Neighborhood_MeadowV", "Neighborhood_Mitchel", "Neighborhood_NAmes",
    "Neighborhood_NPkVill", "Neighborhood_NWAmes", "Neighborhood_NoRidge",
    "Neighborhood_NridgHt", "Neighborhood_OldTown", "Neighborhood_SWISU",
    "Neighborhood_Sawyer", "Neighborhood_SawyerW", "Neighborhood_Somerst",
    "Neighborhood_StoneBr", "Neighborhood_Timber", "Neighborhood_Veenker",
    "Bldg.Type_2fmCon", "Bldg.Type_Duplex", "Bldg.Type_Twnhs",
    "Bldg.Type_TwnhsE", "House.Style_1.5Unf", "House.Style_1Story",
    "House.Style_2.5Fin", "House.Style_2.5Unf", "House.Style_2Story",
    "House.Style_SFoyer", "House.Style_SLvl", "Roof.Style_Hip",
    "Roof.Style_Other", "Mas.Vnr.Type_None", "Mas.Vnr.Type_Stone",
    "Mas.Vnr.Type_Other", "Foundation_CBlock", "Foundation_PConc",
    "Foundation_Other", "Bsmt.Qual_Gd", "Bsmt.Qual_TA", "Bsmt.Qual_Fa",
    "Bsmt.Qual_NA", "Bsmt.Cond_TA", "Bsmt.Cond_Fa", "Bsmt.Cond_NA",
    "Bsmt.Exposure_Av", "Bsmt.Exposure_Mn", "Bsmt.Exposure_No",
    "Bsmt.Exposure_NA", "BsmtFin.Type.1_ALQ", "BsmtFin.Type.1_BLQ",
    "BsmtFin.Type.1_Rec", "BsmtFin.Type.1_LwQ", "BsmtFin.Type.1_Unf",
    "BsmtFin.Type.1_NA", "BsmtFin.Type.2_ALQ", "BsmtFin.Type.2_BLQ",
    "BsmtFin.Type.2_Rec", "BsmtFin.Type.2_LwQ", "BsmtFin.Type.2_Unf",
    "BsmtFin.Type.2_NA", "Central.Air_Y", "Garage.Type_Attchd",
    "Garage.Type_Basment", "Garage.Type_BuiltIn", "Garage.Type_CarPort",
    "Garage.Type_Detchd", "Garage.Type_NoGarage", "Garage.Finish_RFn",
    "Garage.Finish_Unf", "Garage.Finish_NoGarage", "Sale.Type_GroupedWD",
    "Sale.Type_Other", "Sale.Condition_AdjLand", "Sale.Condition_Alloca",
    "Sale.Condition_Family", "Sale.Condition_Normal", "Sale.Condition_Partial",
    "Condition_Railroad", "Condition_Roads", "Condition_Positive",
    "Condition_RoadsAndRailroad", "Exterior_BrkFace", "Exterior_CemntBd",
    "Exterior_HdBoard", "Exterior_MetalSd", "Exterior_Plywood",
    "Exterior_Stucco", "Exterior_VinylSd", "Exterior_Wd Sdng",
    "Exterior_WdShing", "Exterior_Other"
]

# Generating the JSON with all the features set to 0 without using the ellipsis
json_example = {feature: [0] for feature in features_list}
json_example


{'Lot.Frontage': [0],
 'Lot.Area': [0],
 'Lot.Shape': [0],
 'Land.Slope': [0],
 'Overall.Qual': [0],
 'Overall.Cond': [0],
 'Mas.Vnr.Area': [0],
 'Exter.Qual': [0],
 'Exter.Cond': [0],
 'BsmtFin.SF.1': [0],
 'BsmtFin.SF.2': [0],
 'Bsmt.Unf.SF': [0],
 'Total.Bsmt.SF': [0],
 'Heating.QC': [0],
 'Electrical': [0],
 'X1st.Flr.SF': [0],
 'X2nd.Flr.SF': [0],
 'Low.Qual.Fin.SF': [0],
 'Gr.Liv.Area': [0],
 'Bsmt.Full.Bath': [0],
 'Bsmt.Half.Bath': [0],
 'Full.Bath': [0],
 'Half.Bath': [0],
 'Bedroom.AbvGr': [0],
 'Kitchen.AbvGr': [0],
 'Kitchen.Qual': [0],
 'TotRms.AbvGrd': [0],
 'Functional': [0],
 'Fireplaces': [0],
 'Garage.Cars': [0],
 'Garage.Area': [0],
 'Paved.Drive': [0],
 'Wood.Deck.SF': [0],
 'Open.Porch.SF': [0],
 'Enclosed.Porch': [0],
 'X3Ssn.Porch': [0],
 'Screen.Porch': [0],
 'Pool.Area': [0],
 'Fence': [0],
 'Misc.Val': [0],
 'Mo.Sold': [0],
 'Yr.Sold': [0],
 'HasShed': [0],
 'HasAlley': [0],
 'Garage.Age': [0],
 'Remod.Age': [0],
 'House.Age': [0],
 'MS.SubClass_30': [0],
 'MS