In [91]:
import pandas as pd
import numpy as np

In [92]:
#Carregar dataset
import pandas as pd
dados = pd.read_csv('H_prices.csv')
dados

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,20140521T000000,360000.0,3,2.50,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.50,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.50,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


# Análise dos dados

In [93]:
# Dados nulos
dados.isnull().sum()

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

**Note que não há dados nulos**

In [94]:
#Variáveis correlacionadas
dados.corr()[1:2]

Unnamed: 0,id,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
price,-0.016762,1.0,0.30835,0.525138,0.702035,0.089661,0.256794,0.266369,0.397293,0.036362,0.667434,0.605567,0.323816,0.054012,0.126434,-0.053203,0.307003,0.021626,0.585379,0.082447


**Observe as variáveis X que são correlacionadas com a variável Y**

# Pré-Processamento dos dados

In [95]:
#Separar as variáveis em X e Y
x = dados.iloc[:,3:].values
y = dados['price'].values

#Converter os dados para o formato float
x = np.array(x).astype('float32')
y = np.array(y).astype('float32')

print(f'Shape Variável X: {x.shape}')
print(f'Shape Variável Y: {y.shape}')

Shape Variável X: (21613, 18)
Shape Variável Y: (21613,)


**Transformar a variável X e Y no formato de array numpy e float para depois converter os dados em dense_tensor e fazer o treinamento com o algoritmo Linearlearner do AWS**

In [96]:
#Dividir os dados em treino e teste
from sklearn.model_selection import train_test_split
x_treino,x_teste,y_treino ,y_teste = train_test_split(x,y,test_size=0.3, random_state=0)

#Shape da divisão
x_treino.shape,x_teste.shape

((15129, 18), (6484, 18))

**Shape dos dados para treino e teste**

# Configurações do SageMaker

In [97]:
#Bibliotecas
import sagemaker 
import boto3
from sagemaker import Session

In [98]:
#Criar a sessão com AWS
session = sagemaker.Session()

#Nome do bucket na S3
bucket = 'armaz1'

#Criar subpastas para armazenar o modelo
subpasta_modelo = 'modelos/house_prices/linear_learner'

#Criar subpasta para o dataset
subpasta_dataset = 'datasets/house_prices'

In [99]:
#Converter os dados para enviar ao algoritmo do AWS
import io

#Sagemaker common library
import sagemaker.amazon.common as smac 

In [100]:
#Criar a base de dados no formato bytes
buffer = io.BytesIO()

#Converter a base de dados no formato numpy para dense_tensor
smac.write_numpy_to_dense_tensor(buffer,x_treino,y_treino)

**Conversão da base de dados do formato numpy para dense_tensor que é utilizado no AWS**

In [101]:
#Colocar a base de dados considerando o 1° registro 
buffer.seek(0)

0

**Toda vez que usamos o 'write_numpy_to_dense_tensor', precisamos usar o seek(0) para considerar o 1° registro da base de dados**

In [102]:
#Enviar o buffer para S3
import os

nome_base_dados = 'houses_train_data'

#Upload para o S3
boto3.resource('s3').Bucket(bucket).Object(os.path.join(subpasta_dataset,'Nome_pasta_treino',nome_base_dados)).upload_fileobj(buffer)

**Criado as pastas e enviado o arquivo de treino para o S3**

In [103]:
#Nome das pastas criadas
os.path.join(subpasta_dataset,'Nome_pasta_treino',nome_base_dados)

'datasets/house_prices/Nome_pasta_treino/houses_train_data'

**Veja o caminho das pastas criadas dentro da S3**

# Criação e treinamento do Linear Learner

In [104]:
# Instanciar o framework linear-learner
container = sagemaker.image_uris.retrieve(framework = 'linear-learner', region=boto3.Session().region_name)

**Criado uma imagem do algoritmo e verificado se ele existe para a região do datacenter que está sendo usado**

In [105]:
#Verificar as regras de permissão para o usuario
roles = sagemaker.get_execution_role()
print(roles)

arn:aws:iam::515469992425:role/service-role/AmazonSageMaker-ExecutionRole-20220829T152465


**Importante verificar as regras de permissão para que o usuario possa criar os modelos de machine learning**

In [106]:
# Definir os Hiperparametros do algoritmo

#Hiperparametros:

#Numero de servidores que sera utilizado
n_serv = 1

#Tipo do servidor
inst_type = 'ml.t3.medium' 

#Onde o modelo final será salvo
subpasta_output = 's3://armaz1/modelos/house_prices/linear_learner/output'

#Sessão do sagemaker
session = sagemaker.Session()



#Algoritmo
linear = sagemaker.estimator.Estimator(image_uri = container, role = roles, 
                                       instance_count = n_serv,
                                       intance_type = inst_type, output_path = subpasta_output, 
                                       sagemaker_session = session )

**Definição dos hiperparametros do sagemaker**

In [107]:
#Criar o algoritmo 

#Hiperparametros:

#Quantidade de modelos gerados, melhor modelo será selecionado
n_models = 16



linear.set_hyperparameters(predictor_type = 'regressor',
                           num_models = n_models)

In [108]:
#Iniciar o treinamento do modelo

#Variável para o modelo localizar a pasta com os dados
s3_train_data = 's3://armaz1/datasets/house_prices/Nome_pasta_treino/houses_train_data'

linear.fit({'Nome_pasta_treino': s3_train_data})

ValueError: instance_count and instance_type must be set if instance_groups is not set