In [13]:
# Importa as bibliotecas necessárias
import pandas as pd  # Para manipulação de dados
from sklearn.model_selection import train_test_split  # Para dividir os dados em treino e teste
from sklearn.ensemble import RandomForestRegressor  # Para o modelo de regressão RandomForest
from sklearn.metrics import mean_squared_error  # Para cálculo do erro quadrático médio
from sklearn.impute import SimpleImputer  # Para lidar com valores ausentes nos dados
import joblib  # Para salvar o modelo treinado

# Carrega o dataset 'housing.csv' em um DataFrame
df = pd.read_csv('housing.csv')

# Cria variáveis dummy para a coluna 'ocean_proximity', transformando-a em várias colunas binárias
df = pd.get_dummies(df, columns=['ocean_proximity'])

# Separa as variáveis independentes (X) e a variável dependente (y)
x = df.drop('median_house_value', axis=1)  # Exclui a coluna 'median_house_value' de X
y = df['median_house_value']  # Define a variável dependente como 'median_house_value'

# Divide os dados em conjuntos de treino (80%) e teste (20%) de forma aleatória
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.2, random_state=42  # Usando uma semente fixa para reprodutibilidade
)

# Cria um objeto SimpleImputer com estratégia de imputação 'median', ou seja, substitui valores ausentes pela mediana
imputer = SimpleImputer(strategy='median')

# Ajusta e aplica a imputação nos dados de treino
x_train = imputer.fit_transform(x_train)

# Aplica a imputação nos dados de teste (sem reajustar o modelo)
x_test = imputer.transform(x_test)

# Cria o modelo de regressão RandomForest
modelo_rf = RandomForestRegressor()

# Treina o modelo com os dados de treino
modelo_rf.fit(x_train, y_train)

# Salva o modelo treinado em um arquivo .pkl usando o Joblib
joblib.dump(modelo_rf, 'modelo_rf.pkl')

['modelo_rf.pkl']

In [18]:
# Importa a biblioteca pandas para manipulação de dados e joblib para carregar o modelo treinado
import pandas as pd
import joblib

# Importa o SimpleImputer da biblioteca sklearn para lidar com valores ausentes
from sklearn.impute import SimpleImputer

# Carrega um modelo Random Forest previamente treinado de um arquivo .pkl
modelo_rf_carregado = joblib.load('modelo_rf.pkl')

# Carrega os novos dados de um arquivo CSV, que provavelmente contém dados para previsão
novos_dados = pd.read_csv('housing-Copia.csv')

# Converte a coluna 'ocean_proximity' em variáveis dummy (variáveis binárias),
# ou seja, transforma categorias em colunas de 0 e 1 (one-hot encoding)
novos_dados = pd.get_dummies(novos_dados, columns=['ocean_proximity'])

# Cria a variável X_novos_dados, que contém todos os dados de entrada (todas as colunas, exceto 'median_house_value')
X_novos_dados = novos_dados.drop('median_house_value', axis=1)

# Cria uma instância do SimpleImputer, que irá preencher valores ausentes (NaN) com a mediana das colunas
imputer = SimpleImputer(strategy='median')

# Aplica o SimpleImputer para preencher os valores ausentes em X_novos_dados
X_novos_dados_imputados = imputer.fit_transform(X_novos_dados)

# Usa o modelo Random Forest carregado para fazer previsões nos dados imputados
previsoes = modelo_rf_carregado.predict(X_novos_dados_imputados)

# Adiciona a coluna 'previsao_median_house_value' ao dataframe com as previsões feitas
novos_dados['previsao_median_house_value'] = previsoes

# Salva o dataframe atualizado (com as previsões) em um novo arquivo CSV, sem o índice
novos_dados.to_csv('housing-Copia-previsoes.csv', index=False)

# Exibe as primeiras 5 linhas do dataframe com as colunas 'median_house_value' e 'previsao_median_house_value' para comparação
print(novos_dados[['median_house_value', 'previsao_median_house_value']].head())


   median_house_value  previsao_median_house_value
0              452600                    421960.32
1              358500                    375595.02
2              352100                    377700.04
3              341300                    339195.02
4              342200                    311495.01
