In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor

# Carregar os dados
data = pd.read_csv('base_resorts_modelo_proy_gb.csv')

# Remover a coluna 'hotel'
data = data.drop(columns=['hotel'])

# Transformar as variáveis categóricas em numéricas
categorical_features = ['cod_pais', 'cod_destino']
numerical_features = data.columns.drop(categorical_features + ['gb_anio_pasado'])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])

# Dividir os dados em treino e teste
X = data.drop(columns=['gb_anio_pasado'])
y = data['gb_anio_pasado']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de Regressão de Floresta Aleatória
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

model.fit(X_train, y_train)

# Avaliar o modelo
y_pred = model.predict(X_test)
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
#print(results)

# Função para predição
def predict_new(data):
    df = pd.DataFrame(data)
    return model.predict(df)

# Nova predição
new_data = {
    'cod_pais': [''],
    'cod_destino': [''],
    'rooms': [],
    'stars': [],
    'range_ratescore': [],
    'quadrante_adr': [],
    'flag_media': [],
    'flag_preferente': [],
    'qtd_cupos': [],
    'mat_cupos': [],
    'soc_cupos': [],
    'take_rate': []
}

prediction = predict_new(new_data)
print("Predição:", prediction)


Predição: [3911909.16523841]
