In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
import pickle

# Charger le dataset
df = pd.read_csv("AB_NYC_2019.csv")
df = df.dropna(subset=['latitude', 'longitude', 'minimum_nights', 'price', 'room_type', 'availability_365', 'number_of_reviews'])

# Supprimer les valeurs aberrantes pour la variable cible (prix)
df = df[df['price'] < df['price'].quantile(0.95)]  # Garder les prix inférieurs au 95e percentile

# Préparer les données
X = df[['latitude', 'longitude', 'minimum_nights', 'room_type', 'availability_365', 'number_of_reviews']]
y = df['price']

# Encodage des variables catégoriques
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), ['latitude', 'longitude', 'minimum_nights', 'availability_365', 'number_of_reviews']),
        ('cat', OneHotEncoder(), ['room_type'])
    ]
)

# Pipeline avec prétraitement et modèle
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42))
])

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraîner le modèle
model.fit(X_train, y_train)

# Évaluer le modèle avec validation croisée
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
cv_rmse = (-cv_scores.mean()) ** 0.5
print(f"Validation croisée RMSE: {cv_rmse}")

# Évaluer le modèle sur l'ensemble de test
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
print(f"Mean Squared Error: {mse}")
print(f"Root Mean Squared Error: {rmse}")

# Sauvegarder le modèle avec pickle
with open("model.pkl", "wb") as file:
    pickle.dump(model, file)
print("Modèle sauvegardé dans 'model.pkl'")

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
import pickle

# Charger le dataset
df = pd.read_csv("AB_NYC_2019.csv")
df = df.dropna(subset=['latitude', 'longitude', 'minimum_nights', 'price', 'room_type', 'availability_365', 'number_of_reviews'])

# Supprimer les valeurs aberrantes pour la variable cible (prix)
df = df[df['price'] < df['price'].quantile(0.95)]  # Garder les prix inférieurs au 95e percentile

# Préparer les données
X = df[['latitude', 'longitude', 'minimum_nights', 'room_type', 'availability_365', 'number_of_reviews']]
y = df['price']

# Encodage des variables catégoriques
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), ['latitude', 'longitude', 'minimum_nights', 'availability_365', 'number_of_reviews']),
        ('cat', OneHotEncoder(), ['room_type'])
    ]
)

# Pipeline avec prétraitement et modèle
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42))
])

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraîner le modèle
model.fit(X_train, y_train)

# Évaluer le modèle avec validation croisée
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
cv_rmse = (-cv_scores.mean()) ** 0.5
print(f"Validation croisée RMSE: {cv_rmse}")

# Évaluer le modèle sur l'ensemble de test
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
print(f"Mean Squared Error: {mse}")
print(f"Root Mean Squared Error: {rmse}")

# Sauvegarder le modèle avec pickle
with open("model.pkl", "wb") as file:
    pickle.dump(model, file)
print("Modèle sauvegardé dans 'model.pkl'")