# Estimation du prix d'une maison en fonction <br> de ses caractéristiques  

Ce projet a pour but de mettre en œuvre une gestion complète et automatisée de l'estimation de prix immobilier grâce aux pratiques GitOps et à un serveur GitLab local.  

### Présentation du projet et de GitLab

GitLab est une plateforme de gestion de version et de collaboration qui propose des fonctionnalités DevOps intégrées, comme le déploiement continu (CD) et l'intégration continue (CI). Dans ce projet, GitLab est utilisé pour héberger le code et gérer les différentes étapes d'automatisation grâce à un serveur GitLab local et à un runner configuré pour exécuter les actions automatisées. Cela permet de structurer le projet de manière efficace et de centraliser les tests et le déploiement en un seul lieu. En appliquant les principes GitOps, les changements dans le code déclenchent des pipelines automatisés pour des actions comme l’entraînement de modèles, le suivi des performances ou la mise à jour des prévisions.  

### Objectif du projet : Estimation des prix de maisons

L'objectif principal de ce projet est d'estimer le prix de vente de maisons en fonction de leurs caractéristiques, comme la superficie, le nombre de pièces, ou l’emplacement géographique. Les données utilisées proviennent du site [Kaggle](https://www.kaggle.com/datasets/yasserh/housing-prices-dataset/data) et contiennent un fichier `.csv` listant des caractéristiques détaillées de différentes maisons. Ces variables comprennent notamment :  

- le prix de la maison
- la dimension de la maison
- le nombre de chambre
- le nombre de salle de bain
- nombre d'étage
- proche d'une route principale
- chambre d'ami
- sous-sol
- ballon d'eau chaude
- climatisateur  

Ce projet vise à explorer ces variables pour comprendre leur impact sur le prix et construire un modèle prédictif capable de fournir des estimations de prix fiables. Grâce aux pipelines GitLab CI/CD, le processus d’entraînement, de validation et de déploiement du modèle est automatisé, garantissant ainsi une gestion efficace des versions et des mises à jour du modèle.   

![image1](../documentation/image1.jpg)

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 
import warnings
warnings.filterwarnings("ignore")
import os

In [3]:
data = pd.read_csv('./data/Housing.csv', low_memory=False)
pd.set_option('display.max_columns', None) #permet d'afficher toutes les colonnes
data

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished
...,...,...,...,...,...,...,...,...,...,...,...,...,...
540,1820000,3000,2,1,1,yes,no,yes,no,no,2,no,unfurnished
541,1767150,2400,3,1,1,no,no,no,no,no,0,no,semi-furnished
542,1750000,3620,2,1,1,yes,no,no,no,no,0,no,unfurnished
543,1750000,2910,3,1,1,no,no,no,no,no,0,no,furnished
