#### PROJET DE PREDICTION DE PRIX D'APPARTEMENTS A PARTIR D'UN DATASET

##### CONTRAINTES POUR LA CONCEPTION DE NOTRE MODELE DE PREDICTION:

##### - Localisation
##### - Surface en m²
##### - Nombre de chambres
##### - Nombre de douches
##### - Présence de balcon ( >= 0)

##### NB : A l'issue de la conception du totale du modèle, de son test et de son évaluation, une application sera web sera créée pour l'utiliser.

##### RESULTAT ATTENDU : Après le renseignement de ces caractéristiques via les champs de notre appliaction web, le prix de l'appartement souhaité  sera prédit.

In [48]:
# Importation des bibliothèques necessaires
import pandas as pd # Pour la manipulation des données sous formes tabulaires ( les dataframes & series )
import numpy as np # Pour effectuer les calculs numériques

In [49]:
# importation de mon dataset depuis un fichier local ( "House_Data.csv" )
dataset = pd.read_csv(r"C:\Users\MADE\Desktop\Data Science\1- Prediction des prix d'appartements\House_Data.csv")

In [50]:
# Visualisation du contenu de mon dataset avec les 5 premières lignes
dataset.head(5)

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.0
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.0


In [51]:
# Interprétation :
# Nous avons dans notre dataset 9 colonnes dont les entetes sont les suivantes :
# area_type      : Type de zone (ex. : résidentielle, urbaine, commerciale, rurales...)
# availability   : Disponibilité du bien (ex. : immédiate, dans 1 mois, etc...)
# location       : Localisation ou quartier (ex. : Cocody, Yopougon, etc...)
# size           : Taille du logement --> BHK ( B-> Bedroom(chambre) ; H-> Hall(Salon) ; K-> Kitchen(cusine) )
# society        : Nom de la résidence ou lotissement (facultatif)
# total_sqft     : Superficie totale en pieds carrés (On convertira en mètres carrés par la suite)
# bath           : Nombre de salles de bains
# balcony        : Nombre de balcons
# price          : Prix du logement (exprimé en FCFA)


In [52]:
# Visualisation de la taille globale de mon dataset ( les nombres de lignes et le nombre de colonnes totaux )
dataset

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


In [53]:
# Interprétation :
# Notre dataset est une matrice de :
# 13320 rows ---> 13320 lignes 
# 9 columns ---> 9 colonnes

In [54]:
dataset

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


In [55]:
# Suppresion des colonnes qui correspondent pas à nos contraintes de prédiction
# ce sont les colonnes : area_type	- availability	- society

dataset.drop(columns =["area_type","availability","society"], inplace = True)
# Affichage de notre dataset à nouveau pour voir les changements
dataset # Renvoie maintenant l'affichage de notre dataset sans les colonnes qu'on a voulu supprimer

Unnamed: 0,location,size,total_sqft,bath,balcony,price
0,Electronic City Phase II,2 BHK,1056,2.0,1.0,39.07
1,Chikka Tirupathi,4 Bedroom,2600,5.0,3.0,120.00
2,Uttarahalli,3 BHK,1440,2.0,3.0,62.00
3,Lingadheeranahalli,3 BHK,1521,3.0,1.0,95.00
4,Kothanur,2 BHK,1200,2.0,1.0,51.00
...,...,...,...,...,...,...
13315,Whitefield,5 Bedroom,3453,4.0,0.0,231.00
13316,Richards Town,4 BHK,3600,5.0,,400.00
13317,Raja Rajeshwari Nagar,2 BHK,1141,2.0,1.0,60.00
13318,Padmanabhanagar,4 BHK,4689,4.0,1.0,488.00


In [59]:
# Comparaison

# Avant suppression des colonnes non essentielles : nous avions ---> 9 columns
# Après suppression des colonnes non essentielles : nous avons maintenant ---> 6 columns

# Interprétation :
# La suppression des colonnes non essentielles telles que 'area_type', 'availability' et 'society'
# permet de se concentrer uniquement sur les variables réellement pertinentes pour la prédiction des prix.
# Cela réduit le bruit dans les données, simplifie le modèle et améliore potentiellement ses performances en éliminant les attributs peu informatifs.

In [60]:
# Suppression des valeurs nulles ou manquantes
dataset.dropna(inplace = True)
# Dans notre cas, on pourraot très bien utiliser des alternatives à la suppression des cellules ou les valeurs manquantes sont detectées, mais cela amoindrirai la précision de notre modèle par rapport au dataset utilisé pour le créer ainsi qu'aux prédictions qu'il fera.
# Ces méthodes alternatives sont appelées du nom de "Méthodes d'impuation" dont les plus utilisées sont : *la moyenne et *la médiane pour ne citer que celles là

In [61]:
# reaffichage de mon dataframe
dataset

Unnamed: 0,location,size,total_sqft,bath,balcony,price
0,Electronic City Phase II,2 BHK,1056,2.0,1.0,39.07
1,Chikka Tirupathi,4 Bedroom,2600,5.0,3.0,120.00
2,Uttarahalli,3 BHK,1440,2.0,3.0,62.00
3,Lingadheeranahalli,3 BHK,1521,3.0,1.0,95.00
4,Kothanur,2 BHK,1200,2.0,1.0,51.00
...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715,3.0,3.0,112.00
13315,Whitefield,5 Bedroom,3453,4.0,0.0,231.00
13317,Raja Rajeshwari Nagar,2 BHK,1141,2.0,1.0,60.00
13318,Padmanabhanagar,4 BHK,4689,4.0,1.0,488.00


In [62]:
# Comparaison
# Avant suppression valeurs manquantes pour les lignes : nous avions ---> 13320 rows
# Après suppression valeurs manquantes pour les lignes : nous avons maintenant ---> 12710 rows, soit une différence 610 lignes non-explotables

# Interprétation :
# Ces données manquantes supprimées nous permettent de garantir la cohérence du jeu de données et d’assurer un entraînement plus fiable du modèle de prédiction

In [None]:
# 