#### PROJET DE PREDICTION DE PRIX D'APPARTEMENTS A PARTIR D'UN DATASET

##### CONTRAINTES POUR LA CONCEPTION DE NOTRE MODELE DE PREDICTION:

##### - Localisation
##### - Surface en m²
##### - Nombre de chambres
##### - Nombre de douches
##### - Présence de balcon ( >= 0)

##### NB : A l'issue de la conception du totale du modèle, de son test et de son évaluation, une application sera web sera créée pour l'utiliser.

##### RESULTAT ATTENDU : Après le renseignement de ces caractéristiques via les champs de notre appliaction web, le prix de l'appartement souhaité  sera prédit.

In [144]:
# Importation des bibliothèques necessaires
import pandas as pd # Pour la manipulation des données sous formes tabulaires ( les dataframes & series )
import numpy as np # Pour effectuer les calculs numériques

In [145]:
# importation de mon dataset depuis un fichier local ( "House_Data.csv" )
dataset = pd.read_csv(r"C:\Users\MADE\Desktop\Data Science\1- Prediction des prix d'appartements\House_Data.csv")

# EXPLORATION ET NETTOYAGE DES DONNEES

In [146]:
# Visualisation du contenu de mon dataset avec les 5 premières lignes
dataset.head(5)

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.0
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.0


In [147]:
# Interprétation :
# Nous avons dans notre dataset 9 colonnes dont les entetes sont les suivantes :
# area_type      : Type de zone (ex. : résidentielle, urbaine, commerciale, rurales...)
# availability   : Disponibilité du bien (ex. : immédiate, dans 1 mois, etc...)
# location       : Localisation ou quartier (ex. : Cocody, Yopougon, etc...)
# size           : Taille du logement --> BHK ( B-> Bedroom(chambre) ; H-> Hall(Salon) ; K-> Kitchen(cusine) )
# society        : Nom de la résidence ou lotissement (facultatif)
# total_sqft     : Superficie totale en pieds carrés (On convertira en mètres carrés par la suite)
# bath           : Nombre de salles de bains
# balcony        : Nombre de balcons
# price          : Prix du logement (exprimé en FCFA)


In [148]:
# Visualisation de la taille globale de mon dataset ( les nombres de lignes et le nombre de colonnes totaux )
dataset

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


In [149]:
# Interprétation :
# Notre dataset est une matrice de :
# 13320 rows ---> 13320 lignes 
# 9 columns ---> 9 colonnes

In [150]:
dataset

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


In [151]:
# Suppresion des colonnes qui correspondent pas à nos contraintes de prédiction
# ce sont les colonnes : area_type	- availability	- society

dataset.drop(columns =["area_type","availability","society"], inplace = True)
# Affichage de notre dataset à nouveau pour voir les changements
dataset # Renvoie maintenant l'affichage de notre dataset sans les colonnes qu'on a voulu supprimer

Unnamed: 0,location,size,total_sqft,bath,balcony,price
0,Electronic City Phase II,2 BHK,1056,2.0,1.0,39.07
1,Chikka Tirupathi,4 Bedroom,2600,5.0,3.0,120.00
2,Uttarahalli,3 BHK,1440,2.0,3.0,62.00
3,Lingadheeranahalli,3 BHK,1521,3.0,1.0,95.00
4,Kothanur,2 BHK,1200,2.0,1.0,51.00
...,...,...,...,...,...,...
13315,Whitefield,5 Bedroom,3453,4.0,0.0,231.00
13316,Richards Town,4 BHK,3600,5.0,,400.00
13317,Raja Rajeshwari Nagar,2 BHK,1141,2.0,1.0,60.00
13318,Padmanabhanagar,4 BHK,4689,4.0,1.0,488.00


In [152]:
# Comparaison

# Avant suppression des colonnes non essentielles : nous avions ---> 9 columns
# Après suppression des colonnes non essentielles : nous avons maintenant ---> 6 columns

# Interprétation :
# La suppression des colonnes non essentielles telles que 'area_type', 'availability' et 'society'
# permet de se concentrer uniquement sur les variables réellement pertinentes pour la prédiction des prix.
# Cela réduit le bruit dans les données, simplifie le modèle et améliore potentiellement ses performances en éliminant les attributs peu informatifs.

In [153]:
# Suppression des valeurs nulles ou manquantes
dataset.dropna(inplace = True)
# Dans notre cas, on pourraot très bien utiliser des alternatives à la suppression des cellules ou les valeurs manquantes sont detectées, mais cela amoindrirai la précision de notre modèle par rapport au dataset utilisé pour le créer ainsi qu'aux prédictions qu'il fera.
# Ces méthodes alternatives sont appelées du nom de "Méthodes d'impuation" dont les plus utilisées sont : *la moyenne et *la médiane pour ne citer que celles là

In [154]:
# reaffichage de mon dataframe
dataset

Unnamed: 0,location,size,total_sqft,bath,balcony,price
0,Electronic City Phase II,2 BHK,1056,2.0,1.0,39.07
1,Chikka Tirupathi,4 Bedroom,2600,5.0,3.0,120.00
2,Uttarahalli,3 BHK,1440,2.0,3.0,62.00
3,Lingadheeranahalli,3 BHK,1521,3.0,1.0,95.00
4,Kothanur,2 BHK,1200,2.0,1.0,51.00
...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715,3.0,3.0,112.00
13315,Whitefield,5 Bedroom,3453,4.0,0.0,231.00
13317,Raja Rajeshwari Nagar,2 BHK,1141,2.0,1.0,60.00
13318,Padmanabhanagar,4 BHK,4689,4.0,1.0,488.00


In [155]:
# Comparaison
# Avant suppression valeurs manquantes pour les lignes : nous avions ---> 13320 rows
# Après suppression valeurs manquantes pour les lignes : nous avons maintenant ---> 12710 rows, soit une différence 610 lignes non-explotables

# Interprétation :
# Ces données manquantes supprimées nous permettent de garantir la cohérence du jeu de données et d’assurer un entraînement plus fiable du modèle de prédiction

###### NETTOYAGE DE LA COLONNE 'location' DU DATAFRAME

In [156]:
# Trouver le nombre d'occurence de chaque ville
dataset.location.value_counts()

location
Whitefield            514
Sarjapur  Road        372
Electronic City       300
Kanakpura Road        261
Thanisandra           231
                     ... 
Milk Colony             1
Sundara Nagar           1
Jaladarsini Layout      1
Madanayakahalli         1
Abshot Layout           1
Name: count, Length: 1265, dtype: int64

In [157]:
# Remarques : On constate ici que certaines villes n'apparaissent que 1 fois dans notre dataframe.
# Ces derniers peuvent avoir de répercutions sur l'entrainement et la performance de notre modèle donc on appliquera un méthode d'imputation à ces valeurs aux extremes

In [158]:
dataset['location'] = dataset['location'].apply( lambda x: x.strip())

In [159]:
dataset.location.value_counts()

location
Whitefield          515
Sarjapur  Road      372
Electronic City     302
Kanakpura Road      261
Thanisandra         234
                   ... 
Shirdi Sai Nagar      1
S R Layout            1
Meenakshi Layout      1
Vidyapeeta            1
Abshot Layout         1
Name: count, Length: 1254, dtype: int64

In [160]:
# Valeurs des localisations
location_stat = dataset.groupby('location')['location'].agg('count').sort_values(ascending = False)
# affichage des valeurs par ordre décroissant
location_stat

location
Whitefield              515
Sarjapur  Road          372
Electronic City         302
Kanakpura Road          261
Thanisandra             234
                       ... 
Kanakapura  Rod           1
Kanakapura Main Road      1
Kanakapura Road           1
Kanakapura Road,          1
whitefiled                1
Name: location, Length: 1254, dtype: int64

In [161]:
# Suppression des localisation avec apparition inférieur à 10
loc_appears_inf_ten = location_stat[location_stat <= 10]
# affichage des valeurs
loc_appears_inf_ten

location
1st Block Koramangala    10
Kalkere                  10
Basapura                 10
Kodigehalli              10
Gunjur Palya             10
                         ..
Kanakapura  Rod           1
Kanakapura Main Road      1
Kanakapura Road           1
Kanakapura Road,          1
whitefiled                1
Name: location, Length: 1017, dtype: int64

In [162]:
# création d'une autre colonnes pour les valeurs aux extremes de notre colonne de localisation
dataset['location'] = dataset['location'].apply( lambda x: 'other' if x in loc_appears_inf_ten else x)
# affichage de apparitions des villes dans notre dataset
dataset['location'].value_counts()

location
other                        2739
Whitefield                    515
Sarjapur  Road                372
Electronic City               302
Kanakpura Road                261
                             ... 
Marsur                         11
LB Shastri Nagar               11
2nd Phase Judicial Layout      11
ISRO Layout                    11
Vishveshwarya Layout           11
Name: count, Length: 238, dtype: int64

In [163]:
dataset

Unnamed: 0,location,size,total_sqft,bath,balcony,price
0,Electronic City Phase II,2 BHK,1056,2.0,1.0,39.07
1,Chikka Tirupathi,4 Bedroom,2600,5.0,3.0,120.00
2,Uttarahalli,3 BHK,1440,2.0,3.0,62.00
3,Lingadheeranahalli,3 BHK,1521,3.0,1.0,95.00
4,Kothanur,2 BHK,1200,2.0,1.0,51.00
...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715,3.0,3.0,112.00
13315,Whitefield,5 Bedroom,3453,4.0,0.0,231.00
13317,Raja Rajeshwari Nagar,2 BHK,1141,2.0,1.0,60.00
13318,Padmanabhanagar,4 BHK,4689,4.0,1.0,488.00


###### NETTOYAGE DE LA COLONNE 'size' DU DATAFRAME

In [164]:
# affichage des valeurs unique de la colonne des superficies
dataset['size'].unique()

array(['2 BHK', '4 Bedroom', '3 BHK', '3 Bedroom', '1 BHK', '1 RK',
       '4 BHK', '1 Bedroom', '2 Bedroom', '6 Bedroom', '8 Bedroom',
       '7 Bedroom', '5 BHK', '7 BHK', '6 BHK', '5 Bedroom', '11 BHK',
       '9 BHK', '9 Bedroom', '27 BHK', '11 Bedroom', '43 Bedroom',
       '14 BHK', '8 BHK', '12 Bedroom', '10 Bedroom', '13 BHK'],
      dtype=object)

In [165]:
# Remarque : ici on remarque qu'il une annotation un peu confuse des par rapport aux éléments constituant l'appartement
# Par exemple pour '2 BHK' & '4 Bedroom' cela signifirai respectivement 
# * '2 BHK' ------> 2 bedrooms(chambres); 1 Hall(salon): 1 Kitchen(cuisine)
# * '4 Bedroom' -----> (chambres) 

# TRAVAIL A FAIRE : il s'agira ici d'uniformiser les notations de façon brève en créant des colonnes pour chaque constituant
# d'un appartement selon notre dataset et nos critères établis plus haut.
# Chaque constituant en colonne, recevra la valeur qui lui correspond

In [166]:
# Création de la colonne chambres ---> 'bedrooms'
dataset['bedrooms'] = dataset['size'].apply(lambda x: int(x.split(' ')[0]))

In [167]:
dataset.head(10)

Unnamed: 0,location,size,total_sqft,bath,balcony,price,bedrooms
0,Electronic City Phase II,2 BHK,1056,2.0,1.0,39.07,2
1,Chikka Tirupathi,4 Bedroom,2600,5.0,3.0,120.0,4
2,Uttarahalli,3 BHK,1440,2.0,3.0,62.0,3
3,Lingadheeranahalli,3 BHK,1521,3.0,1.0,95.0,3
4,Kothanur,2 BHK,1200,2.0,1.0,51.0,2
5,Whitefield,2 BHK,1170,2.0,1.0,38.0,2
8,Marathahalli,3 BHK,1310,3.0,1.0,63.25,3
10,Whitefield,3 BHK,1800,2.0,2.0,70.0,3
11,Whitefield,4 Bedroom,2785,5.0,3.0,295.0,4
12,7th Phase JP Nagar,2 BHK,1000,2.0,1.0,38.0,2


###### NETTOYAGE DE LA COLONNE 'total_sqft' DU DATAFRAME

In [168]:
dataset.total_sqft.unique()

array(['1056', '2600', '1440', ..., '1133 - 1384', '774', '4689'],
      dtype=object)

In [169]:
# Remarque : Ici la superficie d'un appartement est estimé sous la forme d'une plage en occurence '1133 - 1384'
# Cela ne nous facilite pas la tache, donc on utilisera une méthode d'imputation qui est la 'moyenne' car elle represente la tendance globale centrale de la superfice de cet appartement

In [170]:
# Création d'une fonction de calcul de moyenne
def clean(sqft):
    tokens = sqft.split('-')
    if len(tokens)==2:
        return (float(tokens[0]) + float(tokens[1])) / 2
    else:
        try :
            return float(sqft)
        except:
            return None

In [171]:
# aplliquons notre fonction à la colonne des 'total_sqft'
dataset['total_sqft'] = dataset['total_sqft'].apply(clean)

In [172]:
# affichage
dataset['total_sqft'].unique()

array([1056. , 2600. , 1440. , ..., 1258.5,  774. , 4689. ])

###### NETTOYAGE DES AUTRES COLONNES RESTANTES

In [173]:
# suppression des valeurs manquantes
dataset.dropna(inplace = True)

In [174]:
dataset

Unnamed: 0,location,size,total_sqft,bath,balcony,price,bedrooms
0,Electronic City Phase II,2 BHK,1056.0,2.0,1.0,39.07,2
1,Chikka Tirupathi,4 Bedroom,2600.0,5.0,3.0,120.00,4
2,Uttarahalli,3 BHK,1440.0,2.0,3.0,62.00,3
3,Lingadheeranahalli,3 BHK,1521.0,3.0,1.0,95.00,3
4,Kothanur,2 BHK,1200.0,2.0,1.0,51.00,2
...,...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715.0,3.0,3.0,112.00,3
13315,Whitefield,5 Bedroom,3453.0,4.0,0.0,231.00,5
13317,Raja Rajeshwari Nagar,2 BHK,1141.0,2.0,1.0,60.00,2
13318,Padmanabhanagar,4 BHK,4689.0,4.0,1.0,488.00,4


In [175]:
# Affichage des stastitiques descriptives du dataframe
dataset.describe()

Unnamed: 0,total_sqft,bath,balcony,price,bedrooms
count,12668.0,12668.0,12668.0,12668.0,12668.0
mean,1511.835167,2.616277,1.585649,105.952648,2.736422
std,1162.097276,1.223882,0.816758,131.813137,1.202643
min,5.0,1.0,0.0,8.0,1.0
25%,1100.0,2.0,1.0,49.015,2.0
50%,1260.0,2.0,2.0,70.0,3.0
75%,1640.0,3.0,2.0,115.0,3.0
max,52272.0,40.0,3.0,2912.0,43.0


In [176]:
# Ici nous allons calculer maintenant le prix d'une unité de surface carrée en fonction de chaque localisation pour un appart donné, puis stocker ça dans une colonne 'sqft_per_bed' ---> prix d'unité de surface carrée par locazlité pour chaque chambre

dataset['sqft_per_bed'] = dataset['total_sqft']/dataset['bedrooms']

In [177]:
# affichage du nouveau dataset
dataset

Unnamed: 0,location,size,total_sqft,bath,balcony,price,bedrooms,sqft_per_bed
0,Electronic City Phase II,2 BHK,1056.0,2.0,1.0,39.07,2,528.000000
1,Chikka Tirupathi,4 Bedroom,2600.0,5.0,3.0,120.00,4,650.000000
2,Uttarahalli,3 BHK,1440.0,2.0,3.0,62.00,3,480.000000
3,Lingadheeranahalli,3 BHK,1521.0,3.0,1.0,95.00,3,507.000000
4,Kothanur,2 BHK,1200.0,2.0,1.0,51.00,2,600.000000
...,...,...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715.0,3.0,3.0,112.00,3,571.666667
13315,Whitefield,5 Bedroom,3453.0,4.0,0.0,231.00,5,690.600000
13317,Raja Rajeshwari Nagar,2 BHK,1141.0,2.0,1.0,60.00,2,570.500000
13318,Padmanabhanagar,4 BHK,4689.0,4.0,1.0,488.00,4,1172.250000


In [178]:
# affichage d'info statistiques de notre dataframe
dataset.sqft_per_bed.describe()

count    12668.000000
mean       570.060291
std        380.298999
min          0.714286
25%        473.333333
50%        550.000000
75%        622.500000
max      26136.000000
Name: sqft_per_bed, dtype: float64

In [179]:
# création d'un nouveau dataset
dataset2 = dataset[dataset['sqft_per_bed'] >= 300]

In [180]:
dataset2

Unnamed: 0,location,size,total_sqft,bath,balcony,price,bedrooms,sqft_per_bed
0,Electronic City Phase II,2 BHK,1056.0,2.0,1.0,39.07,2,528.000000
1,Chikka Tirupathi,4 Bedroom,2600.0,5.0,3.0,120.00,4,650.000000
2,Uttarahalli,3 BHK,1440.0,2.0,3.0,62.00,3,480.000000
3,Lingadheeranahalli,3 BHK,1521.0,3.0,1.0,95.00,3,507.000000
4,Kothanur,2 BHK,1200.0,2.0,1.0,51.00,2,600.000000
...,...,...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715.0,3.0,3.0,112.00,3,571.666667
13315,Whitefield,5 Bedroom,3453.0,4.0,0.0,231.00,5,690.600000
13317,Raja Rajeshwari Nagar,2 BHK,1141.0,2.0,1.0,60.00,2,570.500000
13318,Padmanabhanagar,4 BHK,4689.0,4.0,1.0,488.00,4,1172.250000


In [181]:
# Ici nous allons calculer maintenant le prix d'une unité de surface carrée en fonction de chaque localisation, puis stocker ça dans une colonne 'price_per_sqft' ---> prix d'unité de surface carrée par localité

dataset2['price_per_sqft'] = round(dataset2['price']*100000/dataset2['total_sqft'], 2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset2['price_per_sqft'] = round(dataset2['price']*100000/dataset2['total_sqft'], 2)


In [182]:
dataset2

Unnamed: 0,location,size,total_sqft,bath,balcony,price,bedrooms,sqft_per_bed,price_per_sqft
0,Electronic City Phase II,2 BHK,1056.0,2.0,1.0,39.07,2,528.000000,3699.81
1,Chikka Tirupathi,4 Bedroom,2600.0,5.0,3.0,120.00,4,650.000000,4615.38
2,Uttarahalli,3 BHK,1440.0,2.0,3.0,62.00,3,480.000000,4305.56
3,Lingadheeranahalli,3 BHK,1521.0,3.0,1.0,95.00,3,507.000000,6245.89
4,Kothanur,2 BHK,1200.0,2.0,1.0,51.00,2,600.000000,4250.00
...,...,...,...,...,...,...,...,...,...
13314,Green Glen Layout,3 BHK,1715.0,3.0,3.0,112.00,3,571.666667,6530.61
13315,Whitefield,5 Bedroom,3453.0,4.0,0.0,231.00,5,690.600000,6689.83
13317,Raja Rajeshwari Nagar,2 BHK,1141.0,2.0,1.0,60.00,2,570.500000,5258.55
13318,Padmanabhanagar,4 BHK,4689.0,4.0,1.0,488.00,4,1172.250000,10407.34


In [183]:
# Création d'un nouveau dataset
dataset3 = dataset2[dataset2['price_per_sqft'] >= 2000]

In [184]:
dataset3.drop(columns = ['size', 'sqft_per_bed', 'price_per_sqft'], axis = 1, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset3.drop(columns = ['size', 'sqft_per_bed', 'price_per_sqft'], axis = 1, inplace = True)


In [185]:
dataset3

Unnamed: 0,location,total_sqft,bath,balcony,price,bedrooms
0,Electronic City Phase II,1056.0,2.0,1.0,39.07,2
1,Chikka Tirupathi,2600.0,5.0,3.0,120.00,4
2,Uttarahalli,1440.0,2.0,3.0,62.00,3
3,Lingadheeranahalli,1521.0,3.0,1.0,95.00,3
4,Kothanur,1200.0,2.0,1.0,51.00,2
...,...,...,...,...,...,...
13314,Green Glen Layout,1715.0,3.0,3.0,112.00,3
13315,Whitefield,3453.0,4.0,0.0,231.00,5
13317,Raja Rajeshwari Nagar,1141.0,2.0,1.0,60.00,2
13318,Padmanabhanagar,4689.0,4.0,1.0,488.00,4


# CREATION DU MODELE

In [189]:
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [190]:
from sklearn.model_selection import train_test_split

In [191]:
from sklearn.linear_model import LinearRegression

In [192]:
from sklearn.pipeline import make_pipeline

In [193]:
from sklearn.compose import make_column_transformer

In [194]:
transform_col = make_column_transformer((OneHotEncoder(sparse_output = False), ['location']), remainder = 'passthrough')

In [195]:
regr_line = LinearRegression()

In [196]:
scaler = StandardScaler()

In [203]:
model = make_pipeline(transform_col, scaler, regr_line)

In [204]:
data_entree = dataset3.drop(columns = ['price'])
data_sortie = dataset3['price']

In [205]:
X_train, x_test, Y_train, y_test = train_test_split(data_entree, data_sortie, test_size = 0.2)

In [206]:
model.fit(X_train, Y_train)

The format of the columns of the 'remainder' transformer in ColumnTransformer.transformers_ will change in version 1.7 to match the format of the other transformers.
At the moment the remainder columns are stored as indices (of type int). With the same ColumnTransformer configuration, in the future they will be stored as column names (of type str).



In [209]:
# Testons notre modèle maintenant
model.score(x_test, y_test)

0.6419600479399601

In [210]:
# test de prédiction de prix d'un appartement
entree = pd.DataFrame([{
    'location': 'Electronic City Phase II',
    'total_sqft': 1056.0,
    'bath': 2.0,
    'balcony': 1.0,
    'price': 39.07,
    'bedrooms': 2
}])

In [211]:
model.predict(entree)

array([36.13422234])

In [218]:
import pandas as pd

# Création manuelle de données avec la même structure que ton DataFrame d'entrée
entree = pd.DataFrame([
    {
        'location': 'Whitefield',
        'total_sqft': 2875.0,
        'bath': 4.0,
        'balcony': 2.0,
        'bedrooms': 4
    }
])

In [224]:
model.predict(entree)

array([242.43109734])

In [225]:
import pickle as pk

In [226]:
pk.dump(model, open('Prediction_Prix_Appartements.pkl', 'wb'))

In [227]:
dataset3.to_csv('Dataset_Propre.csv')