# Visualisation des données

In [4]:
import pandas as pd
import plotly.express as px


In [19]:
data = pd.read_csv('Clean_data.csv')

In [47]:
data.head()

Unnamed: 0,nb_pieces,lien,titre,surface,nb_chambres,annee_constr,nb_features_int,features_int,features_ext,terrain,...,piscine,place_parking,cuisine_amenagee,ascenseur,sous_sol,balcons,terrasses,caves,garages,nb_features_ext
0,1,https://www.laforet.com/agence-immobiliere/par...,Appartement T1 Paris 15,10,1,0,2,Cuisine Kitchenet,,0,...,0,0,0,0,0,0,0,0,0,0
1,1,https://www.laforet.com/agence-immobiliere/par...,Appartement T1 Paris 18,25,1,0,4,"Cuisine Ouverte, 1 cave(s)",,0,...,0,0,0,0,0,0,0,1,0,0
2,1,https://www.laforet.com/agence-immobiliere/par...,Appartement T1 Boulogne-Billancourt,12,1,0,4,"Cuisine Kitchenet, Avec ascenseur",,0,...,0,0,0,1,0,0,0,0,0,0
3,3,https://www.laforet.com/agence-immobiliere/dij...,Appartement T3 Dijon,65,2,2005,10,"Cuisine Nue, Avec ascenseur, 1 terrasse(s), 1 ...",,1,...,0,0,0,1,1,0,1,1,0,0
4,1,https://www.laforet.com/agence-immobiliere/par...,Appartement T1 Paris 11,15,1,0,2,Cuisine Kitchenet,,0,...,0,0,0,0,0,0,0,0,0,0


### On regarde les logements selon leur type

In [10]:

# On fait un graphique pour avoir le nombre de logements en fonction de leur type
counts = data['type'].value_counts()
fig = px.bar(counts, x=counts.index, y=counts.values, text=counts.values, color='type')
fig.update_layout(title='Comptage pour chaque type de logement')
fig.show()



### On analyse les logements et leur prix

In [76]:
# on cree un graphique du prix en fonction de la surface
fig = px.scatter(data, x='surface', y='prix')

# on met un axe des ordonnées en milliers d'euros
fig.update_layout(yaxis2=dict(title="Prix (en milliers d'euros)", 
                              titlefont=dict(color='red'), 
                              tickfont=dict(color='red'), 
                              overlaying='y', 
                              side='right'))

#on met un titre et des valeurs pour les axes
fig.update_layout(
    title='Evolution du prix en fonction de la surface',
    xaxis_title='Surface (mètres carrés)',
    yaxis_title="Prix (milliers d'euros)"
)

fig.show()


On voit une corrélation positive, mais pas totalement puisque le prix egalement de la localisation.

In [54]:
# On regarde le prix des logements en fonction de la presence ou non d'une piscine

grouped = data.groupby('piscine').mean()

#creation du graphique
fig = px.bar(grouped, x=grouped.index, y='prix', color='prix')

# on ajoute le titre
fig.update_layout(title={'text': "Prix moyen en fonction de la présence ou non de piscine",
                          'font': {'size': 22},
                          'x': 0.5, 'xanchor': 'center'})

fig.show()



The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



In [73]:

# filter out the rows where annee_constr is equal to 0
data2 = data[data['annee_constr'] > 1800]

# plot the data
fig = px.scatter(data2, x='annee_constr', y='prix', trendline='ols')

# show plot
fig.show()


### Analyse des features des logements

In [37]:
#on peut mettre les lofts dans la catégorie 'appartement' pour une meilleure lisibilité
data['type'] = data['type'].replace('Loft', 'Appartement')


In [38]:

# on regarde le nombre de features moyen par type d'habitation
grouped_df = data.groupby(by='type').mean()

# On fait un bar plot horizontal
fig = px.bar(grouped_df, x='nb_features_int', y=grouped_df.index, orientation='h', color=grouped_df.index)

#on met un titre et des valeurs pour les axes
fig.update_layout(
    title='Moyenne du nombre de features interieurs en fonction du type de logement',
    xaxis_title='Nombre de features',
    yaxis_title="Type de logement"
)

# Show the plot
fig.show()



The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



In [42]:
data['nb_features_ext']= data['piscine']+data['place_parking']

In [46]:
# on regarde le nombre de features moyen par type d'habitation

grouped_df = data.groupby(by='type').mean()


# On fait un bar plot horizontal
fig = px.bar(grouped_df, x='nb_features_ext', y=grouped_df.index, orientation='h', color=grouped_df.index)

#on met un titre et des valeurs pour les axes
fig.update_layout(
    title='Moyenne du nombre de features exterieurs en fonction du type de logement',
    xaxis_title='Nombre de features',
    yaxis_title="Type de logement"
)

# Show the plot
fig.show()


The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



On remarque donc, sans surprise, que les maisons ont en moyenne plus de features exterieurs et que les appartements ont en moyenne plus de features interieurs

### Bar plot de la présence ou non des différents features de logements 

In [63]:
#on fait des regroupements de features

data['espace_suppl'] = data['caves'] + data['sous_sol']
data['espace_ext'] = data['terrasses'] + data['balcons']
data['parking'] = data['place_parking'] + data['garages']


In [69]:
import plotly.subplots as sp
import plotly.graph_objs as go

#on cree 6 subplots pour pouvoir faire la compairsaon visuelle entre les features

terrain_count = data['terrain'].value_counts()
ascenseur_count = data['ascenseur'].value_counts()
cuisine_count = data['cuisine_amenagee'].value_counts()
cave_count = data['espace_suppl'].value_counts()
ext_count = data['espace_ext'].value_counts()
parking = data['parking'].value_counts()


fig = sp.make_subplots(rows=2, cols=3)

trace1 = go.Bar(x=['Oui', 'Non'], y=terrain_count, name='Terrain')
trace2 = go.Bar(x=['Oui', 'Non'], y=ascenseur_count, name='Ascenseur')
trace3 = go.Bar(x=['Oui', 'Non'], y=cuisine_count, name='Cuisine Aménagée')
trace4 = go.Bar(x=['Oui', 'Non'], y=cave_count, name='Cave ou sous-sol')
trace5 = go.Bar(x=['Oui', 'Non'], y=ext_count, name='Terrasse ou Balcon')
trace6 = go.Bar(x=['Oui', 'Non'], y=parking, name='Parking ou garage')


fig.add_trace(trace1, row=1, col=1)
fig.add_trace(trace2, row=1, col=2)
fig.add_trace(trace3, row=1, col=3)
fig.add_trace(trace4, row=2, col=1)
fig.add_trace(trace5, row=2, col=2)
fig.add_trace(trace6, row=2, col=3)

fig.update_layout(
    title='Présence ou non de caractéristiques dans les logements'
)

fig.show()