# Analise exploratoire des données

In [None]:
import os
import glob
import pandas as pd
from datetime import datetime
import seaborn as sns
import matplotlib.pyplot as plt

# Obtenir la date actuelle au format YYYYMMDD
current_date = datetime.now().strftime("%Y%m%d")

# Spécifier le chemin du dossier "backup"
backup_dir = 'backup'

# Vérifier si le dossier "backup" existe
if not os.path.exists(backup_dir):
    print(f"Le dossier {backup_dir} n'existe pas. Veuillez le créer et y ajouter des fichiers.")
    exit()

# Rechercher tous les fichiers correspondant au format "properties_db_*.csv" dans le dossier backup
file_pattern = os.path.join(backup_dir, "properties_db_*.csv")
files = glob.glob(file_pattern)

if files:
    # Filtrer pour trouver un fichier de la date courante ou le plus récent
    current_date_pattern = os.path.join(backup_dir, f"properties_db_{current_date}.csv")
    if current_date_pattern in files:
        latest_file = current_date_pattern
        print(f"Fichier correspondant à la date courante trouvé : {latest_file}")
    else:
        # Si aucun fichier pour la date courante, sélectionner le fichier le plus récent
        latest_file = max(files, key=os.path.getmtime)
        print(f"Aucun fichier pour la date courante. Dernier fichier disponible : {latest_file}")

    # Charger le fichier CSV dans un DataFrame
    try:
        df_properties = pd.read_csv(latest_file)
        print("Fichier importé avec succès.")
        print(df_properties.info())  # Informations sur le DataFrame
    except Exception as e:
        print(f"Erreur lors de la lecture du fichier {latest_file}: {e}")
else:
    print("Aucun fichier disponible dans le dossier 'backup'.")

## Répartition des types de propriétés

Afficher la répartition des propriétés en fonction de leur type :

In [None]:
# Compter le nombre de propriétés par type
property_type_counts = df_properties['type'].value_counts()

# Afficher les résultats
print(property_type_counts)

# Visualiser avec un graphique en secteurs
import matplotlib.pyplot as plt

property_type_counts.plot(kind='pie', autopct='%1.1f%%', figsize=(8, 8), title='Répartition des propriétés par type')
plt.ylabel('')
plt.show()

In [None]:
property_type_counts.index

In [None]:
# Dictionnaire de mappage pour regrouper les types de propriétés similaires
type_vers_categorie = {
    # Appartement/Condo
    "Condo": "Appartement/Condo",
    "Maison en copropriété": "Appartement/Condo",
    "Condo for sale": "Appartement/Condo",
    "Condominium house for sale": "Appartement/Condo",
    "Loft / Studio for sale": "Appartement/Condo",
    
    # Autres
    "Inconnu": "Autres",
    
    # Fermes et propriétés agricoles
    "Fermette": "Fermes et propriétés agricoles",
    "Ferme": "Fermes et propriétés agricoles",
    "Hobby farm for sale": "Fermes et propriétés agricoles",
    
    # Maison individuelle
    "Maison": "Maison individuelle",
    "Chalet": "Maison individuelle",
    "Cottage for sale": "Maison individuelle",
    "Maison mobile": "Maison individuelle",
    "Mobile home for sale": "Maison individuelle",
    
    # Multilogement
    "Duplex": "Multilogement",
    "Triplex": "Multilogement",
    "Quadruplex": "Multilogement",
    "Quintuplex": "Multilogement",
    "Duplex for sale": "Multilogement",
    "Triplex for sale": "Multilogement",
    "Quadruplex for sale": "Multilogement",
    "Quintuplex for sale": "Multilogement",
    
    # Terrain
    "Lot for sale": "Terrain",
    "Terrain": "Terrain",
    "Land for sale": "Terrain",
    "Terre": "Terrain",
}

# Fonction pour mapper les types de propriétés en catégories
# Appliquer le mappage pour regrouper les types de propriétés en catégories
df_properties['category'] = df_properties['type'].map(type_vers_categorie).fillna('Autres')

# Vérifier les résultats
print(df_properties['category'].value_counts())

### Vérifier la répartition par catégorie

Après regroupement, afficher la répartition des catégories principales :

In [None]:
# Répartition par catégorie
category_counts = df_properties['category'].value_counts()

print(category_counts)

# Visualisation
category_counts.plot(kind='bar', figsize=(10, 6), title="Répartition des propriétés par catégorie", color='skyblue')
plt.ylabel("Nombre de propriétés")
plt.xlabel("Catégorie")
plt.show()

### Répartition des propriétés par région

In [None]:
# Répartition par catégorie
category_counts = df_properties['category'].value_counts()

print(category_counts)

# Visualisation
category_counts.plot(kind='bar', figsize=(10, 6), title="Répartition des propriétés par catégorie", color='skyblue')
plt.ylabel("Nombre de propriétés")
plt.xlabel("Catégorie")
plt.show()

### Proportion des propriétés par région (en %)

In [None]:
# Calculer le nombre de propriétés par région
region_distribution = df_properties['region'].value_counts()

# Afficher les résultats
print(region_distribution)

# Graphique en barres
region_distribution.plot(kind='bar', figsize=(12, 6), color='skyblue', title="Répartition des propriétés par région")
plt.ylabel("Nombre de propriétés")
plt.xlabel("Région")
plt.xticks(rotation=45)
plt.show()

In [None]:
# Proportion en %
region_distribution_percentage = (region_distribution / region_distribution.sum()) * 100

# Afficher les résultats
print(region_distribution_percentage)

In [None]:
# Graphique en camembert
region_distribution_percentage.plot(kind='pie', figsize=(8, 8), autopct='%1.1f%%', title="Proportion des propriétés par région")
plt.ylabel("")  # Supprimer l'étiquette "region"
plt.show()

### Ditribution des catégories de propriétés par region

In [None]:
# Tableau croisé dynamique pour observer les catégories dans chaque région
region_category_distribution = pd.crosstab(df_properties['region'], df_properties['category'])

# Afficher les résultats
#print(region_category_distribution)

# Exporter la distribution par région
region_distribution.to_csv("region_distribution.csv", index=True)
region_category_distribution.to_csv("region_category_distribution.csv")
print("Répartition des catégories par région exportée dans 'region_category_distribution.csv'.")

# Créer une heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(region_category_distribution, annot=True, fmt="d", cmap="YlGnBu", cbar_kws={"label": "Nombre de propriétés"})
plt.title("Répartition des catégories par région")
plt.xlabel("Catégorie")
plt.ylabel("Région")
plt.xticks(rotation=45, ha="right")
plt.tight_layout()

# Afficher le graphique
plt.show()

### Ditribution des catégories de propriétés sur le marché par region

In [None]:
# Filtrer les propriétés en vente (non vendues)
properties_for_sale = df_properties[df_properties['vendue'] == False]

# Tableau croisé dynamique pour observer les catégories dans chaque région
region_category_distribution_on_sale = pd.crosstab(properties_for_sale['region'], properties_for_sale['category'])

# Afficher les résultats
#print(region_category_distribution)

region_category_distribution_on_sale.to_csv("region_category_distribution.csv")
print("Répartition des catégories par région exportée dans 'region_category_distribution.csv'.")

# Préparer les données pour le graphique en barres empilées
region_category_distribution.plot(
    kind='bar', 
    stacked=True, 
    figsize=(12, 6), 
    colormap='viridis'
)

# Ajouter des labels et un titre
plt.title("Répartition des catégories par région (Propriétés en vente)", fontsize=16)
plt.xlabel("Région", fontsize=12)
plt.ylabel("Nombre de propriétés", fontsize=12)
plt.xticks(rotation=45, ha="right")
plt.legend(title="Catégorie", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()

# Afficher le graphique
plt.show()


In [None]:
# Extraire l'année à partir d'une colonne de type date (par exemple, 'date_ajout')
df_properties['year_added'] = pd.to_datetime(df_properties['add_date']).dt.year

# Tableau croisé dynamique pour observer les régions par année
yearly_region_distribution = pd.crosstab(df_properties['year_added'], df_properties['region'])

# Afficher les résultats
#print(yearly_region_distribution)

# Exporter les données
yearly_region_distribution.to_csv("yearly_region_distribution.csv")
print("Répartition des propriétés par région et année exportée dans 'yearly_region_distribution.csv'.")

# Visualisation avec une Heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(
    yearly_region_distribution, 
    annot=True, 
    fmt="d", 
    cmap="YlGnBu", 
    linewidths=0.5, 
    cbar_kws={"label": "Nombre de propriétés"}
)

# Ajouter des labels et un titre
plt.title("Carte thermique : Répartition des propriétés par région et année", fontsize=16)
plt.xlabel("Région", fontsize=12)
plt.ylabel("Année", fontsize=12)
plt.xticks(rotation=45, ha="right")
plt.tight_layout()

# Afficher le graphique
plt.show()

In [None]:
# Extraire l'année à partir d'une colonne de type date (par exemple, 'date_ajout')
df_properties['year_added'] = pd.to_datetime(df_properties['add_date']).dt.year

# Tableau croisé dynamique pour observer les régions, catégories et années
yearly_region_category_distribution = pd.crosstab([df_properties['year_added'], df_properties['region']], df_properties['category'])

# Afficher les résultats
#print(yearly_region_category_distribution)

# Exporter les données
yearly_region_category_distribution.to_csv("yearly_region_category_distribution.csv")
print("Répartition des propriétés par région, année et catégorie exportée dans 'yearly_region_category_distribution.csv'.")

# Visualisation avec une Heatmap
plt.figure(figsize=(14, 8))
sns.heatmap(
    yearly_region_category_distribution, 
    annot=True, 
    fmt="d", 
    cmap="YlGnBu", 
    linewidths=0.5, 
    cbar_kws={"label": "Nombre de propriétés"}
)

# Ajouter des labels et un titre
plt.title("Carte thermique : Répartition des propriétés par région, année et catégorie", fontsize=16)
plt.xlabel("Catégorie", fontsize=12)
plt.ylabel("Année et Région", fontsize=12)
plt.xticks(rotation=45, ha="right")
plt.tight_layout()

# Afficher le graphique
plt.show()

In [None]:
# Réinitialiser l'index pour convertir le tableau croisé en DataFrame utilisable
yearly_region_category_distribution = yearly_region_category_distribution.reset_index()

# Création du graphique
plt.figure(figsize=(16, 8))

# Graphique en barres empilées groupées
categories = yearly_region_category_distribution.columns[2:]  # Colonnes des catégories
regions = yearly_region_category_distribution['region'].unique()
years = yearly_region_category_distribution['year_added'].unique()

bar_width = 0.15  # Largeur de chaque barre
x_positions = np.arange(len(years))  # Positions des années sur l'axe X

# Boucle pour chaque région et catégorie
for i, region in enumerate(regions):
    subset = yearly_region_category_distribution[yearly_region_category_distribution['region'] == region]
    bottom_value = np.zeros(len(years))
    for category in categories:
        values = subset[category].values if category in subset.columns else np.zeros(len(years))
        plt.bar(
            x_positions + i * bar_width,  # Décalage des régions
            values, 
            bar_width,
            bottom=bottom_value, 
            label=f"{region} - {category}" if i == 0 else "", 
        )
        bottom_value += values

# Ajouter des labels et un titre
plt.title("Évolution des propriétés par région, année et catégorie", fontsize=16)
plt.xlabel("Année", fontsize=12)
plt.ylabel("Nombre de propriétés", fontsize=12)
plt.xticks(x_positions + bar_width * (len(regions) - 1) / 2, years, rotation=45, ha="right")
plt.legend(loc="upper left", bbox_to_anchor=(1.05, 1), title="Région et Catégorie")
plt.tight_layout()

# Afficher le graphique
plt.show()

### Explorer les caractéristiques des propriétés dans une région spécifique

In [None]:
# Filtrer les propriétés pour une région spécifique
region= 'Mauricie'
region_specific = df_properties[df_properties['region'] == region]

# Statistiques descriptives
print(region_specific.describe())

# Répartition des types de propriétés dans cette région
type_distribution_in_region = region_specific['category'].value_counts()
print(type_distribution_in_region)

# Visualisation
type_distribution_in_region.plot(kind='bar', figsize=(10, 6), color='orange', title=f"Répartition des catégories à {region}")
plt.ylabel("Nombre de propriétés")
plt.xlabel("Catégorie")
plt.xticks(rotation=45)
plt.show()

### Exporter la distribution pour la région

In [None]:
# Filtrer les propriétés pour une région spécifique
region= 'Mauricie'
region_specific = df_properties[df_properties['region'] == region]

# Statistiques descriptives
print(region_specific.describe())

# Répartition des types de propriétés dans cette région
type_distribution_in_region = region_specific['category'].value_counts()
print(type_distribution_in_region)

# Visualisation
type_distribution_in_region.plot(kind='bar', figsize=(10, 6), color='orange', title=f"Répartition des catégories à {region}")
plt.ylabel("Nombre de propriétés")
plt.xlabel("Catégorie")
plt.xticks(rotation=45)
plt.show()

### Analysons une catégorie spécifique dans une région particulière, voici une démarche détaillée. Prenons comme exemple la région "***Montréal (Île)***" et la catégorie "***Appartement/condo***" :

In [None]:
# Exporter la distribution par région
region_distribution.to_csv(f"region_{region}_distribution.csv", index=True)
# Exporter la distribution par région et par catégorie
region_category_distribution.to_csv("region_category_distribution.csv")

print(f"Données exportées dans 'region_{region}_distribution.csv' et 'region_{region}_category_distribution.csv'.")

### Statistiques descriptives pour cette catégorie dans la région

In [None]:
# Définir la région et la catégorie
region_name = region  # Remplacez par la région souhaitée
category_name = "Multilogement"  # Remplacez par la catégorie souhaitée

# Filtrer les données
filtered_data = df_properties[(df_properties['region'] == region_name) & (df_properties['category'] == category_name)]

# Afficher les premières lignes et le nombre total
print(filtered_data.head())
print(f"Nombre total de propriétés pour la catégorie '{category_name}' dans la région '{region_name}' : {len(filtered_data)}")

#### Uniformiser les données dans la colonne

In [None]:
# Statistiques descriptives pour les colonnes numériques
stats = filtered_data[['price', 'surface', 'municipal_taxes', 'school_taxes', 'construction_year', 'nb_bedroom', 'nb_bathroom']].describe()

# Afficher les statistiques descriptives
print(stats)

In [None]:
# Convertir toutes les valeurs en booléen
filtered_data['vendue'] = filtered_data['vendue'].map(lambda x: str(x).lower() == 'true')

# Vérifier les valeurs uniques après la conversion
print(filtered_data['vendue'].unique())

In [None]:
filtered_data['vendue'].unique()

In [None]:
# Convertir toutes les valeurs en booléen
filtered_data['vendue'] = filtered_data['vendue'].map(lambda x: str(x).lower() == 'true')

# Vérifier les valeurs uniques après la conversion
print(filtered_data['vendue'].unique())

In [None]:
# Filtrer les propriétés situées à Montréal et non vendues
montreal_data = filtered_data[
    (df_properties['vendue'] == False)# Propriétés non vendues
]

# Afficher un aperçu des données filtrées
print(f"Nombre de propriétés en vente sur l'île de Montréal : {len(montreal_data)}")
print(montreal_data.head())

In [None]:
# Répartition des propriétés vendues ou non
vendue_counts = filtered_data['vendue'].value_counts()

# Afficher les résultats
print(vendue_counts)

# Graphique en barres
vendue_counts.plot(kind='bar', figsize=(8, 6), color=['green', 'red'], title=f"Répartition des propriétés vendues pour '{category_name}' à {region_name}")
plt.ylabel("Nombre de propriétés")
plt.xlabel("Statut (Vendue ou Non)")
plt.xticks(rotation=0)
plt.show()

In [None]:
# Filtrer les propriétés situées à Montréal et non vendues
montreal_data = filtered_data[
    (df_properties['vendue'] == False)# Propriétés non vendues
]

# Afficher un aperçu des données filtrées
print(f"Nombre de propriétés en vente sur l'île de Montréal : {len(montreal_data)}")
print(montreal_data.head())

### Variation des prix d'année en année

In [None]:
# Distribution des prix
plt.figure(figsize=(10, 6))
plt.hist(filtered_data['price'], bins=40, color='skyblue', edgecolor='black')
plt.title(f"Distribution des prix pour '{category_name}' à {region_name}")
plt.xlabel("Prix ($)")
plt.ylabel("Nombre de propriétés")
plt.show()

### Calculer le prix moyen par année

In [None]:
# Extraire l'année et le mois de la colonne add_date
filtered_data['year'] = pd.to_datetime(filtered_data['add_date']).dt.year

filtered_data['month'] = pd.to_datetime(filtered_data['add_date']).dt.month

# Vérifier les premières lignes
print(filtered_data[['add_date', 'year','month']].head())

### Variation de la moyenne des prix

In [None]:
# Grouper par année et mois, et calculer les statistiques
price_trends = filtered_data.groupby(['year','month'])['price'].agg(['mean', 'median', 'min', 'max', 'count']).reset_index()

# Afficher les premières lignes
print(price_trends.head())

### Variation de la médiane des prix par année et mois

In [None]:
import seaborn as sns

# Préparer les données pour un graphique temporel
price_trends['date'] = pd.to_datetime(price_trends[['year','month']].assign(day=1))

# Visualisation de la moyenne des prix
plt.figure(figsize=(12, 6))
sns.lineplot(data=price_trends, x='date', y='mean', marker='o', label='Prix moyen')
plt.title('Variation du prix moyen par mois')
plt.xlabel('Date')
plt.ylabel('Prix moyen ($)')
plt.grid(True)
plt.legend()
plt.show()

### Afficher des indicateurs comme la médiane, le minimum et le maximum 

In [None]:
# Visualisation de la médiane des prix
plt.figure(figsize=(12, 6))
sns.lineplot(data=price_trends, x='date', y='median', marker='o', color='orange', label='Prix médian')
sns.lineplot(data=price_trends, x='date', y='mean', marker='o', label='Prix moyen')
sns.lineplot(data=price_trends, x='date', y='max', marker='o', label='Prix maximum')
sns.lineplot(data=price_trends, x='date', y='min', marker='o', label='Prix minimum')
plt.title('Variation du prix par mois')
plt.xlabel('Date')
plt.ylabel('Prix médian ($)')
plt.grid(True)
plt.legend()
plt.show()