In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score, f1_score
from sklearn.model_selection import train_test_split


In [None]:
# Chargement du fichier CSV
df = pd.read_csv('votre_fichier.csv')

# Ajout des colonnes 'annee', 'balcon', 'garage', 'note', 'price_category'
df['annee'] = np.random.randint(2005, 2024, size=len(df))
df['balcon'] = np.random.choice([True, False], size=len(df))
df['garage'] = np.random.choice([True, False], size=len(df))
df['note'] = np.random.randint(1, 6, size=len(df))

# Fonction pour catégoriser le prix
def categorize_price(price):
    if price < 100000:
        return 'low'
    elif 100000 <= price < 300000:
        return 'normal'
    elif 300000 <= price < 500000:
        return 'high'
    else:
        return 'scam'

df['price_category'] = df['price'].apply(categorize_price)


In [None]:
# Statistiques sur la surface
print("Surface moyenne:", df['surface'].mean())
print("Surface écart-type:", df['surface'].std())
print("Surface minimale:", df['surface'].min())
print("Surface maximale:", df['surface'].max())

# Statistiques sur l'année de construction
print("Année moyenne:", df['annee'].mean())
print("Année la plus ancienne:", df['annee'].min())
print("Année la plus récente:", df['annee'].max())

# Proportion d'appartements avec balcon
print("Proportion avec balcon:", df['balcon'].mean())

# Comptage des catégories de prix
print("Comptage des catégories de prix:")
print(df['price_category'].value_counts())

# Statistiques sur les chambres
print("Nombre de chambres moyen:", df['nbRooms'].mean())
print("Nombre de chambres médian:", df['nbRooms'].median())
print("Variance du nombre de chambres:", df['nbRooms'].var())
print("Écart-type du nombre de chambres:", df['nbRooms'].std())


In [None]:
# Diagramme à barres pour la répartition des catégories de prix
df['price_category'].value_counts().plot(kind='bar')
plt.title('Répartition des catégories de prix')
plt.show()

# Heatmap de corrélation entre année et prix
plt.figure(figsize=(10,6))
sns.heatmap(df[['annee', 'price']].corr(), annot=True, cmap='coolwarm')
plt.title('Corrélation entre année et prix')
plt.show()


In [None]:
X = df[['surface', 'price']]
y = df['note']

# Encodage de la ville (si besoin)
X = pd.get_dummies(X, columns=['ville'], drop_first=True)

# Régression linéaire
model = LinearRegression()
model.fit(X, y)
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)


In [None]:
X = df[['price']]
y = df['balcon']

# KNN
knn_model = KNeighborsClassifier(n_neighbors=5)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
knn_model.fit(X_train, y_train)
y_pred = knn_model.predict(X_test)

# Évaluation
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))


In [None]:
# Random Forest pour la classification du balcon
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)
y_pred = rf_model.predict(X_test)

# Évaluation du Random Forest
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 Score:", f1_score(y_test, y_pred))


In [2]:
# Création d'un DataFrame avec des données réalistes sur des appartements à Paris, Lyon et Marseille

import pandas as pd

# Données manuelles
data = {
    'surface': [45, 75, 120, 30, 85, 50, 35, 65, 110, 90,
                55, 80, 140, 35, 95, 60, 40, 70, 125, 105,
                60, 100, 130, 25, 45, 75, 150, 55, 90, 85,
                65, 50, 120, 40, 110, 80, 35, 60, 75, 100,
                95, 45, 55, 125, 85, 70, 40, 90, 135, 60],
    'nbRooms': [2, 3, 4, 1, 3, 2, 1, 2, 4, 3,
                2, 3, 5, 1, 4, 2, 1, 3, 4, 4,
                2, 4, 5, 1, 2, 3, 5, 2, 3, 3,
                2, 2, 4, 1, 4, 3, 1, 2, 3, 4,
                4, 2, 2, 5, 3, 3, 1, 3, 5, 2],
    'price': [585000, 450000, 600000, 270000, 510000, 140000, 455000, 390000, 720000, 950000,
              350000, 480000, 780000, 260000, 620000, 360000, 300000, 450000, 860000, 710000,
              420000, 680000, 920000, 220000, 390000, 520000, 970000, 410000, 550000, 480000,
              410000, 340000, 850000, 310000, 800000, 590000, 280000, 390000, 460000, 680000,
              700000, 410000, 420000, 860000, 510000, 480000, 250000, 640000, 920000, 420000],
    'annee': [2015, 2012, 2008, 2020, 2010, 2018, 2016, 2014, 2005, 2021,
              2017, 2013, 2009, 2019, 2011, 2016, 2017, 2015, 2006, 2014,
              2012, 2010, 2010, 2022, 2016, 2013, 2005, 2020, 2017, 2012,
              2016, 2011, 2009, 2023, 2007, 2008, 2020, 2015, 2014, 2011,
              2006, 2019, 2018, 2012, 2017, 2021, 2022, 2006, 2008, 2021],
    'balcon': [True, False, True, True, False, True, True, True, True, False,
               True, True, False, True, True, True, False, False, True, True,
               True, True, False, True, True, False, True, False, True, False,
               True, True, True, True, True, True, False, True, True, False,
               True, True, True, False, True, False, True, True, False, True],
    'garage': [False, True, True, False, True, False, False, True, True, True,
               False, True, True, False, True, False, False, True, True, False,
               False, True, True, False, True, False, True, False, True, False,
               True, False, True, True, True, False, False, True, True, False,
               True, True, False, True, True, False, True, False, True, False],
    'note': [4, 3, 5, 2, 3, 1, 4, 4, 5, 5,
             3, 4, 5, 2, 4, 3, 2, 4, 5, 4,
             3, 4, 5, 2, 4, 3, 5, 3, 4, 4,
             3, 3, 5, 2, 5, 4, 2, 3, 4, 5,
             4, 3, 3, 5, 4, 4, 2, 4, 5, 3],
    'price_category': ['normal', 'high', 'normal', 'low', 'normal', 'scam', 'normal', 'normal', 'high', 'high',
                       'normal', 'normal', 'high', 'low', 'high', 'normal', 'normal', 'normal', 'high', 'normal',
                       'normal', 'high', 'high', 'low', 'normal', 'normal', 'high', 'normal', 'normal', 'normal',
                       'normal', 'normal', 'high', 'low', 'high', 'normal', 'low', 'normal', 'normal', 'high',
                       'high', 'normal', 'normal', 'high', 'normal', 'normal', 'low', 'high', 'high', 'normal'],
    'ville': ['Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris',
              'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon',
              'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille',
              'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris',
              'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon']
}

# Création du DataFrame
df = pd.DataFrame(data)

# Sauvegarde du DataFrame en CSV
file_path = '/mnt/data/apartment_data_realistic.csv'
df.to_csv(file_path, index=False)

file_path


OSError: Cannot save file into a non-existent directory: '\mnt\data'