### Étape 1: Analyse des données avec Pandas et NumpyÉtape 1: Analyse des données avec Pandas et Numpy

In [None]:
import pandas as pd

donnees = pd.read_csv('suites.csv')

superficie_moyenne = donnees['surface'].mean()
superficie_ecart_type = donnees['surface'].std()
superficie_minimale = donnees['surface'].min()
superficie_maximale = donnees['surface'].max()

annee_moyenne = donnees['annee'].mean()
construction_plus_ancienne = donnees['annee'].min()
construction_plus_recente = donnees['annee'].max()

proportion_balcon = donnees['balcon'].mean()

comptage_categories_prix = donnees['price_category'].value_counts()

chambres_moyenne = donnees['nbRooms'].mean()
chambres_mediane = donnees['nbRooms'].median()
chambres_variance = donnees['nbRooms'].var()
chambres_ecart_type = donnees['nbRooms'].std()

# Affichage des résultats
print(f"Superficie: Moyenne={superficie_moyenne}, Ecart-type={superficie_ecart_type}, Min={superficie_minimale}, Max={superficie_maximale}")
print(f"Année: Moyenne={annee_moyenne}, Plus ancienne={construction_plus_ancienne}, Plus récente={construction_plus_recente}")
print(f"Proportion de logements avec balcon: {proportion_balcon}")
print(f"Catégories de prix: \n{comptage_categories_prix}")
print(f"Nombre de chambres: Moyenne={chambres_moyenne}, Médiane={chambres_mediane}, Variance={chambres_variance}, Ecart-type={chambres_ecart_type}")


### Étape 2: Visualisation avec Matplotlib
#### Diagramme à barres pour les catégories de prix

In [None]:
import matplotlib.pyplot as plt

comptage_categories_prix.plot(kind='bar', color=['blue', 'green', 'red', 'orange'])
plt.title('Répartition des catégories de prix')
plt.xlabel('Catégorie de prix')
plt.ylabel('Nombre de logements')
plt.show()


### Heatmap de la corrélation entre l'année et le prix

In [None]:
import seaborn as sns

correlation_donnees = donnees[['annee', 'price']].corr()

sns.heatmap(correlation_donnees, annot=True, cmap='coolwarm')
plt.title('Corrélation entre l\'année de construction et le prix')
plt.show()


### Étape 4: Régression linéaire pour prédire la note

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

X_explication = donnees[['surface', 'price']]  # Variables explicatives
y_resultat = donnees['note']  # Variable dépendante

X_train_set, X_test_set, y_train_set, y_test_set = train_test_split(X_explication, y_resultat, test_size=0.2, random_state=42)

modele_regression = LinearRegression()
modele_regression.fit(X_train_set, y_train_set)

y_predictions = modele_regression.predict(X_test_set)

erreur_moyenne = mean_squared_error(y_test_set, y_predictions)
score_r2 = r2_score(y_test_set, y_predictions)

print(f"Erreur Moyenne Quadratique (MSE): {erreur_moyenne}, Coefficient de Détermination (R²): {score_r2}")


### Créer une classification logistique pour savoir si il y a un garage en fonction du prix et de la ville 

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, recall_score, f1_score

donnees_logement = pd.read_csv('suites.csv')

X_explications = donnees_logement[['price', 'ville']]  # Variables explicatives (prix et ville)
y_resultat = donnees_logement['garage']  # Variable dépendante (garage: True/False)

encodeur_ville = LabelEncoder()
X_explications['ville'] = encodeur_ville.fit_transform(X_explications['ville'])

X_train_set, X_test_set, y_train_set, y_test_set = train_test_split(X_explications, y_resultat, test_size=0.2, random_state=42)

modele_logistique = LogisticRegression(max_iter=200)
modele_logistique.fit(X_train_set, y_train_set)

y_predictions = modele_logistique.predict(X_test_set)

precision = accuracy_score(y_test_set, y_predictions)
rappel = recall_score(y_test_set, y_predictions)
score_f1 = f1_score(y_test_set, y_predictions)

print(f"Précision (Accuracy): {precision}")
print(f"Rappel (Recall): {rappel}")
print(f"Score F1: {score_f1}")


### Créer une classification par KNN pour savoir si il a un balcon en fonction du prix et de la ville

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, recall_score, f1_score

donnees_logement = pd.read_csv('suites.csv')

X_features = donnees_logement[['price', 'ville']]  # Variables explicatives (prix et ville)
y_target = donnees_logement['balcon']  # Variable dépendante (balcon: True/False)

encodeur_label = LabelEncoder()
X_features['ville'] = encodeur_label.fit_transform(X_features['ville'])

X_train_knn, X_test_knn, y_train_knn, y_test_knn = train_test_split(X_features, y_target, test_size=0.2, random_state=42)

modele_knn = KNeighborsClassifier(n_neighbors=5)
modele_knn.fit(X_train_knn, y_train_knn)

y_pred_knn = modele_knn.predict(X_test_knn)

precision_knn = accuracy_score(y_test_knn, y_pred_knn)
rappel_knn = recall_score(y_test_knn, y_pred_knn)
score_f1_knn = f1_score(y_test_knn, y_pred_knn)

print(f"Précision (KNN): {precision_knn}")
print(f"Rappel (KNN): {rappel_knn}")
print(f"Score F1 (KNN): {score_f1_knn}")


### Bonus: Comparer les 2 méthodes de classification KNN et logistique précédente pour voir celle qui prédits le mieux: (accuracy, recall puis F1 Score)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, recall_score, f1_score

donnees = pd.read_csv('suites.csv')

X_explications = donnees[['price', 'ville']]  # Variables explicatives (prix et ville)
y_balcon = donnees['balcon']  # Cible 1 (balcon: True/False)
y_garage = donnees['garage']  # Cible 2 (garage: True/False)

encodeur = LabelEncoder()
X_explications['ville'] = encodeur.fit_transform(X_explications['ville'])

X_train_balcon, X_test_balcon, y_train_balcon, y_test_balcon = train_test_split(X_explications, y_balcon, test_size=0.2, random_state=42)
X_train_garage, X_test_garage, y_train_garage, y_test_garage = train_test_split(X_explications, y_garage, test_size=0.2, random_state=42)

modele_logistique = LogisticRegression(max_iter=200)
modele_logistique.fit(X_train_garage, y_train_garage)
y_pred_logistique_garage = modele_logistique.predict(X_test_garage)

modele_knn = KNeighborsClassifier(n_neighbors=5)
modele_knn.fit(X_train_balcon, y_train_balcon)
y_pred_knn_balcon = modele_knn.predict(X_test_balcon)

precision_logistique = accuracy_score(y_test_garage, y_pred_logistique_garage)
rappel_logistique = recall_score(y_test_garage, y_pred_logistique_garage)
score_f1_logistique = f1_score(y_test_garage, y_pred_logistique_garage)

precision_knn = accuracy_score(y_test_balcon, y_pred_knn_balcon)
rappel_knn = recall_score(y_test_balcon, y_pred_knn_balcon)
score_f1_knn = f1_score(y_test_balcon, y_pred_knn_balcon)

print("Régression Logistique (Garage):")
print(f"  Précision (Accuracy): {precision_logistique}")
print(f"  Rappel (Recall): {rappel_logistique}")
print(f"  Score F1: {score_f1_logistique}")

print("\nKNN (Balcon):")
print(f"  Précision (Accuracy): {precision_knn}")
print(f"  Rappel (Recall): {rappel_knn}")
print(f"  Score F1: {score_f1_knn}")


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, recall_score, f1_score

donnees_logement = pd.read_csv('suites.csv')

X_features = donnees_logement[['price', 'ville']]
y_target = donnees_logement['balcon']

encodeur_ville = LabelEncoder()
X_features['ville'] = encodeur_ville.fit_transform(X_features['ville'])

X_train_rf, X_test_rf, y_train_rf, y_test_rf = train_test_split(X_features, y_target, test_size=0.2, random_state=42)

modele_foret_aleatoire = RandomForestClassifier(n_estimators=100, random_state=42)
modele_foret_aleatoire.fit(X_train_rf, y_train_rf)

y_pred_foret = modele_foret_aleatoire.predict(X_test_rf)

precision_foret = accuracy_score(y_test_rf, y_pred_foret)
rappel_foret = recall_score(y_test_rf, y_pred_foret)
score_f1_foret = f1_score(y_test_rf, y_pred_foret)

print("Forêt Aléatoire (Balcon):")
print(f"  Précision (Accuracy): {precision_foret}")
print(f"  Rappel (Recall): {rappel_foret}")
print(f"  Score F1: {score_f1_foret}")
