In [None]:
from sklearn.linear_model import LinearRegression, Lasso
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import RandomForestRegressor
import matplotlib.pyplot as plt 
import seaborn as sns
import pandas as pd
import numpy as np

# Charger le dataset
california = fetch_california_housing()

# S´eparer les caract´eristiques et la variable cible
x, y = california.data, california.target

# Analyse des variables
df = pd.DataFrame(data=x, columns=california.feature_names)
# Ajouter la variable cible (prix)
df['target'] = california.target

# Dispersion des variables quantitatives
sns.boxplot(x='target', data=df)
plt.savefig('boxplot.png')

# Vérification des valeurs manquantes
print('============================pourcentage de valeurs manquantes par variables=================================')
missing_values_percentage = (df.shape[0] - df.count()) / df.shape[0] * 100
print(missing_values_percentage)

# Heatmap
sns.heatmap(df.isnull(), yticklabels=False, cbar=False, cmap='viridis')
plt.savefig('heatmap.png')

# Mesure de corrélation entre les variables
correlation_matrix = df.corr()
print(correlation_matrix)

# Matrice de corrélation
corr_matrix = df.corr()
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice de corrélation')
plt.tight_layout()
plt.savefig('matrice_correlation.png')
plt.close()

# Histogrammes des caractéristiques
df.hist(bins=30, figsize=(15, 10))
plt.tight_layout()
plt.savefig('histogrammes.png')
plt.close()

# Boîtes à moustaches
plt.figure(figsize=(15, 8))
sns.boxplot(data=df, x='MedInc', y='target')
plt.title('Prix médian des logements en fonction du revenu médian des ménages')
plt.tight_layout()
plt.savefig('boxplot.png')
plt.close()