<a href="https://colab.research.google.com/github/rayanebitout-debug/dataset/blob/main/Mini_Projet_Architecture.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
print('======================================================================================')
print('MINI-PROJET DE LA MATIERE FTP')
print("Groupe d'√©tudiants en Architecture :\n"
      "- SAOU Youssra\n"
      "- OUADIA Imane\n"
      "- BITOUT Rayane\n"
      "- TATAH Lina")
print('======================================================================================')

# ------------------------------------------------------------
# √âTAPE 0 : Installation des biblioth√®ques n√©cessaires
# ------------------------------------------------------------
print("=" * 60)
print("√âTAPE 0 : Installation des biblioth√®ques n√©cessaires")
print("=" * 60)

!pip install seaborn -q
!pip install patool -q  # Pour g√©rer les fichiers .rar

# ------------------------------------------------------------
# √âTAPE 1 : Importation des biblioth√®ques
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 1 : Importation des biblioth√®ques")
print("=" * 60)

import os
import zipfile
import patoolib
import pandas as pd
import numpy as np
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

%matplotlib inline

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

# ------------------------------------------------------------
# √âTAPE 2 : Configuration de l'environnement
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 2 : Configuration de l'environnement")
print("=" * 60)

BASE_DIR = "/content"
DATA_DIR = os.path.join(BASE_DIR, "dataset")
RESULTS_DIR = os.path.join(BASE_DIR, "resultats")

os.makedirs(DATA_DIR, exist_ok=True)
os.makedirs(RESULTS_DIR, exist_ok=True)

print(f"üìÅ R√©pertoire donn√©es: {DATA_DIR}")
print(f"üìÅ R√©pertoire r√©sultats: {RESULTS_DIR}")

# ------------------------------------------------------------
# √âTAPE 3 : T√©l√©chargement du dataset
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 3 : T√©l√©chargement du dataset")
print("=" * 60)

RAR_PATH = os.path.join(DATA_DIR, "Gainesville.rar")
DATASET_URL = "https://github.com/rayanebitout-debug/dataset/raw/main/Gainesville.rar"

print(f"üîó URL du dataset: {DATASET_URL}")

# Supprimer l'ancien fichier s'il existe
if os.path.exists(RAR_PATH):
    os.remove(RAR_PATH)

# T√©l√©charger le dataset
!wget --no-check-certificate -q --show-progress "$DATASET_URL" -O "$RAR_PATH"

# V√©rifier le t√©l√©chargement
if not os.path.exists(RAR_PATH):
    raise RuntimeError("‚ùå √âchec du t√©l√©chargement")

file_size = os.path.getsize(RAR_PATH)
print(f"üìä Taille du fichier: {file_size} octets")
print("‚úÖ Dataset t√©l√©charg√© avec succ√®s")

# ------------------------------------------------------------
# √âTAPE 4 : D√©compression du fichier
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 4 : D√©compression du fichier")
print("=" * 60)

try:
    patoolib.extract_archive(RAR_PATH, outdir=DATA_DIR)
    print("‚úÖ Fichier RAR extrait avec succ√®s")
except Exception as e:
    print(f"‚ö†Ô∏è Erreur avec patool: {e}")

    try:
        with zipfile.ZipFile(RAR_PATH, 'r') as zip_ref:
            zip_ref.extractall(DATA_DIR)
            print("‚úÖ Extraction avec zipfile r√©ussie")
    except:
        raise RuntimeError("‚ùå Impossible d'extraire le fichier")

# ------------------------------------------------------------
# √âTAPE 5 : Lecture des donn√©es
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 5 : Lecture des donn√©es")
print("=" * 60)

# Rechercher les fichiers CSV
csv_files = []
for root, dirs, files in os.walk(DATA_DIR):
    for f in files:
        if f.lower().endswith(".csv"):
            csv_files.append(os.path.join(root, f))

if not csv_files:
    raise FileNotFoundError("‚ùå Aucun fichier CSV trouv√©")

csv_path = csv_files[0]
print(f"üìÑ Fichier CSV trouv√©: {csv_path}")

# Essayer diff√©rents encodages
encodings = ['utf-8', 'latin-1', 'ISO-8859-1', 'cp1252']
df = None

for encoding in encodings:
    try:
        df = pd.read_csv(csv_path, encoding=encoding)
        print(f"‚úÖ Lecture r√©ussie avec l'encodage: {encoding}")
        break
    except UnicodeDecodeError:
        continue
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur avec {encoding}: {str(e)[:50]}")

if df is None:
    df = pd.read_csv(csv_path, encoding='latin-1', engine='python', on_bad_lines='skip')
    print("‚ö†Ô∏è Lecture avec param√®tres de secours")

print("üìä Aper√ßu des donn√©es charg√©es:")
print(df.head())
print(f"\nüìà Dimensions: {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
df_original = df.copy()

# ------------------------------------------------------------
# √âTAPE 6 : Nettoyage des donn√©es
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 6 : Nettoyage des donn√©es")
print("=" * 60)

print("üßπ Remplacement des valeurs manquantes...")
missing_values = ['No Value', 'Unknown', 'N/A', 'NA', '', '-', '--', 'null', 'NULL', 'NaN', 'nan', 'None', 'NONE']
df = df.replace(missing_values, np.nan)

print("üî¢ Conversion des colonnes num√©riques...")
potential_numeric_cols = [
    'electric_eui', 'fuel_eui', 'site_eui', 'source_eui',
    'ghg_emissions_int', 'number_of_people', 'occupant_density',
    'operating_hours', 'energy_star_rating', 'leed_score',
    'total_ghg_emissions', 'electricity_use', 'natural_gas_use',
    'total_energy_use', 'building_area', 'year_built'
]

for col in potential_numeric_cols:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')
        non_null = df[col].notna().sum()
        if non_null > 0:
            print(f"  ‚úì {col}: {non_null} valeurs non-nulles")

print("üìâ Suppression des colonnes avec trop de valeurs manquantes...")
initial_cols = df.shape[1]
df_cleaned = df.loc[:, df.isna().mean() < 0.9]
df = df_cleaned
removed_cols = initial_cols - df.shape[1]
print(f"  ‚úì {removed_cols} colonnes supprim√©es")

print("üóëÔ∏è Suppression des lignes enti√®rement vides...")
initial_rows = df.shape[0]
df = df.dropna(how='all')
removed_rows = initial_rows - df.shape[0]
print(f"  ‚úì {removed_rows} lignes supprim√©es")

clean_csv = os.path.join(RESULTS_DIR, "Gainesville_clean.csv")
df.to_csv(clean_csv, index=False, encoding='utf-8')
print(f"üíæ Donn√©es nettoy√©es sauvegard√©es: {clean_csv}")
print(f"üìä Nouvelles dimensions: {df.shape[0]} lignes √ó {df.shape[1]} colonnes")

# ------------------------------------------------------------
# √âTAPE 7 : Stockage des r√©sultats en base de donn√©es
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 7 : Stockage des r√©sultats en base de donn√©es")
print("=" * 60)

db_path = os.path.join(RESULTS_DIR, "gainesville.db")
conn = sqlite3.connect(db_path)
df.to_sql("gainesville_energy", conn, if_exists="replace", index=False)
conn.close()

print(f"üóÑÔ∏è Base de donn√©es cr√©√©e: {db_path}")
print(f"üìä Table 'gainesville_energy' avec {df.shape[0]} enregistrements")

# ------------------------------------------------------------
# √âTAPE 8 : Visualisation des donn√©es
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 8 : Visualisation des donn√©es")
print("=" * 60)

# 1. Distribution de l'EUI √©lectrique
if 'electric_eui' in df.columns and df['electric_eui'].notna().sum() > 0:
    plt.figure(figsize=(12, 5))

    plt.subplot(1, 2, 1)
    plt.hist(df['electric_eui'].dropna(), bins=40, edgecolor='black', alpha=0.7, color='skyblue')
    plt.title("Distribution Electric EUI", fontsize=14)
    plt.xlabel("kWh/m¬≤")
    plt.ylabel("Nombre de b√¢timents")
    plt.grid(alpha=0.3)

    plt.subplot(1, 2, 2)
    df['electric_eui'].dropna().plot(kind='box')
    plt.title("Boxplot Electric EUI", fontsize=14)
    plt.ylabel("kWh/m¬≤")
    plt.grid(alpha=0.3)

    plt.tight_layout()
    plt.savefig(os.path.join(RESULTS_DIR, "electric_eui_distribution.png"), dpi=300)
    plt.show()
    print("‚úÖ Graphique Electric EUI g√©n√©r√©")

# 2. Matrice de corr√©lation
numeric_df = df.select_dtypes(include=[np.number])
if numeric_df.shape[1] > 2:
    plt.figure(figsize=(10, 8))
    correlation = numeric_df.corr()
    sns.heatmap(correlation, annot=True, fmt='.2f', cmap='coolwarm', center=0)
    plt.title("Matrice de corr√©lation", fontsize=14)
    plt.tight_layout()
    plt.savefig(os.path.join(RESULTS_DIR, "correlation_matrix.png"), dpi=300)
    plt.show()
    print("‚úÖ Matrice de corr√©lation g√©n√©r√©e")

# 3. Top 10 des b√¢timents par consommation
if 'electric_eui' in df.columns and 'building_name' in df.columns:
    top_buildings = df.dropna(subset=['electric_eui']).nlargest(10, 'electric_eui')
    if len(top_buildings) > 0:
        plt.figure(figsize=(12, 6))
        plt.barh(range(len(top_buildings)), top_buildings['electric_eui'])
        plt.yticks(range(len(top_buildings)), top_buildings['building_name'])
        plt.xlabel('Electric EUI (kWh/m¬≤)')
        plt.title('Top 10 b√¢timents par consommation √©lectrique')
        plt.gca().invert_yaxis()
        plt.tight_layout()
        plt.savefig(os.path.join(RESULTS_DIR, "top_buildings_eui.png"), dpi=300)
        plt.show()
        print("‚úÖ Graphique top 10 b√¢timents g√©n√©r√©")

# ------------------------------------------------------------
# √âTAPE 9 : G√©n√©ration du rapport d√©taill√©
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 9 : G√©n√©ration du rapport d√©taill√©")
print("=" * 60)

print("üìä RAPPORT D'ANALYSE - DONN√âES √âNERG√âTIQUES GAINESVILLE")
print("=" * 50)

print(f"üìÖ Date d'analyse: {datetime.now().strftime('%d/%m/%Y %H:%M')}")
print(f"üìÅ Source: {os.path.basename(csv_path)}")
print(f"üìà Donn√©es initiales: {df_original.shape[0]} lignes, {df_original.shape[1]} colonnes")
print(f"üßπ Donn√©es apr√®s nettoyage: {df.shape[0]} lignes, {df.shape[1]} colonnes")
print(f"üìâ Donn√©es supprim√©es: {df_original.shape[0] - df.shape[0]} lignes")

print("\nüìã STATISTIQUES PRINCIPALES:")
print("-" * 30)

numeric_cols = df.select_dtypes(include=[np.number]).columns
if len(numeric_cols) > 0:
    print(f"Colonnes num√©riques: {len(numeric_cols)}")
    for col in numeric_cols[:3]:
        print(f"\n{col}:")
        print(f"  ‚Ä¢ Moyenne: {df[col].mean():.2f}")
        print(f"  ‚Ä¢ M√©diane: {df[col].median():.2f}")
        print(f"  ‚Ä¢ √âcart-type: {df[col].std():.2f}")

    if 'electric_eui' in df.columns:
        print(f"\n‚ö° Consommation √©lectrique moyenne: {df['electric_eui'].mean():.1f} kWh/m¬≤")

cat_cols = df.select_dtypes(include=['object']).columns
if len(cat_cols) > 0:
    print(f"\nColonnes cat√©gorielles: {len(cat_cols)}")

# Sauvegarde du rapport dans un fichier
report_path = os.path.join(RESULTS_DIR, "rapport_analyse.txt")
with open(report_path, "w", encoding="utf-8") as f:
    f.write("RAPPORT D'ANALYSE - DONN√âES √âNERG√âTIQUES GAINESVILLE\n")
    f.write("=" * 50 + "\n\n")
    f.write(f"Date d'analyse: {datetime.now().strftime('%d/%m/%Y %H:%M')}\n")
    f.write(f"Donn√©es initiales: {df_original.shape[0]} lignes √ó {df_original.shape[1]} colonnes\n")
    f.write(f"Donn√©es nettoy√©es: {df.shape[0]} lignes √ó {df.shape[1]} colonnes\n\n")

    f.write("R√âSUM√â STATISTIQUE:\n")
    for col in numeric_cols:
        f.write(f"\n{col}:\n")
        f.write(f"  ‚Ä¢ Non-null: {df[col].notna().sum()}/{len(df)}\n")
        if df[col].notna().sum() > 0:
            f.write(f"  ‚Ä¢ Moyenne: {df[col].mean():.2f}\n")
            f.write(f"  ‚Ä¢ M√©diane: {df[col].median():.2f}\n")

print(f"\nüíæ Rapport sauvegard√©: {report_path}")

# ------------------------------------------------------------
# √âTAPE 10 : Exportation des r√©sultats dans diff√©rents formats
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("√âTAPE 10 : Exportation des r√©sultats")
print("=" * 60)

# Export JSON
json_path = os.path.join(RESULTS_DIR, "gainesville_data.json")
df.head(50).to_json(json_path, orient='records', indent=2)
print(f"üìÑ JSON export√©: {json_path}")

# Export Excel
excel_path = os.path.join(RESULTS_DIR, "gainesville_analysis.xlsx")
with pd.ExcelWriter(excel_path, engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='Donn√©es nettoy√©es', index=False)

    summary_df = pd.DataFrame({
        'Colonne': df.columns,
        'Type': df.dtypes.astype(str),
        'Non-Null': df.notna().sum().values,
        'Null': df.isna().sum().values,
        '% Null': (df.isna().mean() * 100).round(2).values
    })
    summary_df.to_excel(writer, sheet_name='R√©sum√©', index=False)

print(f"üìä Excel export√©: {excel_path}")

# ------------------------------------------------------------
# FIN : R√©sum√© des fichiers produits
# ------------------------------------------------------------
print("\n" + "=" * 60)
print("ANALYSE TERMIN√âE AVEC SUCC√àS")
print("=" * 60)

print("\nüìÇ FICHIERS PRODUITS:")
print("-" * 30)

files_produced = []
for file in os.listdir(RESULTS_DIR):
    file_path = os.path.join(RESULTS_DIR, file)
    size_kb = os.path.getsize(file_path) / 1024
    files_produced.append((file, size_kb))
    print(f"  ‚Ä¢ {file} ({size_kb:.1f} KB)")

print(f"\nüéØ Nombre total de fichiers: {len(files_produced)}")
print("üìÅ Tous les fichiers sont disponibles dans le dossier /content/resultats/")

print("\n" + "=" * 60)
print("MINI-PROJET R√âALIS√â PAR NOTRE GROUPE D'√âTUDIANTS")
print("Analyse Automatique de Donn√©es de Recherche")
print("Sciences et Technologies (ST)")
print("=" * 60)

üìä Excel export√©: /content/resultats/gainesville_analysis.xlsx

ANALYSE TERMIN√âE AVEC SUCC√àS

üìÇ FICHIERS PRODUITS:
------------------------------
  ‚Ä¢ rapport_detaille.txt (3.4 KB)
  ‚Ä¢ rapport_analyse.txt (1.0 KB)
  ‚Ä¢ Gainesville_clean.csv (35119.5 KB)
  ‚Ä¢ correlation_matrix.png (324.5 KB)
  ‚Ä¢ gainesville_data.json (27.8 KB)
  ‚Ä¢ electric_eui_distribution.png (142.6 KB)
  ‚Ä¢ gainesville.db (33944.0 KB)
  ‚Ä¢ gainesville_analysis.xlsx (14128.3 KB)

üéØ Nombre total de fichiers: 8
üìÅ Tous les fichiers sont disponibles dans le dossier /content/resultats/

MINI-PROJET R√âALIS√â PAR NOTRE GROUPE D'√âTUDIANTS
Analyse Automatique de Donn√©es de Recherche
Sciences et Technologies (ST)
