# Hypothèse 1 : La surface utile est proportionnelle à la surface au sol

La fonction calculate_surface_utile du module 13_potentiel_solaire/algorithme/potentiel_solaire/features/solar_potential.py convertit la surface au sol en surface utile comme suit:

### Code original de référence :
```python
def calculate_surface_utile(surface_totale_au_sol: float):
    """Calcule la surface utile pour le PV.
    Pour le moment il s agit d'un simple ratio.
    @TODO Remplacer par une formule plus fine
    :param surface_totale_au_sol: surface totale au sol du batiment
    :return: la surface utile pour installation de panneaux PV
    """
    if surface_totale_au_sol <= 100:
        return 0
    if 100 < surface_totale_au_sol < 500:
        ratio = 0.4 * surface_totale_au_sol / 5000 + 0.2
        return ratio * surface_totale_au_sol
    return 0.6 * surface_totale_au_sol
```


 - Si la surface au sol est inférieure à 100 m², alors la surface utile est nulle
 - Si la surface au sol est comprise entre 100 et 500m² alors la surface utile est $$Surface\_utile = 8 \times 10^{-5} \cdot S^2 + 0.2 \cdot S$$
 - Si la surface au sol est supérieure à 500m², $$Surface\_utile = 0.6 \cdot S$$
où $S$ = surface totale au sol

Je vois un premier problème - si la surface au sol est comprise entre 100 et 500m², la fonction est quadratique et n'est pas linéaire. Je ne sais pas si c'est ce qui est attendu.


## Récupération des résultats des deux methodes

In [None]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression

from potentiel_solaire.constants import RESULTS_FOLDER, DATA_FOLDER
from potentiel_solaire.sources.utils import download_file

results_with_simplified_method = gpd.read_file(RESULTS_FOLDER / "priotirized_schools_buildings.gpkg", layer="results_with_simplified_method")
results_with_segmentation = pd.read_csv(RESULTS_FOLDER / "roof_segments_potential.csv").rename(columns={"surface": "roof_surface"})

# Calcule de la surface de toit plat
results_with_segmentation["flat_roof_surface"] = results_with_segmentation["roof_surface"].where(
    results_with_segmentation["slope_bin_min"] == 0, 0
)

# Calcul de la surface utile (methode par segmentation) en utilisant la meme definition que IDF
# Surface présentant une irradiation suffisante > 900 kWh/m².an et n’ayant pas d’obstacle (cheminée, velux, aération…)
results_with_segmentation["utility_surface"] = results_with_segmentation["roof_surface"].where(
    results_with_segmentation["solar_irradiation"] > 900, 0
)

# Calcul du potentiel solaire en ne prenant que les segments avec surface utile > 0
results_with_segmentation["solar_potential"] = results_with_segmentation["solar_potential"].where(
    results_with_segmentation["utility_surface"] > 0, 0
)

results_with_segmentation["slope_bin_label"] = results_with_segmentation["slope_bin_min"].astype(str) + "-" + results_with_segmentation["slope_bin_max"].astype(str)



# Synthese des resultats de la methode avec segmentation au niveau des batiments
results_with_segmented_roofs = results_with_segmentation.groupby(by="cleabs_bat").agg(
    roof_surface=("roof_surface", "sum"),  # methode avec segmentation (MNS)
    flat_roof_surface=("flat_roof_surface", "sum"),  # methode avec segmentation (MNS)
    utility_surface=("utility_surface", "sum"),  # methode avec segmentation (MNS)
    solar_potential=("solar_potential", "sum"),  # methode avec segmentation (MNS)
    latitude=("latitude", "first"),  # Ajout latitude
    longitude=("longitude", "first"),  # Ajout longitude
    slope_bin_label=("slope_bin_label", "first"),  # Ajout longitude
).reset_index()

# Comparaison des resultats entre les deux methodes
results_comparison_buildings = pd.merge(
    results_with_simplified_method[["code_region", "code_departement", "identifiant_de_l_etablissement", "cleabs_bat", "surface_totale_au_sol", "surface_utile", "potentiel_solaire"]],
    results_with_segmented_roofs[["cleabs_bat", "roof_surface", "flat_roof_surface", "utility_surface", "solar_potential", "longitude", "latitude", "slope_bin_label"]],
    on="cleabs_bat",
)

# Synthese des resultats des deux methodes a l echelle des etablissements
results_comparison_schools = results_comparison_buildings.groupby("identifiant_de_l_etablissement").agg(
    code_region=("code_region", "first"),  # Prendre la première valeur (devrait être la même pour tous)
    code_departement=("code_departement", "first"),  # Idem pour le département
    surface_totale_au_sol=("surface_totale_au_sol", "sum"),  # methode simplifiée
    surface_utile=("surface_utile", "sum"),  # methode simplifiée
    potentiel_solaire=("potentiel_solaire", "sum"),  # methode simplifiée
    roof_surface=("roof_surface", "sum"),  # methode avec segmentation (MNS)
    flat_roof_surface=("flat_roof_surface", "sum"),  # methode avec segmentation (MNS)
    utility_surface=("utility_surface", "sum"),  # methode avec segmentation (MNS)
    solar_potential=("solar_potential", "sum"),  # methode avec segmentation (MNS)
    latitude=("latitude", "first"),  # Ajout latitude
    longitude=("longitude", "first"),  # Ajout longitude
    slope_bin_label=("slope_bin_label",lambda x: x.mode().iloc[0] if not x.mode().empty else x.iloc[0]),  # Ajout bin de pente
).reset_index()

In [None]:
def plot_scatter(
    x: pd.Series,
    y: pd.Series,
    title: str, 
    xlabel: str,
    ylabel: str,
    xlim: tuple = None,
    ylim: tuple = None,
    identity_line: bool = True
):
    """Plot the results of two series against each other.
    
    Args:
        x (pd.Series): The x-axis data.
        y (pd.Series): The y-axis data.
        title (str): The title of the plot.
        xlabel (str): The label for the x-axis.
        ylabel (str): The label for the y-axis.
        xlim (tuple, optional): The limits for the x-axis. Defaults to None.
        ylim (tuple, optional): The limits for the y-axis. Defaults to None.
        identity_line (bool, optional): Whether to plot the identity line. Defaults to True.
    """
    plt.rcParams['figure.figsize'] = [20, 10]

    if identity_line:
        # plot identity line
        identity_line = [0, x.max()]
        plt.plot(identity_line, identity_line, "r--")

    
    # Compute and plot linear regression line
    model = LinearRegression()
    model.fit(x.values.reshape(-1, 1), y)
    y_pred = model.predict(x.values.reshape(-1, 1))
    plt.plot(x, y_pred, "g--")
    
    # Compute and display R^2 score and model parameters
    r2 = model.score(x.values.reshape(-1, 1), y)
    slope = model.coef_[0]
    intercept = model.intercept_

    # Display R², slope, and intercept on the plot
    plt.text(
        0.05, 0.95,
        f"R²: {r2:.3f}\nSlope: {slope:.3f}\nIntercept: {intercept:.3f}",
        transform=plt.gca().transAxes,
        fontsize=14,
        verticalalignment='top',
        bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.7)
    )
    
    # compare x and y
    plt.scatter(x, y, alpha=0.8)

    # Set the title and labels
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)

    #  Set the limits for x and y axes if provided
    if xlim:
        plt.xlim(xlim)
    
    if ylim:
        plt.ylim(ylim)

    # Show the plot 
    plt.show()
    return [slope, intercept]

In [None]:
slope, intercept = plot_scatter(
    x=results_comparison_schools["surface_totale_au_sol"],
    y=results_comparison_schools["utility_surface"],
    title="Relation entre la surface totale au sol et la surface utile réelle (obtenue par segmentation des toits)",
    xlabel="Surface totale au sol (m²)",
    ylabel="Surface utile au sol (m²)",
    identity_line=False,
)

In [None]:
from plotly.subplots import make_subplots

import plotly.graph_objects as go

def create_surface_bins_histograms(df):
    """Histogrammes par bins de surface utile et surface au sol"""
    
    df_analysis = df.copy()
    
    n_bins_surf = 10
    
    df_analysis['surface_utile_bin'], utile_bins = pd.cut(
        df_analysis['surface_utile'], bins=n_bins_surf, labels=False, retbins=True
    )
    
    df_analysis['surface_sol_bin'], sol_bins = pd.cut(
        df_analysis['surface_totale_au_sol'], bins=n_bins_surf, labels=False, retbins=True
    )
    
    cols = 5 
    rows = 4 
    
    utile_titles = []
    for i in range(n_bins_surf):
        range_min = utile_bins[i]
        range_max = utile_bins[i+1]
        utile_titles.append(f'Surface Utile {i}<br>[{range_min:.0f}-{range_max:.0f}] m²')
    
    sol_titles = []
    for i in range(n_bins_surf):
        range_min = sol_bins[i] 
        range_max = sol_bins[i+1]
        sol_titles.append(f'Surface Au Sol {i}<br>[{range_min:.0f}-{range_max:.0f}] m²')
    
    all_titles = utile_titles + sol_titles
    
    fig = make_subplots(
        rows=rows, cols=cols,
        subplot_titles=all_titles
    )
    
    colors = ['#1f77b4', '#ff7f0e']
    
    for i in range(n_bins_surf):
        row = (i // cols) + 1
        col = (i % cols) + 1
        
        data_bin = df_analysis[df_analysis['surface_utile_bin'] == i]
        if len(data_bin) == 0:
            continue
            
        min_val = min(data_bin['potentiel_solaire'].min(), data_bin['solar_potential'].min())
        max_val = max(data_bin['potentiel_solaire'].max(), data_bin['solar_potential'].max())
        
        if min_val == max_val:
            min_val = min_val * 0.9
            max_val = max_val * 1.1
            
        bins = np.linspace(min_val, max_val, 100)
        bin_size = bins[1] - bins[0] if len(bins) > 1 else 1
        
        fig.add_trace(
            go.Histogram(
                x=data_bin['potentiel_solaire'],
                name='Méthode simplifiée' if i == 0 else None,
                opacity=0.7,
                xbins=dict(start=bins[0], end=bins[-1], size=bin_size),
                marker_color=colors[0],
                showlegend=(i == 0)
            ),
            row=row, col=col
        )
        
        fig.add_trace(
            go.Histogram(
                x=data_bin['solar_potential'],
                name='Méthode MNS' if i == 0 else None,
                opacity=0.7,
                xbins=dict(start=bins[0], end=bins[-1], size=bin_size),
                marker_color=colors[1],
                showlegend=(i == 0)
            ),
            row=row, col=col
        )
    
    for i in range(n_bins_surf):
        row = (i // cols) + 3 
        col = (i % cols) + 1
        
        data_bin = df_analysis[df_analysis['surface_sol_bin'] == i]
        if len(data_bin) == 0:
            continue
            
        min_val = min(data_bin['potentiel_solaire'].min(), data_bin['solar_potential'].min())
        max_val = max(data_bin['potentiel_solaire'].max(), data_bin['solar_potential'].max())
        
        if min_val == max_val:
            min_val = min_val * 0.9
            max_val = max_val * 1.1
            
        bins = np.linspace(min_val, max_val, 100)
        bin_size = bins[1] - bins[0] if len(bins) > 1 else 1
        
        fig.add_trace(
            go.Histogram(
                x=data_bin['potentiel_solaire'],
                name='Méthode simplifiée',
                opacity=0.7,
                xbins=dict(start=bins[0], end=bins[-1], size=bin_size),
                marker_color=colors[0],
                showlegend=False
            ),
            row=row, col=col
        )
        
        fig.add_trace(
            go.Histogram(
                x=data_bin['solar_potential'],
                name='Méthode MNS',
                opacity=0.7,
                xbins=dict(start=bins[0], end=bins[-1], size=bin_size),
                marker_color=colors[1],
                showlegend=False
            ),
            row=row, col=col
        )
    
    fig.update_layout(
        title_text="Comparaison par bins de surface",
        height=1200,
        barmode='overlay'
    )
    
    for i in range(n_bins_surf * 2):  
        row = (i // cols) + 1
        col = (i % cols) + 1
        fig.update_xaxes(title_text="Potentiel (kWh)", row=row, col=col)
        fig.update_yaxes(title_text="Freq", row=row, col=col)
    
    return fig
fig_surfaces = create_surface_bins_histograms(results_comparison_schools)
fig_surfaces.show()

### Conclusion

Au-delà d'une certaine surface utile, le potentiel solaire est systématiquement surestimé, tandis que le "solar potential" ou potentiel "réel" tend à être plus faible.
Je pense que le modèle linéaire pour convertir la surface au sol en surface utile ne peut pas tenir compte de toit obstrué par exemple, en particulier quand la surface est grande. 
Si l'on prend le bin 1 (surface utile de 2334m² à 4639m²) on voit que le potentiel solaire n'est jamais plus faible que 0.5 M de kWh.
On pourrait imaginer qu'un toit complètement ou partiellement obstrué aura un potentiel solaire plus faible - une simple régression linéaire entre surface au sol et surface utile ne tient pas compte de cette effet. Le potentiel solaire est surestimé.
Je pense qu'il est difficile de corriger ceci. 

Une correction via régression linéaire entre les deux méthodes d'estimation du potentiel solaire pourrait limiter les surestimations.

In [None]:
# Hypothèse 2 : La pente des toits est nulle

In [None]:
total_flat_surface = results_with_segmentation["flat_roof_surface"].sum()
total_roof_surface = results_with_segmentation["roof_surface"].sum()
ratio_flat_roof = total_flat_surface / total_roof_surface

print(f"Surface des toits plats: {total_flat_surface} m²")
print(f"Surface totale des toits: {total_roof_surface} m²")
print(f"Ratio des toits plats: {ratio_flat_roof:.2%}")

results_with_segmentation["slope_bin_label"] = results_with_segmentation["slope_bin_min"].astype(str) + "-" + results_with_segmentation["slope_bin_max"].astype(str)
h = results_with_segmentation.groupby(by=["slope_bin_min", "slope_bin_label"])["roof_surface"].sum().reset_index().sort_values(by="slope_bin_min")

plt.rcParams['figure.figsize'] = [20, 10]
plt.bar(h["slope_bin_label"], h["roof_surface"])
plt.title("Surface des toits par pente")
plt.xlabel("Pente des toits (°)")
plt.ylabel("Surface des toits (m²)")
plt.xticks(rotation=45)

plt.show()

Une majorité de toits à une pente inférieure à 5°. Même si la pente a un effet sur le potentiel solaire, il est probablement faible pour une grande partie des toits.

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go
def create_slope_histograms(df):
    """Histogrammes par bins de pente simplifiés: 0-5 et 5+"""
    
    df_analysis = df.copy()
    df_analysis['slope_category'] = df_analysis['slope_bin_label'].apply(
        lambda x: '0-5°' if x.startswith('0-') else '5+°'
    )
    
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=['Pente 0-5°', 'Pente 5+°']
    )
    
    colors = ['#1f77b4', '#ff7f0e']  
    
    min_val = 0
    max_val = 1000000  
    bins = np.linspace(min_val, max_val, 100)
    bin_size = bins[1] - bins[0]
    
    categories = ['0-5°', '5+°']
    for i, category in enumerate(categories):
        col = i + 1
        data_cat = df_analysis[df_analysis['slope_category'] == category]
        
        if len(data_cat) == 0:
            print(f"Aucune donnée pour {category}")
            continue
        
        fig.add_trace(
            go.Histogram(
                x=data_cat['potentiel_solaire'],
                name='Méthode simplifiée' if i == 0 else None,
                opacity=0.7,
                xbins=dict(start=min_val, end=max_val, size=bin_size),
                marker_color=colors[0],
                showlegend=(i == 0)
            ),
            row=1, col=col
        )
        
        fig.add_trace(
            go.Histogram(
                x=data_cat['solar_potential'],
                name='Méthode MNS' if i == 0 else None,
                opacity=0.7,
                xbins=dict(start=min_val, end=max_val, size=bin_size),
                marker_color=colors[1],
                showlegend=(i == 0)
            ),
            row=1, col=col
        )
        
        print(f"{category}: {len(data_cat)} établissements")
    
    fig.update_layout(
        title_text="Comparaison potentiel solaire par catégories de pente",
        height=500,
        barmode='overlay'
    )
    
    fig.update_xaxes(title_text="Potentiel solaire (kWh)", range=[0, 1000000])
    fig.update_yaxes(title_text="Fréquence")
    
    return fig

fig_slopes = create_slope_histograms(results_comparison_schools)
fig_slopes.show()

### Conclusion

Le potentiel solaire semble davantage surestimé pour les batiments ayant une pente supérieure à 5°. L'erreur faite sur le potentiel solaire croit avec la pente.
Les distributions semblent relativement proches pour les pentes inférieures à 5°. L'effet est probablement négligeable pour la plupart des batiments.


# Hypothèse 3 : relation quadratique si la surface au sol est comprise entre 100 et 500m², relation linéaire au delà.

In [None]:
def plot_scatter_comp_linear_quad(df, surface_col='surface_totale_au_sol'):
    from sklearn.linear_model import LinearRegression
    from sklearn.metrics import r2_score
    import numpy as np
    
    fig, ax = plt.subplots(1, 1, figsize=[8, 6])
    
    mask = df[surface_col] > 0
    df_bin = df[mask].copy()

    
    x = df_bin[surface_col].values
    y = df_bin['utility_surface'].values
    
    ax.scatter(x, y, alpha=0.7, s=20)
    
    y_constrained = 0.6 * x
    r2_constrained = r2_score(y, y_constrained)
    ax.plot(x, y_constrained, 'r--', linewidth=2, label=f'y=0.6x (R²={r2_constrained:.3f})')
    
    linear_model = LinearRegression()
    linear_model.fit(x.reshape(-1, 1), y)
    y_linear = linear_model.predict(x.reshape(-1, 1))
    r2_linear = r2_score(y, y_linear)
    coef = linear_model.coef_[0]
    intercept = linear_model.intercept_
    ax.plot(x, y_linear, 'b-', linewidth=2,
            label=f'Régression Linéaire (R²={r2_linear:.3f})')
    
    ax.set_title('Surface utile (MNS) vs surface au sol (méthode simplifiée)')
    ax.set_xlabel('Surface totale au sol sans MNS (m²)')
    ax.set_ylabel('Surface utile MNS (m²)')
    ax.legend(fontsize=9)
    ax.grid(True, alpha=0.3)
    
    results = {
        'n_points': len(df_bin),
        'constrained_r2': r2_constrained,
        'linear_r2': r2_linear,
        'linear_coef': coef,
        'linear_intercept': intercept
    }
    
    print(f" R² contraint (y=0.6x): {r2_constrained:.3f}")
    print(f" R² régression linéaire: {r2_linear:.3f}")
    print(f" Coef linéaire libre: {coef:.3f}")
    print(f" Intercept linéaire libre: {intercept:.1f}")
    
    plt.tight_layout()
    plt.show()
    return results

results = plot_scatter_comp_linear_quad(results_comparison_schools, 'surface_totale_au_sol')

On test les relations qui permettent de traduire la surface au sol en surface utile. On trace pour cela la surface utile méthode MNS en fonction de la surface totale au sol de la méthode simplifiée.

Il n'y a pas assez de donnée pour évaluer la relation quadratique pour les surfaces au sol entre 100 et 500m² (moins de 10 points).

La relation linéaire avec un coefficient à 0.6 ne semble pas être une bonne description des données.

surface utile = 0.5 * surface au sol - 59 semble plus proche.

## Résumé

Le biais entre les deux méthodes d'estimation du potentiel solaire semble provenir principalement de la conversion entre la surface au sol et la surface utile.
Une régression linéaire entre les résultats fournis par les deux méthodes permettrait de réduire la surestimation faite avec la méthode simplifiée de calcul du potentiel solaire. Méthode simplifiée est ici le cas où l'on suppose une relation linéaire entre surface au sol et surface utile et où l'on considère la pente des toits comme étant nulle.
