In [0]:
# 1. Charger la table enregistrée dans le catalogue "default"
df_for_modeling = spark.table("bases_projet.base_final")  

# 2. Vérifier la structure
df_for_modeling.printSchema()

root
 |-- annee: long (nullable = true)
 |-- region: string (nullable = true)
 |-- somme_precip_annuelle_regionale: decimal(33,13) (nullable = true)
 |-- nombre_jours_chauds_annuel: long (nullable = true)
 |-- chaleur_utile_annuelle: decimal(18,13) (nullable = true)
 |-- culture: string (nullable = true)
 |-- yield_imputed_final: decimal(33,13) (nullable = true)



In [0]:
display(df_for_modeling)

annee,region,somme_precip_annuelle_regionale,nombre_jours_chauds_annuel,chaleur_utile_annuelle,culture,yield_imputed_final
2010,Dakar,2558.940000000001,0,11737.26000000003,SORGHO,152.0
2010,Diourbel,3143.6399999999994,18,12140.38,SORGHO,2107.0
2010,Fatick,1570.6800000000003,0,6033.499999999996,SORGHO,10789.0
2010,Kaffrine,842.3899999999995,0,2973.470000000002,SORGHO,42561.0
2010,Kaolack,799.7699999999998,0,2977.4000000000024,SORGHO,5867.0
2010,Kolda,2318.2999999999984,4,5779.3600000000015,SORGHO,18882.0
2010,Kedougou,1415.4099999999996,0,2777.880000000001,SORGHO,3144.0
2010,Louga,1480.8999999999994,25,6108.260000000002,SORGHO,3594.0
2010,Matam,1493.6600000000003,62,6347.340000000004,SORGHO,13238.0
2010,Saint-Louis,2368.57,54,12854.090000000004,SORGHO,146.0


In [0]:
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler
from pyspark.ml.regression import LinearRegression
from pyspark.ml import Pipeline
from pyspark.sql import functions as F
import statsmodels.formula.api as smf
from scipy.stats import f
import pandas as pd
import numpy as np

### Renommage des variables

In [0]:
df = df_for_modeling \
    .withColumnRenamed("somme_precip_annuelle_regionale", "rain") \
    .withColumnRenamed("nombre_jours_chauds_annuel", "hotdays") \
    .withColumnRenamed("chaleur_utile_annuelle", "degdays") \
    .withColumnRenamed("region", "region") \
    .withColumnRenamed("culture", "culture")\
    .withColumnRenamed("yield_imputed_final", "yield") 
    # + renomme aussi ta variable de production, ex:
    

In [0]:
df1 = df.withColumn(
    "unit_id",
    F.concat_ws("_", F.col("region"), F.col("culture"))
)

df1 = df1.withColumn(
    "log_yield",
    F.log(F.col("yield"))
)


In [0]:
# Selection des variables finales 
variables_a_garder = [
    "annee",
    "unit_id",
    "rain",
    "yield", # La variable cible (à prédire)
    "hotdays",
    "degdays",
    "log_yield"
    # Ajoutez ici toute autre variable numérique restante (comme rain, hotdays, degdays si les noms sont différents)
]

# Sélection des colonnes numériques
df2 = df1.select(variables_a_garder)
# Afficher le schéma de df1
df2.printSchema()

root
 |-- annee: long (nullable = true)
 |-- unit_id: string (nullable = false)
 |-- rain: decimal(33,13) (nullable = true)
 |-- yield: decimal(33,13) (nullable = true)
 |-- hotdays: long (nullable = true)
 |-- degdays: decimal(18,13) (nullable = true)
 |-- log_yield: double (nullable = true)



In [0]:
# ================================================================
# 2. PASSAGE À PANDAS POUR LES MODÈLES (statsmodels)
# ================================================================

pdf = (
    df2
    .select("unit_id", "annee", "log_yield", "degdays", "rain", "hotdays")
    .dropna()
    .toPandas()
)

# 2.1. Vérification
print(pdf.head())
print(pdf[["unit_id"]].nunique(), "unités de panel")
print(pdf[["annee"]].nunique(), "années")

# S'assurer que annee est bien numérique
pdf["annee"] = pdf["annee"].astype(int)


           unit_id  annee  ...                rain hotdays
0     Dakar_SORGHO   2010  ...  2558.9400000000010       0
1  Diourbel_SORGHO   2010  ...  3143.6399999999990      18
2    Fatick_SORGHO   2010  ...  1570.6800000000003       0
3  Kaffrine_SORGHO   2010  ...   842.3899999999995       0
4   Kaolack_SORGHO   2010  ...   799.7699999999998       0

[5 rows x 6 columns]
unit_id    106
dtype: int64 unités de panel
annee    13
dtype: int64 années


In [0]:

# pour vérifier
pdf.head()
pdf["unit_id"].nunique(), pdf["annee"].nunique()

(106, 13)

### Test de spécification de HSIAO pour le choix du type de modèle de panel

In [0]:
# ================================================================
# 3. TESTS DE SPÉCIFICATION TYPE HSIAO (VERSION SIMPLE)
#    Ici on illustre F1 et F2 avec UNE variable explicative (degdays)
#    pour voir si les pentes semblent homogènes ou pas.
#    C'est plus un exercice de "cours" qu'un vrai test industriel.
# ================================================================

# 3.1. Paramètres du panel
n = pdf["unit_id"].nunique()
T_ = pdf["annee"].nunique()
K = 1  # on teste sur 1 variable : degdays

# -------- F1 : homogénéité des pentes ? --------
# Modèle non contraint : alpha_i + beta_i * degdays
m_general = smf.ols("log_yield ~ C(unit_id) * degdays", data=pdf).fit()

# Modèle contraint (pooled) : alpha + beta * degdays
m_pooled  = smf.ols("log_yield ~ degdays", data=pdf).fit()

SCR1   = sum(m_general.resid**2)  # modèle non contraint
SCR1_c = sum(m_pooled.resid**2)   # modèle contraint

F1 = ((SCR1_c - SCR1) / ((n - 1) * (K + 1))) / (SCR1 / (n * T_ - n * (K + 1)))
df1_num = (n - 1) * (K + 1)
df1_den = n * T_ - n * (K + 1)
pval_F1 = 1 - f.cdf(F1, df1_num, df1_den)

print("F1 =", F1, "p-value =", pval_F1)
# par exemple : 6 décimales pour F1 et notation scientifique pour la p-value
print(f"F1 = {F1:.6f}  |  p-value = {pval_F1:.10e}")



F1 = 4.63202043614296e+28 p-value = 0.0
F1 = 46320204361429600086318383104.000000  |  p-value = 0.0000000000e+00


On rejette 
𝐻
0
.
Les données montrent que la relation climat → rendement n’est pas la même pour toutes les unités :
il existe des différences significatives entre combinaisons région–culture (niveaux moyens et/ou sensibilité au climat).
Le modèle “pooled” avec une seule droite commune est trop simpliste et ne convient pas aux données.


L’effet de la pluie, de la chaleur utile et des jours très chauds sur le rendement n’est pas le même à Dakar–sorgho, Kaolack–riz, Saint-Louis–mil, etc.
Chaque couple région–culture a (au moins un peu) sa propre réponse climatique.



In [0]:

# -------- F2 : effets hétérogènes vs effets inobservés --------
# Modèle contraint : FE simples (alpha_i) + pente commune
m_fe = smf.ols("log_yield ~ C(unit_id) + degdays", data=pdf).fit()

SCR1_c_prime = sum(m_fe.resid**2)

F2 = ((SCR1_c_prime - SCR1) / ((n - 1) * K)) / (SCR1 / (n * T_ - n * (K + 1)))
df2_num = (n - 1) * K
df2_den = n * T_ - n * (K + 1)
pval_F2 = 1 - f.cdf(F2, df2_num, df2_den)

print("F2 =", F2, "p-value =", pval_F2)


F2 = 9.227354393110484e+27 p-value = 0.0


Même en autorisant un niveau moyen différent pour chaque unité (effets fixes 
les données indiquent que la réponse au climat (les pentes) n’est pas la même partout.
Autrement dit, les unités ne diffèrent pas seulement par leur niveau moyen de rendement, mais aussi par leur sensibilité au climat (degré-jours, pluie, jours chauds, etc.). Totefois, dans la suite on prendra le modèle à effet fixes pour simplifier

In [0]:

# 1. S'assurer que les variables explicatives sont bien numériques
pdf["degdays"]  = pdf["degdays"].astype(float)
pdf["rain"]     = pdf["rain"].astype(float)
pdf["hotdays"]  = pdf["hotdays"].astype(float)
pdf["log_yield"] = pdf["log_yield"].astype(float)

# 2. Modèle à effets fixes région–culture (unit_id) + pentes communes
fe_model = smf.ols(
    "log_yield ~ C(unit_id) + degdays + rain + hotdays",
    data=pdf
).fit(cov_type="HC3")   # HC3 = erreurs robustes (hétéroscédasticité)

print(fe_model.summary())


                            OLS Regression Results                            
Dep. Variable:              log_yield   R-squared:                       0.871
Model:                            OLS   Adj. R-squared:                  0.858
Method:                 Least Squares   F-statistic:                     267.9
Date:                Tue, 16 Dec 2025   Prob (F-statistic):               0.00
Time:                        11:54:01   Log-Likelihood:                -1453.5
No. Observations:                1231   AIC:                             3125.
Df Residuals:                    1122   BIC:                             3683.
Df Model:                         108                                         
Covariance Type:                  HC3                                         
                                         coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------
Inte



In [0]:
print(fe_model.params)



Intercept                          -7.493563
C(unit_id)[T.Dakar_MAIS]           -0.326556
C(unit_id)[T.Dakar_MANIOC]          1.613542
C(unit_id)[T.Dakar_MIL]            -4.910924
C(unit_id)[T.Dakar_NIEBE]          -1.158665
                                     ...    
C(unit_id)[T.Ziguinchor_RIZ]       11.023914
C(unit_id)[T.Ziguinchor_SORGHO]     5.387240
degdays                             0.001101
rain                                0.000512
hotdays                            -0.006737
Length: 109, dtype: float64


In [0]:
# ================================================================
# MODÈLE FINAL À EFFETS FIXES (INDIVIDUELS)
#    log_yield ~ C(unit_id) + degdays + rain + hotdays
#    + SE robustes (HC3)
# ================================================================

fe_model = smf.ols(
    "log_yield ~ C(unit_id) + degdays + rain + hotdays",
    data=pdf
).fit(cov_type="HC3")  # robustes à l’hétéroscédasticité

print(fe_model.summary())


                            OLS Regression Results                            
Dep. Variable:              log_yield   R-squared:                       0.871
Model:                            OLS   Adj. R-squared:                  0.858
Method:                 Least Squares   F-statistic:                     267.9
Date:                Tue, 16 Dec 2025   Prob (F-statistic):               0.00
Time:                        11:54:02   Log-Likelihood:                -1453.5
No. Observations:                1231   AIC:                             3125.
Df Residuals:                    1122   BIC:                             3683.
Df Model:                         108                                         
Covariance Type:                  HC3                                         
                                         coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------
Inte



La plupart des coefficients associés aux unités (Dakar-riz, Diourbel-Fonio etc.) sont très significatifs.

Il y a une forte hétérogénéité structurelle des rendements entre les couples région–culture, même à climat identique.
Ex. certaines combinaisons ont un niveau moyen de rendement beaucoup plus élevé que la référence.

## Par variables explicatives, on note :
-degdays : coefficient positif et significatif (on l’a vu sur la version précédente du modèle)
→ Plus de degrés-jours pendant la saison de croissance est associé à des rendements plus élevés.

In [0]:
# ================================================================
# 5. (OPTION) AJOUTER DES EFFETS FIXES ANNÉE
#    log_yield ~ C(unit_id) + C(annee) + variables climatiques
# ================================================================

fe_model_year = smf.ols(
    "log_yield ~ C(unit_id) + C(annee) + degdays + rain + hotdays",
    data=pdf
).fit(cov_type="HC3")

print(fe_model_year.summary())


                            OLS Regression Results                            
Dep. Variable:              log_yield   R-squared:                       0.906
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     277.0
Date:                Tue, 16 Dec 2025   Prob (F-statistic):               0.00
Time:                        11:54:02   Log-Likelihood:                -1257.6
No. Observations:                1231   AIC:                             2757.
Df Residuals:                    1110   BIC:                             3376.
Df Model:                         120                                         
Covariance Type:                  HC3                                         
                                         coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------------------------
Inte



In [0]:
# ================================================================
# 6. EXTRAIRE ET SAUVEGARDER LES RÉSULTATS IMPORTANTS
# ================================================================

# 6.1. Tableau récap des coefficients climatiques
coef_table = fe_model_year.summary2().tables[1].loc[["degdays", "rain", "hotdays"]]
print(coef_table)

# 6.2. Sauvegarde en CSV (pour Word/LaTeX)
coef_table.to_csv("/dbfs/FileStore/panel_resultats_climat.csv")  # chemin Databricks

# 6.3. (Option) prédictions vs observés
pdf["y_hat"] = fe_model_year.fittedvalues

# exemple simple : R² “manuel” sur log_yield
from sklearn.metrics import r2_score
print("R² (log_yield):", r2_score(pdf["log_yield"], pdf["y_hat"]))


            Coef.  Std.Err.         z     P>|z|    [0.025    0.975]
degdays  0.000834  0.000304  2.743191  0.006085  0.000238  0.001429
rain     0.000054  0.000073  0.748104  0.454398 -0.000088  0.000197
hotdays -0.013395  0.003421 -3.915284  0.000090 -0.020100 -0.006689


[0;31m---------------------------------------------------------------------------[0m
[0;31mOSError[0m                                   Traceback (most recent call last)
File [0;32m<command-8534682071664777>, line 10[0m
[1;32m      7[0m [38;5;28mprint[39m(coef_table)
[1;32m      9[0m [38;5;66;03m# 6.2. Sauvegarde en CSV (pour Word/LaTeX)[39;00m
[0;32m---> 10[0m coef_table[38;5;241m.[39mto_csv([38;5;124m"[39m[38;5;124m/dbfs/FileStore/panel_resultats_climat.csv[39m[38;5;124m"[39m)  [38;5;66;03m# chemin Databricks[39;00m
[1;32m     12[0m [38;5;66;03m# 6.3. (Option) prédictions vs observés[39;00m
[1;32m     13[0m pdf[[38;5;124m"[39m[38;5;124my_hat[39m[38;5;124m"[39m] [38;5;241m=[39m fe_model_year[38;5;241m.[39mfittedvalues

File [0;32m/databricks/python/lib/python3.12/site-packages/pandas/util/_decorators.py:333[0m, in [0;36mdeprecate_nonkeyword_arguments.<locals>.decorate.<locals>.wrapper[0;34m(*args, **kwargs)[0m
[1;32m    327[0m [38;5;28

In [0]:
# ================================================================
#  RÉSUMÉ 
# ================================================================

resume_modele = f"""
Modèle retenu : effets fixes individuels (region x culture) + effets fixes année (optionnel),
avec pentes communes pour les variables climatiques.

Forme fonctionnelle estimée :
log(yield_it) = alpha_{'{unit_id}'} + gamma_{'{annee}'} + beta1 * degdays_it
                + beta2 * rain_it + beta3 * hotdays_it + e_it.

Les écarts-types sont corrigés de l’hétéroscédasticité (HC3).
Les tests de spécification de type Hsiao montrent que les modèles avec pentes
totalement spécifiques par unité souffrent de problèmes d’identification (multicolinéarité).
Nous retenons donc un modèle parcimonieux à pentes communes, qui reste économiquement interprétable.
"""

print(resume_modele)


