In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import skew, kurtosis
import warnings
from sklearn.preprocessing import LabelEncoder
warnings.filterwarnings('ignore')

In [None]:
# Configuration des graphiques
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_style("whitegrid")

sns.set_palette("husl")

In [None]:
# Charger le fichier original
df = pd.read_csv('data/cleaned_paddydataset.csv', sep=',', encoding='utf-8', low_memory=False)
# Création d'une copie pour ne pas modifier df original
df_fe = df.copy()

In [None]:
# ----------------------------------------------------------------
# 3. DISTINCTION VARIABLES NUMÉRIQUES ET CATÉGORIQUES
# ----------------------------------------------------------------

print("\n" + "-"*70)
print("DISTINCTION VARIABLES NUMÉRIQUES ET CATÉGORIQUES")
print("-"*70)

# Identification des types de variables
numeric_features = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_features = df.select_dtypes(include=['object']).columns.tolist()

print(f"Variables numériques: {len(numeric_features)}")
print(f"  Exemples: {numeric_features[:10]}")
print(f"\nVariables catégoriques: {len(categorical_features)}")
print(f"  Exemples: {categorical_features[:10]}")

In [None]:
# Création de features météo cumulées et moyennes
# Cumul de pluie sur tout le cycle
df_fe['Rain_1_70days'] = df_fe['30DRain( in mm)'] + df_fe['30_50DRain( in mm)'] + df_fe['51_70DRain(in mm)']

# Température moyenne globale
df_fe['Temp_mean_D1_D30'] = (df_fe['Min temp_D1_D30'] + df_fe['Max temp_D1_D30']) / 2


In [None]:
# Rendement par hectare
df_fe['Yield_per_Hectare'] = df_fe['Paddy yield(in Kg)'] / df_fe['Hectares ']

# Production probable vs superficie de pépinière
df_fe['LP_nursery_ratio'] = df_fe['LP_nurseryarea(in Tonnes)'] / df_fe['Nursery area (Cents)']

In [None]:
# Label Encoding
# Dictionnaire pour garder les encodeurs
le_dict = {}

for col in categorical_features:
    le = LabelEncoder()
    df_fe[col + '_enc'] = le.fit_transform(df_fe[col].astype(str))
    le_dict[col] = le  # Pour inverser si besoin

In [None]:
# Aperçu des premières lignes
print("APERÇU DES DONNÉES:")
print("-" * 30)
print(df_fe.head())
print()

In [None]:
# Vérifier les variables à encoder
print(f"Variables catégoriques à encoder : {categorical_features}")

# ==============================
# One-Hot Encoding
# ==============================
df_fe = pd.get_dummies(df_fe, columns=categorical_features, drop_first=False)

print(f"Dimension du dataset après encodage : {df_fe.shape}")

# vérifier les premières colonnes
df_fe.head()

In [None]:
df_fe.to_csv('data/paddy_dataset_fe.csv', index=False)
print("Dataset avec features engineering enregistré dans 'data/paddy_dataset_fe.csv'")