SELECTION DU MODELE

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [7]:

# Download the dataset
dataset = pd.read_csv('dataset_cleaned.csv')

# Display the first few rows of the dataframe
dataset.head()

Unnamed: 0,nom_region,nom_espece,superficie,pluviometrie,rendement_moyen,annee,temperature_moyenne,mois_plantation,log_pluviometrie,categorie_pluviometrie
0,Abidjan,Cacao,311.35,221.88,9.4,2019,25.67,4,5.406634,Moyenne
1,Abidjan,Cacao,141.35,221.88,9.4,2019,25.67,8,5.406634,Moyenne
2,Abidjan,Cacao,301.74,221.88,9.4,2019,25.67,3,5.406634,Moyenne
3,Abidjan,Café,114.35,92.11,6.29,2019,29.375,6,4.533782,Faible
4,Abidjan,Café,253.65,92.11,6.29,2019,29.375,12,4.533782,Faible


Preprocessing

In [10]:
import numpy as np
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler



In [11]:
# 1. Séparation des caractéristiques (features) et de la cible (target)
X = dataset.drop('rendement_moyen', axis=1)
y = dataset['rendement_moyen']

# 2. Identification des colonnes numériques et non numériques
numeric_columns = X.select_dtypes(include=['number']).columns
categorical_columns = X.select_dtypes(exclude=['number']).columns

print("Colonnes numériques :", numeric_columns)
print("Colonnes catégoriques :", categorical_columns)

# 3. Création du préprocesseur
#    - Encodage OneHotEncoder pour les colonnes catégoriques.
#    - Standardisation (StandardScaler) pour les colonnes numériques.
preprocessor = make_column_transformer(
    (StandardScaler(), make_column_selector(dtype_include=np.number)),  # Standardisation des colonnes numériques
    (OneHotEncoder(), make_column_selector(dtype_exclude=np.number))   # Encodage des colonnes catégoriques
)

# 4. Création du pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor)
])

# 5. Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 6. Application du pipeline aux données
X_train = pipeline.fit_transform(X_train)  # Ajustement et transformation sur l'ensemble d'entraînement
X_test = pipeline.transform(X_test)        # Transformation uniquement sur l'ensemble de test

Colonnes numériques : Index(['superficie', 'pluviometrie', 'annee', 'temperature_moyenne',
       'mois_plantation', 'log_pluviometrie'],
      dtype='object')
Colonnes catégoriques : Index(['nom_region', 'nom_espece', 'categorie_pluviometrie'], dtype='object')
