In [1]:
import pandas as pd

In [38]:
# Charger le dataset
file_path = 'crop_yield.csv'
data = pd.read_csv(file_path)

In [54]:
# Liste des 14 régions du Sénégal
regions_senegal = [
    'Dakar', 'Diourbel', 'Fatick', 'Kaffrine', 'Kaolack', 
    'Kédougou', 'Kolda', 'Louga', 'Matam', 'Saint-Louis', 
    'Sédhiou', 'Tambacounda', 'Thiès', 'Ziguinchor'
]

# Obtenir les 14 premiers États indiens uniques
unique_states = data['State'].unique()[:14]

In [55]:
# Créer un mapping entre les 14 premiers États de l'Inde et les 14 régions du Sénégal
state_to_region_map = dict(zip(unique_states, regions_senegal))

In [56]:
# Remplacer les États indiens par les régions sénégalaises
data['State'] = data['State'].map(state_to_region_map)

# Supprimer les lignes des autres États de l'Inde qui ne font pas partie des 14 premiers
data_cleaned = data.dropna(subset=['State'])

# Nettoyage des valeurs de la colonne 'Season'
data_cleaned['Season'] = data_cleaned['Season'].str.strip().str.capitalize()

In [57]:
# Redéfinir le mapping des saisons après avoir standardisé les valeurs
season_mapping = {
    'Kharif': 'Saison des Pluies',  # Correspond à la saison des pluies au Sénégal (juin - octobre)
    'Rabi': 'Saison Sèche',         # Correspond à la saison sèche au Sénégal (novembre - mai)
    'Whole year': 'Toute l\'année'  # Si applicable, garder comme "Toute l'année"
}

# Appliquer la correspondance des saisons et supprimer les lignes sans correspondance
data_cleaned['Season'] = data_cleaned['Season'].map(season_mapping)

# Vérification des valeurs NaN après le mapping des saisons
print(f"Lignes avec des saisons non reconnues (NaN) : {data_cleaned['Season'].isna().sum()}")

Lignes avec des saisons non reconnues (NaN) : 1998


In [58]:
# Supprimer les lignes où 'Season' est NaN (c'est-à-dire les saisons qui ne correspondent pas)
data_cleaned = data_cleaned.dropna(subset=['Season'])

In [60]:
# Sauvegarder le nouveau dataset nettoyé (avec les colonnes 'Fertilizer' et 'Pesticide' conservées)
output_file_path = 'crop_yield_cleaned.csv'
data_cleaned.to_csv(output_file_path, index=False)

print(f"Le fichier nettoyé a été sauvegardé sous le nom {output_file_path}")

# Afficher les premières lignes des données nettoyées pour vérification
data_cleaned.head()


Le fichier nettoyé a été sauvegardé sous le nom crop_yield_cleaned.csv


Unnamed: 0,Crop,Crop_Year,Season,State,Area,Production,Annual_Rainfall,Fertilizer,Pesticide,Yield
0,Arecanut,1997,Toute l'année,Dakar,73814.0,56708,2051.4,7024878.38,22882.34,0.796087
1,Arhar/Tur,1997,Saison des Pluies,Dakar,6637.0,4685,2051.4,631643.29,2057.47,0.710435
2,Castor seed,1997,Saison des Pluies,Dakar,796.0,22,2051.4,75755.32,246.76,0.238333
3,Coconut,1997,Toute l'année,Dakar,19656.0,126905000,2051.4,1870661.52,6093.36,5238.051739
4,Cotton(lint),1997,Saison des Pluies,Dakar,1739.0,794,2051.4,165500.63,539.09,0.420909
