In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# Importing Data

In [2]:
crop =pd.read_csv("data/Crop_recommendation.csv")
crop.head()

# Describing Data

In [3]:
crop.shape

In [4]:
crop.info()

In [5]:
crop.isnull().sum()

In [6]:
crop.duplicated().sum()

In [7]:
crop.describe()

In [8]:
crop['label'].value_counts()

# Exploring Data

# Distribution des variables

In [9]:
# Sélection des colonnes numériques (toutes sauf 'label')
num_cols = ["N","P","K","temperature","humidity","ph","rainfall"]
# Histogrammes pour visualiser la forme des distributions (asymétries, étalement)
crop[num_cols].hist(figsize=(12,8), bins=20)
plt.suptitle("Distribution des variables numériques (brut)", fontsize=14)
plt.tight_layout(); plt.show()



# Pair Plot Analysis (relations 2 à 2)

In [10]:
VARS_CONT = ["N", "P", "K", "temperature", "humidity", "ph", "rainfall"]  # variables continues (ordre cohérent)
LABEL_COL = "label"                 # nom de la colonne cible (22 cultures)
MAX_SAMPLES_PER_CLASS = 120         # sous-échantillonnage stratifié pour lisibilité (None pour désactiver)
HEIGHT = 1.4                        # taille d’une sous-figure du pairplot
POINT_SIZE = 12                     # taille des marqueurs
ALPHA = 0.7                         # transparence des points

# ---- 2) Vérifications minimales ----
missing = [c for c in VARS_CONT if c not in crop.columns]
if missing:
    raise KeyError(f"Colonnes manquantes dans le DataFrame: {missing}\nColonnes disponibles: {list(crop.columns)}")
if LABEL_COL not in crop.columns:
    raise KeyError(f"La colonne de classe '{LABEL_COL}' est introuvable. Colonnes: {list(crop.columns)}")

# ---- 3) Sous-échantillonnage optionnel (stratifié par classe) ----
if MAX_SAMPLES_PER_CLASS:
    # On prélève au plus MAX_SAMPLES_PER_CLASS échantillons par classe pour un rendu lisible
    crop_pp = (
        crop.groupby(LABEL_COL, group_keys=False)
            .apply(lambda g: g.sample(min(len(g), MAX_SAMPLES_PER_CLASS), random_state=42))
            .reset_index(drop=True)
    )
else:
    crop_pp = crop.copy()

# ---- 4) Construction du pair plot (style de l’article) ----
g = sns.pairplot(
    data=crop_pp[VARS_CONT + [LABEL_COL]],
    vars=VARS_CONT,
    hue=LABEL_COL,                   # couleurs par culture
    diag_kind="kde",                 # densité en diagonale (plus informatif que hist)
    kind="scatter",                  # nuages de points hors diagonale
    plot_kws=dict(s=POINT_SIZE, alpha=ALPHA, edgecolor="none"),
    diag_kws=dict(common_norm=False),
    corner=False,                    # grille complète
    height=HEIGHT
)

# ---- 5) Lisibilité : titre & légende ----
g.fig.suptitle(
    "Pair Plot — N, P, K, temperature, humidity, ph, rainfall",
    y=1.02, fontsize=14
)

# Déplace la légende si nécessaire (certaines versions la placent sur la figure)
if getattr(g, "_legend", None) is not None:
    g._legend.set_title(LABEL_COL)
    g._legend.set_bbox_to_anchor((1.02, 1))  # à droite de la figure

plt.show()

# Joint Plot Analysis (relation entre 2 variables)

In [11]:
x_var = "rainfall"
y_var = "humidity"
sns.set(style="white", palette="muted")

# Joint Plot principal (scatter avec distributions)
g = sns.jointplot(
    data=crop,
    x=x_var,
    y=y_var,
    hue="label",          # variable de classe (22 cultures)
    kind="scatter",       # affichage points
    height=8,             # taille de la figure
    alpha=0.7,            # transparence pour éviter le chevauchement
    s=30                  # taille des points
)

# Déplacer la légende 
leg = g.ax_joint.get_legend()
if leg is not None:
    handles, labels = g.ax_joint.get_legend_handles_labels()
    leg.remove()
    # Légende au niveau de la figure, collée à droite (à l'intérieur de la figure pour éviter la coupe)
    g.fig.legend(
        handles, labels, title="label",
        loc="center left", bbox_to_anchor=(0.99, 0.5),  # 0.99 la garde juste à l'intérieur du bord droit
        borderaxespad=0, frameon=True
    )

g.fig.suptitle("Joint Plot – Relation entre Rainfall et Humidity ", y=1.02, fontsize=14)

plt.show()

# Analyse de corrélation

In [12]:
corr = crop.corr(numeric_only=True)
corr #coefficient de correlation de Pearson (0 = pas de correlation linéaire)

In [13]:
import seaborn as sns
sns.heatmap(corr,annot=True,cbar=True, cmap='coolwarm')

# Encoding

In [15]:
labels = [
    'rice', 'maize', 'chickpea', 'kidneybeans', 'pigeonpeas', 'mothbeans', 'mungbean', 'blackgram',
    'lentil', 'pomegranate', 'banana', 'mango', 'grapes', 'watermelon', 'muskmelon', 'apple',
    'orange', 'papaya', 'coconut', 'cotton', 'jute', 'coffee'
]
label_dict = {label: rank for rank, label in enumerate(labels, start=1)}
print(label_dict)


In [16]:
crop_dict ={'rice': 1, 'maize': 2, 'chickpea': 3, 'kidneybeans': 4, 'pigeonpeas': 5, 'mothbeans': 6, 'mungbean': 7, 'blackgram': 8, 'lentil': 9, 'pomegranate': 10, 'banana': 11, 'mango': 12, 'grapes': 13, 'watermelon': 14, 'muskmelon': 15, 'apple': 16, 'orange': 17, 'papaya': 18, 'coconut': 19, 'cotton': 20, 'jute': 21, 'coffee': 22}

crop['crop_num']=crop['label'].map(crop_dict)

In [17]:
crop['crop_num'].value_counts()

In [18]:
crop.drop('label',axis=1,inplace=True)
crop.head()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=37cd5642-eb00-4cb1-969e-a9bc85cf5e83' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>