In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
pd.set_option('display.max_row', 44)
pd.set_option('display.max_columns', 44)

In [5]:
data = pd.read_csv('Train.csv')
data.head()

FileNotFoundError: ignored

# A - Exploration et analyse des données

### 1 - Analyse de forme  

In [None]:
#copie de notre dataframe
df = data.copy()

**1 - a) Target :** Yield (Rendement de la recolte actuelle)

In [None]:
df['Yield'][:10]

**1 - b) Lignes, colonnes :** 3870 lignes, 44 colonnes

In [None]:
df.shape

**1 -c) Types de variables :**

- Qualitatif : 23
- Quantitatif : 21

In [None]:
#valeur numérique des types de donnée
print(df.dtypes.value_counts())

**1 -d) Analyse des valeurs manquantes :**

- Certains colonnes présente entre entre 2.14% et 69,76% de valeurs manquantes
- Notre datasets présente 12,21% de valeurs manquante en totalité

In [None]:
(df.isna().sum() / df.shape[0]).sort_values(ascending=False)

In [None]:
#Pourcentage total de des valeurs manquantes dans notre datasets
somme = 0
for col in df:
    somme += df[col].isna().sum()

print(somme/df.size)

In [None]:
#visualisation graphique des valeurs manquantes
plt.figure(figsize=(12, 8))
sns.heatmap(df.isna(), cbar=False)

### 2 - Analyse de fond

In [None]:
#suppréssion des colonnes non indispensables à notre modèl
col_utiles = ['Yield', 'CultLand', 'CropCultLand', 'CropTillageDepth', 'RcNursEstDate', 'SeedlingsPerPit', 'TransplantingIrrigationHours', 'TransplantingIrrigationSource', 'TransplantingIrrigationPowerSource', 'TransIrriCost', 'OrgFertilizers', 'Ganaura', 'CropOrgFYM', 'BasalDAP', 'BasalUrea', 'Harv_method', 'Harv_hand_rent', 'Harv_hand_rent', 'CropTillageDate', 'RcNursEstDate', 'Harv_date']
col_inutiles = []

for col in df.columns:
    if col not in col_utiles:
        col_inutiles.append(col)

df = df.drop(col_inutiles, axis=1)

**2 - a) Visualisation de notre target :**

- La target est une variables continue
- La target suivent une distribution asymétrique (coéfficient d'asymétrie : 9.35)

In [None]:
#création d'un series target
y = df['Yield']

#type de valeur dans notre dataset
y.unique()

In [None]:
#distribution de notre target
plt.figure()
sns.displot(y)

In [None]:
from scipy.stats import skew

#calcul de la coefficient d'asymétrie de notre target
coef = skew(y)

print(coef)

**2 -b) Compréhension des variables :**

In [None]:
#création d'un dataframe indépendant de la target
X = df.drop('Yield', axis=1)


- variables quantitatif :
    - La variables 'CropTillageDepth' est une variables discrète
    - Tout les autres variables suivent tous une distribution asymétrique

In [None]:
#création d'un dataframe quantitatif
X_quantitatif = X.select_dtypes(['float64', 'int64'])

#distribution de chaque variables dans notre dataframes quantitatif
for col in X_quantitatif:
    plt.figure()
    sns.displot(x=X_quantitatif[col], kind='kde')

- Variables qualitatif :
    
    - Les méthode et matériel sont trés varier
    - Dans chaque variables qualitatif, il y a une valeurs plus privilégier que les autres valeurs
    - Les mois de 'juin' et de 'juillet' sont priviligier pour la préparation des champs de culture
    - On voit aussi que les récoltes été trés élévée durant la fin de l'année 2022  

In [None]:
X_qualitatif = df.select_dtypes('object')

#création de plusieurs sous-groupe
X_date = X_qualitatif[['CropTillageDate', 'RcNursEstDate', 'Harv_date']]
X_method = X_qualitatif.drop(['CropTillageDate', 'RcNursEstDate', 'Harv_date'], axis=1)

for col in X_date:
    X_date[col] = pd.to_datetime(X_date[col])

    X_date[col + '(year)'] = X_date[col].dt.year
    X_date[col + '(month)'] = X_date[col].dt.month

#suppréssion des object de type date
for col in X_date:
    if len(X_date[col].unique()) == 1:
        X_date = X_date.drop(col, axis=1)

X_date = X_date.drop(['CropTillageDate', 'RcNursEstDate', 'Harv_date'], axis=1)
X_qualitatif = X_qualitatif.drop(['CropTillageDate', 'RcNursEstDate', 'Harv_date'], axis=1)

#On reconstitu la variables qualitatif précedent
X_qualitatif = pd.merge(X_qualitatif, X_date, right_index=True, left_index=True)

In [None]:
#visualisation graphique des donnée method
i = 1
plt.figure(figsize=(12, 13))
for col in X_method:
    plt.subplot(2, 2, i)
    sns.countplot(x=X_method[col])
    plt.xticks(rotation=90)
    i += 1

In [None]:
#visualisation des variables de type date
X_date = X_date.drop('RcNursEstDate(year)', axis=1)

i = 1
plt.figure(figsize=(12, 9))
for col in X_date:
    plt.subplot(2, 2, i)
    sns.countplot(x=X_date[col])
    i += 1

**2 - c) Relation target variables :**

Relation Target / variables quantitatif


- Chaque variables dans la le groupe de variables quantitatif(à part la variables 'CropTillageDepth') a une intervale de valeur où les nuages de point sont trés intense
- On constate aussi quelque outliers sur nos données

In [None]:
i = 1
plt.figure(figsize=(20, 10))
for col in X_quantitatif:
    plt.subplot(3, 5, i)
    plt.scatter(X_quantitatif[col], y, marker='.')
    plt.xlabel(col)
    plt.ylabel('Yield')
    i += 1

Relation Target / variables qualitatif

- Le rendement des gens qui travail les champs les mois de 'juin' et 'juillet' sont nombreux mais la majorité ont une seuil de rendement faibles
- La recolte est en hausse durant à la fin de l'année 2022 mais leurs rendement est faibles

In [None]:
#relation entre les variables de types date et la target
i = 1
plt.figure(figsize=(12, 8))
for col in X_date:
    plt.subplot(2, 2, i)
    sns.histplot(x=X_date[col], y=y, cbar=True)
    i += 1

### Analyse détailler

**- Relation entre les variables**

- Variables quantitatif :
    - On a des variables qui sont trés correler (coefficient de correlation proche de 1.0)
    - L'interval de correlation entre les variables varie entre [-0.004 ,0.97]

In [None]:
X_quantitatif.corr()

- Variables qualitatif:
    - La combinaison entre les valeurs 'Boring' , 'Electric', 'hand' et 'Ganaura FYM' sont trés apprécier

In [None]:
i = 1
plt.figure(figsize=(40, 20))
for col1 in X_method:
    for col2 in X_method:
        if col1 != col2:
            plt.subplot(4, 4, i)
            sns.heatmap(pd.crosstab(X_method[col1], X_method[col2]))
            i += 1

- Quantitatif / Qualitatif:

In [None]:
for col1 in X_quantitatif:
    for col2 in X_method:
        print(pd.crosstab(X_quantitatif[col1], X_method[col2]))

## B - PRE-PROCESSING

In [None]:
X = pd.merge(X_quantitatif, X_qualitatif, right_index=True, left_index=True)

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
pipeline = make_pipeline(SimpleImputer(), StandardScaler(), RandomForestRegressor())

In [None]:
pipeline.fit(X_train, y_train)

In [None]:
pipeline.score(X_test, y_test)

In [None]:
mean_squared_error(y_test, pipeline.predict(X_test), squared=False)

In [None]:
test = pd.read_csv('Test.csv')

X_test = test[X.columns]
submission = pd.DataFrame({'ID': test.ID, 'Yield' : pipeline.predict(X_test)})
submission.to_csv('BenchSubmission.csv')