Importation

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
import os

Pipeline de traitement pour dataset 1

In [None]:
# def merge_alternate_rows(df):
#     """Fusionne les lignes alternatives du dataframe."""
#     rows = []
#     for i in range(0, len(df), 2):
#         if i + 1 < len(df):
#             merged_row = {}
#             # Première ligne (données numériques)
#             for col in df.columns:
#                 merged_row[col] = df.iloc[i][col]
#             # Deuxième ligne (données catégorielles)
#             for col in ['month', 'longitude', 'crop', 'soil', 'city']:
#                 if pd.notna(df.iloc[i+1][col]):
#                     merged_row[col] = df.iloc[i+1][col]
#             rows.append(merged_row)
#     return pd.DataFrame(rows)

def merge_alternate_rows(df):
    """Fusionne les lignes alternatives du dataframe."""
    rows = []
    for i in range(0, len(df), 2):
        if i + 1 < len(df):
            merged_row = {}
            # Première ligne (données numériques)
            for col in df.columns:
                merged_row[col] = df.iloc[i][col]
            # Deuxième ligne (données catégorielles, sans 'longitude')
            for col in ['month', 'crop', 'soil', 'city']:
                if pd.notna(df.iloc[i+1][col]):
                    merged_row[col] = df.iloc[i+1][col]
            rows.append(merged_row)
    return pd.DataFrame(rows)


def clean_categorical_values(df):
    """Standardise les valeurs catégorielles."""
    categorical_cols = ['month', 'crop', 'soil', 'city']
    for col in categorical_cols:
        df[col] = df[col].str.upper() if df[col].dtype == 'object' else df[col]
    return df

def handle_missing_values(df):
    """Gère les valeurs manquantes."""
    # Pour les colonnes numériques
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    for col in numeric_cols:
        df[col] = df[col].fillna(df[col].median())
    
    # Pour les colonnes catégorielles
    categorical_cols = ['month', 'crop', 'soil', 'city']
    for col in categorical_cols:
        df[col] = df[col].fillna(df[col].mode()[0])
    
    return df

def create_features(df):
    """Crée de nouvelles caractéristiques."""
    # Ratio de température
    df['temp_ratio'] = df['Max Temp'] / df['Min Temp']
    
    # Ratio humidité/radiation
    df['humidity_rad_ratio'] = df['Humidity'] / df['Rad']
    
    # Mapping des mois aux saisons
    season_mapping = {
        'DECEMBER': 'WINTER', 'JANUARY': 'WINTER', 'FEBRUARY': 'WINTER',
        'MARCH': 'SPRING', 'APRIL': 'SPRING', 'MAY': 'SPRING',
        'JUNE': 'SUMMER', 'JULY': 'SUMMER', 'AUGUST': 'SUMMER',
        'SEPTEMBER': 'AUTUMN', 'OCTOBER': 'AUTUMN', 'NOVEMBER': 'AUTUMN'
    }
    df['season'] = df['month'].map(season_mapping)
    
    return df

def normalize_and_encode(df):
    """Normalise les variables numériques et encode les variables catégorielles."""
    # Copie du dataframe original
    df_encoded = df.copy()
    
    # Colonnes à normaliser
    numeric_cols = ['water req', 'Min Temp', 'Max Temp', 'Humidity', 'Wind', 
                   'Sun', 'Rad', 'Rain', 'altitude', 'latitude', 'longitude',
                   'temp_ratio', 'humidity_rad_ratio']
    
    # Normalisation
    scaler = MinMaxScaler()
    df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])
    
    # Encodage des variables catégorielles
    categorical_cols = ['month', 'crop', 'soil', 'city', 'season']
    for col in categorical_cols:
        le = LabelEncoder()
        df_encoded[col] = le.fit_transform(df_encoded[col])
    
    return df_encoded

def process_dataset(input_file, output_dir):
    """Fonction principale de traitement du dataset."""
    # Création du répertoire de sortie s'il n'existe pas
    os.makedirs(output_dir, exist_ok=True)
    
    # Lecture du fichier
    df = pd.read_csv(input_file)
    
    # Pipeline de traitement
    df = merge_alternate_rows(df)
    df = clean_categorical_values(df)
    df = handle_missing_values(df)
    df = create_features(df)
    
    # Sauvegarde de la version non normalisée
    df.to_csv(os.path.join(output_dir, 'dataset_1.csv'), index=False)
    
    # Normalisation et encodage
    df_normalized = normalize_and_encode(df)
    
    # Sauvegarde de la version normalisée
    df_normalized.to_csv(os.path.join(output_dir, 'dataset_1_normalized.csv'), index=False)
    
    return df, df_normalized

In [None]:

# Utilisation du pipeline
if __name__ == "__main__":
    input_file = "Datasets2\dataset1\data_plants.csv"
    output_dir = "Output"
    df_raw, df_normalized = process_dataset(input_file, output_dir)

  input_file = "Datasets2\dataset1\data_plants.csv"


ValueError: could not convert string to float: 'wheat'

In [9]:
# import data_plants.csv
data = pd.read_csv("Datasets2\dataset1\data_plants.csv")

# select only numeric columns for grouping
numeric_columns = data.select_dtypes(include=[np.number]).columns

# display data grouped by 'city' for numeric columns only
data.groupby('longitude')[numeric_columns].mean()

  data = pd.read_csv("Datasets2\dataset1\data_plants.csv")


Unnamed: 0_level_0,water req,Min Temp,Max Temp,Humidity,Wind,Sun,Rad,Rain,altitude,latitude
longitude,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
72.82,,,,,,,,,,
75.78,,,,,,,,,,
77.01,,,,,,,,,,
78.06,,,,,,,,,,
80.27,,,,,,,,,,
88.36,,,,,,,,,,
wheat,,,,,,,,,,
