In [None]:
import pandas as pd
import numpy as np

## Création des nouvelles régions correspandantes au fichier météo

In [29]:

# Nouveau dictionnaire des régions et départements
regions_departments = {
    'alsace': ['67', '68'],
    'aquitaine': ['24', '33', '40', '47', '64', '79', '86'],
    'ardeche': ['07'],
    'auvergne': ['03', '15', '43', '63', '01'],
    'bourgogne': ['21', '58', '71', '89', '10'],
    'bretagne': ['22', '29', '35', '56'],
    'camargue': ['13', '30'],
    'centre': ['18', '28', '36', '37', '41', '45'],
    'cevennes-lozere': ['48'],
    'charentes': ['16', '17'],
    'corse': ['02A', '02B', '971', '972', '973', '974', '976'],
    'drome': ['26'],
    'franche-comte': ['25', '39', '70', '90'],
    'ile-de-france': ['75', '77', '78', '91', '92', '93', '94', '95'],
    'ile-de-re': ['17'],
    'jura': ['39'],
    'landes': ['40'],
    'limousin': ['19', '23', '87'],
    'lorraine': ['54', '55', '57', '88', '08', '51', '52'],
    'lot': ['46'],
    'lyonnais': ['69', '38', '42', '73', '74'],
    'midi-pyrenees': ['09', '12', '31', '32', '46', '65', '81', '82', '11', '34', '66'],
    'midi-toulousain': ['31', '32', '82'],
    'normandie': ['14', '27', '50', '61', '76'],
    'pays-basque': ['64'],
    'pays-de-la-loire': ['44', '49', '53', '72', '85'],
    'perigord-dordogne': ['24'],
    'picardie': ['02', '60', '80', '59', '62'],
    'provence-alpes-c-te-d-azur': ['04', '05', '06', '13', '83', '84'],
    'vendee': ['85']
}


# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'Fichier_sources_rendement.csv'
df = pd.read_csv(file_path, sep=None, engine='python', on_bad_lines='skip')

# Extraire le numéro du département sans les zéros initiaux et gérer les cas alphanumériques
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels

# Ajouter la colonne 'Numéro'
df['Numéro'] = df['LIB_DEP'].apply(extract_dept_number)

# Ajouter la colonne 'new_region'
df['new_region'] = df['Numéro'].apply(get_region)

# # Sauvegarder le fichier modifié
# output_path = 'Fichier_sources_rendement_avec_regions.csv'
# df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
df.head()


Unnamed: 0,﻿LIB_REG2,LIB_DEP,LIB_CODE,New_catetogorie,Region,SURF_2010,SURF_2011,SURF_2012,SURF_2013,SURF_2014,...,PROD_2016,PROD_2017,PROD_2018,PROD_2019,PROD_2020,PROD_2021,PROD_2022,PROD_2023,Numéro,new_region
0,11 - Île-de-France,077 - Seine-et-Marne,01 - Blé tendre d'hiver et épeautre,Blé,Ile-de-France,135 199,142 512,137 830,140 610,139 130,...,5 589 600,11 009 925,10 081 225,11 760 760,8 800 715,10 958 490,10 320 700,10 472 850,77,ile-de-france
1,11 - Île-de-France,077 - Seine-et-Marne,03 - Total blé tendre (01 + 02),Blé,Ile-de-France,135 518,142 872,138 240,141 210,139 620,...,5 599 800,11 043 135,10 108 175,11 814 000,8 901 585,11 019 495,10 401 450,10 514 841,77,ile-de-france
2,11 - Île-de-France,077 - Seine-et-Marne,06 - Total blé dur (04 + 05),Blé,Ile-de-France,1 981,1 471,1 590,1 115,730,...,18 800,55 250,42 840,28 800,49 350,65 920,68 340,52 313,77,ile-de-france
3,11 - Île-de-France,077 - Seine-et-Marne,10 - Total orge et escourgeon (08 + 09),Orge,Ile-de-France,40 473,42 389,43 680,42 325,45 900,...,2 646 320,3 912 250,3 752 460,4 971 470,3 566 115,3 902 290,3 869 845,4 213 297,77,ile-de-france
4,11 - Île-de-France,077 - Seine-et-Marne,13 - Total avoine (11 + 12),Cérélaes(autres),Ile-de-France,1 637,1 163,1 400,1 765,1 840,...,80 000,150 300,124 800,98 580,99 750,112 860,77 585,68 288,77,ile-de-france


## Transposé du fichier source

In [30]:

# Corriger le nom de la colonne si nécessaire
df.columns = df.columns.str.strip()  # Retirer les espaces au début et à la fin des noms de colonnes

# Vérifiez les colonnes disponibles dans le DataFrame
print(df.columns)

# Ajuster la liste 'id_vars' selon les colonnes disponibles
id_vars = ['LIB_DEP', 'LIB_CODE', 'New_catetogorie', 'Region', 'new_region']

# Si une des colonnes n'existe pas, retirez-la de la liste
id_vars = [col for col in id_vars if col in df.columns]

# Identifier dynamiquement les colonnes pour value_vars
value_vars = [col for col in df.columns if col.startswith('SURF_') or col.startswith('PROD_') or col.startswith('REND_')]

# Transformer les données
data_long_format = pd.melt(df, 
                           id_vars=id_vars, 
                           value_vars=value_vars, 
                           var_name='Variable', 
                           value_name='Value')

# Extraire l'année et le type de donnée (Surface, Production ou Rendement)
data_long_format['Year'] = data_long_format['Variable'].str.extract('(\d+)', expand=False)
data_long_format['Type'] = data_long_format['Variable'].str[:4]

# Réorganiser les données
index_columns = id_vars + ['Year']
data_pivot = data_long_format.pivot_table(index=index_columns, columns='Type', values='Value', aggfunc='first').reset_index()

# Vérifiez les colonnes actuelles de data_pivot
print(data_pivot.columns)

# Renommer les colonnes selon les spécifications
data_pivot.columns.name = None
column_rename_map = {
    'LIB_DEP': 'Departement',
    'LIB_CODE': 'Crops_sub',
    'New_catetogorie': 'Crops',
    'Region': 'New_Region',
    'new_region': 'Old_Region',
    'Year': 'Year',
    'PROD': 'Production',
    'REND': 'Rendement',
    'SURF': 'Surface'
}

data_pivot = data_pivot.rename(columns=column_rename_map)

# Sélectionner et renommer les colonnes finales
final_columns = ['Departement', 'Crops_sub', 'Crops', 'New_Region', 'Old_Region', 'Year', 'Production', 'Rendement', 'Surface']
final_data = data_pivot[final_columns]

# Afficher les premières lignes des données transformées
print(final_data.head())

# Sauvegarder le nouveau fichier avec encodage UTF-8
# file_path_test14 = 'test_14.csv'
# final_data.to_csv(file_path_test14, index=False, encoding='utf-8-sig')

print("Transformation terminée et fichier sauvegardé sous 'test_14.csv'.")

final_data.head()


Index(['﻿LIB_REG2', 'LIB_DEP', 'LIB_CODE', 'New_catetogorie', 'Region',
       'SURF_2010', 'SURF_2011', 'SURF_2012', 'SURF_2013', 'SURF_2014',
       'SURF_2015', 'SURF_2016', 'SURF_2017', 'SURF_2018', 'SURF_2019',
       'SURF_2020', 'SURF_2021', 'SURF_2022', 'SURF_2023', 'REND_2010',
       'REND_2011', 'REND_2012', 'REND_2013', 'REND_2014', 'REND_2015',
       'REND_2016', 'REND_2017', 'REND_2018', 'REND_2019', 'REND_2020',
       'REND_2021', 'REND_2022', 'REND_2023', 'PROD_2010', 'PROD_2011',
       'PROD_2012', 'PROD_2013', 'PROD_2014', 'PROD_2015', 'PROD_2016',
       'PROD_2017', 'PROD_2018', 'PROD_2019', 'PROD_2020', 'PROD_2021',
       'PROD_2022', 'PROD_2023', 'Numéro', 'new_region'],
      dtype='object')
Index(['LIB_DEP', 'LIB_CODE', 'New_catetogorie', 'Region', 'new_region',
       'Year', 'PROD', 'REND', 'SURF'],
      dtype='object', name='Type')
  Departement      Crops_sub Crops            New_Region Old_Region  Year  \
0   001 - Ain  01 - Abricots   Nan  Auvergne-Rh

Unnamed: 0,Departement,Crops_sub,Crops,New_Region,Old_Region,Year,Production,Rendement,Surface
0,001 - Ain,01 - Abricots,Nan,Auvergne-Rhone-Alpes,auvergne,2010,0,,0
1,001 - Ain,01 - Abricots,Nan,Auvergne-Rhone-Alpes,auvergne,2011,0,,0
2,001 - Ain,01 - Abricots,Nan,Auvergne-Rhone-Alpes,auvergne,2012,0,,0
3,001 - Ain,01 - Abricots,Nan,Auvergne-Rhone-Alpes,auvergne,2013,0,,0
4,001 - Ain,01 - Abricots,Nan,Auvergne-Rhone-Alpes,auvergne,2014,0,,0


## Suppression des surface nul et des Crops_group = Nan

In [31]:
# Afficher les premières lignes pour vérifier les données
print("Données initiales :")
print(final_data.head())

# Convertir les colonnes 'Production', 'Rendement' et 'Surface' en type float
final_data['Production'] = pd.to_numeric(final_data['Production'].astype(str).str.replace(' ', '').str.replace(',', '.'), errors='coerce')
final_data['Rendement'] = pd.to_numeric(final_data['Rendement'].astype(str).str.replace(' ', '').str.replace(',', '.'), errors='coerce')
final_data['Surface'] = pd.to_numeric(final_data['Surface'].astype(str).str.replace(' ', ''), errors='coerce')

# Convertir la colonne 'Year' en type datetime (année)
final_data['Year'] = pd.to_datetime(final_data['Year'], format='%Y').dt.year

# Vérifier les types de données pour diagnostiquer les problèmes potentiels
print("\nTypes des colonnes après conversion :")
print(final_data.dtypes)

# Remplacer les valeurs 'Nan' dans la colonne 'Crops' par np.nan
final_data['Crops'] = final_data['Crops'].replace('Nan', np.nan)

# Supprimer les lignes où la surface est égale à 0, vide ou égale à -1
final_data = final_data[(final_data['Surface'] != 0) & (final_data['Surface'].notna()) & (final_data['Surface'] != -1)]

# Supprimer les lignes où Crops est NaN
final_data = final_data[final_data['Crops'].notna()]

# Afficher les premières lignes après suppression
print("\nDonnées après suppression :")
print(final_data.head())

# Sauvegarder le fichier modifié
# file_path_filtered = 'test_14_filtered.csv'
# final_data.to_csv(file_path_filtered, index=False, encoding='utf-8-sig')

print("\nLes lignes avec Surface = 0, Surface vide, Surface = -1 et Crops vide ont été supprimées. Fichier sauvegardé sous 'test_14_filtered.csv'.")


Données initiales :
  Departement      Crops_sub Crops            New_Region Old_Region  Year  \
0   001 - Ain  01 - Abricots   Nan  Auvergne-Rhone-Alpes   auvergne  2010   
1   001 - Ain  01 - Abricots   Nan  Auvergne-Rhone-Alpes   auvergne  2011   
2   001 - Ain  01 - Abricots   Nan  Auvergne-Rhone-Alpes   auvergne  2012   
3   001 - Ain  01 - Abricots   Nan  Auvergne-Rhone-Alpes   auvergne  2013   
4   001 - Ain  01 - Abricots   Nan  Auvergne-Rhone-Alpes   auvergne  2014   

  Production Rendement Surface  
0          0       NaN       0  
1          0       NaN       0  
2          0       NaN       0  
3          0       NaN       0  
4          0       NaN       0  

Types des colonnes après conversion :
Departement     object
Crops_sub       object
Crops           object
New_Region      object
Old_Region      object
Year             int64
Production     float64
Rendement      float64
Surface        float64
dtype: object

Données après suppression :
   Departement                

## Calcul des variables météo annuelles

In [32]:
# Charger le fichier avec différents encodages et délimiteurs
file_path = 'meteo_data_All.csv'  

# Essayer avec utf-8 et le point-virgule comme délimiteur
try:
    df = pd.read_csv(file_path, encoding='utf-8', delimiter=';')
except UnicodeDecodeError:
    # Si utf-8 échoue, essayer avec latin1
    try:
        df = pd.read_csv(file_path, encoding='latin1', delimiter=';')
    except UnicodeDecodeError:
        # Si latin1 échoue, essayer avec utf-8 et une virgule comme délimiteur
        try:
            df = pd.read_csv(file_path, encoding='utf-8', delimiter=',')
        except UnicodeDecodeError:
            # Si toutes les autres tentatives échouent, essayer avec latin1 et une virgule comme délimiteur
            df = pd.read_csv(file_path, encoding='latin1', delimiter=',')

# Corriger les noms de colonnes encodés incorrectement
df.columns = [col.encode('latin1').decode('utf-8') for col in df.columns]

# Afficher les colonnes disponibles pour vérifier le chargement
print("Colonnes disponibles dans le DataFrame :")
print(df.columns)

# Multiplier les précipitations moyennes par jour par 30 pour obtenir les précipitations mensuelles si la colonne existe
if 'Précipitations moyennes par jour' in df.columns:
    df['Précipitations mensuelles'] = df['Précipitations moyennes par jour'] * 30
    # Afficher les premières lignes pour vérifier le chargement et les nouvelles colonnes
    print("Données chargées :")
    print(df.head())
else:
    print("La colonne 'Précipitations moyennes par jour' n'existe pas dans le DataFrame.")

# Calcul des variables par région et par année
df_region_year = df.groupby(['region', 'year']).agg({
    'Température moyenne': 'mean',
    'Température maximale': 'max', 
    'Température minimale': 'min',
    'Vitesse du vent': 'mean',
    'Température du vent': 'mean', 
    'Précipitations mensuelles': 'sum',  # On utilise 'sum' pour obtenir les précipitations annuelles
    'Record de précipitations sur une journée': 'max',
    'Humidité': 'mean',
    'Visibilité': 'mean', 
    'Couverture nuageuse': 'mean'
})

# Calcul du nombre de jours où la température a dépassé la moyenne annuelle
df_temp_sup = df.groupby(['region', 'year', 'month']).agg({'Température moyenne': 'mean'})
df_temp_sup = df_temp_sup.reset_index()
df_temp_sup['moy_annuelle'] = df_temp_sup.groupby(['region', 'year'])['Température moyenne'].transform('mean')
df_temp_sup['jours_chaleur'] = (df_temp_sup['Température moyenne'] > df_temp_sup['moy_annuelle']).astype(int)
df_temp_sup = df_temp_sup.groupby(['region', 'year'])['jours_chaleur'].sum()

# Calcul du nombre de jours où la température a été en dessous de la moyenne annuelle 
df_temp_inf = df.groupby(['region', 'year', 'month']).agg({'Température moyenne': 'mean'})  
df_temp_inf = df_temp_inf.reset_index()
df_temp_inf['moy_annuelle'] = df_temp_inf.groupby(['region', 'year'])['Température moyenne'].transform('mean')
df_temp_inf['jours_froid'] = (df_temp_inf['Température moyenne'] < df_temp_inf['moy_annuelle']).astype(int)
df_temp_inf = df_temp_inf.groupby(['region', 'year'])['jours_froid'].sum()

# Calcul du nombre de jours où l'humidité a été en dessous de la moyenne annuelle
df_humidite = df.groupby(['region', 'year', 'month']).agg({'Humidité': 'mean'})
df_humidite = df_humidite.reset_index() 
df_humidite['moy_annuelle'] = df_humidite.groupby(['region', 'year'])['Humidité'].transform('mean')
df_humidite['jours_humidite_basse'] = (df_humidite['Humidité'] < df_humidite['moy_annuelle']).astype(int)
df_humidite = df_humidite.groupby(['region', 'year'])['jours_humidite_basse'].sum()

# Calcul du nombre de jours consécutifs de précipitations supérieures à la moyenne
df['precip_sup_moy'] = df.groupby(['region', 'year'])['Précipitations moyennes par jour'].transform(lambda x: x > x.mean())
df['jours_precip_consecutifs'] = df.groupby(['region', 'year'])['precip_sup_moy'].transform(lambda x: x * (x.groupby((x != x.shift()).cumsum()).cumcount() + 1))
df_precip = df.groupby(['region', 'year'])['jours_precip_consecutifs'].max()

# Fusion des dataframes
df_final = pd.concat([df_region_year, df_temp_sup, df_temp_inf, df_humidite, df_precip], axis=1)
df_final = df_final.reset_index()

# Renommage des colonnes
df_final.columns = ['region', 'year', 'temp_moyenne', 'temp_max', 'temp_min', 'vitesse_vent', 'temp_vent', 
                    'precip_sum', 'record_precip', 'humidite_moy', 'visibilite_moy', 'couv_nuageuse_moy',
                    'jours_chaleur', 'jours_froid', 'jours_humidite_basse', 'jours_precip_consecutifs']

print(df_final)

# Sauvegarder le fichier modifié
output_path = 'meteo_data_all_new.csv'
df_final.to_csv(output_path, index=False, encoding='utf-8')

print("\nFichier sauvegardé sous 'meteo_data_all_new.csv'.")


Colonnes disponibles dans le DataFrame :
Index(['Température moyenne', 'Température maximale', 'Température minimale',
       'Température maximale maximum', 'Température minimale maximum',
       'Température minimale minimum', 'Vitesse du vent',
       'Température du vent', 'Précipitations moyennes par jour',
       'Record de précipitations sur une journée', 'Humidité', 'Visibilité',
       'Couverture nuageuse', 'region', 'year', 'month'],
      dtype='object')
Données chargées :
   Température moyenne  Température maximale  Température minimale  \
0                    5                     7                     3   
1                   -1                     1                    -3   
2                    1                     4                    -1   
3                    0                     2                    -2   
4                    1                     2                    -1   

   Température maximale maximum  Température minimale maximum  \
0                       

## Merge les data 

In [34]:
# Supposons que final_data et df_final sont les deux dataframe

# Afficher les premières lignes des DataFrames pour vérifier les colonnes disponibles
print("Colonnes de final_data :")
print(final_data.columns)
print("\nColonnes de df_final :")
print(df_final.columns)

# Fusionner les DataFrames sur les colonnes 'Old_Region' de final_data et 'region' de df_final
result_df = pd.merge(final_data, df_final, left_on='Old_Region', right_on='region', how='left')

# Sauvegarder le fichier résultant
output_path = 'Crops_Data.csv'
result_df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
print("\nDataFrame fusionné :")
print(result_df.head())



Colonnes de final_data :
Index(['Departement', 'Crops_sub', 'Crops', 'New_Region', 'Old_Region', 'Year',
       'Production', 'Rendement', 'Surface'],
      dtype='object')

Colonnes de df_final :
Index(['region', 'year', 'temp_moyenne', 'temp_max', 'temp_min',
       'vitesse_vent', 'temp_vent', 'precip_sum', 'record_precip',
       'humidite_moy', 'visibilite_moy', 'couv_nuageuse_moy', 'jours_chaleur',
       'jours_froid', 'jours_humidite_basse', 'jours_precip_consecutifs'],
      dtype='object')

DataFrame fusionné :
  Departement        Crops_sub    Crops            New_Region Old_Region  \
0   001 - Ain  01 - Artichauts  légumes  Auvergne-Rhone-Alpes   auvergne   
1   001 - Ain  01 - Artichauts  légumes  Auvergne-Rhone-Alpes   auvergne   
2   001 - Ain  01 - Artichauts  légumes  Auvergne-Rhone-Alpes   auvergne   
3   001 - Ain  01 - Artichauts  légumes  Auvergne-Rhone-Alpes   auvergne   
4   001 - Ain  01 - Artichauts  légumes  Auvergne-Rhone-Alpes   auvergne   

   Year  Product