## Matcher les départements aux anciennes régions
il faut quand même changer à la main les accents des départements et régions

In [13]:
import pandas as pd

# Dictionnaire des régions et départements
regions_departments = {
    'Île-de-France': ['75', '77', '78', '91', '92', '93', '94', '95'],
    'Centre-Val de Loire': ['18', '28', '36', '37', '41', '45'],
    'Bourgogne-Franche-Comté': ['21', '25', '39', '58', '70', '71', '89', '90'],
    'Normandie': ['14', '27', '50', '61', '76'],
    'Hauts-de-France': ['02', '59', '60', '62', '80'],
    'Grand Est': ['08', '10', '51', '52', '54', '55', '57', '67', '68', '88'],
    'Pays de la Loire': ['44', '49', '53', '72', '85'],
    'Bretagne': ['22', '29', '35', '56'],
    'Nouvelle-Aquitaine': ['16', '17', '19', '23', '24', '33', '40', '47', '64', '79', '86', '87'],
    'Occitanie': ['09', '11', '12', '30', '31', '32', '34', '46', '48', '65', '66', '81', '82'],
    'Auvergne-Rhône-Alpes': ['01', '03', '07', '15', '26', '38', '42', '43', '63', '69', '73', '74'],
    'Provence-Alpes-Côte d’Azur': ['04', '05', '06', '13', '83', '84'],
    'Corse': ['02A', '02B'],
    'Guadeloupe': ['971'],
    'Martinique': ['972'],
    'Guyane': ['973'],
    'La Réunion': ['974'],
    'Mayotte': ['976']
}

# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'departement.csv'
df = pd.read_csv(file_path)

# Extraire le numéro du département sans les zéros initiaux et gérer les cas alphanumériques
# Extraire le numéro du département et le formater à deux chiffres ou garder les codes alphanumériques tels quels
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels


df['Numéro'] = df['Departement'].apply(extract_dept_number)

# Ajouter la colonne 'Région'
df['Région'] = df['Numéro'].apply(get_region)

# Sauvegarder le fichier modifié
output_path = 'departement_avec_regions.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher le dataframe modifié
df.head()


Unnamed: 0,Departement,Numéro,Région
0,001 - Ain,1,Auvergne-Rhône-Alpes
1,002 - Aisne,2,Hauts-de-France
2,003 - Allier,3,Auvergne-Rhône-Alpes
3,004 - Alpes-de-Haute-Provence,4,Provence-Alpes-Côte d’Azur
4,005 - Hautes-Alpes,5,Provence-Alpes-Côte d’Azur


## Mettre les nouvelles régions dans le fichier rendement


In [24]:
import pandas as pd

# Charger les fichiers CSV avec le séparateur correct
test_8_path = 'Test_8.csv'
departement_avec_regions_path = 'departement_avec_regions.csv'

# Lire les fichiers CSV avec le bon séparateur
test_8_df = pd.read_csv(test_8_path, sep=';', encoding='utf-8')
departement_avec_regions_df = pd.read_csv(departement_avec_regions_path, sep=';', encoding='utf-8')

# Vérifier les noms des colonnes
print(departement_avec_regions_df.columns)

# Fusionner les dataframes sur la colonne 'LIB_DEP' de test_8_df et 'Departement' de departement_avec_regions_df
result_df = pd.merge(test_8_df, departement_avec_regions_df[['Departement', 'Region']], left_on='LIB_DEP', right_on='Departement', how='left')

# Sauvegarder le fichier résultant
output_path = 'test_8_avec_regions.csv'
result_df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
result_df.head()


Index(['Departement', 'Numero', 'Region'], dtype='object')


Unnamed: 0,LIB_REG2,LIB_DEP,LIB_CODE,New_catetogorie,SURF_2010,SURF_2011,SURF_2012,SURF_2013,SURF_2014,SURF_2015,...,PROD_2016,PROD_2017,PROD_2018,PROD_2019,PROD_2020,PROD_2021,PROD_2022,PROD_2023,Departement,Region
0,11 - Île-de-France,077 - Seine-et-Marne,01 - Blé tendre d'hiver et épeautre,Blé,135 199,142 512,137 830,140 610,139 130,141 500,...,5 589 600,11 009 925,10 081 225,11 760 760,8 800 715,10 958 490,10 320 700,10 472 850,077 - Seine-et-Marne,Ile-de-France
1,11 - Île-de-France,077 - Seine-et-Marne,03 - Total blé tendre (01 + 02),Blé,135 518,142 872,138 240,141 210,139 620,141 795,...,5 599 800,11 043 135,10 108 175,11 814 000,8 901 585,11 019 495,10 401 450,10 514 841,077 - Seine-et-Marne,Ile-de-France
2,11 - Île-de-France,077 - Seine-et-Marne,06 - Total blé dur (04 + 05),Blé,1 981,1 471,1 590,1 115,730,675,...,18 800,55 250,42 840,28 800,49 350,65 920,68 340,52 313,077 - Seine-et-Marne,Ile-de-France
3,11 - Île-de-France,077 - Seine-et-Marne,10 - Total orge et escourgeon (08 + 09),Orge,40 473,42 389,43 680,42 325,45 900,47 590,...,2 646 320,3 912 250,3 752 460,4 971 470,3 566 115,3 902 290,3 869 845,4 213 297,077 - Seine-et-Marne,Ile-de-France
4,11 - Île-de-France,077 - Seine-et-Marne,13 - Total avoine (11 + 12),Cérélaes(autres),1 637,1 163,1 400,1 765,1 840,1 710,...,80 000,150 300,124 800,98 580,99 750,112 860,77 585,68 288,077 - Seine-et-Marne,Ile-de-France


In [6]:
import pandas as pd

# Nouveau dictionnaire de régions et départements
regions_departments = {
    'vendee': ['85'],
    'alsace': ['67', '68'],
    'ardeche': ['07'],
    'auvergne': ['03', '15', '43', '63'],
    'bourgogne': ['21', '58', '71', '89'],
    'bretagne': ['22', '29', '35', '56'],
    'camargue': ['13', '30'],
    'centre': ['18', '28', '36', '37', '41', '45'],
    'charentes': ['16', '17'],
    'corse': ['2A', '2B'],
    'provence-alpes-c-te-d-azur': ['04', '05', '06', '13', '83', '84'],
    'drome': ['26'],
    'franche-comte': ['25', '39', '70', '90'],
    'aquitaine': ['24', '33', '40', '47', '64'],
    'ile-de-re': ['17'],
    'jura': ['39'],
    'landes': ['40'],
    'limousin': ['19', '23', '87'],
    'lorraine': ['54', '55', '57', '88'],
    'lot': ['46'],
    'cevennes-lozere': ['48'],
    'lyonnais': ['69'],
    'midi-toulousain': ['31', '32', '82'],
    'normandie': ['14', '27', '50', '61', '76'],
    'pays-basque': ['64'],
    'pays-de-la-loire': ['44', '49', '53', '72', '85'],
    'perigord-dordogne': ['24'],
    'picardie': ['02', '60', '80'],
    'midi-pyrenees': ['09', '12', '31', '32', '46', '65', '81', '82'],
    'ile-de-france': ['75', '77', '78', '91', '92', '93', '94', '95']
}

# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'Fichier_sources_rendement.csv'

# Essayer de lire le fichier avec des options pour gérer les erreurs de formatage
try:
    df = pd.read_csv(file_path, sep=None, engine='python', on_bad_lines='skip')
except Exception as e:
    print(f"Erreur lors de la lecture du fichier : {e}")
    raise

# Afficher les premières lignes pour vérifier les colonnes disponibles
print("Colonnes disponibles :")
print(df.columns)

# Supposons que la colonne contenant les départements s'appelle 'LIB_DEP'
department_column = 'LIB_DEP'

# Extraire le numéro du département et le formater correctement
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels

# Ajouter la colonne 'Numéro' au DataFrame
df['Numéro'] = df[department_column].apply(extract_dept_number)

# Ajouter la colonne 'new_region'
df['new_region'] = df['Numéro'].apply(get_region)

# Sauvegarder le fichier modifié
output_path = 'Fichier_sources_rendement_avec_regions.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
print(df.head())


Colonnes disponibles :
Index(['﻿LIB_REG2', 'LIB_DEP', 'LIB_CODE', 'New_catetogorie', 'Region',
       'SURF_2010', 'SURF_2011', 'SURF_2012', 'SURF_2013', 'SURF_2014',
       'SURF_2015', 'SURF_2016', 'SURF_2017', 'SURF_2018', 'SURF_2019',
       'SURF_2020', 'SURF_2021', 'SURF_2022', 'SURF_2023', 'REND_2010',
       'REND_2011', 'REND_2012', 'REND_2013', 'REND_2014', 'REND_2015',
       'REND_2016', 'REND_2017', 'REND_2018', 'REND_2019', 'REND_2020',
       'REND_2021', 'REND_2022', 'REND_2023', 'PROD_2010', 'PROD_2011',
       'PROD_2012', 'PROD_2013', 'PROD_2014', 'PROD_2015', 'PROD_2016',
       'PROD_2017', 'PROD_2018', 'PROD_2019', 'PROD_2020', 'PROD_2021',
       'PROD_2022', 'PROD_2023'],
      dtype='object')
            ﻿LIB_REG2               LIB_DEP  \
0  11 - Île-de-France  077 - Seine-et-Marne   
1  11 - Île-de-France  077 - Seine-et-Marne   
2  11 - Île-de-France  077 - Seine-et-Marne   
3  11 - Île-de-France  077 - Seine-et-Marne   
4  11 - Île-de-France  077 - Seine-et-

In [7]:
import pandas as pd

# Nouveau dictionnaire de régions et départements
regions_departments = {
    'vendee': ['85'],
    'alsace': ['67', '68'],
    'ardeche': ['07'],
    'auvergne': ['03', '15', '43', '63'],
    'bourgogne': ['21', '58', '71', '89'],
    'bretagne': ['22', '29', '35', '56'],
    'camargue': ['13', '30'],
    'centre': ['18', '28', '36', '37', '41', '45'],
    'charentes': ['16', '17'],
    'corse': ['2A', '2B'],
    'provence-alpes-c-te-d-azur': ['04', '05', '06', '13', '83', '84'],
    'drome': ['26'],
    'franche-comte': ['25', '39', '70', '90'],
    'aquitaine': ['24', '33', '40', '47', '64'],
    'ile-de-re': ['17'],
    'jura': ['39'],
    'landes': ['40'],
    'limousin': ['19', '23', '87'],
    'lorraine': ['54', '55', '57', '88'],
    'lot': ['46'],
    'cevennes-lozere': ['48'],
    'lyonnais': ['69'],
    'midi-toulousain': ['31', '32', '82'],
    'normandie': ['14', '27', '50', '61', '76'],
    'pays-basque': ['64'],
    'pays-de-la-loire': ['44', '49', '53', '72', '85'],
    'perigord-dordogne': ['24'],
    'picardie': ['02', '60', '80'],
    'midi-pyrenees': ['09', '12', '31', '32', '46', '65', '81', '82'],
    'ile-de-france': ['75', '77', '78', '91', '92', '93', '94', '95']
}

# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'Fichier_sources_rendement.csv'
df = pd.read_csv(file_path, sep=None, engine='python', error_bad_lines=False)

# Extraire le numéro du département sans les zéros initiaux et gérer les cas alphanumériques
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels

# Ajouter la colonne 'Numéro' au DataFrame
df['Numéro'] = df['LIB_DEP'].apply(extract_dept_number)

# Ajouter la colonne 'new_region'
df['new_region'] = df['Numéro'].apply(get_region)

# Sauvegarder le fichier modifié
output_path = 'Fichier_sources_rendement_avec_regions_2.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
print(df.head())




  df = pd.read_csv(file_path, sep=None, engine='python', error_bad_lines=False)


            ﻿LIB_REG2               LIB_DEP  \
0  11 - Île-de-France  077 - Seine-et-Marne   
1  11 - Île-de-France  077 - Seine-et-Marne   
2  11 - Île-de-France  077 - Seine-et-Marne   
3  11 - Île-de-France  077 - Seine-et-Marne   
4  11 - Île-de-France  077 - Seine-et-Marne   

                                  LIB_CODE   New_catetogorie         Region  \
0      01 - Blé tendre d'hiver et épeautre               Blé  Ile-de-France   
1          03 - Total blé tendre (01 + 02)               Blé  Ile-de-France   
2             06 - Total blé dur (04 + 05)               Blé  Ile-de-France   
3  10 - Total orge et escourgeon (08 + 09)              Orge  Ile-de-France   
4              13 - Total avoine (11 + 12)  Cérélaes(autres)  Ile-de-France   

  SURF_2010 SURF_2011 SURF_2012 SURF_2013 SURF_2014  ...  PROD_2016  \
0   135 199   142 512   137 830   140 610   139 130  ...  5 589 600   
1   135 518   142 872   138 240   141 210   139 620  ...  5 599 800   
2     1 981     1 471     1 5

In [8]:
import pandas as pd

# Nouveau dictionnaire de régions et départements
regions_departments = {
    'vendee': ['85'],
    'alsace': ['67', '68'],
    'ardeche': ['07'],
    'auvergne': ['03', '15', '43', '63'],
    'bourgogne': ['21', '58', '71', '89'],
    'bretagne': ['22', '29', '35', '56'],
    'camargue': ['13', '30'],
    'centre': ['18', '28', '36', '37', '41', '45'],
    'charentes': ['16', '17'],
    'corse': ['2A', '2B'],
    'provence-alpes-c-te-d-azur': ['04', '05', '06', '13', '83', '84'],
    'drome': ['26'],
    'franche-comte': ['25', '39', '70', '90'],
    'aquitaine': ['24', '33', '40', '47', '64'],
    'ile-de-re': ['17'],
    'jura': ['39'],
    'landes': ['40'],
    'limousin': ['19', '23', '87'],
    'lorraine': ['54', '55', '57', '88'],
    'lot': ['46'],
    'cevennes-lozere': ['48'],
    'lyonnais': ['69'],
    'midi-toulousain': ['31', '32', '82'],
    'normandie': ['14', '27', '50', '61', '76'],
    'pays-basque': ['64'],
    'pays-de-la-loire': ['44', '49', '53', '72', '85'],
    'perigord-dordogne': ['24'],
    'picardie': ['02', '60', '80'],
    'midi-pyrenees': ['09', '12', '31', '32', '46', '65', '81', '82'],
    'ile-de-france': ['75', '77', '78', '91', '92', '93', '94', '95']
}

# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'Fichier_sources_rendement.csv'
df = pd.read_csv(file_path, sep=None, engine='python', on_bad_lines='skip')

# Extraire le numéro du département sans les zéros initiaux et gérer les cas alphanumériques
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels

# Ajouter la colonne 'Numéro' au DataFrame
df['Numéro'] = df['LIB_DEP'].apply(extract_dept_number)

# Ajouter la colonne 'new_region'
df['new_region'] = df['Numéro'].apply(get_region)

# Sauvegarder le fichier modifié
output_path = 'Fichier_sources_rendement_avec_regions.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
print(df.head())


            ﻿LIB_REG2               LIB_DEP  \
0  11 - Île-de-France  077 - Seine-et-Marne   
1  11 - Île-de-France  077 - Seine-et-Marne   
2  11 - Île-de-France  077 - Seine-et-Marne   
3  11 - Île-de-France  077 - Seine-et-Marne   
4  11 - Île-de-France  077 - Seine-et-Marne   

                                  LIB_CODE   New_catetogorie         Region  \
0      01 - Blé tendre d'hiver et épeautre               Blé  Ile-de-France   
1          03 - Total blé tendre (01 + 02)               Blé  Ile-de-France   
2             06 - Total blé dur (04 + 05)               Blé  Ile-de-France   
3  10 - Total orge et escourgeon (08 + 09)              Orge  Ile-de-France   
4              13 - Total avoine (11 + 12)  Cérélaes(autres)  Ile-de-France   

  SURF_2010 SURF_2011 SURF_2012 SURF_2013 SURF_2014  ...  PROD_2016  \
0   135 199   142 512   137 830   140 610   139 130  ...  5 589 600   
1   135 518   142 872   138 240   141 210   139 620  ...  5 599 800   
2     1 981     1 471     1 5

In [9]:
import pandas as pd

# Nouveau dictionnaire des régions et départements
regions_departments = {
    'vendee': ['85'],
    'alsace': ['67', '68'],
    'ardeche': ['07'],
    'auvergne': ['03', '15', '43', '63'],
    'bourgogne': ['21', '58', '71', '89'],
    'bretagne': ['22', '29', '35', '56'],
    'camargue': ['13', '30'],
    'centre': ['18', '28', '36', '37', '41', '45'],
    'charentes': ['16', '17'],
    'corse': ['2A', '2B'],
    'provence-alpes-c-te-d-azur': ['04', '05', '06', '13', '83', '84'],
    'drome': ['26'],
    'franche-comte': ['25', '39', '70', '90'],
    'aquitaine': ['24', '33', '40', '47', '64'],
    'ile-de-re': ['17'],
    'jura': ['39'],
    'landes': ['40'],
    'limousin': ['19', '23', '87'],
    'lorraine': ['54', '55', '57', '88'],
    'lot': ['46'],
    'cevennes-lozere': ['48'],
    'lyonnais': ['69'],
    'midi-toulousain': ['31', '32', '82'],
    'normandie': ['14', '27', '50', '61', '76'],
    'pays-basque': ['64'],
    'pays-de-la-loire': ['44', '49', '53', '72', '85'],
    'perigord-dordogne': ['24'],
    'picardie': ['02', '60', '80'],
    'midi-pyrenees': ['09', '12', '31', '32', '46', '65', '81', '82'],
    'ile-de-france': ['75', '77', '78', '91', '92', '93', '94', '95'],
    'hauts-de-france': ['59', '62'],
    'grand-est': ['08', '10', '51', '52'],
    'poitou-charentes': ['79', '86'],
    'occitanie': ['11', '34', '66'],
    'auvergne-rhone-alpes': ['01', '38', '42', '73', '74'],
    'outre-mer': ['971', '972', '973', '974', '976']
}

# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'Fichier_sources_rendement.csv'
df = pd.read_csv(file_path, sep=None, engine='python', error_bad_lines=False)

# Extraire le numéro du département sans les zéros initiaux et gérer les cas alphanumériques
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels

# Ajouter la colonne 'Numéro'
df['Numéro'] = df['LIB_DEP'].apply(extract_dept_number)

# Ajouter la colonne 'new_region'
df['new_region'] = df['Numéro'].apply(get_region)

# Sauvegarder le fichier modifié
output_path = 'Fichier_sources_rendement_avec_regions_3.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
df.head()




  df = pd.read_csv(file_path, sep=None, engine='python', error_bad_lines=False)


Unnamed: 0,﻿LIB_REG2,LIB_DEP,LIB_CODE,New_catetogorie,Region,SURF_2010,SURF_2011,SURF_2012,SURF_2013,SURF_2014,...,PROD_2016,PROD_2017,PROD_2018,PROD_2019,PROD_2020,PROD_2021,PROD_2022,PROD_2023,Numéro,new_region
0,11 - Île-de-France,077 - Seine-et-Marne,01 - Blé tendre d'hiver et épeautre,Blé,Ile-de-France,135 199,142 512,137 830,140 610,139 130,...,5 589 600,11 009 925,10 081 225,11 760 760,8 800 715,10 958 490,10 320 700,10 472 850,77,ile-de-france
1,11 - Île-de-France,077 - Seine-et-Marne,03 - Total blé tendre (01 + 02),Blé,Ile-de-France,135 518,142 872,138 240,141 210,139 620,...,5 599 800,11 043 135,10 108 175,11 814 000,8 901 585,11 019 495,10 401 450,10 514 841,77,ile-de-france
2,11 - Île-de-France,077 - Seine-et-Marne,06 - Total blé dur (04 + 05),Blé,Ile-de-France,1 981,1 471,1 590,1 115,730,...,18 800,55 250,42 840,28 800,49 350,65 920,68 340,52 313,77,ile-de-france
3,11 - Île-de-France,077 - Seine-et-Marne,10 - Total orge et escourgeon (08 + 09),Orge,Ile-de-France,40 473,42 389,43 680,42 325,45 900,...,2 646 320,3 912 250,3 752 460,4 971 470,3 566 115,3 902 290,3 869 845,4 213 297,77,ile-de-france
4,11 - Île-de-France,077 - Seine-et-Marne,13 - Total avoine (11 + 12),Cérélaes(autres),Ile-de-France,1 637,1 163,1 400,1 765,1 840,...,80 000,150 300,124 800,98 580,99 750,112 860,77 585,68 288,77,ile-de-france


In [10]:
import pandas as pd

# Nouveau dictionnaire des régions et départements
regions_departments = {
    'vendee': ['85'],
    'alsace': ['67', '68'],
    'ardeche': ['07'],
    'auvergne': ['03', '15', '43', '63'],
    'bourgogne': ['21', '58', '71', '89'],
    'bretagne': ['22', '29', '35', '56'],
    'camargue': ['13', '30'],
    'centre': ['18', '28', '36', '37', '41', '45'],
    'charentes': ['16', '17'],
    'corse': ['2A', '2B'],
    'provence-alpes-c-te-d-azur': ['04', '05', '06', '13', '83', '84'],
    'drome': ['26'],
    'franche-comte': ['25', '39', '70', '90'],
    'aquitaine': ['24', '33', '40', '47', '64'],
    'ile-de-re': ['17'],
    'jura': ['39'],
    'landes': ['40'],
    'limousin': ['19', '23', '87'],
    'lorraine': ['54', '55', '57', '88'],
    'lot': ['46'],
    'cevennes-lozere': ['48'],
    'lyonnais': ['69'],
    'midi-toulousain': ['31', '32', '82'],
    'normandie': ['14', '27', '50', '61', '76'],
    'pays-basque': ['64'],
    'pays-de-la-loire': ['44', '49', '53', '72', '85'],
    'perigord-dordogne': ['24'],
    'picardie': ['02', '60', '80'],
    'midi-pyrenees': ['09', '12', '31', '32', '46', '65', '81', '82'],
    'ile-de-france': ['75', '77', '78', '91', '92', '93', '94', '95'],
    'hauts-de-france': ['59', '62'],
    'grand-est': ['08', '10', '51', '52'],
    'poitou-charentes': ['79', '86'],
    'occitanie': ['11', '34', '66'],
    'auvergne-rhone-alpes': ['01', '38', '42', '73', '74'],
    'outre-mer': ['971', '972', '973', '974', '976']
}

# Fonction pour obtenir la région d'un département
def get_region(department):
    for region, departments in regions_departments.items():
        if department in departments:
            return region
    return 'Unknown'

# Lire le fichier CSV
file_path = 'Fichier_sources_rendement.csv'
df = pd.read_csv(file_path, sep=None, engine='python', on_bad_lines='skip')

# Extraire le numéro du département sans les zéros initiaux et gérer les cas alphanumériques
def extract_dept_number(dept):
    num = dept.split(' - ')[0]
    if num in ['2A', '2B']:
        return num  # Retourne les numéros alphanumériques tels quels ('2A', '2B')
    try:
        return str(int(num)).zfill(2)  # Convertit les numéros comme '001' en '01', '002' en '02'
    except ValueError:
        return num  # Retourne les autres cas tels quels

# Ajouter la colonne 'Numéro'
df['Numéro'] = df['LIB_DEP'].apply(extract_dept_number)

# Ajouter la colonne 'new_region'
df['new_region'] = df['Numéro'].apply(get_region)

# Sauvegarder le fichier modifié
output_path = 'Fichier_sources_rendement_avec_regions_4.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

# Afficher les premières lignes du dataframe modifié
df.head()


Unnamed: 0,﻿LIB_REG2,LIB_DEP,LIB_CODE,New_catetogorie,Region,SURF_2010,SURF_2011,SURF_2012,SURF_2013,SURF_2014,...,PROD_2016,PROD_2017,PROD_2018,PROD_2019,PROD_2020,PROD_2021,PROD_2022,PROD_2023,Numéro,new_region
0,11 - Île-de-France,077 - Seine-et-Marne,01 - Blé tendre d'hiver et épeautre,Blé,Ile-de-France,135 199,142 512,137 830,140 610,139 130,...,5 589 600,11 009 925,10 081 225,11 760 760,8 800 715,10 958 490,10 320 700,10 472 850,77,ile-de-france
1,11 - Île-de-France,077 - Seine-et-Marne,03 - Total blé tendre (01 + 02),Blé,Ile-de-France,135 518,142 872,138 240,141 210,139 620,...,5 599 800,11 043 135,10 108 175,11 814 000,8 901 585,11 019 495,10 401 450,10 514 841,77,ile-de-france
2,11 - Île-de-France,077 - Seine-et-Marne,06 - Total blé dur (04 + 05),Blé,Ile-de-France,1 981,1 471,1 590,1 115,730,...,18 800,55 250,42 840,28 800,49 350,65 920,68 340,52 313,77,ile-de-france
3,11 - Île-de-France,077 - Seine-et-Marne,10 - Total orge et escourgeon (08 + 09),Orge,Ile-de-France,40 473,42 389,43 680,42 325,45 900,...,2 646 320,3 912 250,3 752 460,4 971 470,3 566 115,3 902 290,3 869 845,4 213 297,77,ile-de-france
4,11 - Île-de-France,077 - Seine-et-Marne,13 - Total avoine (11 + 12),Cérélaes(autres),Ile-de-France,1 637,1 163,1 400,1 765,1 840,...,80 000,150 300,124 800,98 580,99 750,112 860,77 585,68 288,77,ile-de-france


In [13]:
import pandas as pd

# Lecture du fichier CSV
df = pd.read_csv('meteo_data (14).csv')

# Calcul des variables par région et par année
df_region_year = df.groupby(['region', 'year']).agg({
    'Température moyenne': 'mean',
    'Température maximale': 'max', 
    'Température minimale': 'min',
    'Vitesse du vent': 'mean',
    'Température du vent': 'mean', 
    'Précipitations moyennes par jour': 'sum',
    'Record de précipitations sur une journée': 'max',
    'Humidité': 'mean',
    'Visibilité': 'mean', 
    'Couverture nuageuse': 'mean'
})

# Calcul du nombre de jours où la température a dépassé la moyenne annuelle
df_temp_sup = df.groupby(['region', 'year', 'month']).agg({'Température moyenne': 'mean'})
df_temp_sup = df_temp_sup.reset_index()
df_temp_sup['moy_annuelle'] = df_temp_sup.groupby(['region', 'year'])['Température moyenne'].transform('mean')
df_temp_sup['jours_chaleur'] = (df_temp_sup['Température moyenne'] > df_temp_sup['moy_annuelle']).astype(int)
df_temp_sup = df_temp_sup.groupby(['region', 'year'])['jours_chaleur'].sum()

# Calcul du nombre de jours où la température a été en dessous de la moyenne annuelle 
df_temp_inf = df.groupby(['region', 'year', 'month']).agg({'Température moyenne': 'mean'})  
df_temp_inf = df_temp_inf.reset_index()
df_temp_inf['moy_annuelle'] = df_temp_inf.groupby(['region', 'year'])['Température moyenne'].transform('mean')
df_temp_inf['jours_froid'] = (df_temp_inf['Température moyenne'] < df_temp_inf['moy_annuelle']).astype(int)
df_temp_inf = df_temp_inf.groupby(['region', 'year'])['jours_froid'].sum()

# Calcul du nombre de jours où l'humidité a été en dessous de la moyenne annuelle
df_humidite = df.groupby(['region', 'year', 'month']).agg({'Humidité': 'mean'})
df_humidite = df_humidite.reset_index() 
df_humidite['moy_annuelle'] = df_humidite.groupby(['region', 'year'])['Humidité'].transform('mean')
df_humidite['jours_humidite_basse'] = (df_humidite['Humidité'] < df_humidite['moy_annuelle']).astype(int)
df_humidite = df_humidite.groupby(['region', 'year'])['jours_humidite_basse'].sum()

# Calcul du nombre de jours consécutifs de précipitations supérieures à la moyenne
df['precip_sup_moy'] = df.groupby(['region', 'year'])['Précipitations moyennes par jour'].transform(lambda x: x > x.mean())
df['jours_precip_consecutifs'] = df.groupby(['region', 'year'])['precip_sup_moy'].transform(lambda x: x * (x.groupby((x != x.shift()).cumsum()).cumcount() + 1))
df_precip = df.groupby(['region', 'year'])['jours_precip_consecutifs'].max()

# Fusion des dataframes
df_final = pd.concat([df_region_year, df_temp_sup, df_temp_inf, df_humidite, df_precip], axis=1)
df_final = df_final.reset_index()

# Renommage des colonnes
df_final.columns = ['region', 'year', 'temp_moyenne', 'temp_max', 'temp_min', 'vitesse_vent', 'temp_vent', 
                    'precip_sum', 'record_precip', 'humidite_moy', 'visibilite_moy', 'couv_nuageuse_moy',
                    'jours_chaleur', 'jours_froid', 'jours_humidite_basse', 'jours_precip_consecutifs']

print(df_final)

# Sauvegarder le fichier modifié
output_path = 'meteo_data_(14)_all.csv'
df_final.to_csv(output_path, index=False, encoding='utf-8')


                        region  year  temp_moyenne  temp_max  temp_min  \
0                       alsace  2010     10.166667        27        -4   
1                       alsace  2011     12.166667        25        -1   
2                    aquitaine  2010     13.916667        26         3   
3                    aquitaine  2011     15.750000        27         4   
4                      ardeche  2010     12.083333        30        -1   
5                      ardeche  2011     14.250000        29         1   
6                     auvergne  2010      9.583333        25        -2   
7                     auvergne  2011     11.333333        24         0   
8                    bourgogne  2010     10.583333        26        -2   
9                    bourgogne  2011     12.000000        24         1   
10                    bretagne  2010     12.083333        22         4   
11                    bretagne  2011     13.416667        20         6   
12                    camargue  2010  