In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import geopandas as gpd
import importlib
import time

%matplotlib qt
plt.rcParams['font.family'] = 'serif'
plt.rcParams['font.serif'] = ['Times New Roman']
plt.rcParams.update({'font.size': 16})

pd.set_option('display.max_rows', 100)

liste_normalisations=['nombreObs','ObsUnique',
                      'nombreObs_normalisé_par_espece','nombreObs_normalisé_par_maille_regne',
                      'nombreObs_normalisé_mrl'
                     ]

In [361]:
# Importation des fonctions définies dans les fichiers biodiv

from affichage_carte_biodiv import (
    n_minimum,
    n_maximum,
    afficher_carte_maille,
    afficher_carte_observations,
    afficher_carte_observations_espece_manquante,
    afficher_carte_cluster
)

from normalisation_biodiv import (
    cap_to_nth_largest,
    normalize_cap,
    normalize_maille,
    normalize_maille_clade,
    normalize_espece,
    normalize_clade,
    normalize_unique,
    normalize_log,
    normalize_mcl,
    normalize_mrl
)

from exploration_biodiv import (
    creation_filtre_top,
    top_especes,
    chercher_espece,
    explorer_clade,
    etude_mailles
)

from correlation_biodiv import (
    correlation_sujet_recherche,
    calculer_prediction,
    recalcul_obs_correlation
)

from biodiversite_endemisme_biodiv import (
    shannon,
    simpson,
    WE,
    calcul_indice
)

from clustering_geo_biodiv import (
    PC_analysis,
    clustering,
    determine_k,
    composition_cluster
)

from clustering_espece_biodiv import (
    correlation_matrix_dendogram,
    dendogram,
    cluster_from_correlation,
    correlation_cluster,
    chercher_cluster_espece,
    afficher_liste_cluster,
    liste_espece_cluster,
    groupe_dans_maille,
    etude_cluster_local,
    chercher_especes_pas_presentes,
    chercher_zone_espece_pas_presente
)
from prediction import (
    recherche_espece_absente
)

from fonctions_annexes_biodiv import (
    round_to_sig,
    dictionnaire_especes,
    affichage_dataframe,
    completer_df
)


In [372]:
# Importer les données par classe
code_maille='codeMaille10Km'
# Nom de la classe
groupes= ['mammiferes', 'crustaces', 'escargots', 'fonges', 'reptiles', 'insectes','poissons','oiseaux','plantes','autres']
for groupe in groupes  
    # Chemin des fichiers
    path='C:/Users/anormand/Documents/Projet Python/Biodiv'
    savepath='C:/Users/anormand/Documents/Projet Python/Biodiv/Résultats'
    
    # Charger les données de la classe
    df_inpn = pd.read_csv(path+'/Data/format1/data_INPN_1970_' + groupe +'_'+code_maille+'.csv',dtype=str)
    df_inpn['nombreObs'] = df_inpn['nombreObs'].astype(int)
    
    print('filtre des espèces les plus présentes')
    df_inpn_top = creation_filtre_top(df_inpn,'nombreObs',1000)
    df_inpn_top.reset_index(drop=True,inplace=True)
    #df_inpn_top=completer_df(df_inpn_top,df_inpn_top)

filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :126 (31%)


In [363]:
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import OneHotEncoder

# Parameters
n_iterations = 30  # Number of times to run IsolationForest
outlier_threshold = 0.8  # Percentage of iterations to consider as an outlier threshold
outlier_rate=0.002
var='nombreObs'

# Encode 'nomScientifique' using OneHotEncoder
encoder_scientifique = OneHotEncoder(sparse_output=False)
encoded_scientifique = encoder_scientifique.fit_transform(df_inpn_top[['nomScientifique']])
df_encoded_scientifique = pd.DataFrame(encoded_scientifique, columns=encoder_scientifique.get_feature_names_out(['nomScientifique']))

# Create a final DataFrame with encoded columns and 'nombreObs'
df_final = pd.concat([df_encoded_scientifique, df_inpn_top[var]], axis=1)

# Run IsolationForest multiple times and track outliers
outlier_counts = np.zeros(len(df_final), dtype=int)

# Run IsolationForest multiple times
for _ in range(n_iterations):
    iso_forest = IsolationForest(contamination=outlier_rate, bootstrap=True)
    df_final['outlier'] = iso_forest.fit_predict(df_final)
    outlier_counts += (df_final['outlier'] == -1).astype(int)

# Determine final outliers based on threshold
df_inpn_top['outlier'] = (outlier_counts / n_iterations) >= outlier_threshold

# Show results
# Compter le nombre de nomScientifique pour les outliers
outlier_species = df_inpn_top[df_inpn_top['outlier'] == True]['nomScientifique'].value_counts()

# Afficher les résultats
print(outlier_species)


KeyboardInterrupt: 

In [366]:
# Calculer la moyenne pour chaque nomScientifique
new_values = round(df_inpn_top.groupby('nomScientifique')['nombreObs'].quantile(0.99))
max_values = df_inpn_top.groupby('nomScientifique')['nombreObs'].max()
print(f"Ancienne valeur = {max(max_values)}, nouvelle valeur = {max(new_values)}")
# Remplacer les outliers dans nombreObs par la moyenne correspondante
df_corrigé=df_inpn_top.copy()
for index, row in df_corrigé.iterrows():
    if row['outlier'] == True:  # Si c'est un outlier
        df_corrigé.at[index, 'nombreObs'] = new_values[row['nomScientifique']]  # Remplace par la moyenne


Ancienne valeur = 14469.0, nouvelle valeur = 267.0


KeyError: 'outlier'

In [383]:
# Calculer la moyenne pour chaque nomScientifique
new_values = round(df_inpn_top.groupby('nomScientifique')['nombreObs'].quantile(0.98))
max_values = df_inpn_top.groupby('nomScientifique')['nombreObs'].max()
print(f"Ancienne valeur = {max(max_values)}, nouvelle valeur = {max(new_values)}")
# Remplacer les outliers dans nombreObs par la moyenne correspondante
df_corrigé=df_inpn_top.copy()
for index, row in df_corrigé.iterrows():
    if row['nombreObs'] > new_values[row['nomScientifique']]:  # Si c'est supérieur au 99em'ile
        df_corrigé.at[index, 'nombreObs'] = new_values[row['nomScientifique']]  # Remplace par la moyenne


Ancienne valeur = 90649, nouvelle valeur = 7834.0


In [384]:
# Effectuer un merge pour obtenir les valeurs de 'nombreObs' de df_inpn_top
df_merged = df_inpn.merge(df_corrigé[['codeMaille10Km', 'nomScientifique', 'nombreObs']], 
                           on=['codeMaille10Km', 'nomScientifique'], 
                           how='left', 
                           suffixes=('', '_top'))

# Remplacer la colonne 'nombreObs' dans df_inpn par celle de df_inpn_top
df_inpn['nombreObs'] = df_merged['nombreObs_top'].combine_first(df_merged['nombreObs'])


In [385]:
df.to_csv(path+'/Data/format1/data_INPN_1970_' + groupe +'_'+code_maille+'_corrigé.csv', index=False)

In [386]:
df_corrigé[df_corrigé['nomScientifique']=='Pipistrellus pipistrellus'].sort_values(by='nombreObs',ascending=False)

Unnamed: 0,codeMaille10Km,nomScientifique,nombreObs,nomVernaculaire,genre,famille,ordre,classe,regne,all,especeProtegee
1456,10kmL93E012N684,Pipistrellus pipistrellus,3835,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
81015,10kmL93E059N662,Pipistrellus pipistrellus,3835,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
113462,10kmL93E069N628,Pipistrellus pipistrellus,3835,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
82013,10kmL93E059N696,Pipistrellus pipistrellus,3835,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
30399,10kmL93E041N657,Pipistrellus pipistrellus,3835,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
...,...,...,...,...,...,...,...,...,...,...,...
206018,10kmL93E118N618,Pipistrellus pipistrellus,1,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
207016,10kmL93E122N613,Pipistrellus pipistrellus,1,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
207034,10kmL93E122N614,Pipistrellus pipistrellus,1,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True
207070,10kmL93E122N617,Pipistrellus pipistrellus,1,Pipistrelle commune,Pipistrellus,Vespertilionidae,Chiroptera,Mammalia,Animalia,All,True


In [391]:
# Détection et correction des outliers (de max à quantile 0.98)

# Importer les données par classe
code_maille='codeMaille10Km'
# Nom de la classe
path='C:/Users/anormand/Documents/Projet Python/Biodiv'
savepath='C:/Users/anormand/Documents/Projet Python/Biodiv/Résultats'
groupes= ['mammiferes', 'crustaces', 'escargots', 'fonges', 'reptiles', 'insectes','poissons','oiseaux','plantes','autres']
for groupe in groupes:
    print(groupe)

    # Charger les données de la classe
    df_inpn = pd.read_csv(path+'/Data/format1/data_INPN_1970_' + groupe +'_'+code_maille+'.csv',dtype=str)
    df_inpn['nombreObs'] = df_inpn['nombreObs'].astype(int)
    
    print('filtre des espèces les plus présentes')
    df_inpn_top = creation_filtre_top(df_inpn,'nombreObs',1000)
    df_inpn_top.reset_index(drop=True,inplace=True)
    #df_inpn_top=completer_df(df_inpn_top,df_inpn_top)

    # Calculer la moyenne pour chaque nomScientifique
    new_values = round(df_inpn_top.groupby('nomScientifique')['nombreObs'].quantile(0.98))
    max_values = df_inpn_top.groupby('nomScientifique')['nombreObs'].max()
    print(f"Ancienne valeur = {max(max_values)}, nouvelle valeur = {max(new_values)}")
    # Remplacer les outliers dans nombreObs par la moyenne correspondante
    df_corrigé=df_inpn_top.copy()
    for index, row in df_corrigé.iterrows():
        if row['nombreObs'] > new_values[row['nomScientifique']]:  # Si c'est supérieur au 99em'ile
            df_corrigé.at[index, 'nombreObs'] = new_values[row['nomScientifique']]  # Remplace par la moyenne
    
    # Effectuer un merge pour obtenir les valeurs de 'nombreObs' de df_inpn_top
    df_merged = df_inpn.merge(df_corrigé[['codeMaille10Km', 'nomScientifique', 'nombreObs']], 
                               on=['codeMaille10Km', 'nomScientifique'], 
                               how='left', 
                               suffixes=('', '_top'))
    
    # Remplacer la colonne 'nombreObs' dans df_inpn par celle de df_inpn_top
    df_inpn['nombreObs'] = df_merged['nombreObs_top'].combine_first(df_merged['nombreObs'])
    df_inpn.to_csv(path+'/Data/format1/data_INPN_1970_' + groupe +'_'+code_maille+'_corrigé.csv', index=False)

mammiferes
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :126 (31%)
Ancienne valeur = 90649, nouvelle valeur = 7834.0
crustaces
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :43 (1%)
Ancienne valeur = 4907, nouvelle valeur = 4818.0
escargots
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :143 (2%)
Ancienne valeur = 18972, nouvelle valeur = 8900.0
fonges
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :111 (1%)
Ancienne valeur = 955, nouvelle valeur = 241.0
reptiles
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :65 (12%)
Ancienne valeur = 14469, nouvelle valeur = 1354.0
insectes
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :1496 (4%)
Ancienne valeur = 2878, nouvelle valeur = 464.0
poissons
filtre des espèces les plus présentes
nombre d'espèces retenues dans le df :203 (5%)
Ancienne valeur = 116687, nouvelle valeur = 9