# Exploration des données

Ce notebook a pour but d'explorer les données initiales dans l'objectif de mettre au point un classifieur de champignons basé sur leur comestibilité.

In [None]:
# convertion du dataset
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import plotly.express as px
from datetime import datetime
import geopandas
import folium
from folium import plugins
import branca.colormap as cm

### Données source 

In [None]:
df = pd.read_csv(r'C:\Users\renamedadmin\Documents\Formation_Datascience\Projet_Datascientest_Champignons\Dossier_technique\02_Pieces_constitutives\Dataset\observations_mushroom.csv')

## Exploration du dataframe de départ

In [None]:
# quelques informations de bases
display(df.head(), df.info())


## Creation de la liste des champignons comestibles 

Cette liste a été établie à partir de :
ANSES : Avis de l’agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail relatif à « une demande d’avis lié à un projet d’arrêté relatif aux variétés comestibles de champignons de culture et sauvages » (Saisine n° 2015-SA-0180).
Disponible sur https://www.anses.fr/fr/search?search_api_views_fulltext=liste%20des%20champignons%20comestibles
Consulté le 27/06/2023

In [None]:
list_champi_com = ['Agaricus arvensis',
'Agaricus bitorquis',
'Agaricus campestris',
'Agaricus essettei',
'Agaricus macrocarpus',
'Agaricus osecanus',
'Agaricus silvaticus',
'Agaricus silvicola',
'Agaricus urinascens',
'Coprinus comatus',
'Boletus mamorensis',
'Butyriboletus appendiculatus',
'Butyriboletus pseudoregius',
'Butyriboletus regius',
'Imleria badia',
'Leccinum albostipitatum',
'Leccinum aurantiacum',
'Leccinum duriusculum',
'Leccinum pseudoscabrum',
'Leccinum scabrum',
'Leccinum variicolor',
'Leccinum versipelle',
'Neoboletus luridiformis',
'Suillellus luridus',
'Suillellus queletii',
'Boletus aereus',
'Boletus aestivalis',
'Boletus edulis',
'Boletus pinophilus',
'Agaricus bisporus',
'Cantharellus alborufescens',
'Cantharellus amethysteus',
'Cantharellus cibarius',
'Cantharellus cinereus',
'Cantharellus ferruginascens',
'Cantharellus friesii',
'Cantharellus ianthinoxanthus',
'Cantharellus lutescens',
'Cantharellus melanoxeros',
'Cantharellus pallens',
'Cantharellus tubaeformis',
'Pseudocraterellus undulatus',
'Cuphophyllus pratensis',
'Cuphophyllus virgineus',
'Hygrocybe punicea',
'Hygrophorus latitabundus',
'Hygrophorus marzuolus',
'Hygrophorus nemoreus',
'Hygrophorus penarioides',
'Hygrophorus russula',
'Laccaria amethystina',
'Laccaria bicolor',
'Laccaria laccata',
'Laccaria proxima',
'Lactarius deliciosus',
'Lactarius picinus',
'Lactarius sanguifluus',
'Lactarius semisanguifluus',
'Lactarius vinosus',
'Lactarius volemus',
'Chlorophyllum rhacodes',
'Leucoagaricus leucothites',
'Macrolepiota excoriata',
'Macrolepiota mastoidea',
'Macrolepiota procera',
'Mitrophora semilibera',
'Morchella elata',
'Morchella esculenta',
'Hydnum repandum',
'Hydnum rufescens',
'Tuber brumale',
'Tuber magnatum',
'Tuber melanosporum',
'Pleurotus citrinopileatus',
'Pleurotus cornucopiae',
'Pleurotus djamor',
'Pleurotus eryngii',
'Pleurotus ostreatus',
'Pleurotus pulmonarius',
'Russula aurea',
'Russula cyanoxantha',
'Russula integra',
'Russula mustelina',
'Russula romellii',
'Russula vesca',
'Russula virescens',
'Russula xerampelina',
'Clitocybe odora',
'Infundibulicybe geotropa',
'Infundibulicybe gibba',
'Lepista flaccida',
'Lepista flaccida',
'Lepista glaucocana',
'Lepista irina',
'Lepista nuda',
'Lepista panaeolus',
'Lepista personata',
'Lepista sordida',
'Tricholoma columbetta',
'Tricholoma portentosum',
'Tricholoma atrosquamosum',
'Tricholoma atrosquamosum var. squarrulosum',
'Tricholoma cingulatum',
'Tricholoma orirubens',
'Tricholoma scalpturatum',
'Tricholoma terreum',
'Craterellus cornucopioides',
'Ptychoverpa bohemica',
'Verpa conica',
'Aleuria aurantia',
'Amanita caesarea',
'Amanita fulva',
'Amanita rubescens',
'Amanita vaginata',
'Auricularia auricula-judae',
'Auricularia polytricha',
'Calocybe gambosa',
'Calvatia gigantea',
'Clitopilus prunulus',
'Cortinarius caperatus',
'Cortinarius praestans',
'Cyclocybe aegerita',
'Disciotis venosa',
'Entoloma aprile',
'Entoloma clypeatum',
'Fistulina hepatica',
'Flammulina velutipes',
'Gomphidius glutinosus',
'Gomphus clavatus',
'Grifola frondosa',
'Guepinia helvelloides',
'Gyroporus cyanescens',
'Hygrophoropsis aurantiaca',
'Hypsizygus tessulatus',
'Kuehneromyces mutabilis',
'Laetiporus sulphureus',
'Lentinula edodes',
'Limacella guttata',
'Lyophyllum decastes',
'Marasmius oreades',
'Otidea onotica',
'Polyporus umbellatus',
'Pseudohydnum gelatinosum',
'Ramaria botrytis',
'Sparassis crispa',
'Stropharia rugosoannulata',
'Suillus luteus',
'Volvariella volvacea',
'Volvopluteus gloiocephalus']

Cette liste fait référence aux espèces de champignons comestibles. Trois colonnes de notre dataframe renvoient des informations sur l'espèce d'un champignon :
- gbif_info/scientificName,
- gbif_info/species
- label

In [None]:
# Trouvez la colonne avec le plus de valeurs communes avec la liste de champignons comestibles
df1 = df[df['gbif_info/scientificName'].isin(list_champi_com)]
df2 = df[df['gbif_info/species'].isin(list_champi_com)]
df3 = df[df['label'].isin(list_champi_com)]

print(len(df1), len(df2), len(df3))


La cible pour établir le caractére comestible d'un champignon sera donc la colonne 'gbif_info/species' de notre dataframe puisqu'elle présente le plus grand nombre de correspondances avec la liste de l'ANSES.

#### Ajout de la colonne cible au dataframe initial
- 0 = non-comestible
- 1 = comestible

In [None]:
# ajout d'une colonne 'edible' au dataframe. 0 = champignon non comestible, 1 = champignon comestible
def edibility(species) :
    if species in list_champi_com:
        return 1
    else:
        return 0
    
df['edible'] = df['gbif_info/species'].apply(edibility)


In [None]:
# contrôle de la nouvelle colonne
df['edible'].value_counts()


### Exploration de quelques colonnes spécifiques dans l'intéret de l'étude

Affichage de quelques illustrations pour évaluer le jeu de données initial.

In [None]:
# Création d'une figure pour observer la répartition des 'kingdoms' dans le dataset

import seaborn as sns # importer Seaborn sous le nom de sns
sns.set() # écraser l’aspect ‘matplotlib’

plt.rcParams['figure.figsize'] = [12, 8] 
#spécifier l'axe des x et l'axe des y
ax = df['gbif_info/kingdom'].value_counts().plot(
    kind='bar', # Pour créer un graphique à barres avec matplotlib, vous pouvez utiliser la fonction 'bar' ou barh .
    stacked=True, 
    figsize=(12, 8),# déterminer la taille du graphique
    colormap='Blues_r', # la couleur des barres
    rot=0, # faire pivoter les étiquettes pour l'axe des x a 45 degre
    fontsize =14
    )

plt.xlabel('Kingdoms', fontweight = 'bold', fontsize = 16) # Preciser le nom de l'axe des x et mettre en gras le text
plt.ylabel("Nombre d'images (log)", fontweight = 'bold', fontsize = 16) # Preciser le nom de l'axe des y et mettre en gras le text
plt.yscale('log')


In [None]:
# Création d'une figure pour observer la répartition des 'class' dans le dataset

import seaborn as sns # importer Seaborn sous le nom de sns
sns.set() # écraser l’aspect ‘matplotlib’

plt.rcParams['figure.figsize'] = [12, 8] 
#spécifier l'axe des x et l'axe des y
ax = df['gbif_info/class'].value_counts().plot(
    kind='barh', # Pour créer un graphique à barres avec matplotlib, vous pouvez utiliser la fonction 'bar' ou barh .
    stacked=True, 
    figsize=(12, 8),# déterminer la taille du graphique
    colormap='Blues_r', # la couleur des barres
    rot=0, # faire pivoter les étiquettes pour l'axe des x a 45 degre
    fontsize =10
    )

plt.ylabel('Classes', fontweight = 'bold', fontsize = 16) # Preciser le nom de l'axe des x et mettre en gras le text
plt.xlabel("Nombre d'images (log)", fontweight = 'bold', fontsize = 16) # Preciser le nom de l'axe des y et mettre en gras le text
plt.xscale('log')

In [None]:
# Création d'une figure pour observer la répartition des 'species' pour les champignons comestibles

import seaborn as sns # importer Seaborn sous le nom de sns
sns.set() # écraser l’aspect ‘matplotlib’

df_edible = df[df['edible'] == 1]

plt.rcParams['figure.figsize'] = [12, 8] 
#spécifier l'axe des x et l'axe des y
ax = df_edible['gbif_info/species'].value_counts().plot(
    kind='bar', # Pour créer un graphique à barres avec matplotlib, vous pouvez utiliser la fonction 'bar' ou barh .
    stacked=True, 
    figsize=(12, 6),# déterminer la taille du graphique
    colormap='Blues_r', # la couleur des barres
    rot=90, # faire pivoter les étiquettes pour l'axe des x a 45 degre
    fontsize =6
    )

plt.xlabel('Species', fontweight = 'bold', fontsize = 16) # Preciser le nom de l'axe des x et mettre en gras le text
plt.ylabel("Nombre d'images", fontweight = 'bold', fontsize = 16) # Preciser le nom de l'axe des y et mettre en gras le text
#plt.yscale('log')

In [None]:
# création d'une figure de type treemap pour les champignons comestibles

# création du dataset de la figure
dftree = df_edible[['gbif_info/kingdom', 'gbif_info/phylum', 'gbif_info/class', 'gbif_info/order', 'gbif_info/family', 'gbif_info/genus', 'gbif_info/species']]
dftree['Count'] = 0
dftree1 = dftree.groupby(['gbif_info/kingdom', 'gbif_info/phylum', 'gbif_info/class', 'gbif_info/order', 'gbif_info/family', 'gbif_info/genus', 'gbif_info/species']).count()[["Count"]]
dftree1 = dftree1.reset_index()

# génération de la figure
fig = px.treemap(dftree1,
                 path=['gbif_info/kingdom', 'gbif_info/phylum', 'gbif_info/class', 'gbif_info/order', 'gbif_info/family'],
                 values='Count',
                 color='gbif_info/order',
                 width=1000, height=700,
                 title="nombre de photos par espèces de champignons",)

fig.show();

#### Exploration temporelle des prises de vue 

In [None]:
# réalisation d'un graphique permettant d'obsever la quantité d'images ajoutée au jeu de données au fil du temps
df_time = df.loc[:,['date', 'gbif_info/kingdom', 'gbif_info/phylum','gbif_info/family','gbif_info/species',
             'gbif_info/genus','gbif_info/order','gbif_info/class','edible']]
df_time['date']= pd.to_datetime(df_time['date'], format = 'ISO8601')
df_time = df_time.set_index('date')
df_time['year'] = df_time.index.year
df_time['month'] = df_time.index.month
df_time['hour'] = df_time.index.month


# affichage d'un graphique pour visualiser la saisonnalité d'apparition des champignons

axes = df_time.groupby(['month', 'edible'])['gbif_info/kingdom'].count().unstack(1).plot.bar(subplots = True)
axes[0].set_ylabel("nombre d'images", fontsize = 15)
axes[1].set_ylabel("nombre d'images", fontsize = 15)
axes[1].set_xlabel("mois", fontsize = 15)
axes[0].xaxis.set_ticklabels(['janv', 'fev', 'mars', 'avr', 'mai', 'juin', 'juil', 'aout', 'sept', 'oct', 'nov', 'dec'], rotation = 90, color = 'red', fontsize = 8, style = 'italic', verticalalignment = 'center')
axes[0].set_title('inedible', fontsize = 15)
axes[1].set_title('edible', fontsize = 15)
#plt.gca().legend().set_visible(False)
plt.show()

In [None]:
# création d'une heatmap des variables numérique du jeu de données initial

# génération des données de la figure
df_corr = df.select_dtypes(include=["float64", "int64"])
# df_corr.info()

# suppression de la colonne 'gbif_info' qui ne contient que des NaN
df_corr.drop(['gbif_info'], axis = 1, inplace = True)

# recherche des corrélations
result_corr = df_corr.corr()
# modification du nombre de décimales dans les résultats à afficher
result_corr = result_corr.round(2)

# génération de la heatmap
f, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(result_corr, square=True, vmax=.2, vmin = 0, linewidths=1, cmap = 'Blues')

In [None]:
# création d'une carte représentative des lieux d'observation des champignons
df_location = df.loc[:,['gbif_info/kingdom', 'gbif_info/family', 'gbif_info/phylum',
       'gbif_info/species', 'gbif_info/class', 'gbif_info/genus', 'gbif_info/order', 'location', 'edible']]
#df_location.info()
# suppression des NaN
df_location.dropna(inplace = True)

locations = pd.read_csv(r'C:\Users\renamedadmin\Documents\Formation_Datascience\Projet_Datascientest_Champignons\Dossier_technique\02_Pieces_constitutives\Dataset\CSV_mushromm_observer\locations.csv', sep = "\t")
# quelques informations de bases
display(locations.head(), locations.info())
display(df_location.head(), df_location.info())



In [None]:
# nettoyage de la colonne df.location pour la faire correspondre avec la colonne locations.id
def test_num(x):
    try :
        int(float(x))
        return 1
    except:
        return 0
    
def to_num(x):
    return int(float(x))

df_location['test'] = df_location.location.apply(lambda x: test_num(x))
df1 = df_location[df_location.test == 1]
df1['id'] = df1.location.apply(lambda x : to_num(x))

# creation des données du graph
df_geometry = df1.merge(right = locations, on = 'id', how = 'left')
df_geometry.drop(['location', 'test', 'name', 'high', 'low'], axis = 1, inplace = True)
df_geometry.dropna(inplace = True)

geometry = geopandas.points_from_xy(df_geometry.east, df_geometry.north)
geo_df = geopandas.GeoDataFrame(
    df_geometry[["gbif_info/kingdom", "gbif_info/family", "gbif_info/phylum", "gbif_info/species", "gbif_info/class",
                 "gbif_info/genus", "gbif_info/order", 'edible']], geometry=geometry
)

# affichage de la carte avec folium
map = folium.Map(location=[15, 30], tiles="Cartodb dark_matter", zoom_start=2)
heat_data = [[point.xy[1][0], point.xy[0][0]] for point in geo_df.geometry]
heat_data
plugins.HeatMap(heat_data).add_to(map)

map
#map.save(r'C:\Users\renamedadmin\Documents\Formation_Datascience\Projet_Datascientest_Champignons\Dossier_technique\02_Pieces_constitutives\Schémas\map2.html')

In [None]:
100 * len(geometry) / len(df)

La carte générée représente environ 59% des images du jeu de données initial. Les images semblent provenir de l'ensemble de la planète, avec logiquement plus d'images dans les zones les plus peuplées.