In [1]:
%load_ext watermark
import numpy as np
import pandas as pd
import datetime as dt
import matplotlib.pyplot as plt
import seaborn as sns
from myst_nb import glue
from IPython.display import Markdown as md

from plastockconf import name_zones, name_particles, name_frequentation, name_situation
from plastockconf import particle_groups, name_substrate, name_distance, table_css_styles_top

from plastock import attribute_summary, attribute_summary_test, attribute_summary_grid, add_table_to_page

a_property =  {'color' : 'red'}
format_kwargs = dict(precision=2, thousands="'", decimal=",")
glue('blank_caption', " ", display=False)

section = 'A'
page = 2

work_data = pd.read_csv("data/end_pipe/long_form_micro.csv")
beach_data = pd.read_csv("data/end_pipe/asl_beaches.csv")

# Microplastiques par variables explicatives


In [2]:
table_no = 1
figure_no = 1

caption = 'Les données d\'analyse. Tous les tableaux et figures sont construits à partir de cet ensemble de données.'
rule = 'Les attributs dont la moyenne des résultats est supérieure à la moyenne du projet sont en rouge.'

t_0 = work_data.head().style.set_table_styles(table_css_styles_top)
table_0 = add_table_to_page(t_0, table_no, caption, section, page, rule, format_index='columns')
glue('tablea21', table_0, display=True)

Unnamed: 0,Plage,Échantillon,Orientation,Position,Substrat,Fréquentation,Situation,Distance,Objet,Compte
0,Amphion,74_Amp_1,NE,1,4,3,1,1,fdure,0
1,Amphion,74_Amp_1,NE,1,4,3,1,1,fibres,9700
2,Amphion,74_Amp_1,NE,1,4,3,1,1,souple,0
3,Amphion,74_Amp_10,NNE,2,4,3,1,1,fdure,3800
4,Amphion,74_Amp_10,NNE,2,4,3,1,1,fibres,14000



## Substrat
Il n'y a pas de différence notoire entre les différents substrat. Toutefois, il est à noter que les médianes des deux types de sables sont supérieures à celles des substrats plus grossiers.

In [3]:
column_display = {
    "count":"échantillons",
    "mean": "moyenne",
    "std": "écart type",
    "échantillon":"échantillon"
}

# ananlysis of substrat
voi = "substrat"
vals = "compte"
groupbys = ['échantillon', voi]
labels = name_substrate


substrat_summary = attribute_summary(work_data, vals, voi, columns=column_display, labels=name_substrate)
substrat_summary.data = substrat_summary.data.reindex(["Sables fins", "Sables grossiers", "Graviers", "Cailloux"])

caption = 'Abondance des particules trouvées dans chaque échantillon pour chaque substrat.'
rule = 'Les attributs dont la moyenne des résultats est supérieure à la moyenne du projet sont en rouge.'
table_no += 1

table_one = add_table_to_page(substrat_summary, table_no, caption, section, page, rule)
glue('tablea22', table_one, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
Sables fins,111,18215,15998,23,9250,13800,21450,1'016
Sables grossiers,28,15736,14361,19,5650,12300,18275,562
Graviers,28,35336,65436,20,6800,9050,24700,3'143
Cailloux,46,12783,11264,26,6100,9250,15950,711


In [4]:
hue_order = list(name_substrate.values())
attribute_summary_grid(work_data, vals, voi, 'fig-A21', labels=labels, hue_order=hue_order)

```{glue:figure} fig-A21
---
name: fig-A21
---
{glue:text}`blank_caption` 
```
<b>Figure xx :</b> Répartition des abondances recensées par échantillon de chaque substrat. Les résultats sont exprimés en nombre de particules par 100 cm2.

__Les plages substrat = Cailloux:__

In [5]:
md(', '.join(work_data[work_data.substrat.isin([4])].Plage.unique()))

Amphion, Anthy, Aubonne, Clarens, Lugrin, Lutry, Saint-Disdille, Savonnière

__Les plages substrat = Graviers:__

In [6]:
md(', '.join(work_data[work_data.substrat.isin([3])].Plage.unique()))

Cully, Hermance, Pichette, Port Choiseul, Versoix

__Les plages substrat = Sables grossiers:__

In [7]:
md(', '.join(work_data[work_data.substrat.isin([2])].Plage.unique()))

Clarens, Crans, Gland, Lutry, Meillerie, Savonnière, Tolochenaz, Tougues

__Les plages substrat = Sables fins:__

In [8]:
md(', '.join(work_data[work_data.substrat.isin([1])].Plage.unique()))

Baby Plage, Bouveret, Excenevex, Grangettes, Préverenges, Rolle, Vidy

## Fréquentation

Il semblerait qu'une fréquentation faible de la plage fasse diminuer l'abondance en microplastiques. Toutefois, les échantillons avec une fréquentation faible ne représentant que 7 relevés sur les 217, il est difficile de déterminer cette différence comme étant significative.

In [9]:
# ananlysis of frequentation
voi = "fréquentation"
vals = "compte"
groupbys = ['echantillon', voi]
labels = name_frequentation

freq = attribute_summary(work_data, vals, voi, columns=column_display, labels=labels)
freq.data = freq.data.reindex(["Faible", "Moyenne", "Elevée"])

caption = 'Abondance des particules trouvées pour chaque niveau de fréquentation. Les résultats sont exprimées en nombre de particules par 100 cm2.'
table_no += 1

table_two = add_table_to_page(freq, table_no, caption, section, page, rule)
glue('tablea23', table_two, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
Faible,7,8386,5491,19,5600,5700,10850,182
Moyenne,37,27459,52169,20,7200,12200,21100,3'143
Elevée,169,17546,19319,23,7400,12800,19800,1'492


In [10]:
attribute_summary_grid(work_data, vals, voi, 'fig-A22', labels=labels)

```{glue:figure} fig-A22
---
name: fig-A22
---
{glue:text}`blank_caption` 
```

__Les plages fréquentation = Faible:__

In [11]:
md(', '.join(work_data[work_data['fréquentation'].isin([1])].Plage.unique()))

Crans, Cully, Meillerie, Tolochenaz

__Les plages fréquentation = moyenne:__

In [12]:
md(', '.join(work_data[work_data['fréquentation'].isin([2])].Plage.unique()))

Anthy, Aubonne, Gland, Grangettes, Lugrin, Pichette, Saint-Disdille

__Les plages fréquentation = élevée:__

In [13]:
md(', '.join(work_data[work_data['fréquentation'].isin([3])].Plage.unique()))

Amphion, Baby Plage, Bouveret, Clarens, Excenevex, Hermance, Lutry, Port Choiseul, Préverenges, Rolle, Savonnière, Tougues, Versoix, Vidy

## Situation

Le contexte urbain des plage ne semble pas influencer de manière forte la concentration en microplastiques.

In [14]:
# ananlysis of situation
voi = "situation"
vals = "compte"
groupby = ['echantillon', voi]
labels = name_situation

sit = attribute_summary(work_data, vals, voi, columns=column_display, labels=labels)

caption = 'Abondance des particules trouvées pour chaque situation: urbain, campagne. Les résultats sont exprimées en nombre de particules par 100 cm2.'
table_no += 1

table_three = add_table_to_page(sit, table_no, caption, section, page, rule)
glue('tablea24', table_three, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
Campagne,138,19704,30111,19,8200,12850,21050,3'143
Urbain,75,17611,23317,23,6250,10500,19400,1'492


In [15]:
attribute_summary_grid(work_data, vals, voi, 'fig-A23', labels=labels)

```{glue:figure} fig-A23
---
name: fig-A23
---
{glue:text}`blank_caption` 
```

__Les plages situation = campagne:__

In [16]:
md(', '.join(work_data[work_data.situation.isin([1])].Plage.unique()))

Amphion, Anthy, Aubonne, Bouveret, Crans, Cully, Excenevex, Gland, Grangettes, Lugrin, Pichette, Préverenges, Saint-Disdille, Savonnière, Tolochenaz, Tougues, Versoix

## Distance

Les plages éloignées d’un parking (>500 m) semblent moins contaminées que celles proches d’un parking, sans pour autant que la différence soit significative. Toutefois, le nombre d’échantillons avec ces attributs est relativement faible (12/217). 

In [17]:
# ananlysis of distance
voi = "distance"
vals = "compte"
groupby = ['echantillon', voi]
labels = name_distance

dist = attribute_summary(work_data, vals, voi, columns=column_display, labels=labels)
dist.data = dist.data.reindex(["< 100 m", "100 - 500 m", "500 - 1000 m", "> 1000 m"])

caption = 'Abondance des particules trouvées selon le distance du parking. Les résultats sont exprimées en nombre de particules par 100 cm2.'
table_no += 1

table_four = add_table_to_page(dist, table_no, caption, section, page, rule)
glue('tablea25', table_four, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
< 100 m,92,18780,33068,20,8375,12800,19550,3'143
100 - 500 m,107,20459,24388,23,7250,13000,21750,1'492
500 - 1000 m,2,3800,2687,19,2850,3800,4750,57
> 1000 m,12,9617,5589,44,5650,7700,10700,209


In [18]:
attribute_summary_grid(work_data, vals, voi, 'fig-A24', labels=labels)

```{glue:figure} fig-A24
---
name: fig-A24
---
{glue:text}`blank_caption` 
```

__Les plages distance = 100 - 500 m:__ 

In [19]:
md(', '.join(work_data[work_data.distance.isin([2])].Plage.unique()))

Baby Plage, Bouveret, Grangettes, Hermance, Lugrin, Lutry, Port Choiseul, Préverenges, Tougues, Versoix, Vidy

__Les plages distance = < 100 m:__ 

In [20]:
md(', '.join(work_data[work_data.distance.isin([1])].Plage.unique()))

Amphion, Anthy, Clarens, Cully, Excenevex, Gland, Pichette, Rolle, Saint-Disdille, Savonnière

## Orientation

In [21]:
# analysis of orientation
voi = "orientation"
vals = "compte"
groupby = ['echantillon', voi]

voi = "orientation"
vals = "compte"
data_summary = attribute_summary_test(work_data, voi=voi, vals=vals)
data_summary[['count', 'max', 'min']] = data_summary[['count', 'max', 'min']].astype('int')
data_summary.rename(columns=column_display, inplace=True)

select_values = data_summary["moyenne"] > 180
test_one = data_summary.loc[select_values].index

select_values = data_summary["50%"] > 121
test_two = data_summary.loc[select_values].index

d_sum = data_summary.style.set_table_styles(table_css_styles_top).format(precision=2)
d_sum = d_sum.set_properties(subset = pd.IndexSlice[test_one,["moyenne"]], **a_property)

oriented = d_sum.set_properties(subset = pd.IndexSlice[test_two,["50%"]], **a_property)

caption = 'Abondance des particules trouvées selon l\'orientation de la plage.'
table_no += 1

table_five = add_table_to_page(oriented, table_no, caption, section, page, rule, format_index='columns')
glue('tablea26', table_five, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
E,1,4000,,40,4000,4000,4000,40
ENE,2,13550,6576.0,89,11225,13550,15875,182
ESE,4,9975,3493.0,62,8300,9550,11225,146
N,14,17521,16950.0,27,8550,13650,21125,711
NE,42,20769,29325.0,31,7375,11650,19250,1'492
NNE,9,12444,7304.0,23,5900,12600,18200,230
NNO,10,13560,9070.0,38,7125,11950,18800,334
NO,25,23076,20288.0,25,9900,15500,28800,697
O,6,26150,37863.0,37,5750,10050,22900,1'016
ONO,6,13000,8401.0,44,8325,9800,16675,272


In [22]:
%watermark --iversions -b -r

Git repo: https://github.com/hammerdirt-analyst/plastock.git

Git branch: main

matplotlib: 3.8.2
pandas    : 2.0.3
numpy     : 1.26.3
seaborn   : 0.13.1

