In [1]:
%load_ext watermark
import pandas as pd
from myst_nb import glue
from IPython.display import Markdown as md

from plastockconf import  name_frequentation, name_situation
from plastockconf import  name_substrate, name_distance, table_css_styles_top

from plastock import attribute_summary, attribute_summary_test, attribute_summary_grid, add_table_to_page


glue('blank_caption', " ", display=False)
a_property =  {'color' : 'red'}
page = 8
table_no = 1

# new_data = pd.read_csv("data/end_pipe/macro_current.csv")
beach_data = pd.read_csv("data/end_pipe/asl_beaches.csv").set_index('Plage')
work_data = pd.read_csv('data/end_pipe/macro_data_msquared.csv')
work_data = work_data[['Plage', 'échantillon', 'area', 'date','code','quantité','substrat', 'pcs/m²', 'region']].merge(beach_data[["frequentation", "situation", "distance", "orientation"]], left_on = "Plage", right_index=True)
work_data["fréquentation"] = work_data['frequentation']
work_data.drop('frequentation', inplace=True, axis=1)# ne

(macro-attributes)=
# Annexe VIII: Macroplastiques par variables explicatives


## Substrat

La moyenne et la médiane sur les plages de sables fins est légèrement supérieure à celles des autres substrats. Pour autant, les fortes variations font que la différence n'est pas significative.

In [2]:
column_display = {
    "count":"échantillons",
    "mean": "moyenne",
    "std": "écart type",
    "échantillon":"échantillon"
    
}

# ananlysis of substrat
voi = "substrat"
vals = "pcs/m²"
groupbys = ['échantillon', voi]
labels = name_substrate

event_total = work_data.groupby(["échantillon", voi], as_index=False)[vals].sum()

substrat_summary = attribute_summary(event_total, vals, voi, columns=column_display, labels=name_substrate)
substrat_summary.data = substrat_summary.data.reindex(["Sables fins", "Sables grossiers", "Graviers", "Cailloux"])

# event_total['échantillon'] = event_total["échantillon"].astype(str)

caption = 'Abondance de macroplastiques trouvés par m² dans chaque échantillon pour chaque substrat.'
section = 'A'
rule = 'Les attributs dont la moyenne des résultats est supérieure à la moyenne du projet sont en rouge.'

table_one = add_table_to_page(substrat_summary, table_no, caption, section, page, rule)
glue('tablea41', table_one, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
Sables fins,27,104,86,0,51,70,132,3
Sables grossiers,31,52,46,0,23,41,59,1
Graviers,16,31,36,0,10,20,29,1
Cailloux,24,65,62,0,13,43,113,1


In [3]:
hue_order = list(name_substrate.values())
attribute_summary_grid(event_total, vals, voi, 'fig-a41', labels=labels, xlim=5, ylim=5,object_column='pcs/m²', hue_order=hue_order)

```{glue:figure} fig-a41
---
name: fig-a41
---
{glue:text}`blank_caption` 
```

__Les plages substrat = sables fins__

In [4]:
md(', '.join(work_data[work_data.substrat.isin([1])].Plage.unique()))

Baby Plage, Bouveret, Excenevex, Grangettes, Préverenges, Rolle, Vidy

## Fréquentation

Une faible fréquentation de la plage semble influencer vers le bas l'abondance de macroplastiques. Ceci tend à montrer que la fréquentation sur site impacte le nombre de plastiques retrouvés.

In [5]:
# ananlysis of fréquentation
voi = "fréquentation"
vals = "pcs/m²"
groupbys = ['échantillon', voi]
labels = name_frequentation

event_total = work_data.groupby(["échantillon", "date", voi], as_index=False)[vals].sum()
table_no += 1
caption = 'Abondance des macroplastiques trouvés par m² dans chaque échantillon pour chaque niveau de fréquentation.'
event_total['échantillon'] = event_total["échantillon"].astype(str)

freq = attribute_summary(event_total, vals, voi, columns=column_display, labels=labels)

freq.data = freq.data.reindex(["Faible", "Moyenne", "Elevée"])
table_two = add_table_to_page(freq, table_no, caption, section, page, rule)
glue('tablea42', table_two, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
Faible,15,27,18,0,13,26,34,0
Moyenne,28,89,95,0,13,53,139,3
Elevée,55,65,51,0,28,52,84,2


In [6]:
attribute_summary_grid(event_total, vals, voi, 'fig-a42', labels=labels, xlim=5, ylim=5, object_column='pcs/m²')

```{glue:figure} fig-a42
---
name: fig-a42
---
{glue:text}`blank_caption` 
```

(freq_plages)=
__Les plages fréquentation = moyenne__

In [7]:
md(', '.join(work_data[work_data['fréquentation'].isin([2])].Plage.unique()))

Anthy, Aubonne, Gland, Grangettes, Lugrin, Pichette, Saint-Disdille

__Les plages fréquentation = élevée__

In [8]:
md(', '.join(work_data[work_data['fréquentation'].isin([3])].Plage.unique()))

Amphion, Baby Plage, Bouveret, Clarens, Excenevex, Hermance, Lutry, Port Choiseul, Préverenges, Rolle, Savonnière, Tougues, Versoix, Vidy

## Situation

Pour l'analyse de l'influence de la situation de la plage, il est intéressant de comparer les moyennes et les médianes. D'un point de vue de la médiane, l'abondance en macroplastique est plus importante dans un contexte urbain. Pour autant, la moyenne plus élevée pour les plages de campagne montre que l'abondance sur certaines peut être très élevée. Dans le cas présent, les plages des Grangettes et du Bouveret représentent les extrèmes supérieurs pour les plages de campagnes.

In [9]:
# ananlysis of situation
voi = "situation"
vals = "pcs/m²"
groupby = ['échantillon', voi]
labels = name_situation

event_total = work_data.groupby(["échantillon", "Plage","date", voi], as_index=False)[vals].sum()
table_no += 1

caption = 'Abondance des macroplastiques trouvés par m²dans chaque échantillon pour chaque situation: urbain, campagne.'
event_total['échantillon'] = event_total["échantillon"].astype(str)

sit = attribute_summary(event_total, vals, voi, columns=column_display, labels=labels)
table_three = add_table_to_page(sit, table_no, caption, section, page, rule)
glue('tablea43', table_three, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
Campagne,67,71,75,0,15,40,109,3
Urbain,31,56,39,0,36,51,66,1


In [10]:
attribute_summary_grid(event_total, vals, voi, 'fig-a43', labels=labels, xlim=5, ylim=5, object_column='pcs/m²')

```{glue:figure} fig-a43
---
name: fig-a43
---
{glue:text}`blank_caption` 
```

(sit_plages)=
__Les plages situation = campagne__

In [11]:
md(', '.join(work_data[work_data.situation.isin([1])].Plage.unique()))

Amphion, Anthy, Aubonne, Bouveret, Crans, Cully, Excenevex, Gland, Grangettes, Lugrin, Pichette, Préverenges, Saint-Disdille, Savonnière, Tolochenaz, Tougues, Versoix

__Les plages situation = urbain__

In [12]:
md(', '.join(work_data[work_data.situation.isin([2])].Plage.unique()))

Baby Plage, Clarens, Hermance, Lutry, Meillerie, Port Choiseul, Rolle, Vidy

## Distance

La distance à un parking semble influencer les abondances en macroplastiques. En effet, la tendance indique que plus une plage est éloignée d'un parking, moins il y aura de plastique.

In [13]:
# ananlysis of distance
voi = "distance"
vals = "pcs/m²"
groupby = ['échantillon', voi]
labels = name_distance

event_total = work_data.groupby(["échantillon", "Plage","date", voi], as_index=False)[vals].sum()

table_no += 1

caption = 'Abondance des macroplastiques trouvés par m² dans chaque échantillon selon la distance du parking.'
event_total['échantillon'] = event_total["échantillon"].astype(str)
dist = attribute_summary(event_total, vals, voi, columns=column_display, labels=labels)
dist.data = dist.data.reindex(["< 100 m", "100 - 500 m", "500 - 1000 m", "> 1000 m"])
table_three = add_table_to_page(dist, table_no, caption, section, page, rule)
glue('tablea44', table_three, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
< 100 m,39,64,60,0,13,40,102,1
100 - 500 m,44,81,76,0,33,58,97,3
500 - 1000 m,7,40,16,0,31,38,50,0
> 1000 m,8,14,7,0,10,14,16,0


In [14]:
attribute_summary_grid(event_total, vals, voi, 'fig-a44', labels=labels, xlim=5, ylim=5, object_column='pcs/m²')

```{glue:figure} fig-a44
---
name: fig-a44
---
{glue:text}`blank_caption` 
```

(dist_plage)=
__Les plages distance = 100 - 500 m__

In [15]:
md(', '.join(work_data[work_data.distance.isin([2])].Plage.unique()))

Baby Plage, Bouveret, Grangettes, Hermance, Lugrin, Lutry, Port Choiseul, Préverenges, Tougues, Versoix, Vidy

__Les plages distance = < 100 m__

In [16]:
md(', '.join(work_data[work_data.distance.isin([1])].Plage.unique()))

Amphion, Anthy, Clarens, Cully, Excenevex, Gland, Pichette, Rolle, Saint-Disdille, Savonnière

## Orientation

In [17]:
# ananlysis of substrat
voi = "orientation"
vals = "pcs/m²"
groupby = ['échantillon', voi]

data_summary = attribute_summary_test(work_data, voi=voi, vals=vals)
data_summary[['count', 'max', 'min']] = data_summary[['count', 'max', 'min']].astype('int')
data_summary.rename(columns=column_display, inplace=True)

select_values = data_summary["moyenne"] > 1.45
test_one = data_summary.loc[select_values].index

select_values = data_summary["50%"] > .78
test_two = data_summary.loc[select_values].index

d_sum = data_summary.style.set_table_styles(table_css_styles_top)
d_sum = d_sum.set_properties(subset = pd.IndexSlice[test_one,["moyenne"]], **a_property)
d_sum = d_sum.set_properties(subset = pd.IndexSlice[test_two,["50%"]], **a_property)

table_no += 1

caption = 'Abondance des macroplastiques trouvés par m² dans chaque échantillon selon l\'orientation de la plage'

table_five = add_table_to_page(d_sum, table_no, caption, section, page, rule, format_index='columns')
glue('tablea45', table_five, display=True)

Unnamed: 0,Échantillons,Moyenne,Écart type,Min,25%,50%,75%,Max
E,4,114,68,0,70,112,157,1
ESE,4,26,3,0,25,26,27,0
N,8,90,56,0,42,89,131,1
NE,12,88,56,0,54,87,119,1
NNE,8,64,25,0,48,58,71,1
NNO,4,13,6,0,11,13,15,0
NO,12,110,120,0,23,48,214,3
ONO,8,83,86,0,14,45,157,2
OSO,4,14,13,0,6,8,16,0
SE,4,15,8,0,10,13,18,0


In [18]:
%watermark --iversions -b -r

Git repo: https://github.com/AssociationSauvegardeLeman/plastock.git

Git branch: jun14

pandas: 2.0.3

