# Bougival Dataset

## objectif

Est-ce que les données de détection des signatures acoustiques peuvent avertir d'un changement anomale de l'environement ?

Céation d'un dataset sur le site de Bougival pour étudier l'activité acoustique et la physico-chimie du fleuve. 
Identifier les éventuelles patterns de l'activité acoustique au cours du temps.   

Données à disposition:
- counting de signatures sonores 
  - Données yolo Sensea: 
    - **occurence de signatures acoustiques** => format (date,label)
  - Données AutoRiver:
    - **comptage de signatures acoustiques** => format (date, label1, ... , label10)
- **physico-chimie continue** journalière
  - oxygène, turbidité, conductivité, ph, phosphate, temperature
- **physico-chimie ponctuelle** hebdo faite en laboratoire
  - MES,DBO5,DCO,NTK,NH4,NO2,NO3,Pt,TAC,Chlorures,Sulfates,COD,PO4

Avec DBBuilder => Construire un dataset comprenant:
1) le comptage des détections faites de signatures acoustiques
2) l'ajout de variables météorologiques
3) l'identification des cycles journaliers (jour, nuit, crépuscule, aube) et autres données astrales (phases de la lune)

In [None]:
import os
cwd = os.getcwd()
new_cwd = os.path.join(cwd.rsplit("SeinAcoustic_DataAnalysis")[0], "SeinAcoustic_DataAnalysis") if not cwd.endswith("SeinAcoustic_DataAnalysis") else None
if new_cwd != None:
    os.chdir(new_cwd)

In [None]:
import pandas as pd
import numpy as np
import glob
from DBBuilder import DBBuilder, Sun, Moon
from IPython.display import display
import plotly.express as px

In [None]:

# Physico-Chimie
files_phch_continus=glob.glob("./data/EB/bougival/chimie continue/*.csv")
files_phch_ponctual=glob.glob("./data/EB/bougival/chimie ponctuelle/*.csv")
# Outputs
output_folder=None

## Préparation des données acoustiques

In [None]:
# Variables
sitename="bougival"
lat, long, elev=48.865,2.144,23
timezone="UTC"
files_autoriver = glob.glob("./data/clean/bougival/acoustic/autoriver/*.csv")
output_folder = "./data/datasets/bougival/"

### Données otoriver (acoustic EB)

Note: Données otoriver
les colonnes on des types de valueurs variables en fonction des colonnes => int / float => expl "B40k"=int "BUS"=float
Déduction = il n'y a pas que des données de comptage !! 
Si l'on regarde l'occurence des dates dans le jeu de données, on remarque que des dates sont jusqu'à 30 fois présentent.   

In [None]:
df_autoriver = pd.concat([pd.read_csv(f) for f in files_autoriver])
display(df_autoriver)

In [None]:
df_autoriver.date = pd.to_datetime(df_autoriver.date)
dates_count=df_autoriver.date.value_counts()
dates_count = dates_count.sort_index()
px.line(x=dates_count.index, y=dates_count.values, title="Occurence des dates dans les données otoriver")

In [None]:
df_autoriver_multidates = df_autoriver[df_autoriver.date.isin(dates_count[(dates_count.values > 1)].index)]
df_autoriver_multidates.dtypes

In [None]:
melted_df_autoriver = df_autoriver.melt(id_vars='date', var_name='label', value_name='value')

In [None]:
melted_df_autoriver.head(100)

##  Données Sensea

In [None]:
files_sensea = glob.glob("./data/clean/bougival/acoustic/sensea/*.csv")
df_sensea = pd.concat([pd.read_csv(f) for f in files_sensea])
display(df_sensea)

In [None]:
file_lilian_sensea_clean = "data/seinacoustic_EB/1-bougival/données transformées/heure/acoustique/SENSEA/descripteurs150621270623.csv"
df_sensea_lilian = pd.read_csv(file_lilian_sensea_clean, sep=";")
display(df_sensea_lilian)

In [None]:
dbbuilder = DBBuilder(latitude=lat, longitude=long, elevation=elev, timefreq="min")
dbbuilder.from_labels_occurence(dates=df_sensea.date, labels=df_sensea.label)
display(dbbuilder.counting)

In [None]:
cols_label = [c for c in dbbuilder.counting.columns if c.startswith("label")]
counting_hourly = dbbuilder.agg_counting(timefreq="h")
counting_daily = dbbuilder.agg_counting(timefreq="d")

In [None]:
display(counting_daily)

In [None]:
px.line(dbbuilder.counting, x="date", y=[c for c in dbbuilder.counting.columns if c.startswith("label")])
count_hourly = db

In [None]:
px.line(dbbuilder.counting, x="date", y=[c for c in dbbuilder.counting.columns if c.startswith("label")], )

In [None]:
def plot_grpby (df, columns)

In [None]:
# agg_params = {k:"mean" for k in dbbuilder.counting.columns if k.startswith("label")}
# agg_params.update({k:"var" for k in dbbuilder.counting.columns if k.startswith("label")})
hmean_suncycle_day = dbbuilder.counting.groupby(["suncycle_day"])[[c for c in dbbuilder.counting.columns if c.startswith("label")]].mean().add_prefix("hmean_")
hstd_suncycle_day = dbbuilder.counting.groupby(["suncycle_day"])[[c for c in dbbuilder.counting.columns if c.startswith("label")]].std().add_prefix("hstd_")
hmean_suncycle_day, hstd_suncycle_day = hmean_suncycle_day.reset_index(), hstd_suncycle_day.reset_index()
daily_analysis = pd.merge(hmean_suncycle_day, hstd_suncycle_day, on="suncycle_day")
display(daily_analysis)

In [None]:
cols_mean = [c for c in daily_analysis.columns if c.startswith("hmean_label")]
cols_std = [c for c in daily_analysis.columns if c.startswith("hstd_label")]
px.histogram(daily_analysis, x="suncycle_day", y=cols_mean)

In [None]:
output_sensea = dbbuilder.from_labels_occurence(dates=df_sensea.date, labels=df_sensea.label, prefix="label_sensea_")
sensea_database = {k:pd.DataFrame(v) for k,v in output_sensea["data"]}
for k, df in database:
    print(k)
    display(df)