### Analyse de données de l’expédition Tara Océans (2009-2012) pour tenter de déterminer l’influence de facteurs environnementaux sur la photosynthèse
### Problématique :
Comment établir des relations entre des facteurs environnementaux et l’abondance des organismes photosynthétiques en utilisant des données d’échantillons prélevés dans différentes régions du globe?

Après traitement et exploitation des données issues de prélèvements effectués lors de l’expédition **Tara Océans** (2009-2012), il s’agit de présenter les résultats pour montrer, à l’échelle du végétal, l’effet d’un facteur environnemental sur l’intensité de la photosynthèse.

![Prélèvements d'échantillons](https://imgglb.padletcdn.com/v13/image?t=c_limit,dpr_1,h_654,w_1366&url=https%3A%2F%2Fpadlet-uploads.storage.googleapis.com%2F108257371%2F47530e390e5af5157aed9ed9ebdf6690%2FPhoto_collecte.jpeg) "Prélèvement d'échantillons"

[![Le plancton](http://img.youtube.com/vi/saalOnwUbsw/0.jpg)](http://www.youtube.com/watch?v=saalOnwUbsw "Le plancton")

Pour chaque région du globe (_Mer méditerranée (MS), Océan Pacifique Sud (SPO), Océan Indien (IO), Océan Atlantique Sud (SAO)_), vous allez tenter d’établir un lien entre l’abondance des diatomées (ou l’importance de la photosynthèse représenté par le taux de chlorophylle a) et chaque facteur environnemental.

L'objectif de l'activité consiste à sélectionner, trier des données et construire des graphiques montrant l’abondance des diatomées (ou le taux de chlorophylle a) en fonction de chaque facteur environnemental (nitrates, phosphates, température, oxygène, salinité, profondeur). Nous allons utiliser **Python** pour réaliser les taches d'analyse des données recueillies par Tara, afin de les interpréter en un second temps. Nous allons exploiter les modules pandas, numpy, matplotlib et [seaborn](https://seaborn.pydata.org/introduction.html).

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn  # library for making statistical graphics in Python
seaborn.set()

Les données à étudier sont contenues dans le fichier "***Données-diatomées.xlsx***". Ces données sont chargées dans un _DataFrame_ (**df**).

In [None]:
df = pd.read_excel("Données-diatomées.xlsx")
type(df)

Dimensions du DataFrame : nombre de lignes, nombre de colonnes.

In [None]:
df.shape

Aperçu du nom des séries de données contenues dans le DataFrame

In [None]:
df.keys()
# print(df.columns)  # Enumération des colonnes

Affichage les premières lignes du jeu de données

In [None]:
df.head()

On affiche le type de chaque colonne

In [None]:
print(df.dtypes)

Description des données

In [None]:
print(df.describe(include='all'))

Calcul de la moyenne des concentrations en **phosphates**

In [None]:
df["Phosphates, PO4"].mean()

Calcul de la moyenne des concentrations en **phosphates** pour une masse d'eau "DCM" et une région "MS"

In [None]:
# Mise en évidence des critères de sélection
me = df["Masse d'eau"].unique()
re = df["Région"].unique()
print(me)
print(re)

df[(df["Masse d'eau"] == "DCM")&(df["Région"] == "MS")]["Phosphates, PO4"].mean()

**Concentration en phosphates en fonction de la masse d'eau (DCM et SUR)**

* _x --> concentration_
* _y --> nombre de prélèvements_

In [None]:
%matplotlib inline
df.hist(column="Phosphates, PO4",by="Masse d'eau")

**Concentration en phosphates en fonction de la région (IO, MS, SAO, SPO)**

* _x --> concentration_
* _y --> nombre de prélèvements_

In [None]:
df.hist(column="Phosphates, PO4",by="Région")

Quel est la quantité moyenne de Raphid-pennate (plancton) dans les différentes régions?
![Raphid-pennate](http://tolweb.org/tree/ToLimages/cosmioneis_frustule.250a.jpg)

In [None]:
def moyenne_plancton(region,plancton):
    groupe = df.groupby("Région")
    moyenne = groupe.get_group(region)[plancton].mean()
    return (round(moyenne,2),region,plancton)

moyenneRPIO = moyenne_plancton("IO","Raphid-pennate")
moyenneRPMS = moyenne_plancton("MS","Raphid-pennate")
moyenneRPSAO = moyenne_plancton("SAO","Raphid-pennate")
moyenneRPSPO = moyenne_plancton("SPO","Raphid-pennate")
print("En région",moyenneRPIO[1],"la quantité moyenne de",moyenneRPIO[2],"est",moyenneRPIO[0])
print("En région",moyenneRPMS[1],"la quantité moyenne de",moyenneRPMS[2],"est",moyenneRPMS[0])
print("En région",moyenneRPSAO[1],"la quantité moyenne de",moyenneRPSAO[2],"est",moyenneRPSAO[0])
print("En région",moyenneRPSPO[1],"la quantité moyenne de",moyenneRPSPO[2],"est",moyenneRPSPO[0])

Quelle est la concentration moyenne en phosphates dans les différentes régions?

In [None]:
moyennePIO = moyenne_plancton("IO","Phosphates, PO4")
moyennePMS = moyenne_plancton("MS","Phosphates, PO4")
moyennePSAO = moyenne_plancton("SAO","Phosphates, PO4")
moyennePSPO = moyenne_plancton("SPO","Phosphates, PO4")
print("En région",moyennePIO[1],"la quantité moyenne de",moyennePIO[2],"est",moyennePIO[0])
print("En région",moyennePMS[1],"la quantité moyenne de",moyennePMS[2],"est",moyennePMS[0])
print("En région",moyennePSAO[1],"la quantité moyenne de",moyennePSAO[2],"est",moyennePSAO[0])
print("En région",moyennePSPO[1],"la quantité moyenne de",moyennePSPO[2],"est",moyennePSPO[0])

Abondance moyenne en Raphid-pennate (plancton) en fonction de la concentration en phospates

In [None]:
y = [moyenneRPIO[0], moyenneRPMS[0], moyenneRPSAO[0], moyenneRPSPO[0]]
x = [moyennePIO[0], moyennePMS[0], moyennePSAO[0], moyennePSPO[0]]
print(x)
print(y)
plt.scatter(x,y)
plt.show()

Conclusion : possible relation de cause à effet entre la quantité de cette espèce plantonique et la concentration en phosphate.

## Activité
**Exploitez les données recueillies (comme ci-dessus) pour d'autres espèces planctoniques. Arrive-t-on aux mêmes conclusions ?**

Exemple choisi : Abondance de "***xxxxxx***" par rapport à la concentration en **phosphates**

Conclusion : 