## Introduction

Le terme "communauté" fait référence a un groupe d'organismes occupant une niche écologique particulière et qui peut comprendre un nombre quelconque d'espèces. En biologie, de nombreuses études se focalisent sur l'étude des communautés bactériennes, ou microbiotes, tels qu'on en trouve dans le sol, dans nos intestins ou sur notre peau. Dans ce TP nous allons utiliser un ensemble réduit de bactéries isolées du microbiote cutané, dont nous allons explorer la synergie.

Ce TP a pour but de qualifier une ou plusieurs communautés minimales de bactéries capables de réaliser une fonction biologique en particuler, en se basant sur les métabolites que chaque communauté est capable de produire. La recherche d’échanges entre organismes peut être un atout dans la reconstruction de réseaux métaboliques et dans l’annotation de génomes, afin d’élucider par exemple si un hôte est capable de réaliser une fonction spécifique par lui même ou si il repose sur un symbiote. Sélectionner des sous-communautés au sein d’un microbiote a de nombreuses applications, comme par exemple développer une communauté synthétique de bactéries pour des applications industrielles notamment. Ici, l'entreprise Freshcent fait appel à vous afin de les aider à révolutionner la vie de tous les sportifs et stressés en tout genre. Vous allez collaborer afin de déterminer un sous ensemble de bactéries capable de métaboliser les composés malodorants issus de la transpiration en composés agréablement parfumés. Pour aider l'entreprise dans la conception de ce déodorant probiotique nouvelle génération, vous allez pouvoir vous aider de l'outil Miscoto.

Miscoto (MIcrobiome Screening and Community selection using TOpology) est un outil utilisant la programmation par ensemble-réponse (ASP) pour identifier des microbiotes de taille minimale capables de produire des métabolites d’intéret, indépendamment ou via une coopération. La coopération fait référence à des échanges de métabolites entre organismes afin de produire un métabolite d’intéret à partir des métabolites disponibles dans le mileu de culture. Miscoto met ainsi en commun toutes les capacités métaboliques de chaque organisme. Si plusieurs solutions sont disponibles il est aussi possible de restreindre les résultats en introduisant la notion de nombre d’échanges minimum. En effet, les échanges de métabolites entre organismes étant couteux en énergie, il existe un fort sens biologique à les réduire au maximum. Les solutions générées par l’outil peuvent ensuite être filtrées par des critères biologiques.

## Données du sujet

Toutes les données, sujet et script pour l'environnement se trouvent à l'adresse [https://github.com/Tharos-ux/miscoto_tp](https://github.com/Tharos-ux/miscoto_tp)

## Procédure d'installation

1) Naviguez jusqu'au dossier contenant les fichiers d'environnement.

2) Editez le contenu du script bash `create_env.sh` en modifiant la version python, accordément à celle présente sur votre machine.
Vous devez avoir une version python >= à 3.6. Si ce n'est pas le cas, installez une distribution python remplissant cette condition. Si vous ne savez pas quelle version de python est installée sur votre machine, utilisez `python3 --version` ou par défaut `python --version`.

3) Exécutez le script pour créer l'environnement avec la commande `bash create_env.sh`.

4) Pour lancer l'environnement, utilisez la commande `source .venv_miscoto/bin/activate` dans le terminal, en étant placé dans le dossier où vous avez créé l'enironnement.

5) A ce stade, vous devriez pouvoir vérifier la bonne installation de **miscoto** grâce à la commande `miscoto --version`. Vous pouvez désormais ouvrir le Jupyter Notebook qui contient le sujet du TP avec la commande `jupyter-notebook miscoto.ipynb`.

Note : pour quitter l'environnement, utilisez la commande `deactivate` dans le terminal.

Vous pouvez par ailleurs retrouver le code source en suivant [ce lien](https://github.com/cfrioux/miscoto).

## Partie I - Les rocambolesques aventures de Biscotte, la Chaventurière

Dans cette première partie, nous vous proposons de vous familliariser avec les commandes de l'outil.

*Dans le village de Sô, perdu parmi les monts, la jeune Biscotte se prépare pour partir à l'aventure. Depuis des semaines, elle entend à la chaverne où elle va se détendre tous les soirs après de dures journées de labeur que dangers et trésors attendent quiconque sera suffisament brave. Probablement enhardie par la boisson, elle s'est décidée à relever tous les défis que ses griffes rencontreraient. Prévoyante quant à son périple, elle a rassemblé de nombreuses victuailles et ressources nécessaires à sa survie, mais il lui manque un bien crucial : une arme pour se battre contre les nombreux dangers sur son chemin. Habile bretteuse, elle escompte bien obtenir une lame enchantée pour l'aider à affronter l'adversité. Bien qu'elle sache enchanter son épée, elle ignore comment la forger. Fort embarassée, elle va devoir requérir aux services d'autres chats de la ville pour obtenir sa rapière, et elle dispose de divers moyens. Plusieurs artisans sont installés en ville : Chachôff un forgeron en CDD, Chalumo l'expert forgeron et Chatastrophe son stagiaire. Par ailleurs, elle sait qu'elle pourrait aussi se procurer chez Chaltimbanque le marchand, qui a déplié son étal ce matin même. Un peu pressée et de nature timide, Biscotte souhaite avoir affaire au moins d'intermédiaires possible.*

Vous disposez du dossier `bac_a_chable` pour modéliser la situation. Il contient un certain nombre de fichiers, organisés comme suit :
```
bac_a_chable/
├─ Villageois/
│  ├─ CHATASTROPHE.xml
│  ├─ CHACHOFF.xml
│  ├─ CHALUMO.xml
│  ├─ CHALTIMBANQUE.xml
├─ BISCOTTE.xml
├─ EQUIPEMENTS.xml
├─ RESSOURCES.xml
```
Les **seeds** de votre système sont le fichier `RESSOURCES.xml`. Il contient ce qui est présent dans le milieu naturel.

Les **targets** de votre système se trouvent dans le fichier `EQUIPEMENTS.xml`. Il contient ce qui doit être produit.

Commencez par charger les packages nécessaires :

In [None]:
from miscoto import run_focus, run_scopes, run_instance, run_mincom
from json import load

Nous allons tout d'abord essayer de compléter notre réseau en complétant les seeds, targets et métabolites (encadrés en bleu) et réactions manquantes (ronds oranges) dans le graphe suivant :

<img src='pics/bon_courage.png'>

Aidez vous des questions suivantes pour le compléter au fur et à mesure.

Ouvrez le fichier `EQUIPEMENT.xml` avec un éditeur de texte.

##### Question 1.1 : Que cherche t'on à produire ? Ajoutez cette information sur le graphe.

Ouvrez le fichier `RESSOURCES.xml` avec un éditeur de texte.

##### Question 1.2 : Quelles sont les ressources disponibles dans le milieu ? Ajoutez cette information sur le graphe.

Ouvrez le fichier `CHACHOFF.xml` avec un éditeur de texte.

##### Question 1.3 : Dans combien de réaction(s) Chachoff est-il impliqué ? Listez leur(s) nom(s).

##### Question 1.4 : Listez les réactifs et les produits de la ou des réactions identifiées précédemment. Ajoutez ces informations sur le graphe.

##### Question 1.5 : Il est possible de vérifier le rôle d'un individu au sein d'un système avec la commande `run_focus` de Miscoto. Exécutez le code ci-dessous. Retrouvez-vous bien ce que votre lecture du fichier XML vous avait permis de déterminer ?

Notez que l'option output_json permet d'exporter l'ensemble des résultats dans un fichier json.

In [None]:
run_focus(
    bacteria_dir='bac_a_chable/Villageois/',
    seeds_file='bac_a_chable/RESSOURCES.xml',
    focus_bact=['CHACHOFF'],
    output_json='CHACHOFF.json',
)

# Dans le terminal:
# miscoto focus -b 'bac_a_chable/Villageois/' -s 'bac_a_chable/RESSOURCES.xml' -f 'CHALUMO' --output 'CHALUMO.json'

##### Question 1.6 : Voici les graphes associés aux différents individus. Terminez de reconstituer le graphe métabolique du système dans son ensemble.

<img src='pics/recap_all.png'>

La commande `instance` permet de combiner les fichiers xml des différents villageois, ressources et équipements afin d'obtenir un seul fichier combinant toutes les informations, comme on vient de le faire avec notre graphe. Ce fichier est aussi reformatté afin d'être plus lisible qu'un fichier xml. Il est ainsi plus simple à éditer lorsqu'on souhaite réaliser des modifications sur le système. Vous pouvez lancer la commande suivante qui va générer un fichier "Village.lp".

In [None]:
run_instance(
    host_file='bac_a_chable/BISCOTTE.xml',
    bacteria_dir='bac_a_chable/Villageois',
    seeds_file='bac_a_chable/RESSOURCES.xml',
    targets_file='bac_a_chable/EQUIPEMENTS.xml',
    output='bac_a_chable/Village.lp'
    )
# Dans le terminal:
# miscoto instance -b 'bac_a_chable/Villageois' -m 'bac_a_chable/BISCOTTE.xml' -s 'bac_a_chable/RESSOURCES.xml' -t 'bac_a_chable/EQUIPEMENTS.xml' --out 'bac_a_chable/Village.lp'

##### Ce fichier regroupe les informations associées:
- au microbiome (les villageois)
- à l'hôte (Biscotte)
- aux seeds (les ressources)
- aux targets (l'épée magik qu'on souhaite produire)

##### Question 1.7 : Ouvrez le fichier et retrouvez les seeds du système, sous quelle forme sont elles présentées ?

##### Question 1.8 : La commande 'scope' permet de se faire une première idée sur les capacités du système. Aidez vous en pour répondre aux questions ci dessous:

- Quel équipement (targets) peut produire BISCOTTE (l'hôte) toute seule ?
- Quelle est la liste des ressources auxquelles BISCOTTE a accès ? 
- Est ce qu'il est possible de produire une EPEE en faisant appel aux différents villageois ?

In [None]:
run_scopes(
        lp_instance_file="bac_a_chable/Village.lp"
        )
# Dans le terminal:
# miscoto scopes -a 'bac_a_chable/Village.lp'

##### Question 1.9 : La commande `run_mincom` de miscoto permet de récupérer les communautés minimales. L'option `soup` renvoie par défaut la première solution si plusieurs solutions existent. Lancez la commande. Qui peut aider BISCOTTE à obtenir son EPEE_MAGIK ?

In [None]:
run_mincom(
    option='soup',
    lp_instance_file="bac_a_chable/Village.lp",
    enumeration=False
)

# Dans le terminal:
# miscoto mincom -a 'bac_a_chable/Village.lp' -o soup

##### Question 1.10 : Pour énumérer toutes les solutions possibles, il faut rajouter l'option `--enumeration`. Modifiez la commande précédente afin de lister l'ensemble des choix s'offrant à BISCOTTE pour obtenir son EPEE_MAGIK.

In [None]:
# REPONSE
run_mincom(
    option='soup',
    lp_instance_file="bac_a_chable/Village.lp",
    enumeration=True
)

# Dans le terminal:
# miscoto mincom -a 'bac_a_chable/Village.lp' -o soup --enumeration

##### Question 1.11 : Pour énumérer tous les individus impliqués dans la production d'une épée, il faut cette fois utiliser `--union` à la place d'`enumeration`. Modifiez la commande précédente afin de lister l'union des solutions.

In [None]:
# REPONSE
run_mincom(
    option='soup',
    lp_instance_file="bac_a_chable/Village.lp",
    union=True
)

# Dans le terminal:
# miscoto mincom -a 'bac_a_chable/Village.lp' -o soup --union

##### Question 1.12 : Avec miscoto, il est possible de trouver la solution présentant le moins d'échanges grâce à l'option `minexch`. Un peu pressée par le temps et plutôt timide, BISCOTTE cherche à récupérer une EPEE en passant par le minimum d'intermédiaires. Aidez-la à choisir la solution respectant cette contrainte en lançant la commande suivante.

In [None]:
run_mincom(
    option='minexch',
    lp_instance_file="bac_a_chable/Village.lp"
)

# Dans le terminal:
# miscoto mincom -a 'bac_a_chable/Village.lp' -o minexch

Notez qu'il est aussi possible d'utiliser l'option --enumeration avec minexch

##### Question 1.13 : Parmis les deux solutions données par l'option soup --enumeration, la solution donnée par l'option `minexch` est elle la meilleure des deux ? Pourquoi ? Aidez vous du graphe reconstruit pour répondre à la question et vérifier votre réponse en lançant la commande appropriée.

In [None]:
run_mincom(
    option='minexch',
    lp_instance_file="bac_a_chable/Village.lp",
    enumeration=True
)

# miscoto mincom -a 'bac_a_chable/Village.lp' -o minexch --enumeration

##### Question 1.14 : Il y a une soudaine pénurie de minerais. Supprimez le minerais des ressources disponibles dans le fichier "Village.lp". Quelle sont maintenant la ou les meilleure(s) option(s) pour que BISCOTTE récupère son EPEE avec le moins d'intermédiares possibles ?

In [None]:
run_mincom(
    option='minexch',
    lp_instance_file="bac_a_chable/Village.lp",
    enumeration=True
)
# miscoto mincom -a 'bac_a_chable/Village.lp' -o minexch --enumeration

## Partie II - Les rocambolesques aventures des bactéries d'un humain sous stress

En tant que chercheurs chez Freshscent nous cherchons à développer un nouveau déodorant révolutionnaire, le nouveau déodorant des sportifs et des stressés, Florescent. 
L'équipe marketing a identifié que les odeurs corporelles étaient un véritable fléau social, impactant une importante proportion de la population courante. Ce nouveau déodorant aura la particularité de transformer vos odeurs corporelles malodorantes en un véritable bouquet fleuri. Inspirés des probiotiques efficaces sur les symptômes digestifs, l’hygiène quotidienne devient maintenant vivante et bio-dynamique. Après de multiples réunions pour convaincre l'équipe R&D du bien fondé de leur idée, cette dernière s'est attelée à la tâche. Des évidences bibliographiques ont montré qu'un sous échantillon du microbiote de la peau était capable de métaboliser l'urée, responsable de l'odeur malodorante de la sueur, en acétate de neryl, un composé avec une douce odeur de rose. Le but de cette partie du TP est d'aider vos collègues biologistes à identifier des sous-ensembles minimaux de bactéries capables de transformer l'urée en acétate de neryl. Ce sous ensemble de bactéries pourra alors être encapsulé et protégé dans une résine végétale et ajouté dans le déodorant. Le contact de l’eau produite lors de la transpiration libèrera les bactéries des capsules végétales. Les micro-organismes dynamiques entameront alors un développement naturel, influençant le microbiote cutané commensal, l’ensemble créant en moins de 2 heures un nouveau bouclier bio-dynamique renforcé, diversifié et à la riche odeur de rose. La transpiration, ça peut avoir du bon avec Florescent !

Vous avez à votre disposition pour commencer les bactéries disponibles dans le laboratoire, qui sont capables de survivre dans ce milieu et qui ont de sucroit un rôle protecteur de votre couche cutanée, ainsi que de l'urée.

Les données sont contenues dans le dossier `cas biologique`. Celui-ci présente la même structure que les données sur lesquelles vous avez travaillé précédemment. Les questions seront moins guidées, et auront pour objectif de reconstruire une portion de la réflexion proposée par l'article [Scalable and exhaustive screening of metabolic functions carried out by microbial consortia](https://doi.org/10.1093/bioinformatics/bty588).

```
cas_biologique/
├─ bacteria-reduced/
│  ├─ Actinobacillus_pleuropneumoniae.xml
│  ├─ Bacillus_cereus.xml
│  ├─ Bacillus_sonorensis.xml
│  ├─ Bacteroides_sudatus.xml
│  ├─ Bacteroides_odorus.xml
│  ├─ Bacteroides_transpirum.xml
│  ├─ Brevibacterium_moistis.xml
│  ├─ Clostridium_hiranonis.xml
│  ├─ Collinsella_aerofaciens.xml
│  ├─ Helicobacter_pylori.xml
├─ Bacteroides_ovatus.xml
├─ Human.xml
├─ seeds.xml
├─ targets.xml
```

##### Pour rappel, les commandes vu précedemment sont listées ci dessous, utilisez les afin de répondre aux questions suivantes.

`SCOPES`

Renvoie la plus-value apportée par un groupe à l'environnement.
*Exemple : un ensemble de charpentiers dans une forêt peuvent construire une maison.*

`FOCUS`

Renvoie ce que peut produire un individu au sein du groupe sans prendre en compte ce qu'il a la capacité de produire seul.

`INSTANCE`

Renvoie la combinaison des fiches de compétences du groupe, ainsi que tout ce qu'il y a dans l'environnement et ce que l'on cherche à obtenir. On obtient en sortie un fichier plus lisible, et plus simple à modifier.

`MINCOM`

Renvoie la communauté minimale. 

+ **enumeration** : affiche toutes les solutions possibles de communautés minimales. Cette méthode peut prendre du temps sur de gros fichiers.
+ **union** : liste l'union des individus présents dans les différentes communautés minimales.

+ **option** peut prendre un de ces deux valeurs :
    + **soup** : renvoie une solution de communauté minimale. Elle peut être combinée avec --enumeration et --union.
    + **minexch** : renvoie la communauté minimale avec le plus petit nombre d'échanges parmi toutes les solutions minimales. Elle peut être combinée avec --enumeration et --union.



##### Remarques

Toutes ces commandes acceptent en paramètre `output_json='path_to_json_file.json'` ; n'hésitez pas à l'utiliser pour récupérer vos résultats.
Par ailleurs, en Python, il est possible d'écrire `results=load(open(f"path_to_json_file.json", "r"))` pour charger dans la variable `results` le contenu du fichier .json sous forme de dictionnaire.

##### Question 2.1 : La première étape est de définir un milieu de culture approprié pour nos bactéries. Nous souhaitons vérifier si à partir du métabolite `UREE` notre ensemble de bactéries peut produire le métabolite `NERYL_ACETATE`. Ecrivez la commande vous permettant de vérifier que `NERYL_ACETATE` est productible.

##### Question 2.2 : Après quelques recherches vous décidez d'ajouter maintenant les métabolites `ETHYL_ACETATE` et `MEVALONATE` en entrée du système en les ajoutant au fichier seeds.xml. Est-ce que `NERYL_ACETATE` est maintenant productible ? Quelles sont les bactéries qui le produisent ?

##### Question 2.3 Voici le schéma des réactions impliquées. Complétez le en accords avec les informations données précédemment.

<img src='pics/cas_biologique_a_trou_début.png'>

##### Question 2.4 : Chargez la sortie .json de la question précédente dans un dictionnaire, et parcourez-le. A quoi correspond la liste associée à la clé `com_scope` ?

##### Question 2.5: Le métabolite `NERYL_ACETATE` est il produit de façon triviale (unique bactérie) ou via une coopération entre bactéries ? Écrivez la commande appropriée afin d’obtenir la liste de toutes les communautés minimales capables de produire le composé. Combien en existe-il ? Quelle taille font elles ?

##### Question 2.6 : En vous aidant des résultats obtenus précédemment, comment interpréter cette multiplicité de solutions dans un cadre biologique ?

##### Question 2.7: Afin d'y voir un peu plus clair, quelle commande permettrait de lister directement (de façon unique) les bactéries d'intérêt impliquées dans la production du `NERYL_ACETATE` ?

##### Question 2.8 : Cette méthode, rapide à exécuter, fait toutefois perdre de l’information biologique : les collaborations nécessaires pour produire un métabolite. Il existe une autre façon de réduire le nombre de solutions sans perdre d’information, laquelle ? Écrivez la commande correspondante. Combien de solutions obtient-on ? Que pouvez vous en déduire ?

Vous communiquez ces résultats aux biologistes de l'équipe. Malheuresement le `MEVALONATE` n'est pas un composé que l'on retrouve dans le métabolisme humain. Les biologistes décident alors de modifier génétiquement une bactérie pour intégrer la réaction suivante à son métabolisme :

<img src='pics/cas_biologique_add.png'>


Cette bactérie est capable de produire du `MVA` à partir de l'`INDOLE`, un composé très présent au niveau des zones de sudation.


##### Question 2.9 : Quel est l'interet de cette modification des biologistes ?

##### Question 2.10 :  Ajoutez manuellement cette réaction au schéma complété précedemment.

##### Question 2.11 : Ajoutez l'`INDOLE` dans le fichier seeds.xml. Ajoutez la bactérie Bactéroides_ovatus dans le répertoire 'cas_biologique'. Quel est l'impact de rajouter une bactérie dans ce dossier ? 

##### Question 2.12 : Relancez la commande précédente. Quel changement observez vous dans les résultats ? En vous aidant du schéma, quelle hypothèse pourrait on faire sur le nombre de bactéries originellement impliquées dans la production et consommation de MVA dans le réseau ? (avant l'ajout de Bacteroides_ovatus)

##### Question 2.13 : On dispose également d’un fichier modélisant l’hôte humain. Il est temps de simuler si nos bactéries et notre hote peuvent produire ensemble `NERYL ACETATE`. Écrivez la commande permettant de visualiser l’ensemble des composés produits par l’association des bactéries et de l’hôte. 

##### Question 2.14 : Listez la liste des bactéries nécessaires pour obtenir le composé d'intérêt, en incluant l'hôte cette fois. Remarquez-vous des changements ? Si oui, à quoi sont-ils liés ? Si non, pourquoi ?

## Partie III : Les rocambolesques questions bonus

<img src='graph_relation.png' width="569" height="430">

Dans l'article [Scalable and exhaustive screening of metabolic functions carried out by microbial consortia](https://doi.org/10.1093/bioinformatics/bty588), lorsqu'ils travaillaient sur un grand jeu de données, les auteurs ont effectué un calcul de l'union des solutions. Or, on a pu voir qu'utiliser union faisait perdre l'information biologique du nombre de communautés minimales.

##### Question 3.1 : Quel est l'intérêt de faire un calcul d'union plutôt que d'énumération ?

###### Question 3.2 : Quelles sont d'après vous les limites de Miscoto ?

##### Question 3.3 : Comparez les métabolites produits par deux des bactéries. Lesquels sont en commun ?

Conseil : sauvegardez les sorties au format .json pour pouvoir les recharger avec la méthode `load` de la librairie `json`.

##### Question 3.4 : Tracez, pour le jeu de données fourni, le graphique en barres représentant le nombre de communautés minimales en fonction des fonctions.

In [None]:
import matplotlib.pyplot as plt