# üß¨ Analyse des Enzymes Industrielles - Template

**Projet :** Mast√®re Bioinformatique - Identification Enzymes  
**Auteur :** Takoi Rizgui  
**Date :** _√Ä compl√©ter_  
**G√©nome :** _√Ä compl√©ter_

---

## üéØ Objectifs

- Identifier automatiquement les enzymes industrielles
- Cataloguer par famille (lipases, prot√©ases, cellulases, etc.)
- S√©lectionner les meilleurs candidats pour AlphaFold
- Analyser la distribution et les propri√©t√©s

---

## 1Ô∏è‚É£ Import des Librairies

In [None]:
# BioPipeline Toolkit
from biopipeline.annotation import EnzymeFinder

# Librairies
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Config
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
%matplotlib inline

print("‚úÖ Librairies import√©es")

## 2Ô∏è‚É£ Configuration

In [None]:
# ===== √Ä PERSONNALISER =====
GBK_FILE = "path/to/prokka_output.gbk"  # ‚ö†Ô∏è Fichier GenBank
GENOME_NAME = "GENOME_001"
ORGANISM = "Bacillus sp."
# ==========================

print(f"üìÅ G√©nome : {GENOME_NAME}")
print(f"üß¨ Organisme : {ORGANISM}")
print(f"üìÑ Fichier : {GBK_FILE}")

## 3Ô∏è‚É£ Identification des Enzymes

In [None]:
# Charger et analyser
print("‚è≥ Analyse du g√©nome annot√©...")
finder = EnzymeFinder(GBK_FILE)

# Identifier toutes les enzymes
enzymes = finder.find_all_enzymes()

print(f"\n‚úÖ {len(enzymes)} enzymes identifi√©es !\n")
print(finder)

## 4Ô∏è‚É£ Vue d'Ensemble du Catalogue

In [None]:
# Afficher les premi√®res enzymes
enzymes.head(10)

In [None]:
# Statistiques par famille
catalog = finder.catalog_by_family()
catalog

## 5Ô∏è‚É£ Distribution par Famille

In [None]:
# Graphique camembert
finder.plot_family_distribution()

In [None]:
# Distribution des longueurs
finder.plot_length_distribution()

## 6Ô∏è‚É£ Analyse par Famille

In [None]:
# ===== LIPASES =====
lipases = finder.filter_by_family('Lipases')
print(f"\nüîπ LIPASES : {len(lipases)} identifi√©es\n")
lipases[['locus_tag', 'product', 'length', 'ec_number']].head(10)

In [None]:
# ===== PROTEASES =====
proteases = finder.filter_by_family('Proteases')
print(f"\nüîπ PROTEASES : {len(proteases)} identifi√©es\n")
proteases[['locus_tag', 'product', 'length', 'ec_number']].head(10)

In [None]:
# ===== CELLULASES =====
cellulases = finder.filter_by_family('Cellulases')
print(f"\nüîπ CELLULASES : {len(cellulases)} identifi√©es\n")
cellulases[['locus_tag', 'product', 'length', 'ec_number']].head(10)

## 7Ô∏è‚É£ S√©lection des Candidats pour AlphaFold

In [None]:
# Crit√®res de s√©lection
MIN_LENGTH = 200   # Minimum 200 aa
MAX_LENGTH = 800   # Maximum 800 aa (limite AlphaFold)

# Filtrer
candidates = finder.filter_by_length(MIN_LENGTH, MAX_LENGTH)

print(f"‚úÖ {len(candidates)} candidats s√©lectionn√©s pour AlphaFold")
print(f"   (longueur entre {MIN_LENGTH} et {MAX_LENGTH} aa)\n")

# Distribution par famille
candidates['family'].value_counts()

In [None]:
# Top 20 candidats (par longueur)
top20 = candidates.nlargest(20, 'length')
top20[['locus_tag', 'family', 'product', 'length', 'ec_number']]

## 8Ô∏è‚É£ Export des R√©sultats

In [None]:
# Cr√©er dossier
output_dir = Path(f"results/{GENOME_NAME}_enzymes")
output_dir.mkdir(parents=True, exist_ok=True)

# 1. Catalogue complet CSV
finder.export_to_csv(output_dir / f"{GENOME_NAME}_enzyme_catalog.csv")

# 2. S√©quences pour AlphaFold
finder.export_for_alphafold(
    output_dir / f"{GENOME_NAME}_for_alphafold.fasta",
    min_length=MIN_LENGTH,
    max_length=MAX_LENGTH
)

# 3. Rapport HTML
finder.generate_html_report(output_dir / f"{GENOME_NAME}_enzyme_report.html")

print(f"\n‚úÖ Tous les fichiers export√©s dans {output_dir}/")

## 9Ô∏è‚É£ Notes et Observations

### Observations principales :
_√Ä compl√©ter avec tes observations_

### Candidats prioritaires :
_√Ä compl√©ter_

### Prochaines √©tapes :
1. Pr√©diction structures 3D avec AlphaFold
2. Analyse sites actifs
3. Comparaison avec enzymes connues
4. S√©lection pour validation exp√©rimentale

---

**‚úÖ Analyse Termin√©e**