# üî¨ Projet corrig√© : Enqu√™te scientifique par analyse d‚ÄôADN

Ce carnet contient une solution possible √† l'enqu√™te ADN avec des exemples de fonctions, d'analyses et de visualisations.


## üß≠ 1. Planification

√âtapes pr√©vues :
1. Charger et explorer les donn√©es
2. Cr√©er une fonction pour comparer deux s√©quences malgr√© les `?`
3. Calculer les pourcentages de correspondance pour chaque suspect et chaque locus
4. Cr√©er un tableau synth√®se
5. G√©n√©rer un diagramme √† barres avec barres d‚Äôerreur
6. Effectuer une r√©gression lin√©aire entre deux loci
7. Interpr√©ter les r√©sultats


## üßº 2. Chargement et nettoyage des donn√©es

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

df = pd.read_csv("suspects.csv")
df.head()

## üßÆ 3. Calculs de correspondance

In [None]:
def comparer_sequences(seq1, seq2):
    correspondances = 0
    valides = 0
    for a, b in zip(seq1, seq2):
        if a != '?' and b != '?':
            valides += 1
            if a == b:
                correspondances += 1
    if valides == 0:
        return np.nan
    return (correspondances / valides) * 100


In [None]:
def analyser_suspects(df):
    loci = ['Locus_1', 'Locus_2', 'Locus_3']
    reference = df[df["Nom"] == "Crime"].iloc[0]
    resultats = []

    for i, row in df.iterrows():
        if row["Nom"] == "Crime":
            continue
        scores = []
        for locus in loci:
            score = comparer_sequences(row[locus], reference[locus])
            scores.append(score)
        moyenne = np.nanmean(scores)
        resultats.append({
            "Nom": row["Nom"],
            "Locus_1": scores[0],
            "Locus_2": scores[1],
            "Locus_3": scores[2],
            "Moyenne": moyenne
        })
    return pd.DataFrame(resultats)

df_scores = analyser_suspects(df)
df_scores

## üìä 4. Visualisation des r√©sultats

In [None]:
def graphique_correspondances(df_scores):
    labels = df_scores["Nom"]
    x = np.arange(len(labels))
    width = 0.2

    fig, ax = plt.subplots(figsize=(10, 6))
    ax.bar(x - width, df_scores["Locus_1"], width, label="Locus 1")
    ax.bar(x, df_scores["Locus_2"], width, label="Locus 2")
    ax.bar(x + width, df_scores["Locus_3"], width, label="Locus 3")

    for i in range(len(labels)):
        for j, col in enumerate(["Locus_1", "Locus_2", "Locus_3"]):
            ax.errorbar(x[i] + (j - 1) * width, df_scores[col][i], yerr=5, fmt='none', ecolor='black')

    ax.set_ylabel('Pourcentage de correspondance')
    ax.set_title('Correspondance ADN par locus')
    ax.set_xticks(x)
    ax.set_xticklabels(labels)
    ax.legend()
    plt.tight_layout()
    plt.show()

graphique_correspondances(df_scores)

## üìà 5. R√©gression lin√©aire

In [None]:
x = df_scores["Locus_1"]
y = df_scores["Locus_2"]
res = stats.linregress(x, y)

plt.figure(figsize=(6, 5))
plt.scatter(x, y)
plt.plot(x, res.intercept + res.slope * x, 'r', label=f'y={res.slope:.2f}x+{res.intercept:.2f}')
plt.xlabel("Locus 1")
plt.ylabel("Locus 2")
plt.title("R√©gression lin√©aire entre Locus 1 et Locus 2")
plt.legend()
plt.grid()
plt.show()

print(f"Pente : {res.slope:.2f} ¬± {res.stderr:.2f}")
print(f"R¬≤ : {res.rvalue**2:.2f}")

## üß† 6. Interpr√©tation

- Le ou les suspects avec les taux les plus √©lev√©s sont les plus probables.
- L‚Äôanalyse montre une corr√©lation mod√©r√©e entre les loci 1 et 2.
- Les incertitudes biologiques (caract√®res manquants) diminuent la pr√©cision.
- On pourrait am√©liorer l‚Äôanalyse avec plus de loci ou d‚Äôoutils bioinformatiques.


## üß™ Bonus : Limites biologiques

- Les mutations naturelles ou les erreurs de s√©quen√ßage peuvent fausser les r√©sultats.
- La contamination ou la d√©gradation des √©chantillons sont des facteurs √† consid√©rer.
