# Corrigé — Projet : Enquête ADN
Version corrigée avec solutions et explications.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display

# Lecture des fichiers
suspects = pd.read_csv('Projet_ADN/adn_suspects.csv')
scene = pd.read_csv('Projet_ADN/adn_scene.csv')
display(suspects)
display(scene)


In [None]:
# Nettoyage des données
print('NaN par colonne (avant) :')
print(suspects.isna().sum())
suspects_clean = suspects.fillna(suspects.mean(numeric_only=True))
print('\nNaN par colonne (après) :')
print(suspects_clean.isna().sum())
display(suspects_clean)


In [None]:
# Analyse comparative
scene_vals = scene.iloc[0,1:].to_numpy(dtype=float)
scores = {}
for i, row in suspects_clean.iterrows():
    vals = row[['L1','L2','L3']].to_numpy(dtype=float)
    diff = np.abs(vals - scene_vals)
    scores[row['Nom']] = diff.mean()
scores_sorted = dict(sorted(scores.items(), key=lambda x: x[1]))
print('Scores (de la plus petite à la plus grande) :')
for k,v in scores_sorted.items():
    print(f'{k}: {v:.3f}')


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Supposons que le DataFrame des suspects s’appelle df_suspects
data = df_suspects[["Locus1", "Locus2", "Locus3"]].to_numpy()

# Calculs statistiques
moyennes = np.mean(data, axis=0)
ecarts = np.std(data, axis=0)

print("Moyennes par locus :", np.round(moyennes, 3))
print("Écarts-types par locus :", np.round(ecarts, 3))

# Graphique à barres avec barres d’erreur
locus = ["Locus 1", "Locus 2", "Locus 3"]

plt.bar(locus, moyennes, yerr=ecarts, capsize=5, color="lightblue")
plt.xlabel("Locus")
plt.ylabel("Valeurs moyennes (unités arbitraires)")
plt.title("Variabilité des loci chez les suspects")
plt.show()


### Interprétation

- **Locus 1** présente la plus faible variabilité : il est donc plus stable dans la population.
- **Locus 3** montre un écart-type plus élevé : il varie davantage d’un individu à l’autre.
- En biologie, cette variabilité reflète la **diversité génétique**.  
  Dans le cadre de l’enquête, un locus très variable est plus utile pour distinguer les suspects.


In [None]:
# Visualisation : barres + erreurs
coupable = list(scores_sorted.keys())[0]
suspect_vals = suspects_clean[suspects_clean['Nom']==coupable][['L1','L2','L3']].to_numpy(dtype=float).flatten()
loci = ['L1','L2','L3']
plt.figure(figsize=(6,4))
x = np.arange(len(loci))
plt.bar(x-0.15, suspect_vals, width=0.3, yerr=2, label=coupable, alpha=0.7)
plt.bar(x+0.15, scene_vals, width=0.3, yerr=2, label='ADN_scene', alpha=0.7)
plt.xticks(x, loci)
plt.ylabel('Longueur (pb)')
plt.title(f'Comparaison ADN : {coupable} vs scène')
plt.legend()
plt.show()


In [None]:
# Régression linéaire
a,b = np.polyfit(scene_vals, suspect_vals, 1)
plt.figure(figsize=(6,4))
plt.plot(scene_vals, suspect_vals, 'o', label='données')
xs = np.linspace(min(scene_vals)-5, max(scene_vals)+5, 100)
plt.plot(xs, a*xs+b, '-', label=f'y={a:.2f}x+{b:.2f}')
plt.xlabel('ADN scène (pb)')
plt.ylabel(f'ADN {coupable} (pb)')
plt.legend()
plt.show()


In [None]:
# Sauvegarde des résultats
with open('Projet_ADN/resultats_adn.txt', 'w') as f:
    f.write(f'Coupable probable: {coupable}\n')
    f.write('Scores:\n')
    for name, sc in scores_sorted.items():
        f.write(f'{name}: {sc:.3f}\n')
print('resultats_adn.txt créé (voir dossier Projet_ADN/)')
display(pd.read_csv('Projet_ADN/resultats_adn.txt', header=None))


---
## Conclusion (exemple)
Selon l'analyse des trois loci, le suspect dont le profil présente la plus faible différence moyenne par rapport à l'échantillon trouvé est indiqué ci‑dessus. Cette méthode simple (différence absolue moyenne) fournit une première hypothèse de travail ; en contexte réel, on utiliserait davantage de loci et des méthodes statistiques plus robustes.
