# Analyse des Victimes de Harold Shipman

## Objectif du Projet

Ce projet vise à analyser les décès liés au docteur Harold Shipman à l'aide de Power BI. Il combine des données temporelles, démographiques et géographiques afin de mieux comprendre les motifs, périodes et profils des victimes.


## Étapes du Projet:

### 1. **Importation des Données**
- Deux fichiers CSV ont été importés :
  - `shipman-confirmed-victims.csv` : Données démographiques et temporelles des victimes.
  - `shipman-times-comparison.csv` : Comparaison des horaires de décès avec d'autres médecins.


### 2. **Nettoyage et Préparation**
-Modéle des Tables:  
Fichier shipman-confirmed-victims.csv :  
Ce fichier contient les données individuelles des victimes confirmées de Harold Shipman.

    DateofDeath : Date du décès de la victime.  
    Name : Nom de la victime.  
    Age : Âge de la victime au moment du décès.  
    PlaceofDeath : Lieu du décès (ex. : "Own home", "Hospital").  
    Decision : Décision de justice ou classification du décès (principalement "Unlawful killing").  
    yearOfDeath : Année extraite de la date du décès.  
    gender : Sexe codé en binaire (0 pour femmes, 1 pour hommes).  
    fractionalDeathYear : Représente l’année du décès avec une précision décimale (ex. : 1983.79), permettant une analyse temporelle plus fine.  
    ageBracket : Tranche d’âge de la victime (ex. : "70-74", "80-84").  
    gender2 : Sexe exprimé sous forme textuelle ("Men", "Women").  

![Capture d'écran 2025-05-11 164733.png](attachment:8a80bee2-dd9a-4520-8707-d71523190190.png)
shipman-times-comparison
![Capture d'écran 2025-05-11 164733.png](attachment:aadc1bdc-4840-4bc3-968b-95fcc9c64595.png)
- Gestion des valeurs manquantes:
     toutes les colonnes sont complétes  
  ![Capture d'écran 2025-05-10 125240.png](attachment:e274e5a6-1b99-4823-8adb-c8c5cc7620e3.png).
- Transformation de données:
  
    - Apres vérification des colonnes elles apparaissent au bon format.
    - Création de colonnes calculées et dérrivées:
        - Afin de permettre une analyse plus fine et des visualisations pertinentes, plusieurs colonnes ont été créées ou modélisées dans Power BI. Les colonnes jour et Mois ont été dérivées de la date de décès afin d'étudier la distribution des morts selon les jours de la semaine et les mois. Enfin, deux mesures DateMin et DateMax ont été calculées pour encadrer la période d’activité du Dr Shipman, et une mesure personnalisée PeriodeActivite permet d’afficher cette plage de dates sur le tableau de bord.

      - `JourSemaine` : Jour de la semaine du décès.  
                 JourSemaine = FORMAT('shipman-confirmed-victims'[DateofDeath], "dddd", "fr-FR")
                 JourSemaineNum = WEEKDAY('shipman-confirmed-victims'[DateofDeath], 2) pour pouvoir trier les jours par ordre

      - `Mois` : Mois du décès.  
                 Mois = FORMAT('shipman-confirmed-victims'[DateofDeath], "mmmm", "fr-FR")
                 MoisNum = MONTH('shipman-confirmed-victims'[DateofDeath]) pour pouvoir trier les mois par ordre
 ### 3. **Modélisation**    
-  Création de mesures DAX :  
  - `Nombre total de victimes`
  - `Âge moyen`
  - `Période d'activité` (entre la première et la dernière date de décès)               
      - `DateMin`  
            DateMin = MIN('shipman-confirmed-victims'[DateofDeath])
      - `DateMax`  
            DateMax = MAX('shipman-confirmed-victims'[DateofDeath])



##  Visualisations Réalisées

### 1. **Vue d'ensemble**
- **Nombre total de victimes**
- **Âge moyen**
- **Période d’activité** (date du premier au dernier décès)

### 2. **Analyse temporelle**
- **Heatmap jour/mois** : Fréquence des décès par jour de la semaine et mois.
- **Distribution horaire des décès** : Graphique en colonnes comparant Shipman et d'autres médecins.

### 3. **Analyse démographique**
- Répartition des victimes par genre, tranche d’âge, lieu de décès.

### 4. **Cartographie**
- Carte des lieux de décès (domicile, hôpital, maison de retraite, etc.).


##  Observations et Analyses

- **Concentration horaire** : Les décès causés par Shipman surviennent majoritairement dans la matinée, contrairement aux autres médecins.
- **Profil des victimes** : Principalement des femmes âgées vivant seules à domicile.
- **Période critique** : Activité plus intense entre 1993 et 1998.
- **Jour et mois les plus fréquents** : Une forte fréquence des décès les mardis et jeudis, avec des pics entre janvier et mars.


### Etude de la corrélation

### Interpretations