

# Projet de Data Analyse : Refonte d'un Dashboard de Performance

**Contexte :** Dans ma précédente vie (oui, oui, celle où j'étais un simple ingénieur métrologie/qualification 😴), je devais suivre la performance de mon équipe.  Mon arme secrète ? Un dashboard Excel digne d'un artiste peintre... enfin, presque.  Il était fonctionnel, mais aussi stylé qu'une feuille de calcul vierge.  On était loin du niveau de *flex* qu'on attend en 2024.

**Objectif :**  Aujourd'hui, je suis en mode *level up* data analysis 💪.  Je suis en train de maîtriser le SQL, Python (avec Pandas et Seaborn, mes nouveaux meilleurs amis), Power BI et Tableau.  Le but du jeu ? Refaire mon vieux dashboard Excel ringard avec ces nouvelles technologies, pour un résultat 1000x plus stylé et surtout beaucoup plus efficace.

**Démarche :**

* **Python (Pandas & Seaborn):**  Je vais reprendre toutes mes données et les transformer en un dashboard interactif et visuellement époustouflant.  Imagine des graphiques qui bougent, des couleurs qui éclatent, bref, un truc qui ferait pâlir d'envie mon ancien Excel.  On parle d'un *upgrade* monumental, niveau Thanos snap ! 💥
* **Power BI:**  Pour compléter le tout, je vais créer une version du dashboard sur Power BI, pour comparer les deux approches et montrer ma maîtrise de cet outil.  Le but étant de pouvoir choisir l’outil le plus approprié pour une utilisation donnée. 

**Résultats attendus :** Deux dashboards identiques en termes de données présentées, mais avec une différence de présentation, d'interactivité et de possibilités d'analyse.

**Pourquoi c'est cool ?**

Parce que c'est un projet concret, qui démontre mes compétences en data analysis et ma capacité à utiliser différents outils.  C'est aussi l'occasion de montrer que je peux transformer une vieille feuille Excel en un dashboard moderne et performant.  C’est un peu comme passer de la Gameboy à la Playstation 5, mais en data ! 🚀


## Démarche

1.  **Collecte et préparation des données :** Les données sources proviennent du tableau de bord Excel existant.  Une étape de nettoyage et de transformation des données est nécessaire pour garantir la qualité et la cohérence des données.  Cela inclut la gestion des valeurs manquantes, la correction des erreurs et la création de nouvelles variables si nécessaire.

2.  **Développement du dashboard Python :** Utilisation de Pandas pour la manipulation et l'analyse des données et de Seaborn pour la création de visualisations de haute qualité. Les visualisations incluent :
    *   Tableau pour présenter les indicateurs clés (Moyens en service, Moyens actifs, Total retards, Taux de service, Taux de retard, Temps de retard moyen).
    *   Histogramme pour analyser les retards par atelier et par durée de retard.
    *   Camembert pour visualiser la distribution des équipements par statut.

3.  **Développement du dashboard Power BI :**  Création d'un tableau de bord équivalent dans Power BI, en utilisant ses fonctionnalités de visualisation interactive et de reporting.


## Indicateurs clés

*   **Moyens en service N1 :** Équipements disponibles à l'utilisation.
*   **Moyens actifs N2 :** Équipements disponibles + équipements en attente de service.
*   **Total retards N3 :** Nombre total de retards.
*   **Taux de service N1/N2 :** Rapport entre les moyens en service et les moyens actifs.
*   **Taux de retard N3/N2 :** Rapport entre le total des retards et les moyens actifs.
*   **Temps de retard moyen (mois) :** Retard moyen en mois.
*   **Nombre d'étalonnages :** Nombre d'étalonnages réalisés.

## Technologies utilisées

*   Python (Pandas, Seaborn, Matplotlib)
*   Power BI
*   Excel

## Résultats attendus

*   Deux dashboards fonctionnels et interactifs (Python et Power BI).
*   Un code source Python clair, documenté et facilement maintenable.

## 1/ Préparation et collecte des données  



In [1]:
import pandas as pd 

clean_data = pd.read_pickle("clean_data.pkl")
clean_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7175 entries, 0 to 7174
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Marquage          7175 non-null   object        
 1   Famille           7175 non-null   object        
 2   Unnamed: 2        0 non-null      float64       
 3   Date Validité     5205 non-null   datetime64[ns]
 4   Etat              7175 non-null   object        
 5   ATELIER / ILOT    6994 non-null   object        
 6   DATE_REALISATION  5117 non-null   datetime64[ns]
dtypes: datetime64[ns](2), float64(1), object(4)
memory usage: 392.5+ KB


# Nettoyage des données pour le dashboard de performance

1. **Suppression de la colonne "`Unnamed: 2`"**: Cette colonne ne contient que des valeurs nulles.  Elle est donc inutile pour mon analyse et je vais la supprimer.

2. **Gestion des équipements sans date de validité**: Les équipements sans date de validité dans la colonne "`Date Validité`" ne sont pas soumis à l'étalonnage.  Pour éviter de supprimer par erreur des équipements en attente d'étalonnage, je vais supprimer uniquement les lignes sans date de validité ET dont l'état n'est PAS 'ATTENTE'. Cette approche garantit que je ne perds pas d'informations cruciales sur les équipements qui nécessitent une intervention.

3. **Vérification de la cohérence des données**:  Avant de poursuivre, je vais vérifier la cohérence des données dans les colonnes restantes ('`Marquage`', '`Famille`', '`Etat`', '`ATELIER / ILOT`').  J'utiliserai la méthode `.unique()` pour identifier les valeurs uniques et détecter d'éventuelles erreurs ou incohérences. 

4. **Conversion de type (si nécessaire)**: Les colonnes '`Date Validité`' et '`DATE_REALISATION`' sont déjà de type `datetime64`. Les autres colonnes ne continnent que des données qualitatives.

Les étapes de nettoyage terminés, je vais enregistrer les données sur un fichier .pkl, afin de poursuivre le projet sur une nouveau fichier .ipynb.


In [2]:
#---------------------------------1/ Supression colonne unnammed-------------------------------------------------------
clean_data.pop('Unnamed: 2') 


0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
        ..
7170   NaN
7171   NaN
7172   NaN
7173   NaN
7174   NaN
Name: Unnamed: 2, Length: 7175, dtype: float64

In [3]:
clean_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7175 entries, 0 to 7174
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Marquage          7175 non-null   object        
 1   Famille           7175 non-null   object        
 2   Date Validité     5205 non-null   datetime64[ns]
 3   Etat              7175 non-null   object        
 4   ATELIER / ILOT    6994 non-null   object        
 5   DATE_REALISATION  5117 non-null   datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 336.5+ KB


In [4]:
#---------------------------------2/ Supression des équipements nécéssitant pas d'étalonnage---------------------------
clean_data['Etat'].unique()

array(['PERDU', 'COMPOSANT CHAINE', 'EN SOMMEIL', 'HORS GESTION',
       'EN SERVICE', 'EN ETAL/VERIF EXT', 'INDICATEUR', 'NON UTILISE',
       'EN ETAL/VERIF INT', 'ATTENTE DISPONIBILITE', 'REBUT',
       'EN SERVICE REDUIT', 'SOUS ANOMALIE', 'REPARATION NON GEREE',
       'VERIF AVANT UTIL', 'EN PRET', 'EN REPARATION EXT'], dtype=object)

In [5]:
clean_data['Date Validité'].unique()

<DatetimeArray>
[                'NaT', '2021-06-12 00:00:00', '2017-12-14 00:00:00',
 '2021-01-16 00:00:00', '2020-04-24 00:00:00', '2022-08-01 00:00:00',
 '2022-08-02 00:00:00', '2022-08-04 00:00:00', '2022-07-23 00:00:00',
 '2023-12-06 00:00:00',
 ...
 '2023-10-24 00:00:00', '2024-06-16 00:00:00', '2023-08-31 00:00:00',
 '2023-10-14 00:00:00', '2024-11-17 00:00:00', '2023-12-05 00:00:00',
 '2024-02-09 00:00:00', '2025-01-11 00:00:00', '2024-09-07 00:00:00',
 '2025-10-09 00:00:00']
Length: 950, dtype: datetime64[ns]

In [6]:
date_validite_nul=clean_data.loc[clean_data['Date Validité'].isnull(), ['Etat', 'Date Validité']].drop_duplicates()
date_validite_nul

Unnamed: 0,Etat,Date Validité
0,PERDU,NaT
1,COMPOSANT CHAINE,NaT
92,HORS GESTION,NaT
119,EN ETAL/VERIF EXT,NaT
134,EN SOMMEIL,NaT
147,INDICATEUR,NaT
1099,NON UTILISE,NaT
4079,EN PRET,NaT
4184,ATTENTE DISPONIBILITE,NaT
4203,SOUS ANOMALIE,NaT


In [7]:
#suppression des lignes dont l'état est  ['PERDU','COMPOSANT CHAINE','HORS GESTION','INDICATEUR','NON UTILISE']
from datetime import datetime, timedelta

# Filtrage des équipements perdus avec date de validité dépassée d'un an
perdus_expires = clean_data.loc[
    (clean_data['Etat'].str.lower() == 'perdu') &
    (pd.to_datetime(clean_data['Date Validité']) < (pd.to_datetime('2023/11/1') - timedelta(days=365))),['Etat', 'Date Validité']
]

clean_data.drop(perdus_expires.index, inplace=True)

clean_data.info()


<class 'pandas.core.frame.DataFrame'>
Index: 7012 entries, 0 to 7174
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Marquage          7012 non-null   object        
 1   Famille           7012 non-null   object        
 2   Date Validité     5042 non-null   datetime64[ns]
 3   Etat              7012 non-null   object        
 4   ATELIER / ILOT    6831 non-null   object        
 5   DATE_REALISATION  4954 non-null   datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 383.5+ KB


In [8]:
autres_equipements_non_geres = clean_data.loc[
    clean_data['Etat'].isin(['COMPOSANT CHAINE','HORS GESTION','INDICATEUR','NON UTILISE'])
]
clean_data.drop(autres_equipements_non_geres.index, inplace=True)
clean_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5262 entries, 0 to 7174
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Marquage          5262 non-null   object        
 1   Famille           5262 non-null   object        
 2   Date Validité     4706 non-null   datetime64[ns]
 3   Etat              5262 non-null   object        
 4   ATELIER / ILOT    5083 non-null   object        
 5   DATE_REALISATION  4639 non-null   datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 287.8+ KB


In [9]:
#il reste encore des équipements sans date de validité on va les afficher à la recherche d'où ça peut venir
clean_data.loc[
    clean_data['Date Validité'].isna()
]


Unnamed: 0,Marquage,Famille,Date Validité,Etat,ATELIER / ILOT,DATE_REALISATION
0,ACTTB1172,GENERATEUR DE FONCTION,NaT,PERDU,MOYENS D'ESSAIS,NaT
6,EL166,/,NaT,PERDU,,NaT
8,PT0002,CAPTEUR DE TEMPERATURE,NaT,PERDU,EXTERIEUR,NaT
9,PT0003,CAPTEUR DE TEMPERATURE,NaT,PERDU,EXTERIEUR,NaT
119,E41584,SHUNT,NaT,EN ETAL/VERIF EXT,SUPPORT TECHNIQUE CLIENTS,NaT
...,...,...,...,...,...,...
7165,M92230,COUPLEMETRE,NaT,EN ETAL/VERIF EXT,ESSAIS MOTEURS ET EQUIPEMENTS,NaT
7170,M92159-1,CLE REGLABLE A ECHELLE GRADUEE,NaT,SOUS ANOMALIE,LIGNE PIECES À AUBAGES,NaT
7172,M92231,POMPE HYDRAULIQUE,NaT,EN ETAL/VERIF INT,LIGNE PIECES À AUBAGES,NaT
7173,AP030,/,NaT,EN ETAL/VERIF EXT,ESSAIS MOTEURS ET EQUIPEMENTS,NaT


In [10]:
#etat des équipements dont la date de validité est non renseignée
clean_data.loc[
    clean_data['Date Validité'].isna()
].groupby('Etat').count()

Unnamed: 0_level_0,Marquage,Famille,Date Validité,ATELIER / ILOT,DATE_REALISATION
Etat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ATTENTE DISPONIBILITE,17,17,0,17,0
EN ETAL/VERIF EXT,5,5,0,5,0
EN ETAL/VERIF INT,8,8,0,8,0
EN PRET,2,2,0,0,0
EN REPARATION EXT,1,1,0,1,0
EN SERVICE,10,10,0,10,0
EN SOMMEIL,454,454,0,452,0
PERDU,53,53,0,52,0
SOUS ANOMALIE,6,6,0,6,0


13 sont en étalonnage  
17 en attente de dispo  
2 en prêt  
1 en réparation  
10 sont toutefois en service  ==> Il faudra les identifier et essayer de comprendre où ils sont par la suite  
53 sont perdus  
6 sous anomalie  
454 sont en sommeil  

Je ne vais pas supprimer plus de colonnes, parce que ce tableau met quand même en évidence 556 équipements non gérés, dont 10 en service, ce qui peut être une élément critique à considérer. Ce sera un tableau à reprendre lors du rapport d'analyse.


In [11]:
#---------------------------------3/ Vérification cohérence données ------------------------------------------------
clean_data.columns



Index(['Marquage', 'Famille', 'Date Validité', 'Etat', 'ATELIER / ILOT',
       'DATE_REALISATION'],
      dtype='object')

In [12]:
colonnes=['Famille', 'Date Validité', 'Etat', 'ATELIER / ILOT',
       'DATE_REALISATION']
for colonne in colonnes:
    print(clean_data[colonne].unique())

['GENERATEUR DE FONCTION' '/' 'CAPTEUR DE FORCE' 'CAPTEUR DE TEMPERATURE'
 'ACCELEROMETRE MONO-AXE (NON ICP)' 'CAPTEUR DE PRESSION' 'MOTEURS'
 'EQUIPEMENTS' 'ACCELEROMETRE' 'MANOMETRE' 'FREQUENCEMETRE' 'AMPEREMETRE'
 'VOLTMETRE' 'THERMOMETRE' 'DEBITMETRE A TURBINE' 'EPROUVETTE GRADUEE'
 'CHRONOMETRE' 'CHAÎNE DE TEMPERATURE' 'VALISE DE TEST ELECTRIQUE' 'SHUNT'
 'BALANCE' 'MULTIMETRE' 'CLE REGLABLE A ECHELLE GRADUEE' 'BAROMETRE'
 'EQUILIBREUSE' 'CHAINE DE MESURE DE PRESSION' 'CLE REGLEE A COUPLE FIXE'
 'ETUVE' 'ENREGISTREUR' 'HYDRAULIQUE' 'GENERATEUR MULTIFONCTION'
 'AMPLIFICATEUR' 'CONVERTISSEUR ANALOGIQUE' 'AFFICHEUR' 'COUPLEMETRE'
 'MILLIAMPEREMETRE' 'CLE DYNAMOMETRIQUE' 'MACHINE DE FORCE'
 'DEBITMETRE CORIOLIS' 'TACHYMETRE' 'TOURNEVIS DYNAMOMETRIQUE'
 'CLE A REARMEMENT MANUEL' 'TESTEUR - BRACELET' 'LUMINANCEMETRE'
 'CHAINE DE FORCE' 'MACHINE DE DURETE' 'DUROMETRE' 'MICRODUROMETRE'
 'MICROSCOPE' 'MACROSCOPE' 'SONDE' 'RADIAMETRE' 'PINCE BAND IT' 'BUNKER'
 'RADIOMETRE-LUXMETRE' 'BANC DE

Pas d'incohérence dans les valeurs des différentes colonnes  
Il existe parcontre des équipements dont on ne connaît pas l'atelier.  

In [13]:
atelier_manquant=clean_data.loc[
    clean_data['ATELIER / ILOT'].isna(),['Etat','ATELIER / ILOT']
].drop_duplicates()

atelier_manquant

Unnamed: 0,Etat,ATELIER / ILOT
6,PERDU,
1786,EN SOMMEIL,
4079,EN PRET,


Mais ce sont des équipements perdus, en sommeil, des composants de chaîne ou en prêt.  
Donc pas d'incohérance en soit.  

In [14]:
#-------------------------4/ Enregistrement au format pickel-------------------------------------------------------
clean_data = clean_data.to_pickle("clean_data.pkl") 