# Predictive Maintenance

## Inleiding

**Auteurs:** *R. Coenen, Y. Dera, M. Vliex & S. van Wesel* <br>

## Inhoudsopgave

* [1. Business Understanding](#Chapter1)
* [2. Data mining](#Chapter2)
* [3. Data Cleaning](#Chapter3)
* [4. Data Exploration](#Chapter4)
* [5. Feature Engineering](#Chapter5)
* [6. Predictive Modeling](#Chapter6)
* [7. Data visualization](#Chapter7)

---

# 1. Business Understanding <a class="anchor" id="Chapter1"></a><br>
**Stel relevante vragen en definieer doelstellingen voor het probleem dat moet worden aangepakt.** <br>

**1.1 Over dit hoofdstuk:** <br>
In deze fase is het belangrijk om begrip te krijgen voor de probleemstelling van de klant. Het overzichtelijk in kaart brengen van de wens van de opdrachtgever kan er in resulteren dat de gegevens beter begrepen worden en dat de juisite zinvolle inzichten uit de gegevens afgeleid zullen worden. In deze fase wordt de doelstelling van het project gedefinieerd en wordt omschreven welke voorspellingen uitgewerkt moeten worden. 

**1.2 De situatie** <br>
De opdrachtgever van dit project heeft aan de projectgroep de opdracht verstrekt om een dataset te zoeken die gebruikt kan worden om voorspellingen te doen inzake het onderhoud van machines, deze methodiek heet predictive maintenance.. Het idee achter predictive maintenance is dat door het monitoren van apparatuur/machines met sensoren de life (of fail) cycle gemanaged kan worden en zo uitval van machines op tijd aangepakt
kan worden; dit is dan ook gelijk de hoofdvraag van dit project. De vertaalslag van sensor data naar een predictie over bijvoorbeeld de resterende levensduur van een apparaat is echter moeilijk en hierbij komen verschillende technieken uit de datascience en machine learning hoek aan te pas. Aan de projectgroep de taak deze vertaalslag te maken en middels verschillende methodieken uit te werken.

Predictive maintenance is een techniek welke gebruik maakt van data analyse tools en technieken om afwijkingen in een organisatie en mogelijke gebreken in apparatuur en processen vroegtijdig te detecteren zodat deze afgehandeld kunnen worden nog vóór dat deze resulteren in een fout {1}. Enerzijds focust predictive maintenance zich op het voorkomen van reactive maintenance {2}, waarbij het anderzijds de kosten voor preventive maintenance {3} probeert te verlagen.

Ter verduidelijking, er zijn een drietal vormen van predictive maintenance:

<b>Reactive (reactief)</b> - Onderhoud uitvoeren zodra er een probleem is<br>
Probleem: onverwachte storingen kunnen duur (kosten) en potentieel gevaarlijk zijn

<b>Scheuduled (gepland)</b> - Onderhoud uitvoeren op basis van een (regelmatig) schema<br>
Probleem: onnodig onderhoud kan verspilling zijn; mogelijk worden niet alle storingen verholpen

<b>Predictive (voorspellend)</b> - Voorspellen wanneer zich problemen zullen voordoen<br>
Probleem: moeilijk om nauwkeurige voorspellingen te doen voor complexe apparatuur

**1.3 Doelstelling** <br>
De casusgroep zal op basis van onderzoek een realisatie maken van een pipeline die gaat van ruwe data naar een predictie model.

**1.4 Resultaat** <br>
Een dataset en bijbehordende pipeline (i.c.m. Python scripts in Jupyter notebook vorm) voor predictive maintenance.

**1.5 Hoofdvraag** <br>
Hoe kan predictive maintenance er voor zorgen, met behulp van monitoring van apparatuur/machines/sensoren, dat de life (of fail) cycle van een machine gemanaged kan worden en zo de uitval van machines op tijd aangepakt worden.

**1.6 Deelvraag** <br>
Is het mogelijk om de data in te zetten om een predictie te krijgen van de resterende levensduur van een apparaat?

**1.7 Hypotheses** <br>
- Is het mogelijk te voorspelen welke onderdelen in de toekomst zullen falen? 
- Is het mogelijk om, middels het gebruik van labels (classificatie) meerdere klassen aan te maken met een status inzake de gezondheid van de machines/componenten. Denk bijv. aan "normaal", "onderhoud gewenst", "onderhoud kritiek" etc.

**1.8 Tools** <br>
Er zijn diverse tools die ingezet zijn bij de realisatie van dit onderzoeksrapport. Deze worden hieronder in de tabel weergeven, inclusief een (beknopte) omschrijving.<br>
De modules voor Python zijn in het hoorcollege en discussiecollege van week 4 aan bod gekomen.

| Naam              | Soort | Omschrijving | Meer informatie
| :----:            | :----:                     | :----:            | :----: |
| Python            | Programmeertaal            | Python is een open-source programeertaal welke vaak gebruikt wordt voor machine learning | [Link](#https://www.python.org/) |
| NumPy             | Module voor Python         | Module voor het omgaan met arrays en matrices met de bijbehorende functies               | [Link](#https://numpy.org/)      |
| Matplotlib        | Module voor Python         | Module voor grafische toepassingen en visualisaties                                      | [Link](#https://matplotlib.org/) |
| Seaborn           | Module voor Python         | Module voor high-level visualisaties                                                     | [Link](#https://seaborn.pydata.org/) |
| Pandas            | Module voor Python         | Module voor het opslaan en manipuleren van datastructuren                                | [Link](#https://pandas.pydata.org/) |
| Scikit-learn      | Module voor Python         | Module voor het toepassen van machine-learningtechnieken                                 | [Link](#https://www.python.org/) |
| Anaconda          | Module voor Python         | Softwaresuite die o.a. Python en diverse (bovengenoemde) libraries, inzake data science, machine learning en data processing, bevat | [Link](#https://www.anaconda.com/products/individual) |
| Jupyter Notebook  | (Web-based) Tekstverwerker | Online IDE waarmee Jupyter Notebooks (een variant op markdown bestanden) geschreven kunnen worden, in combinatie met Python programmacode | [Link](#https://jupyter.org/) 

---

# 2. Data Mining <a class="anchor" id="Chapter2"></a><br>
**Verzamel en schrap de gegevens die nodig zijn voor het project.**

**Over dit hoofdstuk:** <br>
In deze fase wordt er een dataset verkregen. Deze dataset kan afkomstig zijn van verschillende bronnen (relationele en niet-relationele databases) en/of formaten (zoals spreadsheets, CSV, tekstbestanden). <br>

Datamining is het proces van het verzamelen van de gegevens uit de verschillende bronnen. Deze fase gaat vooraf aan het groeperen en opschonen van gegevens. In deze fase wordt er na gedacht over welke gegevens relevant/nodig zijn voor het project, waar deze te vinden zijn, hoe deze verkregen kan worden en waar deze opgeslagen zal worden om mee aan de slag te gaan.

**Stap 1: Welke gegevens zijn relevant voor dit project?** <br>
In de opdrachtomschrijving van de opdrachtgever werd er gevraagd naar het voorspellen van onderhoudsmomenten voor machines, op basis van sensoren. Hierdoor zou uitval van de machines vroegtijdig aangepakt kunnen worden en eventueel de resterende levensduur in kaart gebracht worden. In dit geval is de sensordata aanwezig, onderhoudshistorie en informatie inzake failures en errors.

**Stap 2: Waar zijn deze gegevens te vinden?** <br>
De dataset waarmee gewerkt wordt in dit project is te raadplegen op [Kaggle](https://www.kaggle.com/arnabbiswas1/microsoft-azure-predictive-maintenance). Kaggle is een dochteronderneming van [Google](https://www.google.com/) en is een online platform/community, gericht op datawetenschappers en beoefenaars van machine learning. Deze website biedt gebruikers de mogelijkheid om datasets te vinden en te publiceren evenals dat gebruikers de mogelijkheid hebben om direct aan de slag te kunnen gaan met de datasets. 

De 'Microsoft Azure Predictive Maintenance' wordt voor dit project dus gedownload vanaf Kaggle. Deze dataset is echter in het verleden beschikbaar gesteld door [Microsoft](https://www.microsoft.com/) als een project onder de noemer 'Azure AI Notebooks for Predictive Maintenance'. Dit project is echter op 15 oktober 2020 beëindigd{1}. De dataset is via Kaggle wel nog te downloaden.

**Stap 3: Hoe kan deze data verkregen worden?** <br>
Via Kaggle zijn de 5, destijds door Microsoft beschikbaar gestelde, gegevens te vinden. Deze zijn opgeslagen en gepubliceerd in een CSV-formaat (kommagescheiden bestand). Deze dataset bestaat uit 5 delen: errors (1), failures (2), machines (3), maint (4) en telemtry (5). 

**Stap 4: Waar wordt de data opgeslagen (zodat er mee gewerkt kan worden)?** <br>
Er wordt een centrale [GitHub](https://www.github.com/) omgeving aangemaakt waarbinnen de datasets worden opgeslagen. Deze omgeving biedt ook de mogelijkheid om het onderzoeksrapport te uploaden en de verschillende versies van de verschillende projectleden bij te houden inclusief een versiehistorie en de mogelijkheid om alle nieuwe revisies samen te voegen tot één gezamelijk bestand.

**Stap 5: Een blik werpen op de data** <br>
De dataset bestaat uit de volgende gegevens:
- **Machinecondities en gebruik**: De bedrijfsomstandigheden (de omstandigheden wanneer de machine aan staat) van een machine, b.v. gegevens verzameld van sensoren.
- **Storingshistorie**: De storingshistorie van een machine of onderdeel binnen de machine.
- **Onderhoudshistorie**: De reparatiehistorie van een machine, b.v. foutcodes, eerdere onderhoudsactiviteiten of vervanging van onderdelen.
- **Machinekenmerken**: De kenmerken van een machine, b.v. merk en model, locatie etc.

En bevat de volgende kenmerken:
- **Telemetrie-tijdreeksgegevens (PdM_telemetry.csv)**: het bestaat uit het uurgemiddelde van spanning, rotatie, druk en trillingen verzameld van 100 machines voor het jaar 2015.
- **Fout (PdM_errors.csv)**: Dit zijn fouten die de machines tegenkomen terwijl ze in bedrijf (actief) zijn. Aangezien deze fouten de machines niet afsluiten, worden deze niet als storingen beschouwd. De foutdatum en -tijden worden afgerond op het dichtstbijzijnde uur, aangezien de telemetriegegevens tegen een uurtarief worden verzameld.
- **Onderhoud (PdM_maint.csv)**: Als een onderdeel van een machine wordt vervangen, wordt dat als record vastgelegd in deze tabel. Onderdelen worden vervangen in twee situaties: <br>
1. Tijdens het reguliere geplande bezoek heeft de monteur het vervangen (Proactief Onderhoud) <br> 
2. Een onderdeel gaat kapot en vervolgens voert de monteur een ongepland onderhoud uit om het onderdeel te vervangen (Reactief Onderhoud). Dit wordt beschouwd als een storing en de bijbehorende gegevens worden vastgelegd onder Storingen. Onderhoudsgegevens hebben records voor zowel 2014 als 2015. Deze gegevens worden afgerond op het dichtstbijzijnde uur, aangezien de telemetriegegevens tegen een uurtarief worden verzameld.
- **Storingen (PdM_failures.csv)**: Elk record vertegenwoordigt de vervanging van een onderdeel als gevolg van een storing. Deze gegevens zijn een subset van onderhoudsgegevens. Deze gegevens worden afgerond op het dichtstbijzijnde uur, aangezien de telemetriegegevens tegen een uurtarief worden verzameld.
- **Metadata van machines (PdM_Machines.csv)**: modeltype en leeftijd van de machines.

*Tabel 1: Data Dictionary*

| Feature   | Omschrijving | Voorbeeld data    | Data Type | Type variabele | Meeteenheid | (Oorspronkelijke) databron |
| ----------| -------------| ----------------- | ----------| ---------------| ------------|  --------------------------|
| machineID | Iedere machine wordt gekenmerkt door een uniek identificatienummer | 1 | Int64 | Kwalitatief (discreet) | n.v.t | PdM_machines.csv |
| model     | Er zijn verschillende soorten modellen, die gekenmerkt worden door een modelnummer | model 3 | text | Kwalitatief (discreet) | n.v.t |PdM_machines.csv |
| age       | De leeftijd van de machines/compontenten | 18 | Int64 | Kwantitatief (discreet) | Maanden | PdM_machines.csv |
| datetime  | Geeft de datum en tijd weer | 3-1-2015 07:00:00 | datetime | Kwantitatief (continue) | Uren, minuten, seconde | PdM_errors.csv     |
| errorID   | Iedere error wordt gekenmerkt door een (uniek) error nummer | error1 | text | Kwalitatief (discreet) | n.v.t | PdM_errors.csv     |
| failure   | Geeft aan welk component gefaald is | comp4 | text | Kwalitatief (discreet) | Binair | PdM_failures.csv |
| comp      | Ieder component wordt gekenmerkt door een componentnummer | comp2 | text | Kwalitatief (discreet) | n.v.t | PdM_maint.csv |
| volt      | De elektrische spanning in volt | 176217853015625 | Int64 | Kwantitatief (continue)| voltage ($V$) | PdM_maint.csv |
| rotate    | Aantal rotaties per minuut | 418504078221616   | Int64 | Kwantitatief (continue) | Rotaties per minuut ($RPM$) | PdM_maint.csv  |
| pressure  | Uitgeoefende druk in Kilo pascal (=0,01 bar) | 113077935462083   | Int64 | Kwantitatief (continue) | Kilo Pascal ($kPa$) (1 kPa = 0,01 bar) | PdM_maint.csv  |
| vibration | Periodieke beweging van een voorwerp of medium | 450876857639276 | Int64 | Kwantitatief (continue) | Herz ($Hz$) | PdM_maint.csv |

In onderstaande code wordt, op een simplistische wijze, een beperkte inkijk gegeven in de data.

In [1]:
# Het importeren van de benodigde bilbiotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Het inlezen van de bestanden
telemetry_df = pd.read_csv('PdM_telemetry.csv')
errors_df = pd.read_csv('PdM_errors.csv')
maint_df = pd.read_csv('PdM_maint.csv')
failures_df = pd.read_csv('PdM_failures.csv')
machines_df = pd.read_csv('PdM_machines.csv')

In [3]:
#Het tonen van de data (standaard toont de .head functie de eerste 5 rijen van de code) 
telemetry_df.head()

Unnamed: 0,datetime,machineID,volt,rotate,pressure,vibration
0,2015-01-01 06:00:00,1,176.217853,418.504078,113.077935,45.087686
1,2015-01-01 07:00:00,1,162.879223,402.74749,95.460525,43.413973
2,2015-01-01 08:00:00,1,170.989902,527.349825,75.237905,34.178847
3,2015-01-01 09:00:00,1,162.462833,346.149335,109.248561,41.122144
4,2015-01-01 10:00:00,1,157.610021,435.376873,111.886648,25.990511


In [4]:
#Het tonen van de data (standaard toont de .head functie de eerste 5 rijen van de code) 
errors_df.head()

Unnamed: 0,datetime,machineID,errorID
0,2015-01-03 07:00:00,1,error1
1,2015-01-03 20:00:00,1,error3
2,2015-01-04 06:00:00,1,error5
3,2015-01-10 15:00:00,1,error4
4,2015-01-22 10:00:00,1,error4


In [5]:
#Het tonen van de data (standaard toont de .head functie de eerste 5 rijen van de code) 
maint_df.head()

Unnamed: 0,datetime,machineID,comp
0,2014-06-01 06:00:00,1,comp2
1,2014-07-16 06:00:00,1,comp4
2,2014-07-31 06:00:00,1,comp3
3,2014-12-13 06:00:00,1,comp1
4,2015-01-05 06:00:00,1,comp4


In [6]:
#Het tonen van de data (standaard toont de .head functie de eerste 5 rijen van de code) 
failures_df.head()

Unnamed: 0,datetime,machineID,failure
0,2015-01-05 06:00:00,1,comp4
1,2015-03-06 06:00:00,1,comp1
2,2015-04-20 06:00:00,1,comp2
3,2015-06-19 06:00:00,1,comp4
4,2015-09-02 06:00:00,1,comp4


In [7]:
#Het tonen van de data (standaard toont de .head functie de eerste 5 rijen van de code) 
machines_df.head()

Unnamed: 0,machineID,model,age
0,1,model3,18
1,2,model4,7
2,3,model3,8
3,4,model3,7
4,5,model3,2


Bovenstaande dataframes worden op een later moment samengevoegd tot één dataframe (zie hoofdstuk 3).

In [8]:
# Het vertonen van het aantal rijen en het aantal kolommen
telemetry_df.shape

(876100, 6)

Zoals te zien zijn er maarliefst 876.100 records aanwezig in de telemetrie logfiles.

In [9]:
telemetry_df.machineID.nunique()

100

Deze zijn verzameld over 100 machines, zoals hierboven weergegeven.

# 3. Data Cleaning <a class="anchor" id="Chapter3"></a><br>

# 4. Data Exploration <a class="anchor" id="Chapter4"></a><br>

# 5. Feature Engineering <a class="anchor" id="Chapter5"></a><br>

# 6. Predictive Modeling <a class="anchor" id="Chapter6"></a><br>

# 7. Data visualization <a class="anchor" id="Chapter7"></a><br>

## 7.1 Tekstuele output

## 7.2 Grafische output

# Literatuurlijst <br>

{1} https://www.fiixsoftware.com/maintenance-strategies/predictive-maintenance/ <br>
{2} https://www.fiixsoftware.com/maintenance-strategies/reactive-maintenance/ <br>
{3} https://www.fiixsoftware.com/maintenance-strategies/preventative-maintenance/ <br>