# Predictive Maintenance

## Inleiding

**Auteurs:** R. Coenen, Y. Dera, M. Vliex & S. van Wesel <br>
## Inhoudsopgave

* [1. Data selectie](#DataSelectie)
* [1.1. Achtergrond informatie](#AchtergrondInfo)
* [1.2. Theoretisch kader](#TheoretischKader)
* [1.3. Doel](#Doel)
* [2. Data preparatie](#DataPreparatie)
* [2.1. Data profiling](#DataProfiling)
* [2.2. Data Cleaning](#DataCleaning)
* [2.3. Data Wrangling](#DataWrangling)
* [3. Uitwerkingen en algoritmen](#Uitwerkingen)

---

# 1. Data selectie <a class="anchor" id="DataSelectie"></a>

## 1.1. Achtergrond informatie <a class="anchor" id="AchtergrondInfo"></a>

Aan de projectgroep is de opdracht verstrekt om op zoek te gaan naar een dataset die betrekking heeft op de monitoring van apparatuur/machines in combinatie met sensoren. Op basis van deze sensor informatie zou o.a. een predictie gemaakt kunnen worden over de resterende levensduur van een apparaat en/of component evenals wanneer onderhoud wenselijk is. 

De doelstelling is, om op basis van een (preprocessed) dataset een onderzoek uit te voeren en een pipeline te realiseren die aan de slag gaat met deze (ruwe) data en dit omzet naar een predictie model. Dit binnen een Jupyter Notebook en in combinatie met Python scripts.

In een introductie gesprek zijn de volgende 3 typeringen van onderhoud aan bod gekomen:

<b>Reactive (reactief)</b> - Onderhoud uitvoeren zodra er een probleem is<br>
Probleem: onverwachte storingen kunnen duur (kosten) en potentieel gevaarlijk zijn

<b>Scheuduled (gepland)</b> - Onderhoud uitvoeren op basis van een (regelmatig) schema<br>
Probleem: onnodig onderhoud kan verspilling zijn; mogelijk worden niet alle storingen verholpen

<b>Predictive (voorspellend)</b> - Voorspellen wanneer zich problemen zullen voordoen<br>
Probleem: moeilijk om nauwkeurige voorspellingen te doen voor complexe apparatuur

Kortweg gezegd is het doel om kosten te verminden door te voorspellen wanneer onderhoud nodig is. 

De projectgroep is aan de slag gegaan met het zoeken naar datasets en eenieder heeft verschillende datasets ingebracht om mee aan te slag te gaan. Vervolgens is de keuze gemaakt voor één dataset, de Microsoft Azure Predictive Maintenance dataset, zoals beschikbaar gesteld op <a href="https://www.kaggle.com/arnabbiswas1/microsoft-azure-predictive-maintenance" title="Azure dataset">Kaggle</a>. 

Deze (voorbeeld) data is afkomstig van het Microsoft project "Azure AI Notebooks for Predictive Maintenance" (welke per 15 oktober 2020 beëndigd is). De data is echter nog altijd toegankelijk om te gebruiken.

Deze dataset kan volgens Microsoft gebruikt worden om aan te slag te gaan met machine learning models gerelateerd aan predictive maintenance, ofwel het voorspellen van onderhoud.

De dataset bestaat uit een vijftal CSV (door komma gescheiden) bestanden, namelijk errors, fouten, machines, onderhoud en telemetrie en beslaat bijna een miljoen rijen.

Iets dieper uitgediept zien de datasets er als volgt uit:

• <b>Machinecondities en -gebruik</b>: Geeft de omstandigheden van de machine in gebruik weer, bijvoorbeeld door sensoren verzamelde gegevens;<br>
• <b>Faal geschiedenis</b>: De storingshistorie van een machine of een component binnen de machine;<br>
• <b>Onderhoudshistorie</b>: De reparatiegeschiedenis van een machine, bijvoorbeeld foutcodes, eerdere onderhoudsactiviteiten of vervanging van componenten.<br>
• <b>Machine eigenschapen</b>: De kenmerken van een machine, bijv. CPU, merk en model, locatie.

Op detailniveau bestaan de CSV bestanden uit de volgende gegevens:<br><br>
• <b>Telemetrie tijd data</b>: Bevat data, op uur niveau, over de rotatie, druk en trillingen; verzameld over 10 machines (in het jaar 2015);<br>
• <b>Error</b>: Dit zijn fouten die de machines ondervinden wanneer ze in werking/actief zijn. Aangezien deze fouten de machines niet uitschakelen, worden zij niet als verstoringen beschouwd. (De foutdatum en -tijd worden afgerond op het dichtstbijzijnde uur, aangezien de telemetriegegevens om het uur worden verzameld);<br>
• <b>Onderhoud</b>: Wanneer een onderdeel van een machine wordt vervangen, wordt dat als een record in deze tabel vastgelegd. Componenten worden in twee situaties vervangen:<br><br> 
-> 1. Tijdens het reguliere geplande bezoek vervangt de technicus het onderdeel (proactief onderhoud);<br><br>
-> 2. Een onderdeel gaat kapot en de technicus voert een ongepland onderhoud uit om het onderdeel te vervangen (reactief onderhoud). (Dit wordt beschouwd als een storing en de overeenkomstige gegevens worden vastgelegd onder verstoringen. De onderhoudsgegevens hebben zowel betrekking op 2014 als op 2015. Deze gegevens worden afgerond op het dichtstbijzijnde uur, aangezien de telemetriegegevens om het uur worden verzameld).<br><br>
• <b>Verstoringen</b>: Elk record staat voor de vervanging van een onderdeel als gevolg van een defect. Deze gegevens zijn een deelverzameling van de onderhoudsgegevens. (Deze gegevens worden afgerond op het dichtstbijzijnde uur, aangezien de telemetriegegevens om het uur worden verzameld)<br>
• <b>Metadata</b>: Model type en leeftijd van de machines


## 1.2. Theoretisch kader <a class="anchor" id="TheoretischKader"></a>

[Tekst]

## 1.3. Doel <a class="anchor" id="Doel"></a>

[Tekst]

# 2. Data preparatie <a class="anchor" id="DataPreparatie"></a>

Voordat er aan de slag gegaan kan worden met de data(set) dienen er een aantal stappen/iteraties over de data uitgevoerd te worden, te weten: verzamelen (1), typeren(2), opschonen (3) en voorbewerken (4).

Het volgende hoofdstuk behandeld deze viertal fases en beschrijft de activiteiten die plaats hebben gevonden binnen deze fases.

## 2.1. Data profiling (stap 1: verzamelen)<a class="anchor" id="DataProfiling"></a>

Allereerst even de betekenis van data profiling. Data profiling is het proces van het onderzoeken van de beschikbaar gestelde gegevens uit een bestaande informatiebron, in het geval van dit project, de Microsoft Azure dataset en bijbehorende literatuur. Door het toepassen van gegevensprofilering wordt er inzicht verkregen in de structuur en inhoud van de data/gegevens, evenals de onderlinge verbanden en (afhankelijk van de grootte) welke gegevens relevant zijn om te gebruiken.

Uitgediept bestaat het profileren van de gegevens uit de volgende zaken: <br>
• Problemen inzake de datakwaliteit aan het licht brengen (welke in een later stadium gecorrigeerd wordt, indien mogelijk);<br>
• Het beschrijven van de metrieken (voorbeelden zijn minimaal, maximaal, aantal, som etc.);<br>
• Het beschrijven van gegevenstypen (string, integer, float etc.) en diens lengte;<br>
• Het taggen/classificeren van gegevens met trefwoorden, beschrijvingen en/of categorieën;<br>
• Eventuele metadata ontdekken (en beoordelen of deze van goede kwaliteit is en toepasbaar is binnen het project)

<b>Soorten gegevensprofilering</b><br>
Er zijn een drietal hoofdtypes inzake gegevensprofilering:

<i>#1 - Ontdekken van structuur</i><br>
Controleren of gegevens consistent zijn en correct zijn geformatteerd, en Structure discovery helpt te begrijpen hoe goed gegevens zijn gestructureerd.

<i>#2 - Opsporen van inhoud</i><br>
Op zoek gaan naar individuele gegevensrecords om fouten te ontdekken. Bij inhoudelijke ontdekking wordt nagegaan welke specifieke rijen in een tabel problemen bevatten en welke systematische problemen zich in de gegevens voordoen.

<i>#3 - Ontdekken van relaties</i><br>
Ontdekken hoe delen van de gegevens met elkaar samenhangen. Bijvoorbeeld sleutelrelaties tussen databasetabellen, verwijzingen tussen cellen of tabellen in een spreadsheet. Inzicht in relaties is van cruciaal belang voor het hergebruik van gegevens; gerelateerde gegevensbronnen moeten worden samengevoegd tot één gegevensbron of geïmporteerd op een manier waarbij belangrijke relaties behouden blijven.



<h3>Data Profiling in dit project</h3>

<b>Stap 1: De dataset inhoudelijk beschrijven (context)</b><br>

Voor dit project is er gebruik gemaakt van de <a href="https://www.kaggle.com/arnabbiswas1/microsoft-azure-predictive-maintenance" title="Azure dataset">Microsoft Azure Predictive Maintenance</a> dataset, te raadplegen via Kaggle. 

Deze data is beschikbaar gesteld onder het 'Azure AI Notebooks for Predictive Maintenance' project door Microsoft; dit project is per 15 oktober 2020 beëindigd. De beschikbaar gestelde datasets, 5 stuks in zijn totaliteit, zijn echter nog te raadplegen via Kaggle. 

Op basis van deze 5 datasets wordt er dit project goefend met het bouwen van machine learning modellen.

De data is afkomstig uit het jaar 2015 en bevat gegevens over 100 machines. O.a. de spanning, vibraties en luchtdruk zijn gemeten in

### 2.1.1. Inladen van de data <a class="anchor" id="InladenData"></a>

Om aan de slag te kunnen gaan met de data, dient deze eerst ingeladen te worden. Deze dataset, afkomstig van Kaggle, bevat een cijftal .CSV (kommagescheiden) bestanden, die in zijn totaliteit uit 18 kolommen en 876.100 rijen bestaat. Het inladen van de data kan gebeuren aan de hand van de Pandas module binnen Python. We voeren hiervoor de volgende code uit:

In [None]:
import pandas as pd

Hierdoor wordt de Pandas module geïmporteerd en hernoemd naar 'pd' zodat de module met deze afkorting aangeroepen kan worden i.p.v. het voluit schrijven van de modulenaam. Nu voeren we de volgende reges code in:

In [None]:
dfTelemetry = pd.read_csv ('Data\PdM_telemetry.csv')
dfErrors = pd.read_csv ('Data\PdM_errors.csv')
dfFailures = pd.read_csv ('Data\PdM_failures.csv')
dfMachines = pd.read_csv ('Data\PdM_machines.csv')
dfMaint = pd.read_csv ('Data\PdM_maint.csv')

Deze regels code zorgen ervoor dat de juiste CSV (kommagescheiden bestanden) ingeladen worden.
Deze code zorgt er voor dat er een "data frame object" terug gegeven wordt; dit kan gezien worden als een soort van Excel bestand.
De df(naam) code (bijv. 'dfTelemetry') zorgt ervoor dat deze dataframes snel opgeroepen kunnen worden. 

Met onderstaande code kan er een voorbeeld van het data frame getoond worden inclusief een vertoning van de rijen en kolommen.

In [None]:
dfTelemetry

### 2.1.2. Typeren van de data <a class="anchor" id="TyperenData"></a>

<b>Format</b><br>
Deze dataset bevat gestructureerde gegevens. Iedere atribuut valt onder een categorie. De dataset zelf bevat, op moment van verkrijgen, nog uit een vijftal losse CSV bestanden. Deze staan los van elkaar en dienen nog, middels relaties, gekoppeld te worden eaan elkaar. Zie voor meer informatie hoofdstuk 2.3 'Data Wrangling'.

<b>Structuur</b><br>
Het data format betreft dus een CSV bestand. Een CSV-bestand (door komma’s gescheiden waarden) is een bestandstype, In CSV-bestanden wordt informatie niet in kolommen opgeslagen, maar wordt deze gescheiden door komma’s. 

<b>Context</b><br>
De volgende kolommen zijn terug te vinden in de datasets:
![Datamodel](Images\Datamodel.png)
<img src="Images\Datamoel.jpg" alt="Datamodel">


## 2.2. Data cleaning <a class="anchor" id="DataCleaning"></a>

## 2.3. Data Wrangling <a class="anchor" id="DataWrangling"></a>
Data wrangling betreft het op elkaar laten passen van de data. Tot nu toe betreffen het 5 losse datasets die allen op elkaar dienen te passen. Dat zal in deze paragraaf aan bod komen.  

# 3. Uitwerkingen en algoritmen

In [None]:
import pandas as pd
import numpy as np
import sklearn as sk
import matplotlib.pyplot as plt
from matplotlib import pyplot

In [None]:
dfTelemetry = pd.read_csv ('data\PdM_telemetry.csv')
dfErrors = pd.read_csv ('data\PdM_errors.csv')
dfFailures = pd.read_csv ('data\PdM_failures.csv')
dfMachines = pd.read_csv ('data\PdM_machines.csv')
dfMaint = pd.read_csv ('data\PdM_maint.csv')
# print (dfTelemetry.columns)
# print (dfErrors.columns)
# print (dfFailures.columns)
# print (dfMachines.columns)
# print (dfMaint.columns)

# print (dfTelemetry.dtypes)
# dfErrors.errorID.to_string()
# print (dfErrors.errorID.dtypes)
# print (dfFailures.dtypes)
# print (dfMachines.dtypes)
# print (dfMaint.dtypes)

df = pd.concat((dfTelemetry, dfErrors, dfFailures, dfMachines, dfMaint))
df.head(800)
df.dtypes