## Inleiding

Je sluit de cursus af met een capstoneproject, een project waarin je data mining & exploration toepast op data uit je eigen beroepspraktijk of interessegebied. Je vertelt het verhaal van en met je data. Dat betekent dat je een onderzoeksvraag formuleert, de stappen van de CRISP-DM-cyclus doorloopt en het resultaat documenteert en dat ondersteunt met effectieve visualisaties en resultaten. Het geheel moet zodanig zijn opgeschreven dat het reproduceerbaar is voor iemand die over de data beschikt. Tijdens een mondeling assessment geef je een korte presentatie van de resultaten en beantwoord je vragen over je werk.
Eisen aan de dataset

Je kunt een of meer datasets uit je beroepspraktijk of interessegebied (bv. hobby) kiezen. Voor de keuze van de data gelden geen strikte criteria. In principe maakt het ook niet uit wat voor soort data je kiest zolang de dataset voldoende potentie heeft om bovenstaande aspecten in het project aan te tonen. Dat betekent dat de data voldoende complexiteit en heterogeniteit moet herbergen om een verkenningstocht te rechtvaardigen.

Een indicatie van geschikte data:

* Minimaal één set
* Minimaal enkele honderden records
* Minimaal enkele tientallen attributen per record
* Voldoende heterogeniteit:
* Verschillende verdelingen van de attributen
* Meer en minder gestructureerde data
* Verschillende datatypen

Belangrijk!

Voor examinering is het vereist dat de docenten inzage kunnen hebben in de data. Ze hebben uit hoofde van hun functie automatisch een geheimhoudingsplicht. Eventuele aanvullende geheimhoudingsverklaringen kunnen niet worden getekend. 
Markdown

Je analyse en de bijbehorende code, resultaten en visualisaties leg je vast in een R markdown-bestand met een omvang van 3.000 tot 3.500 woorden. Dit moet een heldere en zakelijke beschrijving zijn van de stappen die essentieel zijn om tot de conclusies te komen.

Je schrijft de tekst voor een publiek dat vergelijkbaar is met medestudenten en docenten. Dat betekent dat je CRISP-DM en data-analyseconcepten bekend mag veronderstellen, maar vakinhoudelijke zaken (bv. terminologie uit je beroepspraktijk) waar nodig toelicht.
Structuur

Gebruik de volgende structuur voor de tekst:

## Samenvatting (max. 250 woorden)

**Inleiding**
* Geef de context van het project (aanleiding, kwestie etc.)
* Sluit aan bij Business Understanding van CRISP-DM
* Formuleer een hoofdvraag en zo nodig deelvragen
* Noem de belangrijkste databronnen

**Methoden**
* Sluit aan bij Data Understanding, Data Preparation en Modelling van CRISP-DM
* Presenteer hier eventuele tussenresultaten (bv. over datakwaliteit/-profilering)
* Beschrijf wat essentieel is voor het reproduceren van het werk

**Resultaten**
* Sluit aan bij Evaluation van CRISP-DM
* Presenteer de resultaten die nodig zijn voor het beantwoorden van de onderzoeksvragen
* Ondersteun de tekst met figuren en tabellen

**Discussie**
* Geef een kritische evaluatie van de resultaten (bv. beperkingen of verbeterpunten)
* Sluit aan bij Deployment van CRISP-DM (tenzij dit echt wezenlijk deel van het project was, dan moet dat in 2. Methoden aan bod komen)

**Conclusie en aanbevelingen**
* Beantwoord de hoofdvraag
* Geef eventuele aanbevelingen (SMART en terzake)

## Vormeisen

Geef alleen code en output weer die essentieel is voor het verhaal
Ondersteun het verhaal met figuren en tabellen, maar gebruik ze alleen als ze echt wat toevoegen
Neem de richtlijnen voor effectieve datavisualisatie in acht (juiste grafiektype, geen overbodige elementen, effectief kleurgebruik etc.)
Nummer figuren en tabellen
Geef tabellen een opschrift en figuren een onderschrift zodat ze min of meer los van de context begrepen kunnen worden
Gebruik een neutrale schrijfstijl (geen ik-vorm)
Kap lange output af tot een representatief of essentieel deel
Volg een style guide voor code (bv. van tidyverse (Koppelingen naar een externe site.))
Gebruik bronvermeldingen waar nodig
Zorg voor een verzorgd, aantrekkelijk en zakelijk geheel (in opmaak, taal, spelling en stijl)

## Assessment

Tijdens een assessment presenteer je je werk aan de hand van dia's of de 'geknitte' R markdown-file. Je krijgt 15 minuten de tijd om te presenteren en daarna bevragen de docenten je over het je werk (max. 10 minuten). Bereid de presentatie goed voor en houd (ter backup) screenshots achter de hand voor als je iets wilt demonstreren (bv. een Shiny-app).
Beoordeling

Bij de beoordeling wordt gelet op:

* Het volgen van de CRISP-DM-cyclus
* Moeilijkheidsgraad en originaliteit
* Reproduceerbaarheid
* Argumentatie
* Datavisualisatie
* Codekwaliteit en verzorging
* Presentatie en verdediging

Voor het geheel krijg je een cijfer.
In te leveren producten

* R markdown-bestand
* 'Knitted' HTML-versie van het R markdown-bestand
* ZIP-bestand met een sample van representatieve data waarmee de analyse kan worden herhaald


# Inleiding
In dit capstone project wordt de ontwikkeling naar de vraag van hardskills en rollen binnen het data domein onderzocht. Het project is ontsprongen naar aanleiding van een gerelateerde vraag vanuit House of Bèta. Bij aanvang van dit project was de wens een onderzoek te doen naar drivers en kenmerken van uitstroom van onze consultants. Wegens juridische beperkingen en het hier uit volgende tijdsgebrek is gekozen voor het onderzoeken van een alternatieve vraag, namelijk: **"Hoe ontwikkelt de vraag naar 'data specialisten' zich kijkende naar de gevraagde vaardigheden en het geboden loon"**.

Deze nieuw geformuleerde vraag helpt deels de originele vraag te beantwoorden. De resultaten kunnen namelijk dienen als benchmarks voor het geboden loon en ondersteunen in het samenstellen van een (deel van) het arbeidsvoorwaarden pakket. Een derde belang is het peilen van de vraag naar "data personeel" en de daarbijhorende opdrachtgevers.

## Business understanding

### House of Bèta
House of Bèta (HoB) is een detacheerder en consultancy op het gebied van business IT. Er zijn diverse specialisatie richtingen waartussen een consultant kan kiezen. HoB richt zich op starters op de arbeidsmarkt en staat open voor consultants met en zonder formele IT opleiding. Naast het matchen tussen vraag en aanbod van consultants en opdrachtgevers zorgt HoB voor een breed aanbod aan opleidingen zodat consultants zich kunnen blijven ontwikkelen op het gebied van hard-, en softskills. Een consultancy staat of valt met de expertise en kennis van haar medewerkers, dit maakt retentie van medewerkers belangrijk. De uitstroom van HoB's zusterbedrijf Talent&Pro in 2021 is aanleiding voor HoB om hier meer grip op te krijgen. Na een kort voor onderzoek is gebleken dat met de beschikbare tijd en midellen de uitstroom analyseren en potentiëel voorspellen nog niet mogelijk is. Hierop is voorgesteld om naar de vacature ontwikkeling te kijken. Deze analyse kan een bijdragen leveren aan het onderzoek omtrent uitstroom, daarnaast geeft het HoB de mogelijkheid om haar huidige compensatie aan medewerkers op waarde te schatten.

### Businessvraag
De vraag die bij de business ligt: **"Hoe ontwikkelt de vraag naar 'data specialisten'in Nederland zich kijkende naar de gevraagde vaardigheden, het geboden loon en mogelijke opdrachtgevers?"** komt vanuit de commercieel directeur van HoB. Het probleemgebied heeft betrekking op: commercie, businessdevelopement en HR. Dit maakt dat de uiteindelijke inzichten op meer plekken in de organisatie gedragen zal worden.

Om deze vraag te beantwoorden moeten er een aantal deelvragen beantwoord worden:
1. Hoe ontwikkelt de vraag naar individuele skills zich?
2. Hoe verhoud de kennis breedte (aantal skills) zich tot de loon en rolverdeling?
3. In welke zit de grootste vraag (ontwikkeling)?

### data gebruik
Er vinden nog geen datamining activiteiten plaats binnen HoB. Naast de analyse wordt er dan ook een stuk code geleverd om een vacatures te minen. Dit kan vrij door HoB gebruikt worden indien gewenst. Omdat voor dit capstone project de tijd beperkt is zijn er een aantal keuzes gemaakt m.b.t de data en het minen hier van:
1. Voor vacatures wordt alleen data van Indeed gebruikt
2. De vacatures zijn beschikbaar vanaf 8 februari 2022
3. Als referentie dataset voor benodigde (hard)skills wordt de [Indeed dataset van Kaggle](https://www.kaggle.com/elroyggj/indeed-dataset-data-scientistanalystengineer) gebruikt.

### Business Success criteria
Kwantitatieve doelstelling voor het beantwoorden van deze vraag is niet direct mogelijk. Daarom wordt er gekeken naar kwalitatieve eisen. Minimaal wordt er een inkomens benchmark verwacht en een indicatie van de hoeveelheid vraag bij bedrijven. Een bijkomende wens is om het arbeidsvoorwaardenpakket op waarden te kunnen schatten. Dit is een uitdaging waar nog niet duidelijk van is of dit gaat lukken.



# Data understanding
In dit hoofdstuk wordt gekeken naar de locatie en de basis kenmerken van de data. Zoals in business understanding gesteld wordt gebruik gemaakt van de [indeed dataset van Kaggle](https://www.kaggle.com/elroyggj/indeed-dataset-data-scientistanalystengineer) en gescrapte indeed data.

Onderstaande datalog geeft een beeld van de gebruikte ruwe data (te vinden in *.\\Data_raw*):
|dataset ID | dataset name | format | beschrijving| dataset owner |
|---|---|---|---|---|
|D001 | indeed_job_dataset.csv | CSV | dataset met job post data vanuit de VS voor data anlysten, scientisten en engineers.| Elroy |
|D002 | <DATE> scraped indeed data.csv | CSV | scraped data voor functies met het woord "data" in nederland| Maël |

Deze datasets worden gebruikt door de analyse heen. D001 is gedownload van kaggle.com, D002 is gescraped door gebruik te maken van de **indeed_scraper** te vinden in *.\\suporting_code*