# Top 5 skills van een ICT-er

Wat vindt de klas van 2019-2020 de belangrijkste skills van een ICT-er om over 4 jaar geslaagd aan je carriere te kunnen beginnen? 

Om hierachter te komen, is een enquete uitgezet via Google Forms. Nu is het echter lastig om die antwoorden te verwerken, kijk maar eens in de cel **Alle antwoorden verzamelen**. Antwoorden als "Drive om te blijven leren", "Blijven leren", "wil om te leren", et cetera, betekenen allemaal hetzelfde. Maar Google ziet ze als allemaal individuele antwoorden.

Natural Language Processing to the rescue! We gebruiken vandaag Python in combinatie met [Spacy](https://spacy.io/).

In [2]:
import csv
import spacy
import string

## Alle antwoorden verzamelen

In [3]:
all_skills = []

with open('answers.csv') as csv_file:
    reader = csv.reader(csv_file)
    
    # CSV files have headers. We're not really interested in them, so let's print them and leave it at that
    headers = next(reader)
    print(headers)
    
    # Save all individual answers in one big list
    for row in reader:
        all_skills.extend([row[1], row[2], row[3], row[4], row[5]])
        
    print(all_skills)

['Timestamp', 'Skill 1', 'Skill 2', 'Skill 3', 'Skill 4', 'Skill 5']
['Kennis programmeertaal ', 'Werking van een computer', 'Logisch nadenken', 'Probleemoplossend denken', 'Vooruitdenken ', 'Problem Solving', 'Drive om te blijven leren', 'Drive om te innoveren', 'Motivatie om in een veranderend veld te werken', 'Passie', 'Computational thinking', 'Innovatie willen volgen (leren) ', 'Sociaal zijn', 'De wil om anderen te helpen', 'De will om nieuwe dingen uit te voeren', 'Cognitivisme', 'Analytisch ', 'Doorzettingsvermogen', 'Flexibel', 'Samenwerking', 'geduld', 'overzicht', 'problem solving', 'samenwerking', 'kennis vakgebied', 'Programmeren', 'Presenteren', 'Logisch denken', 'Samenwerken', 'Werking van computer weten', 'probleem oplossend vermogen', 'logisch nadenken', 'flexibel werken, ALTIJD AANPASBAAR.', 'stress aan kunnen', 'engels praten, schrijven lezen.', 'Je moet kunnen programmeren', 'Creativiteit', 'Kennis in je vakgebied', 'Engels', 'Doorzettingsvermogen als je je code niet

## Tekstverwerking

Hoewel er wat grenzen aan zitten, kunnen we redelijk eenvoudig alle antwoorden met elkaar vergelijken. Achtereenvolgens doen we:

1. Alle antwoorden naar kleine letters (lowercase)
2. Alle trailing whitespace verwijderen (`'   hallo  '` wordt `'hallo'`)
3. Alle leestekens verwijderen: `!"#$%&'()*+,-./:;<=>?@[\]^_{|}~`

Enkele haken en ogen zijn uitzonderlijk lange antwoorden, Engelse antwoorden, spreekwoorden of uitdrukkingen, en uiteraard spelfouten. We laten deze antwoorden wel in de dataset zitten, wellicht dat we daar later nog iets mee kunnen.

In [4]:
# Onderstaande heet in python een "list comprehension". 
# Dit is een leesbaardere manier om list(map(lambda x: x.lower(), all_skills)) te schrijven. 
# Dat is vervolgens weer een geoptimaliseerde manier om een for-loop te schrijven.
all_skills = [x.lower() for x in all_skills]
all_skills = [x.strip() for x in all_skills]
all_skills = [x.translate(str.maketrans('', '', string.punctuation)) for x in all_skills]

print(all_skills)

['kennis programmeertaal', 'werking van een computer', 'logisch nadenken', 'probleemoplossend denken', 'vooruitdenken', 'problem solving', 'drive om te blijven leren', 'drive om te innoveren', 'motivatie om in een veranderend veld te werken', 'passie', 'computational thinking', 'innovatie willen volgen leren', 'sociaal zijn', 'de wil om anderen te helpen', 'de will om nieuwe dingen uit te voeren', 'cognitivisme', 'analytisch', 'doorzettingsvermogen', 'flexibel', 'samenwerking', 'geduld', 'overzicht', 'problem solving', 'samenwerking', 'kennis vakgebied', 'programmeren', 'presenteren', 'logisch denken', 'samenwerken', 'werking van computer weten', 'probleem oplossend vermogen', 'logisch nadenken', 'flexibel werken altijd aanpasbaar', 'stress aan kunnen', 'engels praten schrijven lezen', 'je moet kunnen programmeren', 'creativiteit', 'kennis in je vakgebied', 'engels', 'doorzettingsvermogen als je je code niet aan de praat krijgt', 'programmer kennis', 'flexibel denken', 'type skills i g

## Natural Language Processing

En nu gaan we Spacy zijn werk laten doen. Zie comments in de code voor wat er exact gebeurt.

In [21]:
nlp = spacy.load('nl_core_news_sm')

nouns = {}
verbs = {}

for answer in all_skills:
    # Let spacy do its magic
    doc = nlp(answer)
    
    # Check every word of every answer
    for token in doc:
        # Write the lemma of the noun to our nouns dictionary and keep track of how often we've seen it
        # (lemma: word that you would search for in a dictionary. So not "mountains" but "mountain")
        if token.pos_ == 'NOUN':
            if token.lemma_ in nouns:
                nouns[token.lemma_] += 1
            else:
                nouns[token.lemma_] = 1
                
        # Do the same with verbs
        if token.pos_ == 'VERB':
            if token.lemma_ in verbs:
                verbs[token.lemma_] += 1
            else:
                verbs[token.lemma_] = 1
                
print(nouns)
print(verbs)

{'kennis': 10, 'programmeertaal': 11, 'werking': 2, 'computer': 9, 'problem': 3, 'solving': 4, 'drive': 2, 'motivatie': 3, 'veld': 1, 'passie': 3, 'computational': 1, 'thinking': 1, 'innovatie': 1, 'wil': 1, 'will': 1, 'ding': 3, 'cognitivisme': 1, 'doorzettingsvermogen': 7, 'samenwerking': 2, 'geduld': 4, 'overzicht': 1, 'vakgebied': 2, 'programmer': 7, 'probleem': 3, 'vermogen': 4, 'stress': 2, 'engel': 5, 'creativiteit': 4, 'code': 4, 'praat': 1, 'type': 2, 'flexibiliteit': 3, 'trend': 1, 'groepsverband': 1, 'skills': 2, 'bedrijf': 3, 'overweg': 1, 'teamwork': 3, 'communicatie': 3, 'bijv': 1, 'klant': 1, 'inzet': 1, 'tijd': 4, 'innover': 1, 'website': 1, 'mogelijkheid': 1, 'vaardigheid': 1, 'motivation': 1, 'for': 1, 'innovation': 1, 'adaptable': 2, 'fast': 1, 'learner': 1, 'leergierigheid': 1, 'programming': 1, 'slaap': 1, 'clean': 1, 'nieuwsgierigheid': 1, 'programeertal': 2, 'verandering': 2, 'beheersing': 1, 'taal': 4, 'prestatiegericht': 1, 'analytish': 1, 'applicatie': 1, 'fla

## Resultaten

En zoals we zien: resultaat is niet zo bijster interessant... Taal is onvoorstelbaar moeilijk om mee te werken! Kijk maar eens naar alle antwoorden en wat Spacy er hierboven van heeft gemaakt.

## Conclusie

Jullie vinden het belangrijk dat:
- je programmeertalen kent
- je kan programmerendat 
- je doorzettingsvermogen hebt
- je wil werken
- je wil blijven leren om kennis op te doen

In [19]:
sorted_nouns = sorted(nouns.items(), key=lambda x: x[1], reverse=True)
print(sorted_nouns[:5])

sorted_verbs = sorted(verbs.items(), key=lambda x: x[1], reverse=True)
print(sorted_verbs[:5])

[('programmeertaal', 11), ('kennis', 10), ('computer', 9), ('doorzettingsvermogen', 7), ('programmer', 7)]
[('kunnen', 27), ('werken', 12), ('leren', 11), ('zijn', 10), ('denken', 9)]


# Lessons learned

1. Platte tekst is erg lastig verwerken in een computerprogramma
2. Waarschijnlijk zijn er belangrijke antwoorden weggevallen
3. Jullie zijn erg technisch ingesteld