# Sprint 3

In de [derde sprint](https://trello.com/b/EUxZhLuE/sprint-3-milestone-1-27-nov) werken we aan de volgende taken:

1. [Helper Functions](#1.-Helper-Functions)
2. [Top Layer van het Systeem](#2.-Top-Layer-van-het-Systeem) ~Jim
3. [Feature score berekenen van woorden, feature vectors maken](#3.-Feature-score-berekenen-van-woorden,-feature-vectors-maken) ~Stefan
4. [Fuzzy Logic Toolbox implementeren](#4.-Fuzzy-Logic-Toolbox-implementeren) ~Peter

### 1. Helper Functions

In [Sprint 2](http://localhost:8888/notebooks/Sprint%202.ipynb) hebben we methodes gemaakt om woorden te tellen en een intersectie tussen woordenlijsten uit te voeren. Deze methodes kunnen worden gebruikt bij de taken.

In [1]:
import csv
import nltk
import string
import numpy as np

nltk.download('punkt')
nltk.download('stopwords')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

def tokenize(body):
    tokens = word_tokenize(body)
    tokens = [w.lower() for w in tokens]
    table = str.maketrans('', '', string.punctuation)
    stripped = [w.translate(table) for w in tokens]
    words = [word for word in stripped if word.isalpha()]
    stop_words = set(stopwords.words('english'))
    words = [w for w in words if not w in stop_words]
    porter = PorterStemmer()
    words = [porter.stem(word) for word in words]
    return words

def read_txt(filepath):
    with open(filepath, 'r') as t:
        body = t.read()
        return tokenize(body)
    
def read_csv(filepath):
    with open(filepath, 'r') as c:
        reader = csv.reader(c, delimiter=',')
        for row in reader:
            return row

def generate_csv_from_array(filename, array):
    with open("res/" + filename + ".csv", 'w', newline='') as c:
        writer = csv.writer(c, delimiter=',')
        writer.writerow(array)
        
def intersection(array1, array2):
    """Returns a generator, use next(generator)"""
    return (i for i in array1 if i in array2)

[nltk_data] Downloading package punkt to /home/stefan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/stefan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### 2. Top Layer van het Systeem
    ~Jim Kamans

Er moet een systeem geschreven worden (gedurende alle sprints) die de basis vormt voor het classificeren van meerdere emails, waarbij een overzicht van de classificatie en analyse van de correct en fout geclassificeerde emails wordt getoond.

#### 2.1 Inlezen meerdere emails uit folder

... leg uit wat je doet in deze stap ...

### 3. Feature score berekenen van woorden, feature vectors maken

    ~Stefan Schenk
    
Woorden in een corpus moeten extra features krijgen, namelijk de scores van de mate waarbij ieder woord bij een feature past. Daarna moet de algehele score van alle woorden bij elkaar worden berekend. Dit zullen de inputs zijn voor het Fuzzy Logic Systeem.

#### 3.1 Generating Word List

We genereren een word_list, die normaal gesproken alle relevante woorden bevat. Daarnaast genereren we twee lijsten: C en M, die de Features voorstellen (lijsten van woorden met dezelfde karakterastieken). 

In [2]:
email     = sorted(read_txt('res/email.txt'))
word_list = [x for x in sorted(set(email)) if len(x) % 2 == 0]
generate_csv_from_array("word_list", word_list)

print("EMAIL:", email[:10])
print("WORD_LIST:", word_list[:10])

# Maakt een feature_list met woorden die met een c beginnen
starts_with_c = [x for x in word_list if x[0] == 'c']
generate_csv_from_array("starts_with_c", starts_with_c)

print("C:", starts_with_c[:10])

# Maakt een feature_list met woorden die met een m beginnen
starts_with_m = [x for x in word_list if x[0] == 'm']
generate_csv_from_array("starts_with_m", starts_with_m)

print("M:", starts_with_m[:10])

EMAIL: ['abdel', 'abstorsv', 'aid', 'al', 'al', 'al', 'al', 'al', 'al', 'al']
WORD_LIST: ['abstorsv', 'al', 'alfais', 'also', 'alzawahiri', 'approv', 'aq', 'arab', 'area', 'asad']
C: ['call', 'case', 'ceasefir', 'center', 'classifi', 'commun', 'cooper']
M: ['mail', 'mainli', 'materi', 'meet', 'minist', 'muslim']


#### 3.2 Generating Corpus

In de vorige sprint gebruikten wij de Counter class om distincte woorden te tellen en op te slaan in een dictionary. Jammergenoeg is het lastig om dictionaries uit te breiden met meerdere values.

Numpy heeft een methode "unique" waarmee hetzelfde doel kan worden bereikt. De values en counts worden opgeslagen in een uitbreidbare np.array.

In [5]:
def corpus(word_array):
    return np.c_[np.unique(email, return_counts=True)]

corpus = corpus(email)

print(corpus[:10])

[['abdel' '1']
 ['abstorsv' '1']
 ['aid' '1']
 ['al' '7']
 ['alarabi' '1']
 ['alfais' '1']
 ['alqaida' '1']
 ['also' '1']
 ['althani' '1']
 ['alzawahiri' '3']]


#### 3.3 Formule Score

Als laatst worden de scores berekend voor alle woorden, voor alle Features.

In [64]:
def intersect(corpus, feature_list):
    return ( x for x in corpus if x[0] in feature_list ) 

# Creates two generators that iterate results of intersection
feature1 = intersect(corpus, starts_with_c)
feature2 = intersect(corpus, starts_with_m)

# Once a generator is used, it returns empty results
[int(i[1]) for i in feature1])
sum([int(i[1]) for i in feature1])



[3, 2, 2, 1, 1, 1, 2]


0

### 4. Fuzzy Logic Toolbox implementeren

    ~Peter Heemskerk
    
Er moet een systeem geschreven worden die de basis vormt voor het classificeren van meerdere emails, waarbij een overzicht van de classificatie en analyse van de correct en fout geclassificeerde emails wordt getoond.

#### 4.1 Klassen Toevoegen Uit De Oefen Lab

... leg uit wat je doet in deze stap ...