# Sprint 2

In de [tweede sprint](https://trello.com/b/B68ygqCl/sprint-2-24-nov) werken we aan de volgende taken:

1. [Classificatie Test Schrijven](https://trello.com/c/1igFlI8G/2-classificatie-test-schrijven)
2. [Fuzzy Logic Toolbox implementeren](https://trello.com/c/TUYYbdPU/1-fuzzy-logic-toolbox-implementeren)
3. [Fuzzy logic model bedenken (inputs, MF's, outputs, rules enz...)](https://trello.com/c/Y6rP7daC/4-fuzzy-logic-model-bedenken-inputs-mfs-outputs-rules-enz)

### Cleaning + Tokenizing

In [Sprint 1](http://localhost:8888/notebooks/Sprint%201.ipynb) hebben we cleaning methodes toegepast die we hier gebruiken om emails en woordenlijsten te tokenizen.

In [1]:
import csv
import nltk
import string

nltk.download('punkt')
nltk.download('stopwords')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

[nltk_data] Downloading package punkt to /home/stefan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/stefan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
def tokenize(body):
    tokens = word_tokenize(body)
    tokens = [w.lower() for w in tokens]
    table = str.maketrans('', '', string.punctuation)
    stripped = [w.translate(table) for w in tokens]
    words = [word for word in stripped if word.isalpha()]
    stop_words = set(stopwords.words('english'))
    words = [w for w in words if not w in stop_words]
    porter = PorterStemmer()
    words = [porter.stem(word) for word in words]
    return words

In [3]:
def read_txt(file):
    with open(file, 'r') as t:
        body = t.read()
        return tokenize(body)

In [4]:
def read_csv(file):
    with open(file, 'r') as c:
        reader = csv.reader(c, delimiter=',')
        for row in reader:
            return row

### 1. Classificatie Test Schrijven

Er moet een systeem geschreven worden die de basis vormt voor het classificeren van meerdere emails, waarbij een overzicht van de classificatie en analyse van de correct en fout geclassificeerde emails wordt getoond.

#### 1.1 Generating Word List

Deze word_list wordt gebruikt om all niet relevante woorden uit de texten te filteren.

In [5]:
def generate_csv_from_array(filename, array):
    with open("res/" + filename + ".csv", 'w', newline='') as c:
        writer = csv.writer(c, delimiter=',')
        writer.writerow(array)

#### 1.2 Intersection

Filtert alle elementen uit array1 die niet in array2 zitten eruit.

In [6]:
def intersection(array1, array2):
    """Returns a generator, use next(generator)"""
    return (i for i in array1 if i in array2)

#### 1.3 Corpus

Gebruikt [Counter](https://docs.python.org/3/library/collections.html) om alle woorden te tellen.

In [7]:
from collections import Counter

email     = read_txt('res/email.txt')
word_list = read_csv('res/word_list.csv')

corpus = Counter(intersection(email, word_list))

print(corpus)

Counter()


#### 1.4 Score Calculation

Elk woord zal 1 of meer features krijgen, gebaseerd op het feit dat het bevat is in bekende sets van woorden van een bepaalde klasse.

In [11]:
# Maakt een word_list die simpelweg alle woorden bevat die 
# een evental aan karakters hebben
email     = read_txt('res/email.txt')
word_list = [x for x in sorted(set(email)) if len(x) % 2 == 0]
generate_csv_from_array("word_list", word_list)

# Maakt een feature_list met woorden die met een c beginnen
starts_with_c = [x for x in word_list if x[0] == 'c']
generate_csv_from_array("starts_with_c", starts_with_c)

# Maakt een feature_list met woorden die met een m beginnen
starts_with_m = [x for x in word_list if x[0] == 'm']
generate_csv_from_array("starts_with_m", starts_with_m)

print(email)

['jake', 'sullivan', 'hillari', 'clinton', 'date', 'subject', 'spot', 'report', 'unclassifi', 'us', 'depart', 'state', 'case', 'doc', 'date', 'releas', 'full', 'sullivan', 'jacobj', 'sullivanjj', 'stategov', 'sent', 'sunday', 'februari', 'pm', 'subject', 'fw', 'sbu', 'see', 'last', 'item', 'aq', 'side', 'syria', 'otherwis', 'thing', 'basic', 'turn', 'expect', 'opsalert', 'sent', 'sunday', 'februari', 'pm', 'subject', 'spot', 'report', 'sbu', 'sensit', 'unclassifi', 'execut', 'secretariat', 'oper', 'center', 'spot', 'report', 'syria', 'updat', 'sunday', 'februari', 'est', 'arab', 'leagu', 'resolut', 'syria', 'u', 'syria', 'reject', 'resolut', 'issu', 'arab', 'leagu', 'al', 'foreign', 'minist', 'request', 'unsc', 'creat', 'joint', 'unal', 'peacekeep', 'mission', 'syria', 'demand', 'immedi', 'ceasefir', 'resolut', 'call', 'al', 'end', 'current', 'observ', 'mission', 'tighten', 'econom', 'sanction', 'halt', 'diplomat', 'cooper', 'syrian', 'govern', 'provid', 'polit', 'materi', 'support', '

### 2. Fuzzy Logic Toolbox implementeren

The fundamental classes and functions of fuzzy logic.

* Variables
* Rules
* MF's

In [9]:
# Jim Kamans (moved to Sprint 3)

### 3. Fuzzy logic model bedenken (inputs, MF's, outputs, rules enz..), Inspirational Paper Lezen

Paper: [http://ijcsi.org/papers/IJCSI-10-3-2-48-58.pdf](http://ijcsi.org/papers/IJCSI-10-3-2-48-58.pdf)

In hoofdstuk 3.1 Fuzzy Classification Module, wordt uitgelegd hoe spam woorden worden beoordeeld en gevoed aan een FLS. Net als in het ontwerp van ons project, worden woorden gecleaned, getokenized en vervolgens beoordeeld. 

Voor elke beoordeling van ieder woord kan een vector worden gemaakt met features (bijvoorbeeld: "technisch", "media", "klacht", "", enz...), zodat alle woorden kunnen worden meeggeven als een vector van feature vectors:

$X = [W, \overrightarrow{F_1}, \overrightarrow{F_2}, ..., \overrightarrow{F_n}]$

$x = [w, f_1, f_2, f_3]$

<p align="center"><img width="625" src="https://i.imgur.com/HYQRXDK.jpg"></p>

Elke feature kan als input aan het FLS worden meegegeven, zo dat voor ieder woord een "ranking" wordt berekend: