# 2n Parcial 2016

## Classificació de llenguatges de programació

En aquest examen haureu d'utilitzar Naie Bayes per tal de classificar un arxiu com a Python o Java.


### Càrrega del corpus

Tot i que ja està fet, és important entendre el format de les dades. Aquesta cel·la llegeix tots els arxius i separa el text resultant per espais, signes de puntuació, caràcters especials, etc.

El resultat són 2 variables per cada llenguatge, una que conforma el 80% de les dades (train) i l'altre el 20% (test):

* Les dades de train estan organitzades directament en una sola llista on cada element és una paraula o caràcter resultant de la separació

```python
train = ['token', 'paraula', 'paraula', ...]
```

* De forma similar, test és una llista però cada element és un arxiu diferent que, a la vegada, és el resultat de separar:

```python
train = [['token', 'paraula', 'paraula', ...], ['token', 'paraula', 'paraula', ...]]
```

In [None]:
import os
import re
import fnmatch
import sys

# Glob pattern search on directories (might be recursive)
def glob(path, ext, recursive=True):
    if recursive:
        for root, dirnames, filenames in os.walk(path):
            for filename in fnmatch.filter(filenames, '*' + ext):
                yield os.path.join(root, filename)
    else:
        for filename in fnmatch.filter(os.listdir(path), '*' + ext):
            yield os.path.join(path, filename)

# Splits a file by lines and then, each line is splitted by the supplied tokens
def split_lines(f, delims=[';', '(', '[', ']', ')', ':', '=','.','-','+','/','*', ' ']):
    with open(f) as fp:
        for line in fp:
            prev = 0
            for i in range(len(line) - 1):
                if line[i] in delims:
                    n = i + 1
                    while line[n] == line[i]: n += 1
                    
                    s = line[prev:n - 1]
                    t = line[i]
                    
                    # Do not keep empty strings (or spaces only)
                    if s.strip():
                        yield s
                        
                        # Also yield tokens unless it is a space
                        if t != ' ':
                            yield t
                    
                    prev = n

# Returns the parsed corpus
def get_corpus(path, ext, recursive=False, test_size=0.2):
    files = list(glob(path, ext, recursive))
    
    # Randomly select for train and test
    split = int(len(files) * test_size)
    test = files[:split]
    train = files[split:]
    
    train_text = [list(split_lines(f)) for f in train]
    test_text = [list(split_lines(f)) for f in test]
    return sum(train_text, []), test_text
    

#########################
# VARIABLES A UTILITZAR #
#########################
python_train_corpus, python_test_corpus = get_corpus('corpus/python', '.py', True)
java_train_corpus, java_test_corpus = get_corpus('corpus/java', '.java', True)
java_train_corpus

# Exercici 1: Bigrames i unigrames (2 punts)

**Implementa** una funció que donat el corpus d'entrenament (amb el format indicat adalt) d'un llenguatge retorni:

1. Un diccionari amb els unigrames d'aquest llenguatge com a clau i el número d'ocurrències com a valor
2. Un diccionari amb els bigrames d'auqest llenguatge com a clau i el número d'ocurrències com a valor

Recorda que:

* Un unigrama és la unitat més petita, una sola paraula o token
* Un bigrama és un conjunt de dues paraules o tokens seguits

*Nota*: Per facilitar aquest exercici i els següents us recomanem que guardeu els bigrames com a tuples: $(x_0, x_1)$

In [None]:
def find_unigrams_bigrams(corpus):
    unigrams = {}
    bigrams = {}
    
    pass
    
    return unigrams, bigrams

python_unigrams, python_bigrams = find_unigrams_bigrams(python_train_corpus)
java_unigrams, java_bigrams = find_unigrams_bigrams(java_train_corpus)

# Exercici 2: Bigrames representatius (1 punt)

Ara que ja tens els bigrames, **implementa** una funció que retorni els $N$ bigrames més representatius. Pren com a més representatius els $N$ més comuns

In [None]:
def top_N_grams(bigrams, N):
    pass
    return top_N

In [None]:
N = 20
print top_N_grams(python_bigrams, N)
print top_N_grams(java_bigrams, N)

# Exercici 3: Probabilitat d'un bigrama (3 punts)

Podem definir la probabilitat d'un bigrama $X_i = (x_0, x_1)_i$ per a una llenguatge $L_j$ com:

* Si el bigrama es troba en el conjunt de bigrames del llenguatge:
   
    $$P(X|L=l_j) = \dfrac{\text{Ocurrències }X_i\text{ en l_j}}{\text{Total d'ocurrències en bigrames}\text{ en l_j}}$$
   
   
* Si el bigrama no es troba però les dues paraules que el conformen si estan en els unigrames:

    $$P(X|L=l_j) = \dfrac{\text{Ocurrències }x_{0}\text{ en l_j}}{\text{Total d'ocurrències en unigrames}\text{ en l_j}} \cdot \dfrac{ \text{Ocurrències }x_{1}\text{ en l_j}}{\text{Total d'ocurrències en unigrames}\text{ en l_j}}$$


* En cas contrari:

    $$P(X|L=l_j) = \dfrac{1}{\text{Total d'ocurrències en bigrames}\text{ en l_j}}$$
    
    
------------------

**Implementa**:

* Una funció que faci els càlculs de dalt per a un bigrama i els unigrames i bigrames d'un llenguatge donat
* Codi que faci servir la funció per calcular la probabilitat de tots els N bigrames més comuns, per cada llenguatge.

In [None]:
def prob(X, bigrams, unigrams):
    pass
    return p

In [None]:
# Tots els N bigrames en comú
all_N = set(top_N_grams(python_bigrams.items(), N) + top_N_grams(java_bigrams.items(), N))
python_probs = []
java_probs = []

# Càlcul de les probabilitats

# Exercici 4: Vector de característiques (1.5 punts)

Per cada arxiu del conjunt de test, és a dir cada element de la llista, fes el vector de caracteristiques binari, es a dir:

* Aquest conté 1 a la posició $i$ si l'arxiu té el bigrama $i$
* En cas contrari, si no té el bigrama, conté un 0

In [None]:
def feature_vector(test_corpus, all_N):
    pass
    return features
        
python_feature_vector = feature_vector(python_test_corpus, all_N)
java_feature_vector = feature_vector(java_test_corpus, all_N)

# Exercici 5: Classificar (2.5 punts)

Finalment, ara cal que per cada arxiu de test, dels quals ja has creat el vector de característiques, el classifiquis. Per fer-ho, implementa Naive Bayes, això és:

$$P(Y=(X_1, X_2, ..., X_n)|L) = P(X_1|L)\cdot P(X_2|L)\cdot ...\cdot P(X_n|L)\cdot P(L)$$

On cada $X_i$ és un dels bigrames. A més, pots assumir que $P(L_{python}) = P(L_{java}) = 0.5$, pel que pots ometre el terme. Tingues en compte el que implica tenir un 0 en el vector de característiques.

Per tant, cal calcular $P(Y|L_{python})$ i $P(Y|L_{java})$, i la classificació serà:

$$\text{llenguatge} = max_L(P(Y|L_{python}), P(Y|L_{java}))$$

**Implementa-ho seguint la formulació d'adalt, sense modificacions**

In [None]:
def classify(features, python_probs, java_probs):
    pass
    return classes

python_results = classify(python_feature_vector, python_probs, java_probs)
java_results = classify(java_feature_vector, python_probs, java_probs)

**Respon**:

* Quin és el rati d'encerts pels arxius de Python? i pels de Java?
* Quin problema té el càlcul tal i com està adalt? Com es pot evitar?