In [1]:
#KNN

In [31]:
#Importuri
from sklearn import preprocessing
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import pandas as pd
import csv

In [3]:
#Functie de normalizare realizata in cadrul laboratorului

def normalize_data(train_data, test_data, type=None):
    scaler = None
    if type == 'standard':
        scaler = preprocessing.StandardScaler()

    elif type == 'l1':
        scaler = preprocessing.Normalizer(norm='l1')

    elif type == 'l2':
        scaler = preprocessing.Normalizer(norm='l2')

    if scaler is not None:
        scaler.fit(train_data)
        scaled_train_data = scaler.transform(train_data)
        scaled_test_data = scaler.transform(test_data) 
        return (scaled_train_data, scaled_test_data)
    else:
        print("No scaling was performed. Raw data is returned.")
        return (train_data, test_data)

In [4]:
#Functie care calculeaza acuratetea unui model pe baza datelor de validare

def accuracy_score(y_true, y_pred):
    return (y_true == y_pred).mean()

In [5]:
#Functie care extrage proprozitia corespunzatoare fiecarui id din setul de date

def get_sentence(data):
    new_data = []
    
    for item in data:
        new_data.append(item[1])
    
    #Vectorul cu toate propozitiile este convertit intr-un numpy array
    return np.array(new_data)

In [6]:
#Functie care converteste datele vectorizate in DataFrame-uri si adauga ultimele caracteristicii
#Parametrii: row: vectorul cu toate propozitiile
#vect: Matricea rezultata de vectorizarea datelor
#names: Lista caracteristicilor extrase prin vectorizare
def final_features(row, vect, names):

    #Transformarea datelor vectorizatre intr-o structura DataFrame din libraira pandas
    df = pd.DataFrame(data=vect, columns = names)
    
    #Transformarea propozitiilor intr-o structura DataFrame din libraira pandas
    txt = pd.DataFrame(row, columns = ['data'])
    
    #Lista cu vocalele limbii engleze
    vowels=['a','e','i','o','u']
    
    #Lista cu semnele de punctuatie uzuale
    punc = ["!", "," ,"\'" ,";" ,"\"", ".", "-" ,"?"]
    
    #Functie care calculeaza densitate vocalelelor in propozitii
    def vowels_density(txt):
        
        #Calculeaza numarul total de caractere diferite de " "
        chars = len(txt.replace(" ", ""))
        
        #Calculeaza numarul de vocale dintr-o propozitie
        nr_vowels = sum([1 for c in txt if c in vowels])
        
        return(nr_vowels / chars)
    
    #Functie care calculeaza densitate semnelor de punctuatie in propozitii
    def punc_density(txt):
        
        #Calculeaza numarul total de caractere diferite de " "
        chars = len(txt.replace(" ", ""))
        
        #Calculeaza numarul semnelor de punctuatie dintr-o propozitie
        nr_punc = sum([1 for c in txt if c in punc])
        
        return(nr_punc / chars)

    def num_unique_words(txt):
        
        #Se imparte propozitia in cuvinte
        words = txt.split()
        
        #Se aleg cuvintele unice
        unique = set(w for w in words)
        
        #Retruneaza lungimea multimii de cuvinte
        return len(unique)
    
    #Se introduc noile caracteristici in DataFrame
    df['punc_density'] = txt['data'].apply(lambda txt: punc_density(txt))
    df['vowels_density'] = txt['data'].apply(lambda txt: vowels_density(txt))
    df['num_unique_words'] = txt['data'].apply(lambda txt: num_unique_words(txt))
    
    return df

In [7]:
#Functie care extrage etichetele corespunzatoare fiecarui id din setul de date

def get_labels(data):
    new_data = []
    
    for item in data:
        new_data.append(item[1])
        
    #Vectorul cu toate etichetele este convertit intr-un numpy array   
    return np.array(new_data)

In [16]:
#Functie care determina cel mai bun hyper parametru pentru predictie

def best_param(results):
    best = (0, 0)
    
    for data in results:
        if data[1] > best[1]:
            best = data
            
    return best

In [29]:
#Functie care scrie un fisier . csv cu predictile obtinute
#Parametrii: test_data: Datele intiale intr-un numpay array
#predicted: lista predictilor

def write_prediction(test_data, predicted):
    
    #Headerul tabelului
    header = ['id', 'label']
    
    #Vector cu datele care vor fii scrise
    data = []
    
    #Parcurgerea datelor initiale
    for i in range(0, len(test_data)):
        #Extragerea id-ului pentru fiecare propozitie
        id = int(test_data[i][0])
        #Extragerea etichetei prezise
        label = int(predicted[i])
        #Adaugarea datelor in vector
        data.append([id, label])

    #Generarea fiserului .csv
    with open('submisie.csv', 'w', encoding='UTF8') as f:
        writer = csv.writer(f)
        #Scriere header-ului
        writer.writerow(header)
        
        #Scrierea datelor in fisier
        for item in data:
            writer.writerow(item)

In [26]:
#Citirea si prelucarea datelor de antrenare si validare

#Citirea datelor de antrenare
training_data = np.genfromtxt('data_aliens/train_samples.txt', dtype='str', comments='\\\\\\\\\\\\\\\\', delimiter='\t', invalid_raise = False)
training_labels = np.loadtxt('data_aliens/train_labels.txt', dtype='int')

#Citirea datelor de validare
validation_data = np.genfromtxt('data_aliens/validation_samples.txt', dtype='str', comments='\\\\\\\\\\\\\\\\', delimiter='\t', invalid_raise = False)
validation_labels = np.loadtxt('data_aliens/validation_labels.txt', dtype='int')

#Citirea datelor de test
test_data_init = np.genfromtxt('data_aliens/test_samples.txt', dtype='str', comments='\\\\\\\\\\\\\\\\', delimiter='\t', invalid_raise = False)

#Prelucrarea datelor de antrenare
#Extragerea propozitiilor
x_train = get_sentence(training_data)

#Extragerea etichetelor
y_train = get_labels(training_labels)

#Prelucrarea datelor de validare
#Extragerea propozitiilor
x_valid = get_sentence(validation_data)

#Extragerea etichetelor
y_valid = get_labels(validation_labels)

#Prelucrarea datelor de test
#Extragerea propozitiilor
x_test = get_sentence(test_data)

In [9]:
#Vectorizarea datelor

#Initializarea CountVectorizer-ului cu numar maxim de carcteristici = 3000
count_vect = CountVectorizer(lowercase = False, max_features=3000, strip_accents=None, min_df=1, stop_words=None)

#Generarea vocabularului si extragerea carcteristicilor din datele de antrenare
X_train_counts = count_vect.fit_transform(x_train)

#Extragerea denumirilor caracteristicilor
names = count_vect.get_feature_names_out()

#Extragerea carcteristicilor din datele de validare
X_valid_counts = count_vect.transform(x_valid)

#Transformarea datelor vectorizatre in numpay array
train_data = X_train_counts.toarray()
valid_data = X_valid_counts.toarray()

In [10]:
#Transformarea in DataFrame

#Data frame cu toate caracteristicile pentru datele de antrenare
train_df = final_features(x_train, train_data, names)

#Data frame cu toate caracteristicile pentru datele de validare
valid_df = final_features(x_valid, valid_data, names)

In [11]:
#Normalizarea datelor (daca este cazul)

scale_train, scale_validation = normalize_data(train_df, valid_df)

No scaling was performed. Raw data is returned.


In [34]:
#Antrenarea modelului cu diferiti hyper parametrii

#Parametrii KNN
param = [1, 3, 5, 7, 9, 10, 50, 100]

results = []

for k in param:
    knn = KNeighborsClassifier(n_neighbors = k)
    
    model = knn.fit(scale_train, y_train)
    
    predicted = model.predict(scale_validation)
    
    print(confusion_matrix(y_valid, predicted, labels=[1, 2, 3]))
    
    results.append((k, accuracy_score(predicted, y_valid)))
    
print(results)

best = best_param(results)

[[1122  447  431]
 [ 552  683  265]
 [ 580  345  575]]
[[1360  341  299]
 [ 780  550  170]
 [ 788  247  465]]
[[1416  373  211]
 [ 816  558  126]
 [ 835  300  365]]
[[1384  356  260]
 [ 820  539  141]
 [ 813  282  405]]
[[1442  315  243]
 [ 867  492  141]
 [ 885  238  377]]
[[1421  336  243]
 [ 863  498  139]
 [ 877  252  371]]
[[1599  260  141]
 [1051  361   88]
 [1003  212  285]]
[[1625  239  136]
 [1096  328   76]
 [1078  181  241]]
[(1, 0.476), (3, 0.475), (5, 0.4678), (7, 0.4656), (9, 0.4622), (10, 0.458), (50, 0.449), (100, 0.4388)]


In [18]:
print(best)

(1, 0.476)


In [21]:
#Extragerea caracteristicilor din datele de testare
X_test_counts = count_vect.transform(x_test)

#Transformarea datelor vectorizatre in numpay array
test_data = X_test_counts.toarray()

#Data frame cu toate caracteristicile pentru datele de testare
test_df = final_features(x_test, test_data, names)

#Normalizarea datelor (daca este cazul)
scale_test, scale_test = normalize_data(test_df, test_df)

No scaling was performed. Raw data is returned.


In [20]:
#Reantrenarea modelului cu parametrii cei mai buni
knn = KNeighborsClassifier(n_neighbors = best[0])
    
model = knn.fit(scale_train, y_train)

predicted = model.predict(scale_validation)

print(accuracy_score(predicted, y_valid))

#Matricea de confuzie

0.476


In [22]:
#Generarea predictilor pentru datele de test

predicted = model.predict(scale_test)

In [27]:
#Scrierea fisierului .csv cu predictile obtinute

write_prediction(test_data_init, predicted)
print(predicted.shape)

(5000,)
