In [1]:
import os
import string
from collections import defaultdict
import re

In [2]:
def letter_freq(text: str):
    text = [x for x in text.lower() if x in string.ascii_lowercase]
    total_len = len(text)

    freq = defaultdict(int)
    for c in string.ascii_lowercase:
        freq[c] = 0
        
    for c in text:
        freq[c] += 1
    return [v/total_len for v in freq.values()]

In [3]:
letter_freq("aaab")

[0.75,
 0.25,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0]

In [4]:
def load_data(path: str):
    files = os.listdir(path)
    data = []
    labels = []
    for file in files:
        with open(os.path.join(path, file), "r", encoding="utf-8") as f:
            file_data = letter_freq(f.read())
            language = re.match(r'[A-Za-z0-9]+_([a-z]{2})\.txt', file)
            data.append(file_data)
            labels.append(language.group(1))
    return data, labels

In [5]:
data, labels = load_data("./dataset/train")
data

[[0.08530522966792603,
  0.02704314973155697,
  0.03619009743487771,
  0.03559355736726984,
  0.11712069994034599,
  0.020680055677072977,
  0.020083515609465103,
  0.05786438655796381,
  0.06323324716643468,
  0.006164247365281368,
  0.006959634122091867,
  0.03976933784052496,
  0.0208789023662756,
  0.0618413203420163,
  0.06402863392324518,
  0.014316961622588983,
  0.00019884668920262477,
  0.07019288128852655,
  0.07178365480214755,
  0.10379797176377013,
  0.03996818452972758,
  0.007755020878902366,
  0.013919268244183734,
  0.000994233446013124,
  0.014316961622588983,
  0.0],
 [0.11355034065102196,
  0.00984102952308857,
  0.045041635124905374,
  0.03368660105980318,
  0.13626040878122633,
  0.010219530658591975,
  0.019303557910673733,
  0.006813020439061317,
  0.10068130204390613,
  0.0,
  0.0,
  0.06699470098410296,
  0.025738077214231644,
  0.06510219530658592,
  0.08516275548826646,
  0.0291445874337623,
  0.002271006813020439,
  0.06926570779712339,
  0.0586676760030280

In [6]:
labels

['en', 'it', 'en', 'it', 'en', 'it']

In [7]:
def encode_labels(labels):
    return [1 if label == "en" else -1 for label in labels]

In [16]:
encoded_labels = encode_labels(labels)
encoded_labels

[1, -1, 1, -1, 1, -1]

In [24]:
def train(data, labels, epochs, learning_rate):
    num_features = len(data[0])
    weights = [0] * num_features
    bias = 0

    def activation(x):
        return 1 if x >= 0 else -1

    for epoch in range(epochs):
        for x, y in zip(data, labels):
            output = 0
            for w, f in zip(weights, x):
                output += w * f
            output += bias
            prediction = activation(output)

            if prediction != y:
                for i in range(num_features):
                    weights[i] += x[i] * y #* learning_rate
                bias += learning_rate * y
    
    return weights, bias

In [25]:
weights, bias = train(data, encoded_labels, epochs=10, learning_rate=0.1)
weights, bias

([-0.4597586408862232,
  0.2499460314967855,
  -0.17450969791584497,
  0.15656709761874793,
  0.10834834102006989,
  0.23985060296059807,
  0.03306704033922825,
  0.9069310058860688,
  -0.8413893224987412,
  0.09067865269063632,
  0.21738228603830212,
  -0.41044560237922506,
  -0.04214096484552153,
  0.13801636547178692,
  -0.24911705943079765,
  -0.20109844422577294,
  -0.030933469548270354,
  0.0024862413495573485,
  0.4559945729332576,
  0.2959503897660212,
  0.12967223104738954,
  -0.08839021127031589,
  0.3243476778139597,
  0.0369951633948385,
  0.25249867648981184,
  -0.14094896331634688],
 0.1)

In [26]:
def test(weights, bias, text):
    def activation(x):
        return 1 if x >= 0 else -1

    data = letter_freq(text)
    
    output = 0
    for w, f in zip(weights, data):
        output += w * f
    output += bias
    prediction = activation(output)
    return "en" if prediction == 1 else "it"

In [27]:
text = "SMS Friedrich Carl was an armored cruiser of the Imperial German Navy. A member of the Prinz Adalbert class, the ship was intended to act as a scout for the fleet's battleships and to patrol the German colonial empire. The Prinz Adalbert class was based on the earlier armored cruiser Prinz Heinrich, but with improved armament and armor. Built in the early 1900s, Friedrich Carl served in the German fleet from 1904 to 1909, which included a period as flagship of the reconnaissance squadron and a cruise to the Mediterranean Sea."
test(weights, bias, text)

'en'

In [28]:
text = "that Samuel Lander founded the Williamston Female College in an abandoned hotel?"
test(weights, bias, text)

'en'

In [29]:
text = "Operazione Quercia (in tedesco Unternehmen Eiche) fu il nome in codice dato all'operazione militare condotta il 12 settembre 1943 dai paracadutisti tedeschi della 2. Fallschirmjäger-Division che portò alla liberazione di Benito Mussolini dalla prigionia a Campo Imperatore, sul Gran Sasso. Dopo essere stato arrestato il 25 luglio 1943, Mussolini venne condotto in varie località e alla fine trasferito a Campo Imperatore a fine estate del 1943, una zona isolata e raggiungibile solo tramite funivia, dove era guardato a vista. Per non rischiare di farlo cadere in mano agli Alleati, Adolf Hitler ordinò al generale dei paracadutisti Kurt Student di organizzare una missione per la liberazione del Duce servendosi dei suoi Fallschirmjäger, a cui vennero aggregati, per ragioni politiche, sedici uomini del Servizio di sicurezza (Sicherheitsdienst - SD) delle SS agli ordini del capitano Otto Skorzeny."
test(weights, bias, text)

'it'

In [30]:
text = "Il 12 settembre, pochi giorni dopo il Proclama Badoglio che annunciava la resa incondizionata delle forze italiane agli Alleati, i paracadutisti tedeschi lanciarono un audace assalto per liberare Mussolini, che si risolse con successo e senza perdite per gli assalitori. Grazie ai suoi contatti diretti con Ernst Kaltenbrunner e Heinrich Himmler, fin da subito Skorzeny riuscì a imporre la propria versione distorta e autocelebrativa dei fatti avvenuti sul Gran Sasso"
test(weights, bias, text)

'it'