In [239]:
import numpy as np
import matplotlib.pyplot as plt
import os
import re
from collections import Counter
import json
from itertools import islice

In [240]:
with open("Hiztegiak/hiztegi_ez_eus_log.json","r") as file:
    hiztegi_ez_eus = json.load(file)
with open("Hiztegiak/hiztegi_log_eus.json","r") as file:
    hiztegi_eus = json.load(file)

In [214]:
print(len(hiztegi_ez_eus))
print(len(hiztegi_eus))
print(list(hiztegi_ez_eus.values())[-1])
print(list(hiztegi_eus.values())[-1])

4095125
3558797
-8.785736979579099
-8.726195979217117


In [241]:
def testu_garbia(text):
    """ 
    Testu bat jaso eta, edukia aztertzeko orduan kodifikazioarekin arazorik egon ez dadin,
    dena minuskuletan idatzi, puntuazio markak eta zenbakiak ezabatzen ditu. 
    Argumentuak: Edozein eratan idatzitako testu bat.
    Itzultzitakoa: Testu hori bera lista baten antolatua. Listako osagai bakoitza hitz bat izanik
    zenbakiak eta puntuazio markak ezabatuz.
    """
    text = text.lower() #Minuskulara pasatu
    text = re.sub(r'[\W_0-9]+', ' ', text) #Puntuazio markak eta zenbakiak ezabatu
    return [word for word in text.split() if len(word) > 1]

In [339]:
def klasifikazio_boolearra(text, hiztegi_eus, hiztegi_ez_eus, oov):
    """ 
    Testu bat jaso eta euskaraz idatzia dagoen edo ez bueltatzen du, testua bi hiztegietara
    zenbat hurbiltzen den kontsideratuz.
    
    Argumentuak:
        - text (str): Testua.
        - hiztegi_eus (dict): Euskarazko hitz-maiztasunen hiztegia.
        - hiztegi_ez_eus (dict): Ez-euskarazko hitz-maiztasunen hiztegia.
    
    Itzulera:
        - bool: True (euskaraz idatzia), False (ez).
    """
    garbitu = testu_garbia(text)
    kop = len(garbitu)  
    maizt_eus = 0  
    maizt_ez_eus = 0  
    for word in garbitu:  
        if word in hiztegi_eus:
            maizt_eus += hiztegi_eus[word]
        else:
            maizt_eus += oov
    for word in garbitu:  
        if word in hiztegi_ez_eus:
            maizt_ez_eus += hiztegi_ez_eus[word]
        else:
            maizt_ez_eus += oov
    if kop != 0:
        balio = (maizt_eus-maizt_ez_eus)/kop
    else:
        balio = -9
    # print(maizt_eus)
    # print(maizt_ez_eus)
    #print(balio)
    if balio > 0.88 : #0.88
        return True
    else:
        return False

In [217]:
testua ="Die Technologie hat unser tägliches Leben stark beeinflusst. Die Erfindung des Internets und der Smartphones hat die Art und Weise, wie wir kommunizieren und Informationen abrufen, verändert."
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")

Euskaraz dago idatzia? Ez


In [195]:
testua ="Teknologiak gure eguneroko bizitzan eragin handia izan du. Internetaren eta telefono adimendunen asmakuntzak gure komunikazio eta informazio sarbidea eraldatu du."
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskara dago idatzia? {'Bai' if badau else 'Ez'}")

3.905410022459796
Euskara dago idatzia? Bai


In [196]:
testua ="La tecnología ha impactado enormemente nuestras vidas diarias. La invención de internet y los teléfonos inteligentes ha transformado la manera en que nos comunicamos y accedemos a la información."
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")

-1.4630217966788832
Euskaraz dago idatzia? Ez


In [331]:
testua = "Halare saiatukonaz zoze bilatzen"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Aunkesea urte bukaerarte"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Ni azaruan niju seuraski ya lanea bilboa"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Igual irail bukaeran barnara niju"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Ta porcierto igandin atsaldeko 7tan TOC donostin gratis"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Lautako busa hartukoit"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Mendiya da pero justo egun hortan zehar erromeriyak taola dozte"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Osa 27yan posiblegu mendi buelta gozo bat in ta 28yan artikutza"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Hombre posiblebaut zuekin jun bai"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")
testua = "Nor da?"
badau = klasifikazio_boolearra(testua,hiztegi_eus,hiztegi_ez_eus,-9)
print(f"Euskaraz dago idatzia? {'Bai' if badau else 'Ez'}")

1.9908127788001124
Euskaraz dago idatzia? Bai
2.2874350387922653
Euskaraz dago idatzia? Bai
0.2823705168279399
Euskaraz dago idatzia? Ez
1.5669444346760784
Euskaraz dago idatzia? Bai
0.3919671227342798
Euskaraz dago idatzia? Ez
1.036234457114779
Euskaraz dago idatzia? Bai
1.5379430446974376
Euskaraz dago idatzia? Bai
1.109791777545494
Euskaraz dago idatzia? Bai
1.2686082933567882
Euskaraz dago idatzia? Bai
0.7499177921362103
Euskaraz dago idatzia? Ez


In [243]:
with open("Data/Validation/validation.json","r") as file:
    val_ez_eus = json.load(file)

In [335]:
eusk = 0
bai = []
for text in val_ez_eus:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
        bai.append(text)
print(f'%{100*eusk/len(val_ez_eus)}')

%0.3582891692169889


In [337]:
for text in bai:
    print(text)
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)

Molt bé.
1.2551201325521388
(Aplaudiments) Molt bé.
0.9280147619623875
Mirem al voltant d'aquest auditori avui.
0.9579685264905073
Avanç ràpid.
1.0748340164468644
Quant d'aquesta història ... ...potser els pertany?
1.0714772501027288
Vaig marxar.
2.0467048993625205
Això és fantàstic.
1.4134313390102555
Els nens són de 25 països diferents.
1.1781233836359644
Amb aquesta planta gegant.
1.3510119303151615
Així doncs, Sr. Gore, gràcies.
1.5314834092786895
Gràcies.
2.7347018635394305
Rebíem llibres donats.
1.0011969580729965
Això funcionà.
1.4156556113442704
Moltes Gràcies.
2.4837736383217033
(Aplaudiments) Gràcies, moltes gràcies.
1.9940132902414307
Gràcies. Gràcies. Gràcies. Gràcies.
2.7347018635394305
Collan o tren
1.2627434543834433
a vosa e máis a miña.
1.3700079098314621
Ali kako?
0.9197930640034686
Hvala.
1.0137835098013062
Ez egy igaz történet -- minden szava igaz.
1.6279588288512679
Ez fontos.
2.048119465862512
Ez egy lehetőség.
1.4856033092503285
Nekem ilyenkor ez az érzésem támad

In [248]:
with open("Data/Validation/joined.jsonl","r") as file:
    eus = json.load(file)

In [340]:
eusk = 0
ez = []
for text in eus:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
    else:
        ez.append(text)
print(f'{100*eusk/len(eus)}')

98.53676606779032


In [341]:
for text in ez:
    print(text)

XXI .
PERU .
SUDAN .
PANAMA .
A .
La dcolonisation .
De 1919 nous jours .
A.C olin .
1985 ) .
M .
Nationalisms : The Nation-State and Nationalism in the Twentieht Century .
Polity Press .
) .
ALEMANIA .
Lanza .
Holliday , G .
F .
S .
Felices , M .
IRAN .
.
A .
I .
1. Reims 24 33 15 1 8 2. Caen 24 32 15 1 8 3. Rouen 25 32 13 5 7 4. Amiens 26 30 14 1 10 5. Angers 25 29 13 3 9 6. Hormadi 25 27 12 1 12 7. Lyon 25 21 10 0 15 8. Chamonix 25 14 7 0 18 9. Viry 24 12 6 0 18 18 .
KOSOVO .
NIGERIA .
Aktoreak : Denzel Washington , Vicellous Reon Shanon , Deborah Unger , Liev Schreiber , John Hannah .
SERBIA .
Martxoak 22 : Les Tambours de Brazza ( Kongo ) .
Martxoak 28 : La Familia Valera Miranda ( Kuba ) .
Apirilak 19 : Sabri Brothers ( Pakistan ) .
Arsenal - Bayern Munich

Jean-Michel Iratchet , presidente del FN de Pirineos Atlánticos se explicó más claramente sobre este tema ayer ante los micrófonos de Radio Euskadi .
Bere lanen artean daude " Footnotes to a House of Love " ( 2007 ) , " The ro

In [278]:
with open("Data/Validation/joined_b.jsonl","r") as file:
    eus_korref = json.load(file)

In [342]:
eusk = 0
ez = []
for text in eus_korref:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
    else:
        ez.append(text)
print(f'%{100*eusk/len(eus_korref)}')

%100.0


In [277]:
with open("Data/Validation/joined_BEC.jsonl","r") as file:
    eus_BEC = json.load(file)

In [343]:
eusk = 0
ez = []
for text in eus_BEC:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
    else:
        ez.append(text)
print(f'%{100*eusk/len(eus_BEC)}')

%85.45266067726331


In [250]:
with open("Data/Validation/esaldiak.json","r") as file:
    esaldiak1 = json.load(file)

In [344]:
eusk = 0
bi = []
for text in esaldiak1:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
    else:
        bi.append(text)
print(f'%{100*eusk/len(esaldiak1)}')

%87.98014540811073


In [252]:
with open("Data/Validation/esaldiak_proba.json","r") as file:
    esaldiak2 = json.load(file)

In [253]:
with open("Data/Validation/esaldi_luz_proba.json","r") as file:
    esaldiak3 = json.load(file)

In [346]:
eusk = 0
for text in esaldiak2:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
print(eusk/len(esaldiak2))

1.0


In [347]:
eusk = 0
for text in esaldiak3:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
print(eusk/len(esaldiak3))

1.0


# Test

In [318]:
with open("Data/Test/test.json","r") as file:
    ez_eus_test = json.load(file)
with open("Data/Test/joined.jsonl","r") as file:
    eus_test = json.load(file)

In [350]:
eusk = 0
ez = []
for text in eus_test:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
    else:
        ez.append(text)
print(f'%{100*eusk/len(eus_test)}')

%99.56896551724138


In [351]:
eusk = 0
bai = []
for text in ez_eus_test:
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)
    if badau:
        eusk += 1
        bai.append(text)
print(f'%{100*eusk/len(ez_eus_test)}')

%0.2908060547311908


In [352]:
for text in bai:
    print(text)
    badau = klasifikazio_boolearra(text,hiztegi_eus,hiztegi_ez_eus,-9)

U, seguin a taula.
I tothom es va seure a taula
Són tots visionaris molt pràctics.
Moltes gràcies.
I potser les històries són dades amb ànima.
D'això es tracta.
Jo vaig dir: "bé, estic bé."
(Riures) (Aplaudiment) Gràcies.
Així és. Només certesa.
Har du nogen anbefalinger?"
Nii ongi.
Hvala.
Ez a kapzsiságot jelenti.
Ez őrület;
Ez a második lépés.
Ez elképesztően sok erőfeszítés.
Valaki kérdezi, igaz-e ez vagy az a dolog.
Ez egy fő tantárgy.
Minek az alapjai?
Ez őrültség.
Tik tyla ir tiek.
Ini benar-benar sebuah pencapaian yang tidak bisa diabaikan begitu saja.
Tentu saja tidak.
Tentu saja bukan sebuah pemerintahan demokratis.
Tidak.
Tidak.
Tentu saja.
Ia agak menarik.
Ia agak menarik.
Sebenarnya, jarak masanya tidak begitu jauh. Jarak masa itu terlalu jauh.
Sebenarnya, jarak masanya tidak begitu jauh. Jarak masa itu terlalu jauh.
Bayangkan enjin berbunyi klak, klak, klak, klak, klak, klak, klak
Juruterbang telah pun berpatah balik, walaupun kita tidak berada begitu jauh pun.
Hvala lepa.