In [1]:
use strict;
use warnings;
use Data::Dump qw(dump);
use d2l;

## 1.3 Clasificación de las diferencias entre corpus (agregación, eliminación y modificación de palabras)

### 1.3.1 Comparación del número de filas entre corpus

In [2]:
sub leer_archivo {
    my $nombre_archivo = shift;

    open(my $archivo, '<:encoding(UTF-8)', $nombre_archivo) or die "No se pudo abrir el archivo '$nombre_archivo': $!";
    my @filas;
    while (my $linea = <$archivo>) {
        chomp($linea);  # Eliminar el carácter de nueva línea si es necesario
        push @filas, $linea;
    }
    close($archivo);

    return \@filas;
}

In [3]:
my $corpus_OCR = leer_archivo('../../TesisModelo1/0_Corpus/1_Entrenamiento/corpus_OCR_preprocesada.txt');
my $corpus_REF = leer_archivo('../../TesisModelo1/0_Corpus/1_Entrenamiento/corpus_REF_preprocesada.txt');

ARRAY(0xca415e0)

In [4]:
if (scalar(@$corpus_OCR) != scalar(@$corpus_REF)) {
    die "Los archivos no tienen el mismo número de filas";
} else {
    print "Los archivos tienen el mismo número de filas: " . scalar(@$corpus_OCR);
}

Los archivos tienen el mismo número de filas: 237097

1

### 1.3.3 Smith-Waterman Algorithm

In [5]:
my $tiempo = new d2l::Timer();

open(my $archivo_SW, '>:encoding(UTF-8)', '../../Tesis/0_Corpus/2_Entrenamiento/Smith-Waterman/corpus_SW.txt') or die "No se puede abrir el archivo corpus_SW.txt: $!";

for (my $i=0; $i<scalar(@$corpus_OCR); $i++) {
    my $linea1 = $corpus_OCR->[$i];
    my $linea2 = $corpus_REF->[$i];
    
    my ($alineamiento_SW1, $alineamiento_SW2) = d2l->smith_waterman($linea1, $linea2);

    print $archivo_SW "$alineamiento_SW1\n";
    print $archivo_SW "$alineamiento_SW2\n";
    print $archivo_SW "\n";
}

close($archivo_SW);

print "Duracion: ", $tiempo->stop(), "s.\n";

Duracion: 11106.9315848351s.


1

### 1.3.2 Needleman-Wunsch Algorithm

In [8]:
my $tiempo = new d2l::Timer();

open(my $archivo_NW, '>:encoding(UTF-8)', '../../Tesis/0_Corpus/2_Entrenamiento/Needleman-Wunsch/corpus_NW.txt') or die "No se puede abrir el archivo corpus_NW.txt: $!";

for (my $i=0; $i<scalar(@$corpus_OCR); $i++) {
    my $linea1 = $corpus_OCR->[$i];
    my $linea2 = $corpus_REF->[$i];
    
    my ($alineamiento_NW1, $alineamiento_NW2) = d2l->needleman_wunsch($linea1, $linea2);

    print $archivo_NW "$alineamiento_NW1\n";
    print $archivo_NW "$alineamiento_NW2\n";
    print $archivo_NW "\n";
}

close($archivo_NW);

print "Duracion: ", $tiempo->stop(), "s.\n";

Duracion: 10564.9238169193s.


1

### 1.3.4 Ukkonen Algorithm

In [9]:
my $tiempo = new d2l::Timer();

open(my $archivo_Uk, '>:encoding(UTF-8)', '../../Tesis/0_Corpus/2_Entrenamiento/Ukkonen/corpus_Uk.txt') or die "No se puede abrir el archivo corpus_Uk.txt: $!";

for (my $i=0; $i<scalar(@$corpus_OCR); $i++) {
    my $linea1 = $corpus_OCR->[$i];
    my $linea2 = $corpus_REF->[$i];
    
    my ($distancia, $alineamiento_Uk1, $alineamiento_Uk2) = d2l->ukkonen($linea1, $linea2);

    print $archivo_Uk "$distancia\n";
    print $archivo_Uk "$alineamiento_Uk1\n";
    print $archivo_Uk "$alineamiento_Uk2\n";
    print $archivo_Uk "\n";
}

close($archivo_Uk);

print "Duracion: ", $tiempo->stop(), "s.\n";

Duracion: 6928.72783303261s.


1