<h2 align="center"> Creación de un corpus de libros de texto de primaria </h2>

In [1]:
import os

def cargar_corpus(ruta_corpus):
    corpus = []
    grados = sorted([d for d in os.listdir(ruta_corpus) if os.path.isdir(os.path.join(ruta_corpus, d))])
    for grado in grados:
        ruta_grado = os.path.join(ruta_corpus, grado)
        materias = [m for m in os.listdir(ruta_grado) if os.path.isdir(os.path.join(ruta_grado, m))]
        for materia in materias:
            ruta_materia = os.path.join(ruta_grado, materia)
            archivos = [a for a in os.listdir(ruta_materia) if a.endswith(".txt")]
            for archivo in archivos:
                ruta_archivo = os.path.join(ruta_materia, archivo)
                with open(ruta_archivo, "r", encoding="utf-8") as f:
                    contenido = f.read()
                corpus.append({
                    "grado": grado,
                    "materia": materia,
                    "archivo": archivo,
                    "contenido": contenido
                })
    return corpus

# Ejemplo de uso
ruta_corpus = "corpus"
corpus = cargar_corpus(ruta_corpus)


## Transformación y limpieza del corpus (contenido)

In [2]:
# Transformamos el contenido a minúsculas, eliminamos signos como los de puntuación, acentos y números en romanos y demas caracteres especiales
import re
import unicodedata

for texto in corpus:
    # Saltos de línea
    texto["contenido"] = texto["contenido"].replace("\n", " ").replace("\r", " ")
    # Palabra "words"
    texto["contenido"] = texto["contenido"].replace("words", "")
    # Minúsculas
    texto["contenido"] = texto["contenido"].lower()
    # Signos de puntuación
    texto["contenido"] = re.sub(r"[^\w\s]", "", texto["contenido"])
    # Acentos
    texto["contenido"] = unicodedata.normalize("NFKD", texto["contenido"]).encode("ascii", "ignore").decode("utf-8")
    # Números
    texto["contenido"] = re.sub(r"\b\d+\b", "", texto["contenido"])
    # Números romanos
    texto["contenido"] = re.sub(r"\b[ivxlcdm]+\b", "", texto["contenido"])
    # Caracteres especiales
    texto["contenido"] = re.sub(r"[^a-zñ\s]", "", texto["contenido"])
    # Espacios múltiples
    texto["contenido"] = re.sub(r"\s+", " ", texto["contenido"])
    # Espacios al principio y al final
    texto["contenido"] = texto["contenido"].strip()

In [3]:
# Visualización del corpus
for texto in corpus:
    print(f"Grado: {texto['grado']}, Materia: {texto['materia']}")
    print(texto['contenido'][:100] + "...")

Grado: 1er grado, Materia: ciencias_1
exploracion de la naturaleza y la sociedad primer grado indice presentacion conoce tu libro bloque y...
Grado: 1er grado, Materia: civica_1
formacion civica y etica primer grado indice bloque bloque uno dos conoce tu libro me conozco y me c...
Grado: 1er grado, Materia: español_1
espanol libro para el alumno primer grado espanol libro para el alumno primer grado esta obra ilustr...
Grado: 1er grado, Materia: español_2
espanol libro de lectura primer grado quien ha visto las tijeras fernando krahn busca en la bibliote...
Grado: 1er grado, Materia: matematicas_1
desafios matematicos libro para el alumno primer grado desafios matematicos primer grado presentacio...
Grado: 2o grado, Materia: ciencias_2
exploracion de la naturaleza y la sociedad segundo grado indice presentacion conoce tu libro bloque ...
Grado: 2o grado, Materia: civica_2
formacion civica y etica segundo grado indice bloque bloque uno dos presentacion conoce tu libro nin...
Grado: 2o

## Guardar el corpus en diferentes formatos

#### FORMATO JSON

In [4]:
# Formato JSON
import json
# import os

# Si el archivo ya existe, se elimina
if os.path.exists("corpus.json"):
    os.remove("corpus.json")

# Se guarda el corpus en un archivo JSON
with open("corpus.json", "w", encoding="utf-8") as f:
    json.dump(corpus, f, ensure_ascii=False, indent=4)

print("Corpus guardado en corpus.json")

# Filas
print('Cantidad de filas:', len(corpus))
# Columnas
print('Cantidad de columnas:', len(corpus[0]))

Corpus guardado en corpus.json
Cantidad de filas: 36
Cantidad de columnas: 4


In [5]:
# Importar el corpus desde el archivo JSON
import pandas as pd
corpus_json = pd.read_json("corpus.json")

In [6]:
# Encabezado del JSON
corpus_json.head()

Unnamed: 0,grado,materia,archivo,contenido
0,1er grado,ciencias_1,naturales_1.txt,exploracion de la naturaleza y la sociedad pri...
1,1er grado,civica_1,Civica_1.txt,formacion civica y etica primer grado indice b...
2,1er grado,español_1,espanol_1.txt,espanol libro para el alumno primer grado espa...
3,1er grado,español_2,espanol_2.txt,espanol libro de lectura primer grado quien ha...
4,1er grado,matematicas_1,matematicas_1.txt,desafios matematicos libro para el alumno prim...


In [7]:
# Ahora todos los grados
corpus_json.groupby("grado").count()

Unnamed: 0_level_0,materia,archivo,contenido
grado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1er grado,5,5,5
2o grado,5,5,5
3er grado,6,6,6
4o grado,6,6,6
5o grado,6,6,6
6o grado,8,8,8


In [8]:
# Cuantas filas tiene el corpus
corpus_json.shape

(36, 4)

In [9]:
# Imprimir el json
corpus_json

Unnamed: 0,grado,materia,archivo,contenido
0,1er grado,ciencias_1,naturales_1.txt,exploracion de la naturaleza y la sociedad pri...
1,1er grado,civica_1,Civica_1.txt,formacion civica y etica primer grado indice b...
2,1er grado,español_1,espanol_1.txt,espanol libro para el alumno primer grado espa...
3,1er grado,español_2,espanol_2.txt,espanol libro de lectura primer grado quien ha...
4,1er grado,matematicas_1,matematicas_1.txt,desafios matematicos libro para el alumno prim...
5,2o grado,ciencias_2,naturales_2.txt,exploracion de la naturaleza y la sociedad seg...
6,2o grado,civica_2,Civica_2.txt,formacion civica y etica segundo grado indice ...
7,2o grado,español_2_1,espanol_2_1.txt,espanol libro para el alumno segundo grado com...
8,2o grado,español_2_2,espanol_2_2.txt,espanol libro de lectura segundo grado indice ...
9,2o grado,matematicas_2,matematicas_2.txt,desafios matematicos libro para el alumno segu...


#### FORMATO CSV

In [10]:
# Transformar el formato JSON a CSV
# import json

# Cargar el corpus desde el archivo JSON
with open("corpus.json", "r", encoding="utf-8") as f:
    corpus = json.load(f)

# Guardar el corpus en un archivo CSV
import csv

# Si el archivo ya existe, se elimina
if os.path.exists("corpus.csv"):
    os.remove("corpus.csv")

with open("corpus.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["grado", "materia", "archivo", "contenido"])
    for texto in corpus:
        contenido = texto["contenido"].replace("\n", " ").replace("\r", " ").replace('"', '""')
        writer.writerow([
            texto["grado"],
            texto["materia"],
            texto["archivo"],
            f'"{contenido}"'
        ])
        
print("Corpus guardado en corpus.csv")

# Filas
print('Cantidad de filas:', len(corpus))
# Columnas
print('Cantidad de columnas:', len(corpus[0]))

Corpus guardado en corpus.csv
Cantidad de filas: 36
Cantidad de columnas: 4


In [11]:
# Imprimir el csv
import pandas as pd
corpus_csv = pd.read_csv("corpus.csv")

In [12]:
# Encabezado del CSV
corpus_csv.head()

Unnamed: 0,grado,materia,archivo,contenido
0,1er grado,ciencias_1,naturales_1.txt,"""exploracion de la naturaleza y la sociedad pr..."
1,1er grado,civica_1,Civica_1.txt,"""formacion civica y etica primer grado indice ..."
2,1er grado,español_1,espanol_1.txt,"""espanol libro para el alumno primer grado esp..."
3,1er grado,español_2,espanol_2.txt,"""espanol libro de lectura primer grado quien h..."
4,1er grado,matematicas_1,matematicas_1.txt,"""desafios matematicos libro para el alumno pri..."


In [13]:
# Ahora todos los grados
corpus_csv.groupby("grado").count()

Unnamed: 0_level_0,materia,archivo,contenido
grado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1er grado,5,5,5
2o grado,5,5,5
3er grado,6,6,6
4o grado,6,6,6
5o grado,6,6,6
6o grado,8,8,8


In [14]:
# Cuantas filas tiene el corpus
corpus_csv.shape

(36, 4)

In [15]:
# Imprimir el csv
corpus_csv

Unnamed: 0,grado,materia,archivo,contenido
0,1er grado,ciencias_1,naturales_1.txt,"""exploracion de la naturaleza y la sociedad pr..."
1,1er grado,civica_1,Civica_1.txt,"""formacion civica y etica primer grado indice ..."
2,1er grado,español_1,espanol_1.txt,"""espanol libro para el alumno primer grado esp..."
3,1er grado,español_2,espanol_2.txt,"""espanol libro de lectura primer grado quien h..."
4,1er grado,matematicas_1,matematicas_1.txt,"""desafios matematicos libro para el alumno pri..."
5,2o grado,ciencias_2,naturales_2.txt,"""exploracion de la naturaleza y la sociedad se..."
6,2o grado,civica_2,Civica_2.txt,"""formacion civica y etica segundo grado indice..."
7,2o grado,español_2_1,espanol_2_1.txt,"""espanol libro para el alumno segundo grado co..."
8,2o grado,español_2_2,espanol_2_2.txt,"""espanol libro de lectura segundo grado indice..."
9,2o grado,matematicas_2,matematicas_2.txt,"""desafios matematicos libro para el alumno seg..."
