<h2 align="center">Spacy Tokenization</h2>

Cargar el corpus desde el archivo JSON:

In [70]:
import json

with open('recursos/corpus.json', 'r', encoding='utf-8') as file:
    corpus = json.load(file)

Iterar sobre el corpus y tokenizar el contenido de cada documento:

In [71]:
import spacy

# Cargar el modelo de spaCy en español
nlp = spacy.load("es_core_news_sm")

tokenized_corpus = []
for documento in corpus:
    doc = nlp(documento["contenido"])
    tokens = [token.text for token in doc]
    tokenized_corpus.append({
        "grado": documento["grado"],
        "materia": documento["materia"],
        "archivo": documento["archivo"],
        "tokens": tokens
    })

In [117]:
# import json
# Guardar el corpus tokenizado en un archivo JSON
with open('recursos/tokenized_corpus.json', 'w', encoding='utf-8') as file:
    json.dump(tokenized_corpus, file, ensure_ascii=False, indent=4)

In [118]:
import csv
# Guardar el corpus tokenizado en un archivo CSV
with open('recursos/tokenized_corpus.csv', 'w', encoding='utf-8', newline='') as file:
    writer = csv.DictWriter(file, fieldnames=["grado", "materia", "archivo", "tokens"])
    writer.writeheader()
    writer.writerows(tokenized_corpus)

## Explorar los tokens:

In [102]:
for texto in tokenized_corpus:
    print(f"Grado: {texto['grado']}, Materia: {texto['materia']}, Primeros tokens: {texto['tokens'][:5]}")

total_tokens = sum(len(texto['tokens']) for texto in tokenized_corpus)
print(f"\nTotal de tokens: {total_tokens}")

all_tokens = [token for texto in tokenized_corpus for token in texto['tokens']]
unique_tokens = set(all_tokens)
print(f"Número de tokens únicos: {len(unique_tokens)}")

Grado: 1er grado, Materia: ciencias_1, Primeros tokens: ['exploracion', 'de', 'la', 'naturaleza', 'y']
Grado: 1er grado, Materia: civica_1, Primeros tokens: ['formacion', 'civica', 'y', 'etica', 'primer']
Grado: 1er grado, Materia: español_1, Primeros tokens: ['espanol', 'libro', 'para', 'el', 'alumno']
Grado: 1er grado, Materia: español_2, Primeros tokens: ['espanol', 'libro', 'de', 'lectura', 'primer']
Grado: 1er grado, Materia: matematicas_1, Primeros tokens: ['desafios', 'matematicos', 'libro', 'para', 'el']
Grado: 2o grado, Materia: ciencias_2, Primeros tokens: ['exploracion', 'de', 'la', 'naturaleza', 'y']
Grado: 2o grado, Materia: civica_2, Primeros tokens: ['formacion', 'civica', 'y', 'etica', 'segundo']
Grado: 2o grado, Materia: español_2_1, Primeros tokens: ['espanol', 'libro', 'para', 'el', 'alumno']
Grado: 2o grado, Materia: español_2_2, Primeros tokens: ['espanol', 'libro', 'de', 'lectura', 'segundo']
Grado: 2o grado, Materia: matematicas_2, Primeros tokens: ['desafios

In [119]:
# Selección de un documento del corpus (0-35)
seleccion = 0

doc = nlp(corpus[seleccion]["contenido"])
print(corpus[seleccion]["contenido"])

exploracion de la naturaleza y la sociedad primer grado indice presentacion conoce tu libro bloque yo el cuidado de cuerpo y vida diaria quien soy como soy y que tengo en comun con los demas como cuido cuerpo que hago en la semana como son el lugar donde vivo y otros lugares donde estan mis lugares favoritos como celebramos el inicio de la independencia de mexico que aprendi autoevaluacion evaluacion bloque soy parte de la naturaleza la naturaleza del lugar donde vivo cambios en la naturaleza del lugar donde vivo semejanzas y diferencias entre plantas y animales bene cios y riesgos de plantas y animales como celebramos el inicio de la revolucion mexicana que aprendi autoevaluacion evaluacion bloque bloque historia personal y familiar cuando cumplimos anos mis recuerdos mas importantes familia ha cambiado los juegos y juguetes de ayer y hoy nuestras costumbres y tradiciones como celebramos la promulgacion de la constitucion politica de los estados unidos mexicanos que aprendi autoevalua

<h3>Utilizar el índice para capturar tokens</h3>

In [122]:
# Se obtiene el primer token de la
doc[0]

exploracion

In [74]:
# Se obtiene el indice 12
token = doc[12]
token.text

'continentes'

In [123]:
# dir(token) muestra los atributos y métodos del token
dir(token)

['_',
 '__bytes__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 'ancestors',
 'check_flag',
 'children',
 'cluster',
 'conjuncts',
 'dep',
 'dep_',
 'doc',
 'ent_id',
 'ent_id_',
 'ent_iob',
 'ent_iob_',
 'ent_kb_id',
 'ent_kb_id_',
 'ent_type',
 'ent_type_',
 'get_extension',
 'has_dep',
 'has_extension',
 'has_head',
 'has_morph',
 'has_vector',
 'head',
 'i',
 'idx',
 'iob_strings',
 'is_alpha',
 'is_ancestor',
 'is_ascii',
 'is_bracket',
 'is_currency',
 'is_digit',
 'is_left_punct',
 'is_lower',
 'is_oov',
 'is_punct',
 'is_quote',
 'is_right_punct',
 'is_sent_end',
 'is_sent_start',
 'is_space',
 'is_stop',
 'is_title',
 'is_upper',
 'lang

In [124]:
# type/nlp) muestra el tipo de objeto del nlp
type(nlp)

spacy.lang.es.Spanish

In [125]:
# type(doc) muestra el tipo de objeto del documento
type(doc)

spacy.tokens.doc.Doc

In [126]:
# type(token) muestra el tipo de objeto del token
type(token)

spacy.tokens.token.Token

In [127]:
# nlp.pipe_names muestra los nombres de los componentes del pipeline
nlp.pipe_names

['sentencizer']

<h3>Objeto span</h3>

In [128]:
span = doc[61:75]
span

de la independencia de mexico que aprendi autoevaluacion evaluacion bloque soy parte de la

In [129]:
type(span)

spacy.tokens.span.Span

<h3>Atributos de los tokens</h3>

In [130]:
# doc = nlp(text_cleaned)

In [131]:
# Aqui obtengo el segundo token de la frase (exploración) Token0
token0 = doc[1]
token0

de

In [132]:
# Es Alfabético el token0 (exploración)?
token0.is_alpha

True

In [133]:
# Es un número el token0?
token0.like_num

False

In [134]:
# Obtenemos el Token3
token3 = doc[12]
token3

tu

In [135]:
# Es un número el token3?
token3.like_num

False

In [136]:
# Es una moneda el token3?
token3.is_currency

False

In [137]:
# Obtenemos el Token4
token4 = doc[4]
token4

y

In [138]:
token4.like_num

False

In [139]:
token4.is_currency

False

In [140]:
for token in doc:
    print(token, "==>", "index: ", token.i, "is_alpha (Alfabético):", token.is_alpha, 
          ", is_punct (Puntuación):", token.is_punct, 
          ", like_num (Numero):", token.like_num,
          ", is_currency (Divisa/Moneda):", token.is_currency, "\n"
         )

exploracion ==> index:  0 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

de ==> index:  1 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

la ==> index:  2 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

naturaleza ==> index:  3 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

y ==> index:  4 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

la ==> index:  5 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

sociedad ==> index:  6 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/M

 <h3>Personalización del tokenizador</h3>

In [141]:
# ORTH es un atributo que se utiliza para personalizar el tokenizador
from spacy.symbols import ORTH

nlp = spacy.blank("es")
# doc = nlp(text_cleaned)

# Aquí se obtiene los tokens del doc
tokens = [token.text for token in doc]
tokens

['exploracion',
 'de',
 'la',
 'naturaleza',
 'y',
 'la',
 'sociedad',
 'primer',
 'grado',
 'indice',
 'presentacion',
 'conoce',
 'tu',
 'libro',
 'bloque',
 'yo',
 'el',
 'cuidado',
 'de',
 'cuerpo',
 'y',
 'vida',
 'diaria',
 'quien',
 'soy',
 'como',
 'soy',
 'y',
 'que',
 'tengo',
 'en',
 'comun',
 'con',
 'los',
 'demas',
 'como',
 'cuido',
 'cuerpo',
 'que',
 'hago',
 'en',
 'la',
 'semana',
 'como',
 'son',
 'el',
 'lugar',
 'donde',
 'vivo',
 'y',
 'otros',
 'lugares',
 'donde',
 'estan',
 'mis',
 'lugares',
 'favoritos',
 'como',
 'celebramos',
 'el',
 'inicio',
 'de',
 'la',
 'independencia',
 'de',
 'mexico',
 'que',
 'aprendi',
 'autoevaluacion',
 'evaluacion',
 'bloque',
 'soy',
 'parte',
 'de',
 'la',
 'naturaleza',
 'la',
 'naturaleza',
 'del',
 'lugar',
 'donde',
 'vivo',
 'cambios',
 'en',
 'la',
 'naturaleza',
 'del',
 'lugar',
 'donde',
 'vivo',
 'semejanzas',
 'y',
 'diferencias',
 'entre',
 'plantas',
 'y',
 'animales',
 'bene',
 'cios',
 'y',
 'riesgos',
 'de',


<h3>Tokenización o segmentación de frases</h3>

In [142]:
nlp.pipeline

[]

In [143]:
# nlp.add_pipe('sentencizer') se agrega un componente al pipeline para poder segmentar las frases
try:
    nlp.add_pipe('sentencizer')
except ValueError:
    print("El componente ya está en el pipeline")

In [144]:
# doc = nlp("Dr. Simi le gusta comer tacos de canasta. Los tacos de canasta cuestan $10.00 pesos cada uno.")

for sentence in doc.sents:
    print(sentence)

exploracion de la naturaleza y la sociedad primer grado indice presentacion conoce tu libro bloque yo el cuidado de cuerpo y vida diaria quien soy como soy y que tengo en comun con los demas como cuido cuerpo que hago en la semana como son el lugar donde vivo y otros lugares donde estan mis lugares favoritos como celebramos el inicio de la independencia de mexico que aprendi autoevaluacion evaluacion bloque soy parte de la naturaleza la naturaleza del lugar donde vivo cambios en la naturaleza del lugar donde vivo semejanzas y diferencias entre plantas y animales bene cios y riesgos de plantas y animales como celebramos el inicio de la revolucion mexicana que aprendi autoevaluacion evaluacion bloque bloque historia personal y familiar cuando cumplimos anos mis recuerdos mas importantes familia ha cambiado los juegos y juguetes de ayer y hoy nuestras costumbres y tradiciones como celebramos la promulgacion de la constitucion politica de los estados unidos mexicanos que aprendi autoevalua

In [145]:
for token in doc:
    print(token)

exploracion
de
la
naturaleza
y
la
sociedad
primer
grado
indice
presentacion
conoce
tu
libro
bloque
yo
el
cuidado
de
cuerpo
y
vida
diaria
quien
soy
como
soy
y
que
tengo
en
comun
con
los
demas
como
cuido
cuerpo
que
hago
en
la
semana
como
son
el
lugar
donde
vivo
y
otros
lugares
donde
estan
mis
lugares
favoritos
como
celebramos
el
inicio
de
la
independencia
de
mexico
que
aprendi
autoevaluacion
evaluacion
bloque
soy
parte
de
la
naturaleza
la
naturaleza
del
lugar
donde
vivo
cambios
en
la
naturaleza
del
lugar
donde
vivo
semejanzas
y
diferencias
entre
plantas
y
animales
bene
cios
y
riesgos
de
plantas
y
animales
como
celebramos
el
inicio
de
la
revolucion
mexicana
que
aprendi
autoevaluacion
evaluacion
bloque
bloque
historia
personal
y
familiar
cuando
cumplimos
anos
mis
recuerdos
mas
importantes
familia
ha
cambiado
los
juegos
y
juguetes
de
ayer
y
hoy
nuestras
costumbres
y
tradiciones
como
celebramos
la
promulgacion
de
la
constitucion
politica
de
los
estados
unidos
mexicanos
que
aprendi
autoevalua