In [1]:
import spacy
from collections import Counter
from sklearn.feature_extraction.text import CountVectorizer

# Definir la función de preprocesamiento
def preprocess(text):
    # Esta es una función de ejemplo, necesitarás llenarla con tus propios pasos de preprocesamiento.
    processed_text = text.lower()  # Ejemplo de un paso de preprocesamiento
    return processed_text

# Cargar el modelo de procesamiento de lenguaje español
nlp = spacy.load("es_core_news_sm")

# Leer el archivo de texto
with open('texto.txt', 'r') as f:
    texto = f.read()

# Limpiar los datos con la función de preprocesamiento
clean_text = preprocess(texto)

# Tokenizar el texto con spaCy
doc = nlp(clean_text)

# Contar las palabras por categoría
word_counts = Counter({pos: len([token for token in doc if token.pos_ == pos]) for pos in set(token.pos_ for token in doc)})

# Mostrar los resultados
print("Results")
for pos, count in word_counts.items():
    if pos == "NOUN":
        print(f"noun= {count}")
    elif pos == "VERB":
        print(f"verb= {count}")
    elif pos == "AUX":
        print(f"auxiliary= {count}")
    elif pos == "ADP":
        print(f"adposition= {count}")
    elif pos == "ADV":
        print(f"adverb= {count}")
    elif pos == "CONJ":
        print(f"conjunction= {count}")
    elif pos == "CCONJ":
        print(f"coordinating conjunction= {count}")
    elif pos == "DET":
        print(f"determiner= {count}")
    elif pos == "INTJ":
        print(f"interjection= {count}")
    elif pos == "NUM":
        print(f"numeral= {count}")
    elif pos == "PART":
        print(f"partical= {count}")
    elif pos == "PRON":
        print(f"pronoun= {count}")
    elif pos == "PROPN":
        print(f"proper noun= {count}")
    elif pos == "PUNCT":
        print(f"Punctuation= {count}")
    elif pos == "SCONJ":
        print(f"subordinating conjunction= {count}")
    elif pos == "SYM":
        print(f"symbol= {count}")
    elif pos == "X":
        print(f"other= {count}")
    elif pos == "SPACE":
        print(f"space= {count}")

# Mostrar el total de palabras no repetidas (solo Nouns, Verbs y Aux Verbs)
total_words = len(set(token.text for token in doc if token.pos_ in ["NOUN", "VERB", "AUX"]))
print(f"Total number of words no repeated (just Nouns, Verbs and Aux Verbs): {total_words}")

# Crear un CountVectorizer
v = CountVectorizer(ngram_range=(1,2))
v.fit([clean_text])  # Asegúrate de pasar una lista a fit
v.vocabulary_

Results
determiner= 2579
Punctuation= 2625
proper noun= 168
adverb= 316
adposition= 2059
numeral= 709
auxiliary= 434
pronoun= 1419
noun= 3674
subordinating conjunction= 210
space= 15336
interjection= 9
coordinating conjunction= 603
verb= 2308
symbol= 7
Total number of words no repeated (just Nouns, Verbs and Aux Verbs): 1742


{'words': 10445,
 'español': 3814,
 'libro': 5584,
 'para': 6998,
 'el': 3090,
 'alumno': 806,
 'primer': 7691,
 'grado': 4313,
 'esta': 3843,
 'obra': 6667,
 'ilustró': 4751,
 'la': 5058,
 'portada': 7607,
 'de': 2447,
 'los': 5809,
 'primeros': 7706,
 'libros': 5598,
 'texto': 9552,
 'hoy': 4656,
 'reproducimos': 8505,
 'aquí': 996,
 'mostrarte': 6282,
 'lo': 5713,
 'que': 7838,
 'entonces': 3418,
 'era': 3504,
 'una': 10059,
 'aspiración': 1041,
 'estuvieran': 3929,
 'entre': 3425,
 'legados': 5517,
 'patria': 7156,
 'deja': 2651,
 'sus': 9330,
 'hijos': 4612,
 'tienes': 9613,
 'en': 3294,
 'tus': 9920,
 'manos': 6029,
 'fue': 4202,
 'elaborado': 3251,
 'por': 7553,
 'secretaría': 8883,
 'educación': 3067,
 'pública': 7833,
 'ayudarte': 1131,
 'estudiar': 3922,
 'leyéndolo': 5564,
 'conozcas': 2003,
 'más': 6364,
 'las': 5245,
 'personas': 7341,
 'del': 2659,
 'mundo': 6319,
 'te': 9431,
 'rodea': 8636,
 'además': 605,
 'hay': 4560,
 'otros': 6844,
 'materiales': 6093,
 'diseñados':