In [5]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import RegexpTokenizer
import numpy as np
import pandas as pd
import docx

In [2]:
# Abre el documento de Word
doc_ciencia = docx.Document("ExportacionWordCREA_Ciencia.doc")
doc_deporte = docx.Document("ExportacionWordCREA_Deporte.doc")
doc_viaje = docx.Document("ExportacionWordCREA_Viaje.doc")

archivos = [doc_ciencia, doc_deporte, doc_viaje]

# Inicializa listas para los títulos y textos
titulos = []
documentos = []

# Inicializa una bandera para determinar si estamos en una sección de título o texto
en_titulo = True

# Recorre el contenido del documento
for doc in archivos:
    for paragraph in doc.paragraphs[2:]:
        if paragraph.text:  # Verifica si el párrafo no está vacío
            if en_titulo:
                titulos.append(paragraph.text)
            else:
                documentos.append(paragraph.text)
            # Cambia la bandera en_titulo en cada iteración
            en_titulo = not en_titulo

print(f"Numero de documentos: {len(documentos)}")

Numero de documentos: 491


In [11]:
#nltk.download('stopwords')
#nltk.download('wordnet')

# Definir las funciones de preprocesamiento
def preprocess_text(text):
    # Tokenización personalizada para mantener solo palabras (sin números ni signos de puntuación)
    tokenizer = RegexpTokenizer(r'\b[^\d\W]+\b')
    words = tokenizer.tokenize(text)
    
    # Eliminación de stopwords
    stop_words = set(stopwords.words('spanish'))  # Cambia 'spanish' por tu idioma
    words = [word for word in words if word.lower() not in stop_words]
    
    # Stemming
    stemmer = PorterStemmer()
    words = [stemmer.stem(word) for word in words]
    
    # Lematización
    lemmatizer = WordNetLemmatizer()
    words = [lemmatizer.lemmatize(word) for word in words]
    
    return ' '.join(words)

# Create a CountVectorizer with custom preprocessing
count_vectorizer = CountVectorizer(preprocessor=preprocess_text)

# Fit and transform the documents using the vectorizer
count_matrix = np.transpose(count_vectorizer.fit_transform(documentos))

# Convert the term frequency matrix to a Pandas DataFrame
term_frequency_df = pd.DataFrame(count_matrix.toarray(), index=count_vectorizer.get_feature_names_out())


# Imprimir la matriz de frecuencia de términos preprocesada
term_frequency_df.to_excel('frecuencia_terminos.xlsx')
print(term_frequency_df)



            0    1    2    3    4    5    6    7    8    9    ...  481  482   
aa            0    0    0    0    0    0    0    0    0    0  ...    0    0  \
abajo         0    0    0    0    0    0    0    0    0    0  ...    0    0   
abandonaba    0    0    0    0    0    0    0    0    0    0  ...    0    0   
abandonado    0    0    0    0    0    0    0    0    0    0  ...    0    0   
abandonan     0    0    0    0    0    0    0    0    0    0  ...    0    0   
...         ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...  ...   
último        0    0    0    0    0    0    0    0    0    0  ...    0    0   
única         0    0    0    0    0    0    0    0    0    0  ...    0    0   
únicament     0    0    0    0    0    0    0    0    0    0  ...    0    0   
único         0    0    0    0    0    0    0    0    0    0  ...    1    0   
útil          0    0    0    0    0    0    0    0    0    0  ...    0    0   

            483  484  485  486  487  488  489  490 