In [8]:
import numpy as np
import nltk
import glob
import os
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
from scipy.cluster.vq import whiten
from nltk.tokenize import PunktTokenizer

nltk.download('punkt_tab')
sentence_tokenizer = PunktTokenizer()
word_tokenizer = nltk.tokenize.RegexpTokenizer(r'\w+')

def get_file(text):
    with open(r'C:\Users\FLopezP\Documents\GitHub\PCIC\PLN\Documentos\{}'.format(text), encoding = 'utf8') as f:
        aux = f.read()
    return aux

#Cargar datos
files = ["elaleph.txt","elevangeliosegunmarcos.txt","cartaaunasenoritaenparis.txt","casatomada.txt"]
textos = []
textos = [get_file(_) for _ in files]
all_text = ' '.join(textos)
print(files)

def PredictAuthors(fvs):
    '''
    Se utiliza el algoritmo de K-Medias como método de clusterización (No supervisado)
    '''
    km = KMeans(n_clusters=2, init='k-means++', n_init=20, verbose=0)
    km.fit(fvs)
    return km
    
def Features():
    '''
    Obtener vectores de características, utilizando características estilométricas de caracteres, léxicas y sintácticas.
    '''
    num_textos = len(textos)
    fvs = np.zeros((len(textos), 9), np.float64)
    for e, ch_text in enumerate(textos):
        contMayus = 0
        contMinus = 0
        contNumeros = 0
        textoNormal = ch_text
        textoMinusculas = ch_text.lower()
        charTotales = len(textoNormal)
        texto = ch_text.lower()
        tokens = nltk.word_tokenize(texto)
        words = word_tokenizer.tokenize(texto)
        sentences = sentence_tokenizer.tokenize(ch_text)
        vocab = set(words)
        words_per_sentence = np.array([len(word_tokenizer.tokenize(s))
                                       for s in sentences])
        for letra in textoNormal:
            if letra.isupper():
                contMayus = contMayus + 1
            else:
                contMinus = contMinus + 1
            if letra in ["1","2","3","4","5","6","7","8","9","0"]:
                contNumeros = contNumeros + 1
        # Número promedio de palabras por oración
        fvs[e, 0] = words_per_sentence.mean()
        # Variación del tamaño de las oraciones
        fvs[e, 1] = words_per_sentence.std()
        # Diversidad léxica
        fvs[e, 2] = len(vocab) / float(len(words))
        # Número de comas por oración
        fvs[e, 3] = tokens.count(',') / float(len(sentences))
        # Número de puntos y comas por oración
        fvs[e, 4] = tokens.count(';') / float(len(sentences))
        # Número de dos puntos por oración
        fvs[e, 5] = tokens.count(':') / float(len(sentences))
        # Proporción mayúsculas/total de caracteres
        fvs[e, 6] = float(contMayus/charTotales)
		# Proporción minúsculas/total de caracteres
        fvs[e, 7] = float(contMinus/charTotales)
        # Proporción de números respecto a letras
        fvs[e, 8] = float(contNumeros/charTotales)

    fvs = whiten(fvs)
    return fvs

['elaleph.txt', 'elevangeliosegunmarcos.txt', 'cartaaunasenoritaenparis.txt', 'casatomada.txt']


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\FLopezP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [9]:
classifications = []
feature_sets = []
for element in list(Features()):
    feature_sets.append(element)
feature_sets = np.array(feature_sets)
result = PredictAuthors(feature_sets).labels_
print(result)

[0 1 1 1]


Podemos notar que la clasificación es errónea ya que son 3 clasificados como textos de Cortazar, y solo uno de Borges.

In [13]:
def Features_Nueva():
    '''
    Obtener vectores de características, utilizando características estilométricas de caracteres, léxicas y sintácticas.
    '''
    num_textos = len(textos)
    fvs = np.zeros((len(textos), 9), np.float64)
    for e, ch_text in enumerate(textos):
        contMayus = 0
        contMinus = 0
        contNumeros = 0
        textoNormal = ch_text
        textoMinusculas = ch_text.lower()
        charTotales = len(textoNormal)
        texto = ch_text.lower()
        tokens = nltk.word_tokenize(texto)
        words = word_tokenizer.tokenize(texto)
        sentences = sentence_tokenizer.tokenize(ch_text)
        vocab = set(words)
        words_per_sentence = np.array([len(word_tokenizer.tokenize(s))
                                       for s in sentences])
        for letra in textoNormal:
            if letra.isupper():
                contMayus = contMayus + 1
            else:
                contMinus = contMinus + 1
            if letra in ["1","2","3","4","5","6","7","8","9","0"]:
                contNumeros = contNumeros + 1
        # Número promedio de palabras por oración
        fvs[e, 0] = words_per_sentence.mean()
        # Variación del tamaño de las oraciones
        fvs[e, 1] = words_per_sentence.std()
        # Diversidad léxica
        fvs[e, 2] = len(vocab) / float(len(words))
        # Número de comas por oración
        fvs[e, 3] = tokens.count(',') / float(len(sentences))        
        # Número de dos puntos por oración
        fvs[e, 5] = tokens.count(':') / float(len(sentences))
		# Proporción minúsculas/total de caracteres
        fvs[e, 7] = float(contMinus/charTotales)
        # Proporción de números respecto a letras
        fvs[e, 8] = float(contNumeros/charTotales)
        
        # CARACTERÍSTICAS EXTRA
        fvs[e, 4] = tokens.count('.') / float(len(sentences))
        fvs[e, 6] = len(vocab)

    fvs = whiten(fvs)
    return fvs

classifications = []
feature_sets = []
for element in list(Features_Nueva()):
    feature_sets.append(element)
feature_sets = np.array(feature_sets)
result = PredictAuthors(feature_sets).labels_
print(result)

[1 0 0 0]


Cambié ; por ., y puse la longitud del vocabulario como característica, pero siguen dando los mismos resultados.