In [37]:
import nltk
from nltk.corpus import stopwords
from collections import Counter
import codecs
import re
from sklearn.cluster import KMeans
from sklearn import preprocessing
from gensim.models import Word2Vec
import numpy

In [7]:
TEXT_FILE = 'periodico' # Text to be processed
CLUSTERS_NUMBER = 40 # Number of clusters of words

def readFile():
    # Read the file TEXT_FILE.
    print("Loading file",TEXT_FILE)
    f = open(TEXT_FILE,'r', encoding='ISO-8859-1')
    content = f.read()
    return content

def process_tokens(tokens):
    # Process the given list of tokens
    tokens = [token.lower() for token in tokens]	# All tokens to lowercase

    words = [token for token in tokens if token.isalpha()]	# Maintain strings with alphabetic characters

    words = [token for token in words if token not in stopwords.words('spanish')] # Remove stopwords

    wnl = nltk.WordNetLemmatizer()
    lemmatized = [wnl.lemmatize(t) for t in words] # Lemmatization

    return lemmatized

text = readFile()
print(text)

Loading file periodico
LUCHA ANTITERRORISTA La Guardia Nacional de EEUU aparca la seguridad interior FRANCE PRESSE WASHINGTON El fuerte despliegue de tropas de la Guardia Nacional estadounidense, el más importante desde la segunda guerra mundial, puede comprometer a la seguridad interior si no se toman medidas adecuadas. Así lo expresaron el jueves altos responsables de este cuerpo ante la comisión de la Cámara de Representantes sobre las reformas gubernamentales. Tras el 11-S, la movilización de la Guardia Nacional ha alcanzado un nivel sin precedentes desde 1945. Más de un 51% de los 350.000 soldados de la Guardia Nacional y un 31% de la Guardia Nacional aérea han sido llamados para participar en la defensa del territorio nacional o para ir a Irak o Afganistán, en el marco de la lucha antiterrorista. Los expertos advierten que, de seguir esta situación, la Guarda Nacional no podrá realizar a la vez misiones en el país y en el extranjero.MÚSICA // NOVEDAD Jordi Savall rinde homenaje a

In [39]:
def tokenize(text):
	# Tokenize and normalize the given text.
	sents = nltk.sent_tokenize(text)

	tokenized_sents = [nltk.word_tokenize(sent) for sent in sents]

	tokenized_sents = [process_tokens(sent) for sent in tokenized_sents]

	return tokenized_sents

def gen_vectors(normalized_text):
	# Generate word vectors using neural word embeddings
	print("\nGenerating word vectors")
	model = Word2Vec(normalized,min_count=1)
	vects = []
	for word in model.wv.vocab:
		vects.append(model.wv[word])

	matrix = numpy.array(vects)
	print("Matrix shape:",matrix.shape)
	print("Vectors generated")
	return model.wv.vocab,matrix

def gen_clusters(vectors):
	# Generate word clusters using the k-means algorithm.
	print("\nClustering started")
	vectors = preprocessing.normalize(vectors)
	km_model = KMeans(n_clusters=100)
	km_model.fit(vectors)
	print("Clustering finished")
	return km_model

def show_results(vocabulary,model):
	# Show results
	c = Counter(sorted(model.labels_))
	print("\nTotal clusters:",len(c))
	for cluster in c:
		print ("Cluster#",cluster," - Total words:",c[cluster])

	# Show top terms and words per cluster
	print("Top words per cluster:")
	print()

	keysVocab = list(vocabulary.keys())
	for n in range(len(c)):
		print("Cluster %d" % n)
		print("Words:", end='')
		word_indexs = [i for i,x in enumerate(list(model.labels_)) if x == n]
		for i in word_indexs:
			print(' %s' % keysVocab[i], end=',')
		print()
		print()

	print()

In [43]:
%%time
if __name__ == "__main__":

	file_content = readFile() # Read the TEXT_FILE

	normalized = tokenize(file_content)

	vocabulary, vectors = gen_vectors(normalized)

	km_model = gen_clusters(vectors) # Generate clusters

	show_results(vocabulary,km_model)


Loading file periodico

Generating word vectors
Matrix shape: (15953, 100)
Vectors generated

Clustering started
Clustering finished

Total clusters: 100
Cluster# 0  - Total words: 141
Cluster# 1  - Total words: 161
Cluster# 2  - Total words: 174
Cluster# 3  - Total words: 145
Cluster# 4  - Total words: 139
Cluster# 5  - Total words: 148
Cluster# 6  - Total words: 155
Cluster# 7  - Total words: 172
Cluster# 8  - Total words: 185
Cluster# 9  - Total words: 184
Cluster# 10  - Total words: 155
Cluster# 11  - Total words: 147
Cluster# 12  - Total words: 167
Cluster# 13  - Total words: 155
Cluster# 14  - Total words: 158
Cluster# 15  - Total words: 147
Cluster# 16  - Total words: 150
Cluster# 17  - Total words: 159
Cluster# 18  - Total words: 161
Cluster# 19  - Total words: 170
Cluster# 20  - Total words: 164
Cluster# 21  - Total words: 150
Cluster# 22  - Total words: 169
Cluster# 23  - Total words: 170
Cluster# 24  - Total words: 164
Cluster# 25  - Total words: 147
Cluster# 26  - Total wor

Words: rosario, pacíficamente, peticiones, desnudarse, encuentro, ona, bella, pórtico, mitad, sorpresa, resistencia, fragmentaria, enamoramiento, conflicto, reserva, rápidos, average, formarse, servían, negativos, ciclo, articulistas, favoritas, aclaración, funcionan, protagonistas, noemí, cometa, comisariado, paseo, generalizado, apasionado, manet, marchito, micolor, objetos, elton, gerhard, aclarar, responde, balearia, coloma, paran, bombero, actos, trío, surgir, pacificación, actuará, paris, tomando, duncan, afluencia, objeción, desaliñados, pequeños, salvará, pelotones, escrita, encontremos, mystic, piense, estridente, empresarios, qatadah, balear, implicado, destrozada, scott, subcontratista, anual, matemáticas, lluvias, ejercito, oficio, considerada, corporació, solidariamente, letrero, granada, quisio, sitio, incluir, controvertido, gerard, mediterrània, negativas, polvo, apasionan, expresividad, tomarse, planchar, deplorable, establecieron, reixac, indocumentados, relajan, inst

Words: llotja, entrega, pardo, herido, móvil, giro, trata, morosidad, técnicos, ángel, faralaes, litoral, nulos, voto, situaciones, palacio, dirigir, john, defensor, siguiente, nbc, firmas, dispuestas, interna, jaume, consejero, diversidad, mover, cereza, grado, controles, estructura, perdió, deberes, salvado, desencadenó, llull, baleares, popularizar, obsesionada, probablemente, sistemas, rock, añaden, asignatura, solicitan, afortunado, buenos, ejecutivos, nadal, oficina, decenio, equivale, dirigentes, infección, comunidad, produjo, saber, considerarse, propició, velero, el, identificará, estratégico, regalará, correcta, canciller, preparada, demuestran, presentar, museo, vuelvan, elaborada, frontera, senegalese, defiende, pornográfico, carcelario, promociona, meditable, apoyadas, santander, ceuta, quedo, mateu, descartaban, sabíamos, lai, perdieran, emocionarse, democráticos, saed, brutales, sostener, bloqueado, lufthansa, air, crudo, tarifaria, irrumpirán, extender, acometer, propie

Words: guarda, cantan, escena, humana, actoral, secuestrado, regla, tocar, principales, ocupó, enfrenamiento, conseguir, televisivo, indicadores, testar, treinta, supera, agroalimentarias, preparado, pateado, ilustran, sentir, apoyados, alzados, audio, aplaudieron, acompañada, cee, computar, puesta, enclavadas, insuficiente, mosén, ocurrió, jode, japonés, década, temperadas, rusa, terriblemente, valoracions, sucedido, retrase, describió, apoyar, trascendencia, operaciones, cuales, rumsfeld, regresa, suma, esculpir, lerín, figueres, paga, trenecitos, fotovoltaica, régimen, gestar, vandálicos, alcanzaría, jardineros, boubacar, cristóbal, emite, humanas, delgado, pregunto, marginado, gironella, sydney, roto, organizados, pulse, creamfields, exageramos, autonomistas, agotar, millar, estela, melómano, bus, dolorosa, allard, ciudadanía, xile, laporta, polifónico, psicológicamente, karpinski, olvidos, virus, aventurado, corremos, vulnerable, arranque, urbanístico, conociera, pastel, sotana, p

Words: ascendencia, aparecen, olaguer, demasiado, tapia, ricardo, mediar, márgenes, sully, volverán, golpe, retomar, reprimidas, ésta, debo, prioridad, repetirá, expediente, nóminas, continuarán, largo, acercó, puedo, crea, literatura, filántropo, hannah, cnn, exactamente, cantantes, betty, reconocer, académico, atacó, echaron, municipio, llegar, delito, alcoholemia, ciclista, recuerdan, polley, declarar, embajada, dieron, sorribes, pesas, conocieron, investigative, observatori, enfermedades, culebrones, oído, angela, benedetto, descubrió, dulce, lidiar, antecedentes, córdoba, lento, patriotismo, gironès, rave, totta, y, seymour, romántica, desaprovechar, pagados, disidencia, practica, incrementado, operarios, complacía, descrito, globalización, aria, alcanzaron, alteran, trató, método, bordeta, restaurante, valedora, facilitarles, gandhi, exdirigente, decentes, proximidades, vecindario, limitaron, convertida, escoltados, bailac, clásica, ppc, corrido, sensibles, reumáticas, compravent

Words: unesco, músico, político, malherido, berlín, tontería, alinear, introduciendo, opusieron, lumen, trasmitir, actuar, decidió, factor, agotados, aragón, retenido, lenta, estatuilla, calderón, accidentes, temo, informaron, índice, whitney, monica, generación, editorial, dijeron, tiro, deuda, reapareció, italoesloveno, clínica, advertencias, viajero, acortase, botías, dividido, gratuitamente, obtenido, beneficiar, bailarinas, parque, box, entiende, excéntrico, acostumbrada, continente, consulting, locuaz, conflictivas, altas, punsí, amable, monegal, famosas, turno, inesperados, armamentística, desplazados, lisboa, negocios, dialogante, cuarta, mortalidad, bituminoso, afectar, recuerdo, saltara, vuelo, cid, escolarizados, recuento, acebes, suicidarse, kellog, repercutir, reproduce, ahorramos, llaneza, acabada, globalizado, empleada, cortina, clínic, in, uralita, sobresale, polivalencia, anthropos, potenciados, canon, aclaró, historiador, prever, acercará, hostilidades, víspera, extre

Words: soldados, disponer, internados, tura, relataron, pasivo, fool, veterana, oscar, esquerra, representó, kluivert, residían, amoroso, enamorados, hagan, juzgará, paralelismo, confirmaba, cirugía, participaron, gastronómica, claramente, femenino, controlaban, disposiciones, mantendrá, virtual, conducir, nieto, contenía, cayeron, franquistas, coletazos, continúan, greentree, ropa, reparten, estudiando, comunicacional, sindicales, hablaremos, fruto, piensa, viajando, usón, penyafort, alquilar, cohesión, colores, concibe, silbando, montoya, acalorado, colombiano, gené, milán, traoré, investigadores, corroboraron, dogmático, trasladar, museu, suramericano, cayó, kimmitt, estalló, rally, participaban, latifundio, fraga, deliciosa, homicida, planteamientos, ciertas, masacre, doctrina, sometiera, procesar, chuzos, inteligente, patrono, xabi, deporte, estancia, hallado, tomen, toneladas, almendras, fotografía, explotar, imaginé, soltura, pelvis, exhibida, alegar, reúnen, callejón, inhabilit

Words: estadounidense, toman, cuerpo, alcanzado, garganta, momentos, lucas, permaneció, manifestación, volvieron, incluía, thiago, argentino, likud, supone, parecen, presidencial, rojo, preguntas, apprentice, anunciantes, errores, asociaciones, calificado, pueda, fábricas, materia, reválida, cursos, jefa, nombrada, obispos, impelidos, radiografía, biografía, badalona, imputado, mira, enhorabuena, aprobada, destinadas, presupuestarios, limpia, fetichismo, encariñada, armado, combinando, provocar, retira, abrieron, mundos, río, mediterránea, valor, diversos, motores, pilotase, críticos, tormentosos, trincheras, pierden, atlas, peret, observar, retratados, amorosa, venerable, preferido, guisando, dramatismo, hablé, colegas, salen, anotaciones, mediodía, recordaron, previsible, irrelevantes, produce, erigirá, alquileres, parlamentos, imparcialidad, testigo, jordania, avivado, federació, avance, santo, predominan, desequilibrio, estrenó, descendieran, provocan, educar, amenazaba, eliminator

Words: narra, detenta, agradecimientos, pedro, descuento, viernes, sábados, posición, recibió, izquierda, debieron, anécdotas, espaldas, leticia, llamo, producir, ingenua, compradora, test, joaquín, golpeado, encarcelado, contrario, claris, moda, famoso, fonda, but, turca, tráfico, conscientes, hallar, circulaba, pesando, ayudas, posteriormente, anonimato, venden, reírse, cuña, credencial, vela, admiro, banc, contraportada, cumplían, cdu, decepcionada, provocativas, posterior, velar, veterano, zaireño, billón, volúmenes, segura, exalcalde, discrepancia, conocen, godó, sureste, trois, autobiográfico, multimillonarios, joddie, hawtin, felicitarse, impredecible, explicarán, asesinados, recomendó, sirven, grabar, pisar, explicaciones, balance, copas, romea, aplicarán, pobres, calcula, articulación, preocupante, trabajarán, cocheras, recompra, ràdio, desistiera, explotación, desenlace, contencioso, trasladaron, bibliotecarias, decoración, rendirse, protesté, consum, levantó, paolo, emboscad

Words: edad, asunción, recuerda, estreno, rakatá, tensa, vieron, resto, desplazaron, respecto, partidas, tandy, hacerlo, avanzar, esencial, sevillanas, carretera, clara, editará, lanzado, antibélico, parecido, pasada, indignación, reproches, segregaban, obligará, ignora, portabella, díaz, autenticidad, económicas, promueve, décadas, instala, edita, missiego, abad, serrat, exrepresentantes, salido, manifestar, temporal, financiación, joya, sórdido, ocurren, burnett, privados, puig, aumentará, propagando, pie, renunció, apenas, modestia, b, viento, enfrentará, horario, coexistirá, dinamización, contemporáneo, pliego, millonario, populares, intereses, coincidentes, atribuirle, rebeldes, identificarse, calabozos, esperaba, rechazaron, mate, impecables, perjudicados, rectificación, delirio, mencionó, plasmó, plataformas, pasamontañas, oms, aparecer, keiko, previamente, reclamaron, dejará, inesperada, destruya, utilidades, gestionarlo, aceptación, calcinada, danzante, mogollón, colapsada, me

Words: guardia, cervera, época, formaciones, ópera, àngels, merece, presentará, cordones, carencias, llamadas, promotor, administraciones, comarcas, variable, nubla, miedo, sientes, películas, hbo, pagaban, katherine, totalidad, formó, sufrido, total, indicaron, protagonizados, moral, literario, comprar, habla, audacia, baja, inquietud, batallas, ocultadas, cuadros, prenda, croquetas, filma, frasier, señalando, puentes, arma, correr, cam, cuestan, jiménez, demostró, camisas, albañil, malditos, porcentualmente, disputará, bendiciones, aclara, organiza, salgan, examen, detenidas, progresista, diseñados, claveles, jovencitos, gravedad, avanzó, príncipe, compositores, abandonadas, comprometió, fisuras, pío, pasaran, limitadas, reservistas, colorado, comprarle, tramas, entraron, degradado, decidir, calificarlo, superando, licuación, especies, enanos, empañe, encantan, respetado, expolio, destruyeron, poderoso, recordado, engañemos, clausure, visiblemente, curarme, retratista, cesiones, camp

Words: legado, entregados, noches, asesinato, diego, melanie, verdes, garbati, economía, efe, aportó, pertenecen, ruud, sanar, delicada, palestino, gong, detrás, metido, rey, presenciar, simulacros, sufrir, catalanas, paliza, pinchado, uniforme, diversas, bohigas, dejaron, portada, marca, asistentes, discográfica, recibirla, amistad, colonias, bate, cuantas, domésticamente, convirtió, directivo, comunicació, joaquim, cuarto, producirá, demográfica, aceptó, xix, bcn, influencia, reconsideraría, soga, galeristas, empeño, granjero, revisores, numeroso, cuestionables, interroga, testificaron, atraerán, desapercibidas, constitucional, plantear, palmo, verifiquen, descartó, sinfónica, figuraban, preparar, mcclellan, temperatura, secundaria, primerizas, justificado, prefirió, data, físicos, surjan, cañón, lles, pelota, criticar, contundencia, saliente, habitante, detener, terrats, capturados, novich, carnabalona, confundían, empire, labrado, yucatán, carulla, recordarán, aplauda, enseres, sus

Words: antigua, enfatizar, apartado, vocablo, llamada, contención, gump, breve, empieza, forman, extremo, precipitada, atacado, autobiografía, llamado, makeover, competirán, señalización, funcionamiento, recogieron, ferrer, incomodidades, suponen, urgente, personales, salve, sabía, existan, art, rem, gratis, dile, voy, llevarme, consagración, caros, mostrado, quim, bill, humor, firma, sellarés, demandantes, peneuvista, disparo, sintonía, antiglobalización, distinciones, bullen, compensado, aspectos, disculparse, estridentes, buenas, estimulados, cortó, árbol, trascendido, bursátil, unicaja, preocupa, reiteración, comisarías, significará, cerril, limitan, siento, laforet, enviaba, tregua, agredir, prefiero, tre, rogamos, rigau, intercontinental, cantidad, cerradas, escaparates, comaneci, desnaturalice, infectado, descendieron, persistentes, felicitaron, concluyó, rómulo, sorprendente, administrativo, altera, europe, situados, italiana, atómicas, liberado, rendido, facturadas, irrumpiera

Words: aérea, impulsor, montgomerie, love, consiguen, teléfono, pozo, diputación, procedencia, estacionamiento, vacante, convocatoria, especie, tuerca, continuación, segmentación, titulado, acorralarle, preguntado, bota, coordinación, oportunidad, religiosos, revista, venido, látex, esposo, digno, agoniza, responsabilidades, movidos, ginebra, absoluto, pareja, hurtado, urbana, militante, discusión, inaugurado, televisiones, terapias, atractivos, djoloff, repetto, folclórico, contemporáneas, encontramos, espectacularmente, trasladado, europeas, continuidad, traduciendo, enfrentamientos, anagrama, veremos, chiquito, telva, secretarios, advierte, elevar, incorporar, poeta, llagosta, drástica, encapotado, tocamos, secreta, despí, seguirán, oscura, salmantino, amanecieron, protegiendo, subiera, reclamó, bronislaw, adueñan, captores, letonia, dificultan, sacando, txiki, comienzo, metrosexualcoronas, idiota, suplemento, nuclear, añagaza, voluntades, necesitaba, destinada, recortará, quejan, l

Words: france, coronación, determinadas, violencia, demás, unidades, dirige, comercio, pequeña, ureta, extensión, futuro, impedirá, parlamentarios, últimas, venganza, marisa, rodriguez, asesinatos, llevar, efectos, oh, muera, próxima, pequeño, quejaron, adelantó, cierres, identificado, identificados, amenazada, ernest, estudiar, públicos, quedan, mérito, noticia, abuelo, noviembre, edite, recuerdos, infracciones, bajan, hipotecarios, índices, bermejo, afecte, parroquia, facilitó, pintado, suponemos, guarde, pocos, hordas, respuestas, inmediatos, ritmo, contemporizadoras, triadó, renovar, recomendaciones, interesante, azur, cuánto, pobre, sexuales, construye, imposibles, transitada, músicas, terreno, senegalesa, natacha, mallorca, cómodo, movía, mina, tablas, pasarán, determinar, altura, masivas, página, exigencias, negociamos, parteix, paye, pasan, forzara, escritor, sectores, tecnologías, carme, sindicato, ataje, obstáculo, revelaron, consideró, infectados, primaria, integrado, altera

Words: eimear, privación, tellón, justícia, mejora, filme, obtuvo, candidato, casetas, interés, historias, devota, vertiente, mejorarla, oliveras, cumple, villarreal, gobiernos, hispano, estambul, baúl, inseparables, sancionadora, asamblea, ruedad, pésima, inicial, hicieran, cheer, coma, incluyó, deba, ayudar, montse, facilitará, reclusión, nacionalismo, cambiado, olímpico, teatral, gemidos, bailarín, dalí, jean, descharnes, rambla, hectáreas, indicados, multimarca, regreso, utópico, comicios, compatible, indio, encuestas, horst, ecléctico, contradicción, perjudiciales, rápidamente, shiís, convoy, titularse, alejadas, interesantes, dance, arquitectos, seguros, meterse, eléctrico, mínimo, matanza, extendiera, utrera, ingreso, desplome, arnau, giscard, wayne, empeorar, mimará, elaborar, aprendizaje, machacarles, frecuentes, remedios, infierno, derribadas, lisca, compromisos, entornos, asimilar, acatará, penitenciarias, oscile, documentalistas, triplica, von, trier, aloy, emisoras, negoci

Words: acogió, motivo, tensión, viscerales, nominaciones, cuesta, richard, celebrará, rebajando, salas, afincada, prohíbe, idoya, ventas, busca, sufrió, comporta, fusión, normativa, renta, posean, gasolina, envío, suman, d, interviú, favorable, now, expresó, revelación, adn, gimnasio, andaluz, autorización, manta, encantaría, aquella, viste, mory, vivido, conocidas, break, radicales, delata, verbena, emplazamiento, debuta, lligat, fontova, pidan, efectivamente, maduras, damián, castigo, granja, lorca, libreto, activas, informáticas, barracones, escolarización, acelerar, guadalajara, alabar, villarroel, extremista, filadelfia, portadores, parezca, favorecida, proliferación, fruta, marcos, lópez, matar, torturar, dotes, petit, descendió, rechazarlos, proclame, empiezan, limitaban, educadores, cuelga, inundaciones, motivación, insula, saqueada, gestor, sospechosas, sadam, introducen, ausellé, decibelios, baile, meollo, limpiando, johanesburgo, existía, anónimas, lempicka, garbo, nicole, d