In [1]:
import spacy
import re
import textwrap
nlp = spacy.load("es_core_news_sm")

In [4]:
file_path = "../data/emos-vs-punks.txt"

replace_subs = [
    ("\[[^\[\]]+\]: ", ""),
    ("\(SOUNDBITE ARCHIVO\)", ""),
    ("…", "."),
    ("\s+", " ")
]

punctuation_marks = ["»", "“", "¡", "&"]

text = ""
with open(file_path, "rt") as file:
    text = file.read()

for (old, new) in replace_subs:
    text = re.sub(old, new, text)

text = text.strip()
doc = nlp(text)

dic = {}
word_count = 0

token_array = []

def add_or_append(dic, key1, key2, value):
    if key1 in dic.keys():
        
        if key2 in dic[key1].keys():
            dic[key1][key2].append(value)
        else:
            dic[key1][key2] = [value]
    else:
        dic[key1] = { key2: [value], }
    return dic

outfile_path = "../data/emos-vs-punks.json"
with open(outfile_path, "w") as outfile:
    outfile.write("""{\n""")
    outfile.write("""  "sentences": [\n""")
    for sentence_i, sentence in enumerate(doc.sents):
        if sentence_i > 0:
            outfile.write(""",\n    [\n""")
        tok_end=","
        for token_i, token in enumerate(sentence):
            if token_i > 0:
                outfile.write(""",\n""")
            pos = "PUNCT" if token.text in punctuation_marks else token.pos_
            
            outfile.write("""      {}\n""".format("{"))
            outfile.write("""        "text":"{}",\n""".format(token.text))
            outfile.write("""        "lemma":"{}",\n""".format(token.lemma_))
            outfile.write("""        "pos":"{}"\n""".format(pos))
            outfile.write("""      {}""".format("}"))
        outfile.write("""\n""")
        outfile.write("""    ]""")
    outfile.write("""\n""")
    outfile.write("""  ]\n""")
    outfile.write("""}""")
            

for sentence_i, sentence in enumerate(doc.sents):
    token_array.append([])
#     print("{: 4d}: {:s}".format(sentence_i, sentence.text.strip()))
    for token_i, token in enumerate(sentence):
        token_array[sentence_i].append(token)
        if token.pos_ == "PUNCT" or token.text in punctuation_marks: # Punctuation
            continue
        word_count += 1
        outer_key = token.lemma_.lower()
        inner_key = token.text.lower()
        dic = add_or_append(dic, outer_key, inner_key, (sentence_i, token_i))
        
#         if key in dic.keys():
#             dic[key].append((sentence_i, token_i))
#         else:
#             dic[key] = [(sentence_i, token_i)]
#         print("\t{:12s} ---> {:12s} ---> {}".format(token.text, token.lemma_, token.pos))
#     if sentence_i >= 10:
#         break
print("Word count: {}".format(word_count))

Word count: 7381


In [5]:
def get_length(inner_dic):
    length = 0
    for key, value in inner_dic.items():
        length += len(value)
    return length

words_counted = 0

for i, (outer_key, inner_dic) in enumerate(sorted(dic.items(), key=lambda item: -get_length(item[1]))):
    inner_dic_len = get_length(inner_dic)
    words_counted += inner_dic_len
    percentage = 100.0 * words_counted / float(word_count)
    print("[{:5.1f}%] {:4d}: \033[1m{:s}\033[22m × {:d}".format(percentage, i + 1, outer_key, inner_dic_len))
    for j, (inner_key, value) in enumerate(sorted(inner_dic.items(), key=lambda item: -len(item[1]))):
        print("\t\t{:3d}: {}".format(j+1, inner_key))
        (sentence_i, token_i) = value[0]
        print("\t\t\t\t", end="")
        tmpstr = ""
        for k, token in enumerate(token_array[sentence_i]):
            if k != 0 and token.pos != 97:
                tmpstr += " "
            if k == token_i:
                tmpstr += "\033[1;4m"
            tmpstr += token.text
            if k == token_i:
                tmpstr += "\033[22;24m"
        print(textwrap.fill(tmpstr, 50).replace("\n", "\n\t\t\t\t"))

[  7.8%]    1: [1mel[22m × 578
		  1: la
				Una advertencia: este episodio contiene
				vocabulario propio de [1;4mla[22;24m Ciudad de
				México.
		  2: los
				Para [1;4mlos[22;24m que no saben o necesitan un
				recordatorio.
		  3: el
				Empecemos [1;4mel[22;24m 15 de marzo del 2008,
				en Ciudad de México, que por ese entonces se
				llamaba Distrito Federal.
		  4: las
				La cita era a [1;4mlas[22;24m tres de la tarde
				en la Glorieta de Insurgentes.
[ 13.5%]    2: [1mde[22m × 421
		  1: de
				Una advertencia: este episodio contiene
				vocabulario propio [1;4mde[22;24m la Ciudad de
				México.
[ 17.1%]    3: [1mél[22m × 266
		  1: se
				Empecemos el 15 de marzo del 2008, en Ciudad de
				México, que por ese entonces [1;4mse[22;24m
				llamaba Distrito Federal.
		  2: lo
				[1;4mLo[22;24m que están escuchando es un
				reportaje de TV Azteca.
		  3: les
				El cabello largo [1;4mles[22;24m caía por la
				frente cubriéndoles los ojos.
		  4: le
				

				[1;4mEsta[22;24m es Fernanda.
		  3: esto
				[1;4mEsto[22;24m es Radio Ambulante desde NPR.
		  4: estos
				Y de repente se veía, yo lo veía con mis propios
				ojos, como una nueva ola de moda principalmente,
				de [1;4mestos[22;24m chavalos que se hacían así
				los flecos altísimos de atrás o de enfrente.
		  5: éste
				[1;4mÉste[22;24m es Kristoff, un presentador de
				Telehit, uno de esos canales musicales del montón
				que intentaba aspirar a tener un estilo como el de
				MTV.
[ 44.1%]   21: [1mmucho[22m × 50
		  1: muy
				Incluyendo palabras que algunas personas podrían
				considerar ofensivas, pero [1;4mmuy[22;24m
				chingonas.
		  2: muchos
				Pero igual — y esto sonará raro —
				[1;4mmuchos[22;24m de los que recordamos esa
				batalla le tenemos algo de cariño.
		  3: mucho
				y sentir [1;4mmucho[22;24m.
		  4: mucha
				Ahí andábamos inventándole y. En ese momento no se
				les prestaba [1;4mmucha[22;24m atención.
		  5: muchas
				Era una 

		  6: poder
				Aunque pisaron por un momento la entrada de la
				tierra prometida, tuvieron que alejarse del Chopo
				para [1;4mpoder[22;24m terminar el día
				tranquilos.
		  7: podrían
				Incluyendo palabras que algunas personas
				[1;4mpodrían[22;24m considerar ofensivas, pero
				muy chingonas.
		  8: puedes
				En CarMax [1;4mpuedes[22;24m hacer tu compra a
				tu manera: en línea desde el confort de tu hogar,
				en persona en el lote, o combinando ambas
				alternativas.
		  9: pueden
				Y pues tal cual nos corrieron, o sea nos corrieron
				así de que: “ Ustedes no [1;4mpueden[22;24m
				estar aquí, váyanse”.
		 10: pudo
				necesario crear un nuevo género para expresar
				emociones?,¿ no nos sirve con el death metal?,¿ no
				tenemos suficiente con el punk?,¿ no tenemos
				suficiente con Camila, Sin Bandera, José José?
				Como parte de su investigación, Daniel Hernández
				[1;4mpudo[22;24m platicar con él.
		 11: puedo
				Y cerró con esto: Yo [1;4mpuedo

				Se organizaban para tal día y tal hora salir a
				[1;4mgolpear[22;24m a los emos.
		  3: golpeaban
				Y al que agarraban lo [1;4mgolpeaban[22;24m y le
				cortaban el fleco.
		  4: golpeada
				Su hija no fue [1;4mgolpeada[22;24m en la
				batalla de Insurgentes, pero sí le tocó en otra
				ocasión, mientras caminaba por la calle con sus
				amigos.
[ 62.5%]   86: [1mentonces[22m × 10
		  1: entonces
				Empecemos el 15 de marzo del 2008, en Ciudad de
				México, que por ese [1;4mentonces[22;24m se
				llamaba Distrito Federal.
[ 62.7%]   87: [1mjoven[22m × 10
		  1: jóvenes
				[1;4mJóvenes[22;24m autodenominados emos estaban
				reunidos para manifestarse y defender su
				ideología.
		  2: joven
				Si fuera un poquito más [1;4mjoven[22;24m,
				seguramente me hubiera identificado con ellos.
[ 62.8%]   88: [1mcuando[22m × 10
		  1: cuando
				Y [1;4mcuando[22;24m estés listo para lanzar tu
				página, usa el código “ NPR ” para ahorrar 10 por
				ciento en 

				Luna Negra y Darynkayna les propusieron a los
				chavos emos que organizaran una
				[1;4mmarcha[22;24m para dar a conocer su postura
				y como un intento de defenderse de manera
				pacífica.
[ 71.8%]  175: [1mdesde[22m × 5
		  1: desde
				Esto es Radio Ambulante [1;4mdesde[22;24m NPR.
[ 71.8%]  176: [1murbano[22m × 5
		  1: urbanas
				Repasemos: en los 90 se hablaba de tribus
				[1;4murbanas[22;24m, grupos de personas,
				especialmente jóvenes, con gustos similares.
		  2: urbanos
				La reunión comenzó a tomar forma de mitin político
				de grupos [1;4murbanos[22;24m.
[ 71.9%]  177: [1mamenaza[22m × 5
		  1: amenaza
				La [1;4mamenaza[22;24m era por parte de grupos
				llamados punketos y así fue.
		  2: amenazas
				Comenzaron los gritos de [1;4mamenazas[22;24m,
				de burlas.
[ 72.0%]  178: [1mllamado[22m × 5
		  1: llamados
				La amenaza era por parte de grupos
				[1;4mllamados[22;24m punketos y así fue.
		  2: llamadas
				Por incidentes como e

		  1: movimiento
				Por eso, empezó el [1;4mmovimiento[22;24m anti-
				emo: con llamados a golpearlos y todo lo demás.
[ 79.6%]  323: [1manti-emo[22m × 3
		  1: anti-emos
				La ventaja de los emos era que los superaban
				abismalmente en número: había menos de 20
				[1;4manti-emos[22;24m, punks y metaleros en su
				mayoría, contra más de 200 emos.
		  2: anti-emo
				Por eso, empezó el movimiento [1;4manti-
				emo[22;24m: con llamados a golpearlos y todo lo
				demás.
[ 79.7%]  324: [1mcual[22m × 3
		  1: cual
				Y pues tal [1;4mcual[22;24m nos corrieron, o sea
				nos corrieron así de que: “ Ustedes no pueden
				estar aquí, váyanse”.
[ 79.7%]  325: [1msignificar[22m × 3
		  1: significa
				No saben, no se han puesto a investigar qué
				[1;4msignifica[22;24m el peinado, qué significan
				las botas, no saben nada.
		  2: significan
				No saben, no se han puesto a investigar qué
				significa el peinado, qué [1;4msignifican[22;24m
				las botas, no saben n

		  1: onda
				pues va a haber tocada,¿ o qué [1;4monda[22;24m?
[ 86.2%]  541: [1mtenso[22m × 2
		  1: tenso
				Trataban de relajarse como cualquier otro sábado,
				pero no podían obviar que el ambiente estaba
				[1;4mtenso[22;24m.
[ 86.2%]  542: [1mestár[22m × 2
		  1: estábamos
				[1;4mEstábamos[22;24m en este bar que te digo,
				Los Sillones, cuando. cuando ya empezaron a decir
				que sí.
[ 86.3%]  543: [1mresto[22m × 2
		  1: resto
				Los emos que estaban en Los Sillones se levantaron
				y se unieron al [1;4mresto[22;24m que estaba
				afuera.
[ 86.3%]  544: [1macercar él[22m × 2
		  1: acercarse
				Se pusieron a platicar hasta que los interrumpió
				un ruido: de una de las entradas a la Glorieta se
				escuchaban [1;4macercarse[22;24m unos gritos a
				lo lejos.
[ 86.3%]  545: [1mlejos[22m × 2
		  1: lejos
				Se pusieron a platicar hasta que los interrumpió
				un ruido: de una de las entradas a la Glorieta se
				escuchaban acercarse unos gritos a 

[ 89.4%]  707: [1m2000[22m × 1
		  1: 2000
				Cuando los emos se pusieron de moda, a mediados de
				los años [1;4m2000[22;24m, yo estaba en la
				secundaria.
[ 89.4%]  708: [1msecundaria[22m × 1
		  1: secundaria
				Cuando los emos se pusieron de moda, a mediados de
				los años 2000, yo estaba en la
				[1;4msecundaria[22;24m.
[ 89.4%]  709: [1mdécada[22m × 1
		  1: década
				Ha pasado más de una [1;4mdécada[22;24m, se
				siente que ha sido una eternidad.
[ 89.4%]  710: [1meternidad[22m × 1
		  1: eternidad
				Ha pasado más de una década, se siente que ha sido
				una [1;4meternidad[22;24m.
[ 89.4%]  711: [1minformación[22m × 1
		  1: información
				Por ejemplo, la [1;4minformación[22;24m no
				circulaba como hoy.
[ 89.5%]  712: [1mteléfono[22m × 1
		  1: teléfonos
				¿ Recuerdan los [1;4mteléfonos[22;24m de ese
				momento?
[ 89.5%]  713: [1mtecla[22m × 1
		  1: teclas
				Con [1;4mteclas[22;24m, cámaras de bajísima
				calidad, algunos todavía t

		  1: mercado
				El Chopo es un [1;4mmercado[22;24m callejero con
				decenas de puestos de chácharas, ropa, accesorios
				y lo más importante: música, mucha, mucha música.
[ 91.1%]  830: [1mdecena[22m × 1
		  1: decenas
				El Chopo es un mercado callejero con
				[1;4mdecenas[22;24m de puestos de chácharas,
				ropa, accesorios y lo más importante: música,
				mucha, mucha música.
[ 91.1%]  831: [1mcháchara[22m × 1
		  1: chácharas
				El Chopo es un mercado callejero con decenas de
				puestos de [1;4mchácharas[22;24m, ropa,
				accesorios y lo más importante: música, mucha,
				mucha música.
[ 91.1%]  832: [1mmucha[22m × 1
		  1: mucha
				El Chopo es un mercado callejero con decenas de
				puestos de chácharas, ropa, accesorios y lo más
				importante: música, [1;4mmucha[22;24m, mucha
				música.
[ 91.1%]  833: [1mintercambiar[22m × 1
		  1: intercambian
				No solo se vende, también se
				[1;4mintercambian[22;24m álbumes, se organizan
				conciertos y evento

				Y pues, ahora sí que, tal cual así que en el calor
				de lo que pasó, [1;4mllego[22;24m y le pego al
				otro y se cae con su novia.
[ 94.2%] 1059: [1mnovia[22m × 1
		  1: novia
				Y pues, ahora sí que, tal cual así que en el calor
				de lo que pasó, llego y le pego al otro y se cae
				con su [1;4mnovia[22;24m.
[ 94.2%] 1060: [1msensi[22m × 1
		  1: sensi
				verlos a ellos como [1;4msensi[22;24m.
[ 94.2%] 1061: [1magresivo[22m × 1
		  1: agresivos
				siendo [1;4magresivos[22;24m,¿ no?
[ 94.2%] 1062: [1mchiquillo[22m × 1
		  1: chiquillos
				a todos los [1;4mchiquillos[22;24m emos.
[ 94.2%] 1063: [1mdócil[22m × 1
		  1: dóciles
				Y es que a los ojos de todos, los emos eran
				[1;4mdóciles[22;24m.
[ 94.2%] 1064: [1mespectador[22m × 1
		  1: espectadores
				Pero bueno, ahí estaban, respondiendo a los
				ataques para sorpresa de los
				[1;4mespectadores[22;24m, y claro, de los punks.
[ 94.2%] 1065: [1mvolvemo[22m × 1
		  1: volvemos
				Una paus

				Daniel Hernández, que ya tenía bastante tiempo
				[1;4mdándole[22;24m seguimiento a los emos,
				también recuerda esa transición.
[ 98.5%] 1379: [1mseguimiento[22m × 1
		  1: seguimiento
				Daniel Hernández, que ya tenía bastante tiempo
				dándole [1;4mseguimiento[22;24m a los emos,
				también recuerda esa transición.
[ 98.5%] 1380: [1mtransición[22m × 1
		  1: transición
				Daniel Hernández, que ya tenía bastante tiempo
				dándole seguimiento a los emos, también recuerda
				esa [1;4mtransición[22;24m.
[ 98.5%] 1381: [1mcamino[22m × 1
		  1: camino
				Para mí siento que muchos estaban iniciando su
				[1;4mcamino[22;24m a su eventual cultura con la
				que se iban a quedar.
[ 98.5%] 1382: [1meventual[22m × 1
		  1: eventual
				Para mí siento que muchos estaban iniciando su
				camino a su [1;4meventual[22;24m cultura con la
				que se iban a quedar.
[ 98.6%] 1383: [1mpodcastero[22m × 1
		  1: podcasteros
				[1;4mpodcasteros[22;24m.
[ 98.6%] 1384: [