# Tokenising Text Data

In [1]:
import tensorflow as tf
import re
import os

In [2]:
tf.__version__

'2.3.1'

In [4]:
# COSNTRUCCIÓN DE UNA LISTA QUE CONTENGA TODAS LAS RESOLUIONES EN STRING
    
years = [2006] + list(range(2008, 2021))
lista_resoluciones = []

for year in years:
    
    directory = f"dataset/resoluciones_texto/{year}"
    lista_txts = os.listdir(directory)
    print(year, "-", len(lista_txts))
    for x in lista_txts:
        path = directory + "/" + x
    
        with open(path, 'r', encoding='UTF-8') as file:
            text_string = file.read()
            text_string = re.sub("\s+", " ", text_string)
            lista_resoluciones.append(text_string)

2006 - 18
2008 - 27
2009 - 27
2010 - 32
2011 - 40
2012 - 16
2013 - 20
2014 - 17
2015 - 13
2016 - 14
2017 - 15
2018 - 14
2019 - 6
2020 - 7


In [6]:
len(lista_resoluciones)

266

In [5]:
lista_resoluciones

[' PROCEDENCIA : COMISION DE PROTECCION AL CONSUMIDOR ZONA SUR (LA COMISION) DENUNCIANTE : SEGUNDO VALENCIA BARCENA (EL SEÑOR VALENCIA) DENUNCIADO : EMPRESA DE TRANSPORTES FLORES HERMANOS S.R.L. (TRANSPORTES FLORES) MATERIA : PROTECCION AL CONSUMIDOR IDONEIDAD DEL BIEN O SERVICIO MULTA MEDIDA CORRECTIVA ACTIVIDAD : TRANPORTE DE CARGA POR CARRETERA SUMILLA: en el procedimiento sobre infracciones a la Ley de Protección al Consumidor seguido por el señor Segundo Valencia Barcena contra la Empresa de Transportes Flores Hermanos S.R.L., esta Sala ha resuelto confirmar la Resolución Nº 040-2005/CPCSUR en los extremos en los que declaró fundada la denuncia por infracción al artículo 8º de la Ley de Protección al Consumidor; sancionó a la denunciada con una multa de media (0,50) Unidad Impositiva Tributaria y le ordenó el pago de las costas y costos del procedimiento. Asimismo, se ha resuelto modificar la resolución apelada en el extremo referido a la medida correctiva y ordenar a la Empresa d

## Create a Tokenizer object

The `Tokenizer` object allows you to easily tokenise words or characters from a text document. It has several options to allow you to adjust the tokenisation process. Documentation is available for the `Tokenizer` [here](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer).

The Tokenizer has a `filters` keyword argument, that determines which characters will be filtered out from the text. The cell below shows the default characters that are filtered, to which we are adding our additional filters.

In [6]:
# Create a Tokenizer object

from tensorflow.keras.preprocessing.text import Tokenizer

# Define any additional characters that we want to filter out (ignore) from the text
additional_filters = '—’‘“”'

tokenizer = Tokenizer(num_words=None, 
                      filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n' + additional_filters,
                      lower=True,
                      split=' ',
                      char_level=False,
                      oov_token='<UNK>',
                      document_count=0)

In all, the `Tokenizer` has the following keyword arguments:

`num_words`: int. the maximum number of words to keep, based on word frequency. Only the most common `num_words-1` words will be kept. If set to `None`, all words are kept.
    
`filters`: str. Each element is a character that will be filtered from the texts. Defaults to all punctuation (inc. tabs and line breaks), except `'`.

`lower`: bool. Whether to convert the texts to lowercase. Defaults to `True`.

`split`: str. Separator for word splitting. Defaults to `' '`.
    
`char_level`: bool. if True, every character will be treated as a token. Defaults to `False`.

`oov_token`: if given, it will be added to word_index and used to replace out-of-vocabulary words during sequence_to_text calls. Defaults to `None`.

### Fit the Tokenizer to the text
We can now tokenize our text using the `fit_on_texts` method. This method takes a list of strings to tokenize, as we have prepared with `sentence_strings`.

In [7]:
# Build the Tokenizer vocabulary
tokenizer.fit_on_texts(lista_resoluciones)

# Get the tokenizer config as a python dict
tokenizer_config = tokenizer.get_config()
tokenizer_config.keys()

dict_keys(['num_words', 'filters', 'lower', 'split', 'char_level', 'oov_token', 'document_count', 'word_counts', 'word_docs', 'index_docs', 'index_word', 'word_index'])

In [8]:
import json

# Save the word_counts as a python dictionary
word_counts = json.loads(tokenizer_config['word_counts'])

In [9]:
#examinar el word_count
for x, y in word_counts.items():
    print(f"{x}: {y}")

procedencia: 516
comision: 7
de: 86176
proteccion: 46
al: 11623
consumidor: 5530
zona: 22
sur: 576
la: 59455
denunciante: 2272
segundo: 294
valencia: 21
barcena: 2
el: 35423
señor: 1933
denunciado: 359
empresa: 2783
transportes: 3195
flores: 301
hermanos: 19
s: 2805
r: 592
l: 545
materia: 1329
idoneidad: 1266
del: 24239
bien: 1030
o: 8125
servicio: 3301
multa: 1472
medida: 2094
correctiva: 1622
actividad: 613
tranporte: 3
carga: 737
por: 18208
carretera: 99
sumilla: 248
en: 31734
procedimiento: 4194
sobre: 2292
infracciones: 990
a: 22979
ley: 5328
protección: 4144
seguido: 118
contra: 1828
esta: 1359
sala: 1502
ha: 1734
resuelto: 45
confirmar: 967
resolución: 4793
nº: 397
040: 7
2005: 204
cpcsur: 14
los: 17300
extremos: 329
que: 33277
declaró: 1279
fundada: 952
denuncia: 2410
infracción: 3188
artículo: 6098
8º: 520
sancionó: 659
denunciada: 2219
con: 7414
una: 6376
media: 39
0: 326
50: 426
unidad: 166
impositiva: 37
tributaria: 76
y: 17949
le: 1490
ordenó: 543
pago: 1133
las: 11092
cos

aplica: 60
resolutivo: 165
valore: 3
llegue: 21
discrepando: 1
ve: 10
amparada: 3
pretensión: 193
qué: 50
asociado: 1
vicia: 5
disconformidad: 12
administrado: 308
impugnatorio: 12
superior: 101
pronunciamientos: 112
pertinente: 275
modificarlos: 1
1el: 12
2el: 9
conformaban: 8
entregaron: 18
ofreció: 55
0189485: 2
plásticos: 3
catalak: 4
transparente: 2
brillante: 2
frascos: 1
catalizador: 1
total: 210
32: 161
565: 1
94: 14
indicación: 10
4señor: 1
notarial: 56
suscrita: 24
hirineo: 1
totalidad: 52
faltando: 1
5brillante: 1
resolver: 102
acreditaba: 23
adquirida: 10
trasladada: 11
cuestionada: 61
contenida: 93
discrepa: 9
llevada: 16
demuestra: 15
adquirió: 95
trasladados: 27
domicilio: 358
medio: 395
probatorio: 185
afirmar: 27
esos: 16
integraron: 5
deja: 78
características: 194
inferir: 5
trata: 82
197: 6
88: 11
uno: 247
alegación: 24
llegaron: 7
simple: 27
aportado: 38
pudo: 208
completa: 9
solicitar: 116
piezas: 18
motiva: 14
permitan: 71
atribuir: 12
faltante: 9
mencionado: 83
f

2expreso: 1
dispuso: 141
3viajar: 1
embarcar: 17
abordara: 2
cerca: 1
distrito: 89
curahuasi: 10
provincia: 93
abancay: 13
volcó: 3
arrojándola: 1
cinturones: 19
causándole: 3
graves: 77
4personales: 1
custodió: 4
bolso: 37
víveres: 1
cartera: 3
llevado: 8
devueltos: 8
llevaba: 25
cobrado: 19
060: 1
cargaba: 4
presentaban: 6
aceptó: 14
oportunamente: 28
discreción: 3
optar: 8
postergar: 57
juzgado: 6
pendiente: 9
20505209193: 3
20417931393: 4
001897: 2
despiste: 2
volcadura: 5
sufrió: 46
fractura: 1
muñeca: 1
duplicando: 7
procesos: 28
vulnerando: 20
non: 87
bis: 93
in: 141
ídem: 44
vistas: 1
fuero: 13
ámbito: 223
dirigidas: 12
conflictos: 26
viajaban: 4
rpnp: 7
apu: 6
comis: 6
brindaron: 6
pusieron: 2
salud: 229
denunciadas: 42
respectivamente: 57
actuaciones: 59
basó: 12
imputarle: 1
credibilidad: 31
suscrito: 17
injusta: 9
señalaban: 2
percance: 9
ilegal: 36
respaldada: 1
requirió: 49
refieren: 3
vulneró: 44
victoria: 57
sujetos: 60
legitimados: 1
formar: 12
infringieron: 6
vii: 66


emitirá: 7
dilucidar: 7
controvertida: 12
confrontación: 4
exposiciones: 1
réplicas: 1
respuestas: 1
preguntas: 3
repreguntas: 1
356: 1
confirmando: 7
colige: 22
demandada: 1
el: 1
indecopi: 1
orales: 1
contravenido: 3
citadas: 20
discrecional: 7
trascendente: 4
eventual: 39
signado: 5
3075: 1
aparecen: 2
notorias: 1
irregularidades: 2
acaecidas: 2
denegatoria: 12
implicaría: 17
contraparte: 8
instancia–: 1
fredy: 3
raul: 1
marquez: 3
machado: 2
hunos: 15
1698: 4
raúl: 14
márquez: 22
1hunos: 1
morococha: 3
pulgadas: 8
lg: 4
223: 10
probaba: 3
001678: 2
0009: 14
020288: 1
20510766211: 1
tasa: 8
pagados: 3
mitad: 18
oferta: 14
asistido: 4
programadas: 2
celebre: 1
citó: 12
negamos: 1
demandante: 11
telefónica: 8
ofrecimos: 1
pidiéndole: 1
entendiera: 1
adjuntamos: 1
07: 12
asistir: 13
asistimos: 1
procedimiento–: 1
libera: 5
derivada: 10
conciliatorio: 12
efectuadas: 32
francisca: 2
espetia: 10
maccapa: 2
molina: 144
unión: 83
infundado: 60
246: 21
245: 14
omitiendo: 2
explicación: 5
t

2sobre: 1
conoció: 2
coherente: 2
traído: 1
artefacto: 4
malogrado: 2
cómodo: 1
repararlo: 1
3decreto: 1
ascendieron: 2
desperfectos: 7
recurrido: 14
sara: 7
alvarado: 25
805: 9
562: 5
262: 5
1pasajeros: 1
huaráz: 3
20217855633: 1
2destino: 1
tráfico: 2
inmediaciones: 4
cruce: 14
3distrito: 1
violentaron: 3
4bodega: 1
5responsable: 1
exonere: 10
limite: 11
052149: 1
cotabambas: 3
torno: 25
injusto: 2
investigando: 2
culminado: 5
huaraz: 31
delictivos: 9
índice: 10
criminalidad: 2
7sido: 3
ocasiones: 12
riesgosas: 1
vehiculares: 11
cerradas: 1
electrónica: 35
implementación: 36
contrarrestar: 5
delictivas: 2
esperando: 4
avanzar: 4
cerradura: 4
cedió: 1
típicos: 2
publicadas: 4
relacionadas: 47
índices: 1
elcomercio: 2
com: 6
edicionimpresa: 2
html: 4
05: 33
implima0513022: 1
blogs: 1
informativocapital: 1
name: 1
c2: 1
bfcuales: 1
peligrosos: 5
callao: 4
95: 6
132: 2
search: 1
cache: 1
tvw6ibzddg4j: 1
seguridadidl: 1
org: 1
destacados: 1
11a: 2
c3: 1
a1s: 1
peligrosas: 12
cd: 8
hl: 1
c

5legales: 1
habilita: 2
merituar: 1
cinthia: 4
vanesa: 4
rosadio: 14
collantes: 4
paramonga: 97
1paramonga: 1
2artículo: 2
barranca: 26
855: 1
comprar: 2
3957: 5
1ruc: 3
20361561636: 3
vidal: 3
confiscatoria: 5
80º: 9
3general: 5
desprenda: 7
salvaguarda: 5
concurrencia: 19
peticionado: 5
4validez: 1
nominada: 11
colegiados: 12
sesión: 11
quórum: 11
deliberación: 11
6contratado: 1
adquiera: 9
7denunciante: 1
inclusión: 35
contraten: 6
productivas: 11
coloca: 12
extensión: 9
conferirse: 7
8por: 3
transversales: 15
esquema: 37
connaturales: 7
negocios: 8
contribuir: 14
evidenciando: 4
bourgoignie: 3
thierry: 3
gobierno: 7
vasco: 3
vitoria: 3
1994: 11
9micro: 2
10monto: 2
11la: 4
milagros: 4
quiroz: 15
3840: 6
2decreto: 8
colocados: 11
maletera: 2
junin: 4
perdía: 1
3constitución: 3
4contratado: 1
minorista: 1
cortos: 1
correas: 1
bikinis: 1
probador: 1
sween: 1
scarlet: 1
niñas: 1
faldas: 1
conjuntos: 1
vestidos: 2
brillo: 1
tallas: 4
cuello: 1
shorts: 1
enumeradas: 7
992: 1
7quiroz: 1
h

491: 6
55448: 3
55449: 3
acompañante: 3
quiénes: 1
inscritas: 1
legalizada: 3
laborar: 2
localizarlo: 1
2864: 4
coincidencia: 8
testimonial: 1
gerente: 3
cuadernillo: 1
talonario: 1
boletaje: 2
testimoniales: 1
conduzcan: 1
impertinentes: 2
4prestador: 1
5económica: 1
rodhas: 7
deducida: 3
forme: 7
figuren: 4
9procedimiento: 4
10tarma: 1
pasajera: 7
matheus: 3
litisconsorcio: 3
11denuncia: 1
12mencionados: 1
13sus: 1
conveniencia: 1
figurara: 1
invertidos: 1
14probatoria: 1
susan: 2
hinostroza: 2
cristian: 2
paul: 4
lavado: 2
rey: 2
15pérdida: 1
16camavilca: 1
17empresa: 1
aportan: 1
identifica: 2
crisóstomo: 6
tello: 21
3que: 1
555: 3
valijas: 1
bagajes: 2
033497: 6
camas: 2
completas: 2
3060: 3
contendidos: 1
deviene: 6
contraviene: 2
39915: 2
injustas: 1
5probatorio: 1
6señor: 1
sumarse: 1
3034: 3
718: 2
10valoración: 1
12monto: 1
correctos: 3
fiscalizado: 1
elisban: 3
figueroa: 16
urquizo: 3
2012: 394
1turismo: 6
reembolse: 5
abono: 1
amplió: 1
destruidos: 1
valoraba: 1
4revertir: 

señalaría: 1
vencía: 4
derivaban: 2
irrogados: 2
adeudaba: 2
acompañó: 2
3siguientes: 2
vencería: 1
incidió: 9
argumentación: 1
acotada: 1
acogerse: 3
variado: 6
11–: 1
contemplaba: 10
referir: 5
deriven: 3
prescribirá: 1
tenor: 7
sabe: 1
reviste: 1
gm: 27
pretendiendo: 32
ps1: 13
1consumidor: 1
velaba: 1
exactamente: 4
1330°: 3
manda: 4
8debía: 1
9perú: 1
justificarían: 1
10152°: 1
interpretativo: 5
hallaron: 1
11entregar: 1
152º: 3
643: 1
12principio: 1
idemartículo: 1
recaer: 1
omisiva: 1
constitutiva: 5
trasgredió: 5
13acuerdo: 1
116°: 6
inhabilitación: 3
retrotraer: 1
repita: 3
materializarse: 1
14artículos: 1
disuasivo: 1
ocurra: 2
acumulativa: 1
solicitarse: 4
688°: 1
consentidas: 1
descuenta: 2
deducible: 2
analizándose: 1
ascender: 5
tratan: 4
disímiles: 1
persiguen: 2
compensar: 3
aliviar: 1
sinfín: 1
solucionan: 1
arrojadas: 1
diferir: 1
exponencialmente: 1
imponiendo: 3
huayruro: 58
1difusos: 1
2defensa: 2
copacabana: 13
20405324556: 2
m­spc­13: 177
puno­cusco: 1
policia: 2

jefes: 1
designen: 1
físicos: 4
descerraje: 2
instruir: 1
hallar: 8
desvirtuaban: 2
presencial: 8
específicos: 1
decidan: 2
desean: 1
fletes: 8
estaciones: 9
9y: 1
listas: 9
espacios: 7
complementadas: 4
organizados: 4
pocos: 13
11servirse: 1
166º: 3
fueren: 5
prohibidos: 4
practicar: 4
oculares: 4
levantando: 4
12probatorio: 1
destacamiento: 1
stand: 2
tablero: 1
proveedora­: 1
verbal;: 1
13procedimiento: 2
desestimarlo: 1
1b10: 3
rodean: 12
15declarar: 1
facilitando: 2
77°: 5
solicitándolo: 1
1b45: 1
constando: 1
estimarse: 1
intimidación;: 1
­consistentes: 1
precedentemente;: 2
general17: 1
1bel: 1
preventivo: 34
18en: 1
consagrada: 4
vulneraciones: 8
encargará: 8
3445­2012: 2
3568­2012: 2
3659­2012: 2
112­2013: 2
consumidores­: 1
jurídico19: 1
códigoreconoce: 7
asegure: 12
132°: 10
armonizar: 10
políticas: 46
optimizar: 10
presidido: 16
ldocumento: 1
aportes: 4
macroconsult: 4
horacio: 4
eguren: 4
trelles: 4
pueblo: 16
1b21regionales: 1
encauzarse: 5
2223estado: 1
133°: 8
presidenc

13lpag: 1
barrantes: 21
dirnop: 1
directurma: 1
divturma: 1
sid: 1
recomendando: 2
fiscalizadas: 1
logo: 1
membrete: 1
distintivo: 1
a1k: 1
967: 9
llevándolo: 1
2equivalente: 1
partan: 1
cpcp: 1
superado: 1
discordancia: 1
descripciones: 1
3sancionar: 1
cometidos: 1
250°: 2
42017: 1
5se: 1
indefinida: 1
promueve: 1
proactividad: 1
operaría: 1
concretados: 1
infringen: 1
6servicio: 1
7cuando: 1
1022: 1
enla: 1
128°: 2
promueven: 4
comunes: 2
ligados: 2
agrupados: 2
registrándose: 1
identificables: 1
12tuo: 1
1329: 1
0607: 4
4una: 1
1030: 2
5infractoras: 1
ratificados: 1
1060: 3
decidida: 5
607: 1
restrictivas: 3
1237: 2
verduras: 2
animales: 2
restringía: 10
contratarían: 2
dilucidado: 1
6potestad: 1
endosado: 1
transferido: 2
ganancia: 1
limitados: 3
8como: 1
regiones: 3
semanales: 3
beneficiada: 2
246°: 3
9más: 1
246º: 2
porcentajes: 2
valoraciones: 3
11mismos: 1
12cada: 1
imprimió: 2
13atenuante: 1
cierta: 2
1446: 1
0283: 1
eliana: 2
triveño: 2
espinozavicepresidente: 1
wilmer: 3
var

In [10]:
# guardar el diccionario
a_file = open("dataset/otros archivos/corpus_word_counr.json", "w")
json.dump(word_counts, a_file)
a_file.close()

In [11]:
# leer el archivo
import json
a_file = open("dataset/otros archivos/corpus_word_counr.json", "r")
output = a_file.read()
output = json.loads(output)

In [12]:
print(type(output))

<class 'dict'>


In [13]:
print(output)

{'procedencia': 516, 'comision': 7, 'de': 86176, 'proteccion': 46, 'al': 11623, 'consumidor': 5530, 'zona': 22, 'sur': 576, 'la': 59455, 'denunciante': 2272, 'segundo': 294, 'valencia': 21, 'barcena': 2, 'el': 35423, 'señor': 1933, 'denunciado': 359, 'empresa': 2783, 'transportes': 3195, 'flores': 301, 'hermanos': 19, 's': 2805, 'r': 592, 'l': 545, 'materia': 1329, 'idoneidad': 1266, 'del': 24239, 'bien': 1030, 'o': 8125, 'servicio': 3301, 'multa': 1472, 'medida': 2094, 'correctiva': 1622, 'actividad': 613, 'tranporte': 3, 'carga': 737, 'por': 18208, 'carretera': 99, 'sumilla': 248, 'en': 31734, 'procedimiento': 4194, 'sobre': 2292, 'infracciones': 990, 'a': 22979, 'ley': 5328, 'protección': 4144, 'seguido': 118, 'contra': 1828, 'esta': 1359, 'sala': 1502, 'ha': 1734, 'resuelto': 45, 'confirmar': 967, 'resolución': 4793, 'nº': 397, '040': 7, '2005': 204, 'cpcsur': 14, 'los': 17300, 'extremos': 329, 'que': 33277, 'declaró': 1279, 'fundada': 952, 'denuncia': 2410, 'infracción': 3188, 'ar

In [20]:
# leer el archivo
import json
a_file = open("dataset/otros archivos/corpus_word_counr.json", "r")
output = a_file.read()
output = json.loads(output)

In [21]:
output

{'procedencia': 516,
 'comision': 7,
 'de': 86176,
 'proteccion': 46,
 'al': 11623,
 'consumidor': 5530,
 'zona': 22,
 'sur': 576,
 'la': 59455,
 'denunciante': 2272,
 'segundo': 294,
 'valencia': 21,
 'barcena': 2,
 'el': 35423,
 'señor': 1933,
 'denunciado': 359,
 'empresa': 2783,
 'transportes': 3195,
 'flores': 301,
 'hermanos': 19,
 's': 2805,
 'r': 592,
 'l': 545,
 'materia': 1329,
 'idoneidad': 1266,
 'del': 24239,
 'bien': 1030,
 'o': 8125,
 'servicio': 3301,
 'multa': 1472,
 'medida': 2094,
 'correctiva': 1622,
 'actividad': 613,
 'tranporte': 3,
 'carga': 737,
 'por': 18208,
 'carretera': 99,
 'sumilla': 248,
 'en': 31734,
 'procedimiento': 4194,
 'sobre': 2292,
 'infracciones': 990,
 'a': 22979,
 'ley': 5328,
 'protección': 4144,
 'seguido': 118,
 'contra': 1828,
 'esta': 1359,
 'sala': 1502,
 'ha': 1734,
 'resuelto': 45,
 'confirmar': 967,
 'resolución': 4793,
 'nº': 397,
 '040': 7,
 '2005': 204,
 'cpcsur': 14,
 'los': 17300,
 'extremos': 329,
 'que': 33277,
 'declaró': 127

In [23]:
from textstat.textstat import textstat

Todos_Flesch=[]

for i in range(len(lista_resoluciones)):
    Flesch = textstat.flesch_reading_ease(lista_resoluciones[i])
    Todos_Flesch.append(Flesch)


In [24]:
import statistics as st
media = st.mean(Todos_Flesch)
print(media)

7.147218045112782


|Puntuación | Descripción|
|-----------|------------|
|90 a 100 | Un estudiante medio de 11 años puede entender el texto sin esfuerzo| 
|60 a 70 | Un estudiante medio de 13 a 15 años puede entender el texto sin esfuerzo| 
|0 a 30 | Lectura muy difícil. Universitarios graduados entienden mejor el texto|

In [25]:
"F"

'F'