# Contando caracteres y palabras
[Pablo A. Haya](https://pablohaya.com)

Contar es la operación matemática más básica que aprendemos en la escuela. Es habitual que los procesadores de textos incluyen métricas donde se muestran el número de caracteres o de palabras. 

En `Python` disponemos de la clase `Counter` que permitee contar el número de repeticiones de cada elemento de una lista.

In [1]:
tokens = ['Pablito','clavó', 'un', 'clavito', 'que', 'clavito', 'clavó', 'Pablito']

from collections import Counter
cnt = Counter(tokens)
print(cnt)

Counter({'Pablito': 2, 'clavó': 2, 'clavito': 2, 'un': 1, 'que': 1})


El resultado es un diccionario donde cada clave es un elemento de la lista, y e valor es el número de veces que se repite en la lista.

Si creamos un contador con una cadena de caracteres este lo interpreta como una lista de caracteres. De esta manera es directo obtener el número de apariciones de cada caracter en un texto. 

In [2]:
txt = "Pablito clavó un clavito. ¿Qué clavito clavó Pablito?"
cnt = Counter(txt)
print(cnt)

Counter({' ': 7, 'a': 6, 'l': 6, 'i': 4, 't': 4, 'o': 4, 'c': 4, 'v': 4, 'P': 2, 'b': 2, 'ó': 2, 'u': 2, 'n': 1, '.': 1, '¿': 1, 'Q': 1, 'é': 1, '?': 1})


**Prueba tú mismo** Imprime únicamente el número de vocales en el trabalenguas anterior. 

Obtener el número total de caracteres es muy sencillo. Se obtienen todos los valores del diccionario, y se suman con la función `sum()` 

In [7]:
sum(cnt.values())

53

**Prueba tú mismo** Cálcula el número de caracteres del trabalenguas anterior excluyendo los espacios. 

El número de apariciones se denomina *frecuencia absoluta*. Para comparar la frecuencia de palabras entre textos que tienen distinta extensión es preciso normalizar estas frecuencias. Esta normalización se realiza dividiendo cada frecuencia absoluta por el número total de caracteres o palabras según lo que estemos midiendo. La frecuencia una vez normalizada se denomina *frecuencia relativa*.


In [33]:
n = sum(cnt.values())
[(c, round(cnt[c]/n, 2)) for c in cnt.keys()]


[('P', 0.04),
 ('a', 0.11),
 ('b', 0.04),
 ('l', 0.11),
 ('i', 0.08),
 ('t', 0.08),
 ('o', 0.08),
 (' ', 0.13),
 ('c', 0.08),
 ('v', 0.08),
 ('ó', 0.04),
 ('u', 0.04),
 ('n', 0.02),
 ('.', 0.02),
 ('¿', 0.02),
 ('Q', 0.02),
 ('é', 0.02),
 ('?', 0.02)]

**Prueba tú mismo** Modifica el código anterior para presentar la frecuencia relativa como un porcentaje. 

In [49]:
n = sum(cnt.values())
[(c, str(int(cnt[c]/n*100)) + " %") for c in cnt.keys()]

[('a', '19 %'),
 ('l', '5 %'),
 ('e', '9 %'),
 ('j', '7 %'),
 ('n', '5 %'),
 ('d', '7 %'),
 ('r', '5 %'),
 (' ', '15 %'),
 ('/', '3 %'),
 ('y', '5 %'),
 ('b', '1 %'),
 ('o', '5 %'),
 ('s', '1 %'),
 ('t', '1 %')]

In [47]:
str(int(5/n*100))

'9'

## Ejercicios

**1. Ejercicio** Dado el siguiente poema `"alejandra alejandra / y debajo estoy yo / alejandra"` calcular las frecuencias relativas de cada caracter e imprimirlas ordenadas de mayor a menor.

In [38]:
from collections import Counter

txt = "alejandra alejandra / y debajo estoy yo / alejandra"
cnt = Counter(txt)

n = sum(cnt.values())
freq_rel = [(c, round(cnt[c]/n, 2)) for c in cnt.keys()]
freq_rel.sort(key=lambda x : x[1], reverse=True)

print(freq_rel)

[('a', 0.2), (' ', 0.16), ('e', 0.1), ('j', 0.08), ('d', 0.08), ('l', 0.06), ('n', 0.06), ('r', 0.06), ('y', 0.06), ('o', 0.06), ('/', 0.04), ('b', 0.02), ('s', 0.02), ('t', 0.02)]


**2. Ejercicio** Realizar una función que reciba una lista y devuelva una tupla con la frecuencia absoluta y relativa para cada token. Incluir un parámetro opcional para determinar el número de decimales que se inicializa a dos.

In [101]:
from collections import Counter

def freq(txt, digits=2):
    cnt = Counter(txt)

    n = sum(cnt.values())
    freq_rel = [(c, cnt[c], round(cnt[c]/n, digits)) for c in cnt.keys()]
    freq_rel.sort(key=lambda x : x[1], reverse=True)
    return(freq_rel)

txt = "alejandra alejandra / y debajo estoy yo / alejandra"
print(freq(txt))

[('a', 10, 0.2), (' ', 8, 0.16), ('e', 5, 0.1), ('j', 4, 0.08), ('d', 4, 0.08), ('l', 3, 0.06), ('n', 3, 0.06), ('r', 3, 0.06), ('y', 3, 0.06), ('o', 3, 0.06), ('/', 2, 0.04), ('b', 1, 0.02), ('s', 1, 0.02), ('t', 1, 0.02)]


**3. Ejercicio** Extraer las _frecuencias absolutas y relativas_ de las 20 palabras más empleadas en el _Lazarillo de Tormes_.

In [102]:
from string import whitespace
from string import punctuation

def normaliza(s):
    return s.strip(punctuation + whitespace + "¿¡").lower()

def tokeniza(txt):
    return([normaliza(t) for t in txt.split()])

In [103]:
with open("corpus/pg320.txt", encoding="utf8", mode="r") as f:
    tokens = tokeniza(f.read())

print(tokens[0:20])

['la', 'vida', 'de', 'lazarillo', 'de', 'tormes', 'y', 'de', 'sus', 'fortunas', 'y', 'adversidades', 'autor', 'desconocido', 'edición', 'de', 'burgos', '1554', 'interpolaciones', 'de']


In [95]:
len(tokens)

20089

In [104]:
freq(tokens)[:20]

[('y', 1146, 0.06),
 ('que', 901, 0.04),
 ('de', 759, 0.04),
 ('la', 529, 0.03),
 ('a', 484, 0.02),
 ('el', 463, 0.02),
 ('en', 429, 0.02),
 ('no', 343, 0.02),
 ('por', 283, 0.01),
 ('con', 281, 0.01),
 ('me', 258, 0.01),
 ('lo', 214, 0.01),
 ('yo', 211, 0.01),
 ('mi', 198, 0.01),
 ('un', 164, 0.01),
 ('se', 160, 0.01),
 ('los', 158, 0.01),
 ('le', 147, 0.01),
 ('como', 146, 0.01),
 ('las', 139, 0.01)]

In [105]:
freq(tokens)[-20:]

[('quedamos', 1, 0.0),
 ('conformes', 1, 0.0),
 ('siento', 1, 0.0),
 ('atajo', 1, 0.0),
 ('digáis', 1, 0.0),
 ('pese', 1, 0.0),
 ('mercedes', 1, 0.0),
 ('merezco', 1, 0.0),
 ('hostia', 1, 0.0),
 ('consagrada', 1, 0.0),
 ('dijere', 1, 0.0),
 ('mataré', 1, 0.0),
 ('victorioso', 1, 0.0),
 ('emperador', 1, 0.0),
 ('cortes', 1, 0.0),
 ('regocijos', 1, 0.0),
 ('prosperidad', 1, 0.0),
 ('cumbre', 1, 0.0),
 ('sucediere', 1, 0.0),
 ('avisaré', 1, 0.0)]

**4. Ejercicio** Una variante de la _frecuencia relativa_ es la _normalización de frecuencias por millón de palabras_. Esta se calcula multiplicando la _frecuencia relativa_ por un millón. Modificar la función `freq` para realizar una normalización  Realizar una función que devuelva la frecuencia relativa normalizada por millón de palabras con dos decimales.

In [110]:
from collections import Counter

def freq(txt, digits=2, norm=1):
    cnt = Counter(txt)

    n = sum(cnt.values())
    freq_rel = [(c, cnt[c], round(cnt[c]/n*norm, digits)) for c in cnt.keys()]
    freq_rel.sort(key=lambda x : x[1], reverse=True)
    return(freq_rel)

print(freq(tokens[:20], norm=1E3))
print(freq(tokens[:20]))

[('de', 5, 250.0), ('y', 2, 100.0), ('la', 1, 50.0), ('vida', 1, 50.0), ('lazarillo', 1, 50.0), ('tormes', 1, 50.0), ('sus', 1, 50.0), ('fortunas', 1, 50.0), ('adversidades', 1, 50.0), ('autor', 1, 50.0), ('desconocido', 1, 50.0), ('edición', 1, 50.0), ('burgos', 1, 50.0), ('1554', 1, 50.0), ('interpolaciones', 1, 50.0)]
[('de', 5, 0.25), ('y', 2, 0.1), ('la', 1, 0.05), ('vida', 1, 0.05), ('lazarillo', 1, 0.05), ('tormes', 1, 0.05), ('sus', 1, 0.05), ('fortunas', 1, 0.05), ('adversidades', 1, 0.05), ('autor', 1, 0.05), ('desconocido', 1, 0.05), ('edición', 1, 0.05), ('burgos', 1, 0.05), ('1554', 1, 0.05), ('interpolaciones', 1, 0.05)]


**5. Ejercicio** Extraer la  _normalización de frecuencias por millón de palabras_ de las 20 palabras más empleadas en el _Lazarillo de Tormes_.