# **Análisis automático de textos en Humanidades**
### Javier Vera Zúñiga, jveraz@pucp.edu.pe

### **Proyecto sobre frecuencias de palabras** &#x1F916;!

El objetivo de este proyecto es integrar todos los conocimientos de **Python** en un proyecto sobre frecuencias de palabras. Esta tarea, que parece simple, tiene aplicaciones prácticas en diversos ámbitos y está relacionada a preguntas aún a medio responder. 

## 1. lectura de un texto

Elijan un archivo txt de su interés (el texto puede estar en cualquier idioma, aunque una sección podría dificultarse en algunas lenguas). Vamos a usar de ejemplo Funes de Borges. En este sentido, cada proyecto tendrán variaciones. 

In [1]:
## texto elegido

archivo = open('funes el memorioso-borges.txt', 'r', encoding='utf-8')

In [2]:
## leemos el archivo

archivo = archivo.read()

In [3]:
## límites de memoria de strings
## preguntarle a python mismo

archivo

'Lo recuerdo (yo no tengo derecho a pronunciar ese verbo sagrado, solo un hombre en la tierra tuvo derecho y ese hombre ha muerto) con una oscura pasionaria en la mano, viéndola como nadie la ha visto, aunque la mirara desde el crepúsculo del día hasta el de la noche, toda una vida entera. Lo recuerdo, la cara taciturna y aindiada y singularmente remota, detrás del cigarrillo. Recuerdo (creo) sus manos afiladas de trenzador. Recuerdo cerca de esas manos un mate, con las armas de la Banda Oriental; recuerdo en la ventana de la casa una estera amarilla, con un vago paisaje lacustre. Recuerdo claramente su voz; la voz pausada, resentida y nasal del orillero antiguo, sin los silbidos italianos de ahora. Más de tres veces no lo vi; la última, en 1887… Me parece muy feliz el proyecto de que todos aquellos que lo trataron escriban sobre él; mi testimonio será acaso el más breve y sin duda el más pobre, pero no el menos imparcial del volumen que editarán ustedes. Mi deplorable condición de arg

## 2. Pre-procesamiento del texto

En esta etapa, debemos **preparar** el string para poder hacer cálculos de frecuencias. Construya un código que:
    
- Baje el string a minúscula
- Remueva signos de puntuación: esto va a depender de su texto!

In [5]:
## solución!!!

## string en minúscula
## bajar a minúscula tiene que realizarse lo más tarde posible
texto_min = archivo.lower()

In [16]:
## librería famosa
import string

In [17]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [25]:
lista_puntuacion = list(string.punctuation) + ['…','—','“','”','\n']

In [26]:
lista_puntuacion

['!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 '{',
 '|',
 '}',
 '~',
 '…',
 '—',
 '“',
 '”',
 '\n']

In [27]:
## removemos los signos de puntuación
## lista de signos de puntuación: ( ) , ; - . “ ” _ 
#lista_puntuacion = ['(', ')',',',';','-','.','“','”','_']

## recorremos los signos de puntuacion
for signo in lista_puntuacion:
    ## en cada paso, borramos un signo de puntuación
    texto_min = texto_min.replace(signo,'')

In [31]:
len(texto_min)-len(archivo)

-485

In [32]:
len(archivo)

15845

## 3. Types/tokens

Con el texto ya **pre-procesado** (o **limpio**, como dicen por ahi), hacemos algunos códigos entretenidos:
    
- Construya un código que transforme el string en una lista de tokens. Revise si el pre-procesamiento estuvo correcto, si no corríjalo :) Identifique los types de la lista anterior.

In [33]:
## lista tokens

lista_tokens = texto_min.split(' ')

In [40]:
[0,0,0,0,0,0,0,0,0,0]

lista_tokens[:20]

['lo',
 'recuerdo',
 'yo',
 'no',
 'tengo',
 'derecho',
 'a',
 'pronunciar',
 'ese',
 'verbo',
 'sagrado',
 'solo',
 'un',
 'hombre',
 'en',
 'la',
 'tierra',
 'tuvo',
 'derecho',
 'y']

In [41]:
## identificamos los types

## partimos por una lista vacía
lista_types = []

## recorremos la lista lista_tokens
for palabra in lista_tokens:
    ## condición: solo guardamos, si la variable palabra
    ## NO está en la lista lista_types
    if palabra not in lista_types:
        ## guardamos
        lista_types = lista_types + [palabra]

In [49]:
len(lista_types),len(lista_tokens)

(1109, 2670)

In [50]:
## mini explicación de types y tokens!

A = [1,1,2]

B = [1,2]

## 4. Frecuencias

- Construya un código que recorra los types y cuente cuántas veces aparecen en la lista de tokens. Haga esto de dos formas distintas :O
- Una primera forma es contar cuántas veces aparece un type usando .count.
- Otra forma es definir una lista de ceros del mismo largo que la lista de types. Después recorremos la lista de tokens, y para cada token sumamos 1 en la posición donde está ese token en la lista de types :)
- ¿Cuál es la palabra más frecuente, la segunda más frecuente, la menos frecuente? 
- ¿Qué puede observar?

In [63]:
## cuántas veces aparece cada type (de la lista lista_types)
## en la lista lista_tokens

## usamos .count

## guardamos los resultados en una lista
resultados = []

## recorremos la lista lista_types
for palabra in lista_types:
    ## contamos cuántas veces aparece en lista_tokes
    resultados = resultados + [lista_tokens.count(palabra)]

In [66]:
resultados[:10]

[29, 12, 9, 38, 2, 2, 25, 1, 7, 1]

In [67]:
len(lista_tokens)

2670

In [68]:
sum(resultados)

2670

In [69]:
resultados[0],lista_types[0]

(29, 'lo')

In [72]:
## guardamos los resultados en una lista
resultados = []

## recorremos la lista lista_types
for palabra in lista_types:
    ## contamos cuántas veces aparece en lista_tokes
    resultados = resultados + [[palabra,lista_tokens.count(palabra)]]

In [73]:
resultados

[['lo', 29],
 ['recuerdo', 12],
 ['yo', 9],
 ['no', 38],
 ['tengo', 2],
 ['derecho', 2],
 ['a', 25],
 ['pronunciar', 1],
 ['ese', 7],
 ['verbo', 1],
 ['sagrado', 1],
 ['solo', 6],
 ['un', 57],
 ['hombre', 3],
 ['en', 67],
 ['la', 98],
 ['tierra', 2],
 ['tuvo', 1],
 ['y', 70],
 ['ha', 4],
 ['muerto', 2],
 ['con', 24],
 ['una', 27],
 ['oscura', 1],
 ['pasionaria', 1],
 ['mano', 1],
 ['viéndola', 1],
 ['como', 10],
 ['nadie', 4],
 ['visto', 3],
 ['aunque', 1],
 ['mirara', 1],
 ['desde', 3],
 ['el', 93],
 ['crepúsculo', 1],
 ['del', 33],
 ['día', 7],
 ['hasta', 4],
 ['de', 164],
 ['noche', 6],
 ['toda', 3],
 ['vida', 1],
 ['entera', 1],
 ['cara', 5],
 ['taciturna', 1],
 ['aindiada', 1],
 ['singularmente', 1],
 ['remota', 1],
 ['detrás', 1],
 ['cigarrillo', 3],
 ['creo', 4],
 ['sus', 8],
 ['manos', 3],
 ['afiladas', 1],
 ['trenzador', 1],
 ['cerca', 1],
 ['esas', 3],
 ['mate', 1],
 ['las', 29],
 ['armas', 1],
 ['banda', 1],
 ['oriental', 1],
 ['ventana', 2],
 ['casa', 2],
 ['estera', 1],
 [

In [56]:
A = [[1,2],[3,4]]

In [58]:
A[0]

[1, 2]

In [74]:
A = [1,2]

B = [1,1,2]

Z = [0,0]

for palabra in B:
    indice = A.index(palabra)
    Z[indice] = Z[indice] + 1

In [75]:
Z

[2, 1]

## 5. Filtremos stopwords

En esta etapa, vamos a revisar un concepto importante: las stopwords. Tradicionalmente, en asuntos de procesamiento del lenguaje natural es habitual remover ciertas palabras: ¿Cuáles? Las más frecuentes! Y por qué? En una lengua como el español, las palabras más frecuentes siguen dos principios interesantes:

1. Las palabras más frecuentes son mucho más frecuentes que las menos frecuentes ([ver](https://en.wikipedia.org/wiki/Zipf%27s_law))
2. Las palabras más frecuentes tienen significados **difusos.**

¿Cómo filtramos las stopwords?

- Cree un código que identifique el X% de los types más frecuentes (elija un X razonable). Pueden usar este [link](https://stackoverflow.com/questions/6422700/how-to-get-indices-of-a-sorted-array-in-python). Les puede servir esta forma: [[type,frecuencia],...] y usar este [link](https://stackoverflow.com/questions/4174941/how-to-sort-a-list-of-lists-by-a-specific-index-of-the-inner-list). No es necesario tratar de entender esos links, si les funciona estamos ok!
- Remueva el X% de los types más frecuentes: ¿Cuáles son ahora las palabras más frecuentes?
- Otra forma de hacer esto: nltk! instale nltk. Escriba

In [10]:
## instalar nltk
!pip install nltk



You should consider upgrading via the 'c:\users\jxver\anaconda3\python.exe -m pip install --upgrade pip' command.


In [11]:
## importamos la librería

import nltk
nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\cmudict.zip.
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\gazetteers.zip.
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\genesis.zip.
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     C:\Users\jxver\AppData\Ro

True

In [12]:
## definimos las stopwords (palabras que queremos remover)
## las importamos
from nltk.corpus import stopwords

stop_words_sp = list(stopwords.words('spanish')) ## español
stop_words_en = list(stopwords.words('english')) ## inglés

In [14]:
## ahora remueva estas palabras de su lista de tokens, y luego cuente frecuencias!