# **Análisis automático de textos en Humanidades**
### Javier Vera Zúñiga, jveraz@pucp.edu.pe

### **Proyecto sobre frecuencias de palabras** &#x1F916;!

El objetivo de este proyecto es integrar todos los conocimientos de **Python** en un proyecto sobre frecuencias de palabras. Esta tarea, que parece simple, tiene aplicaciones prácticas en diversos ámbitos y está relacionada a preguntas aún a medio responder. 

## 1. lectura de un texto

Elijan un archivo txt de su interés (el texto puede estar en cualquier idioma, aunque una sección podría dificultarse en algunas lenguas). Vamos a usar de ejemplo Funes de Borges. En este sentido, cada proyecto tendrán variaciones. 

In [7]:
## texto elegido

archivo = open('funes el memorioso-borges.txt', 'r', encoding='utf-8')

In [8]:
## leemos el archivo

archivo = archivo.read()

In [9]:
archivo

'Lo recuerdo (yo no tengo derecho a pronunciar ese verbo sagrado, solo un hombre en la tierra tuvo derecho y ese hombre ha muerto) con una oscura pasionaria en la mano, viéndola como nadie la ha visto, aunque la mirara desde el crepúsculo del día hasta el de la noche, toda una vida entera. Lo recuerdo, la cara taciturna y aindiada y singularmente remota, detrás del cigarrillo. Recuerdo (creo) sus manos afiladas de trenzador. Recuerdo cerca de esas manos un mate, con las armas de la Banda Oriental; recuerdo en la ventana de la casa una estera amarilla, con un vago paisaje lacustre. Recuerdo claramente su voz; la voz pausada, resentida y nasal del orillero antiguo, sin los silbidos italianos de ahora. Más de tres veces no lo vi; la última, en 1887… Me parece muy feliz el proyecto de que todos aquellos que lo trataron escriban sobre él; mi testimonio será acaso el más breve y sin duda el más pobre, pero no el menos imparcial del volumen que editarán ustedes. Mi deplorable condición de arg

## 2. Pre-procesamiento del texto

En esta etapa, debemos **preparar** el string para poder hacer cálculos de frecuencias. Construya un código que:
    
- Baje el string a minúscula
- Remueva signos de puntuación: esto va a depender de su texto!

## 3. Pre-procesamiento del texto

Con el texto ya **pre-procesado** (o **limpio**, como dicen por ahi), hacemos algunos códigos entretenidos:
    
- Construya un código que transforme el string en una lista de tokens. Revise si el pre-procesamiento estuvo correcto, si no corríjalo :) Identifique los types de la lista anterior.

## 4. Frecuencias

- Construya un código que recorra los types y cuente cuántas veces aparecen en la lista de tokens. Haga esto de dos formas distintas :O
- Una primera forma es contar cuántas veces aparece un type usando .count.
- Otra forma, más elegante, es definir una lista de ceros del mismo largo que la lista de types. Después recorremos la lista de tokens, y para cada token sumamos 1 en la posición donde está ese token en la lista de types :)
- ¿Cuál es la palabra más frecuente, la segunda más frecuente, la menos frecuente? 
- ¿Qué puede observar?

## 5. Filtremos stopwords

En esta etapa, vamos a revisar un concepto importante: las stopwords. Tradicionalmente, en asuntos de procesamiento del lenguaje natural es habitual remover ciertas palabras: ¿Cuáles? Las más frecuentes! Y por qué? En una lengua como el español, las palabras más frecuentes siguen dos principios interesantes:

1. Las palabras más frecuentes son mucho más frecuentes que las menos frecuentes ([ver](https://en.wikipedia.org/wiki/Zipf%27s_law))
2. Las palabras más frecuentes tienen significados **difusos.**

¿Cómo filtramos las stopwords?

- Cree un código que identifique el X% de los types más frecuentes (elija un X razonable). Pueden usar este [link](https://stackoverflow.com/questions/6422700/how-to-get-indices-of-a-sorted-array-in-python). Les puede servir esta forma: [[type,frecuencia],...] y usar este [link](https://stackoverflow.com/questions/4174941/how-to-sort-a-list-of-lists-by-a-specific-index-of-the-inner-list). No es necesario tratar de entender esos links, si les funciona estamos ok!
- Remueva el X% de los types más frecuentes: ¿Cuáles son ahora las palabras más frecuentes?
- Otra forma de hacer esto: nltk! instale nltk. Escriba

In [10]:
## instalar nltk
!pip install nltk



You should consider upgrading via the 'c:\users\jxver\anaconda3\python.exe -m pip install --upgrade pip' command.


In [11]:
## importamos la librería

import nltk
nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\cmudict.zip.
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\gazetteers.zip.
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\genesis.zip.
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\jxver\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     C:\Users\jxver\AppData\Ro

True

In [12]:
## definimos las stopwords (palabras que queremos remover)
## las importamos
from nltk.corpus import stopwords

stop_words_sp = list(stopwords.words('spanish')) ## español
stop_words_en = list(stopwords.words('english')) ## inglés

In [14]:
## ahora remueva estas palabras de su lista de tokens, y luego cuente frecuencias!