# **Análisis Computacional de Datos Lingüísticos**
### Javier Vera Zúñiga, javier.vera@pucv.cl
## **Clase 3**

### A. Diccionarios en **Python!** (repaso clase 2)
Además de listas, una idea muy útil es trabajar con **diccionarios.** A **Python** le encantan los diccionarios. Esta estructura se define como esperamos que se defina: existen **keys** (las entradas del diccionario), y **values** (las definiciones). El aspecto **central** es el siguiente: los **diccionarios**, a diferencia de las **listas**, **no están ordenados!!!** Esta es una ventaja: si no asignamos posiciones, entonces no necesitamos un lugar en la memoria para este propósito. Por eso, usemos **diccionarios** cada vez que podamos :)

In [46]:
## definamos un diccionario vacío, usamos llaves "{}" en vez de "[]"

D = {}

In [47]:
D

{}

In [1]:
## ¿cómo agregamos elementos? Los diccionarios tienen keys y values (como entrada y definición)
## los keys pueden ser (típicamente números o nombres). Los values pueden ser cualquier cosa :) Veamos!

D = {1:'hola',2:'chao'}

In [2]:
D

{1: 'hola', 2: 'chao'}

In [3]:
## los diccionarios NO tienen orden, solo entradas!

print(D[1])
print(D[2])

hola
chao


In [8]:
## podemos acceder a los keys y values de forma simple. Noten que usamos list() para obtener listas de keys y values

print(list(D.keys()))
print(list(D.values()))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


In [9]:
## un diccionario más extraño!
## notemos que usamos un ciclo "for" para definir D

for i in range(10):
    D[i]=i+1

In [10]:
D

{0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10}

In [11]:
## o bien, en una dimensión

D={}

for i in [0,1,2,3,4,5,6,7,8,9]:
    D[i]=i+1

In [12]:
## no es la posición "5", sino es que la "entrada" o "key" 5!!!

D[5]

6

### B. Contemos las palabras de un texto!

In [13]:
## texto 
texto = 'El Mapuche también conocido como mapudungún del autoglotónimo mapudungun lengua de la tierra o araucano es el idioma de los mapuches un pueblo amerindio que habita los actuales países de Chile y Argentina Su número de hablantes activos se estima entre 100000 y 200000 y el número de hablantes pasivos en unas 100000 personas más Ha influido el léxico del español en su área de distribución y a su vez el suyo ha incorporado palabras del español y del quechua No ha sido clasificada satisfactoriamente y por el momento se la considera una lengua aislada'

In [14]:
## cosas de deberíamos hacer (simplificando las cosas)
## 1. dividir en palabras (el espacio entre dos puntos en blanco)
## 2. palabras en minúscula

## Queda como lista!!!

texto_split = texto.split()

In [29]:
## ¿Cómo queda "text_split"?

texto_split[:10]

['El',
 'Mapuche',
 'también',
 'conocido',
 'como',
 'mapudungún',
 'del',
 'autoglotónimo',
 'mapudungun',
 'lengua']

In [30]:
## veamos dos formas de poner las palabras en minúscula: en una línea o bi-dimensional!!!

## 1 línea :)
## en cada paso de ciclo, un elemento sucesivo de "texto_split" es llamado "word" y se agrega a la lista luego de aplicar
## "word.lower()"

texto_split_min = [word.lower() for word in texto_split]

In [31]:
texto_split_min[:5]

['el', 'mapuche', 'también', 'conocido', 'como']

In [32]:
## más de 1 línea :)
## en cada paso del ciclo, un elemento sucesivo de "texto_split" es llamado "palabra". Luego, "palabra.lower()" es agregado a
## la lista "text_split_min", que se define inicialmente vacía. 
text_split_min = []
for palabra in texto_split:
    text_split_min = text_split_min + [palabra.lower()]

In [33]:
text_split_min[:5]

['el', 'mapuche', 'también', 'conocido', 'como']

In [37]:
## ¿Y si juntamos todo? :) Usemos funciones!!!

## input: T es un string del corpus ...
## output: listas de strings en minúscula
def preparacion_texto(T):

    texto_split = T.split()
    texto_preparado = [word.lower() for word in texto_split]
        
    return texto_preparado

In [38]:
A = preparacion_texto(texto)

In [39]:
A[:20]

['el',
 'mapuche',
 'también',
 'conocido',
 'como',
 'mapudungún',
 'del',
 'autoglotónimo',
 'mapudungun',
 'lengua',
 'de',
 'la',
 'tierra',
 'o',
 'araucano',
 'es',
 'el',
 'idioma',
 'de',
 'los']

Desmenucemos un poco la **función** de más arriba. 

La primera línea
```python
def preparacion_texto(T):
```
tiene varios elementos: (1) **def**; (2) **preparacion_texto**; (3) **T**; y (4) **:**.
1. **def**: otra palabra coloreada en **jupyter**) que funciona como indicador de que viene una función. 
2. **preparacion_texto** es el nombre de la función. Con este nombre, podemos reutilizarla más adelante.  
3. **T** es el **input** de la función. Pueden ser uno o varios inputs. 
4. El signo **:** es imprescindible. Además, si apretamos **enter** luego de este signo, el salto de línea aparece automáticamente. 

La dos líneas siguientes 
```python
texto_split = T.split(' ')
texto_preparado = [word.lower() for word in texto_split]
```
son el cuerpo de la función: separamos por espacios en blanco y podemos en minúsculas. 

La línea final 

```python
return texto_preparado
```

entrega el **output**. 

In [40]:
## usamos la función y le asignamos un nombre!

texto = preparacion_texto(texto)

In [41]:
texto[:10]

['el',
 'mapuche',
 'también',
 'conocido',
 'como',
 'mapudungún',
 'del',
 'autoglotónimo',
 'mapudungun',
 'lengua']

In [42]:
len(texto)

95

In [43]:
## Implementemos una función que identifique las palabras únicas de un texto (los types). 

## input: T es un string
## output: lista de strings no repetidos
palabras_unicas = []

for palabra in texto:
    if palabra not in palabras_unicas:
        palabras_unicas = palabras_unicas + [palabra]

In [44]:
len(palabras_unicas)

64

In [45]:
len(palabras_unicas)/len(texto)

0.6736842105263158

###### mini-ejercicio 5: función diccionario_posiciones
Esta **función** recibe un string **T** y entrega un diccionario de palabras únicas **D** (usando la función **conteo**), en donde los **values** son listas que indican las posiciones (en el texto dividido en palabras) en donde aparece cada **key**. Es decir, por ejemplo, 

```python
D['el']
```
tener la forma

```python
[1,20]
```

In [48]:
## ahora contemos palabras
## hay muchas formas de hacerlo. Para los sofisticados (busquen "Counter" en la librería collections)
## usemos una forma que utilice los conceptos que hemos aprendido

In [49]:
## otra forma!

palabras_unicas = []

for palabra in texto:
    if palabra not in palabras_unicas:
        palabras_unicas.append(palabra)

In [50]:
len(palabras_unicas)

64

In [51]:
## ¿Cuántas palabras?

print(len(texto))
print(len(palabras_unicas))

95
64


In [52]:
## sigamos! ya que tenemos una manera de identificar las palabras no-repetidas de un texto, queremos definir un diccionario
## de frecuencias. Comencemos con uno en donde los values son 0 :)

D = {palabra:0 for palabra in palabras_unicas}

In [53]:
D['el']

0

In [54]:
## Idea!!! recorrer "texto" e ir sumando 1 cada que vez que aparece una palabra

for palabra in texto:
    
    D[palabra] += 1

In [55]:
D

{'el': 6,
 'mapuche': 1,
 'también': 1,
 'conocido': 1,
 'como': 1,
 'mapudungún': 1,
 'del': 4,
 'autoglotónimo': 1,
 'mapudungun': 1,
 'lengua': 2,
 'de': 6,
 'la': 2,
 'tierra': 1,
 'o': 1,
 'araucano': 1,
 'es': 1,
 'idioma': 1,
 'los': 2,
 'mapuches': 1,
 'un': 1,
 'pueblo': 1,
 'amerindio': 1,
 'que': 1,
 'habita': 1,
 'actuales': 1,
 'países': 1,
 'chile': 1,
 'y': 6,
 'argentina': 1,
 'su': 3,
 'número': 2,
 'hablantes': 2,
 'activos': 1,
 'se': 2,
 'estima': 1,
 'entre': 1,
 '100000': 2,
 '200000': 1,
 'pasivos': 1,
 'en': 2,
 'unas': 1,
 'personas': 1,
 'más': 1,
 'ha': 3,
 'influido': 1,
 'léxico': 1,
 'español': 2,
 'área': 1,
 'distribución': 1,
 'a': 1,
 'vez': 1,
 'suyo': 1,
 'incorporado': 1,
 'palabras': 1,
 'quechua': 1,
 'no': 1,
 'sido': 1,
 'clasificada': 1,
 'satisfactoriamente': 1,
 'por': 1,
 'momento': 1,
 'considera': 1,
 'una': 1,
 'aislada': 1}

In [56]:
## ¿Y si juntamos todo? :) Usemos funciones!!!
## ejercicio: crear una función que reciba un texto y entregue el diccionario D :)
## otro ejercicio: crear una función que reciba un string y entregue los mismo que la función anterior.
## indicación para el otro ejercicio: puede utilizar una función dentro de otra función :)

In [57]:
## definamos la función frecuencias :)

## input: string T
## output: diccionario de frecuencias D
def frecuencias(T):
    ## dividimos la función en tres partes:
    ## 1. parte A: "T" es transformado a una lista de strings en minúscula "texto_preparado"
    ## 2. parte B: identificamos las palabras únicas de "texto_preparado" y las guardamos en "palabras_unicas"
    ## 3. parte C: construimos el diccionario de frecuencia usando los elementos de "palabras_unicas" como keys
    
    ## parte A
    #texto_tokenizado = preparacion_texto(T) ## usamos la función previa "preparacion_texto"
    ## dividimos en palabras
    texto_tokenizado = T.split(' ')
    ## palabras en minúsculas ## en 2D!!!
    texto_tokenizado = [palabra.lower() for palabra in texto_tokenizado if palabra not in list('``!"#$%&\¿()*+,-./:;<=>?@[\\]_{|}')]
    
    ## parte B
    ## iniciamos con una lista vacía
    palabras_unicas = []
    ## recorremos el texto_tokenizado
    for palabra in texto_tokenizado:
        ## si una palabra no está, entonces la agregamos :)
        if palabra not in palabras_unicas:
            palabras_unicas.append(palabra)
    
    ## parte C
    ## diccionado de frecuencias iniciado con ceros
    D = {palabra:0 for palabra in palabras_unicas}
    ## recorremos texto_tokenizado y sumamos 1 cada vez que aparece una palabra
    for palabra in texto_tokenizado:
        D[palabra] += 1
    
    return D

In [58]:
texto = 'El Mapuche también conocido como mapudungún del autoglotónimo mapudungun lengua de la tierra o araucano es el idioma de los mapuches un pueblo amerindio que habita los actuales países de Chile y Argentina Su número de hablantes activos se estima entre 100000 y 200000 y el número de hablantes pasivos en unas 100000 personas más Ha influido el léxico del español en su área de distribución y a su vez el suyo ha incorporado palabras del español y del quechua No ha sido clasificada satisfactoriamente y por el momento se la considera una lengua aislada'

In [59]:
freq_example = frecuencias(texto)

In [60]:
freq_example

{'el': 6,
 'mapuche': 1,
 'también': 1,
 'conocido': 1,
 'como': 1,
 'mapudungún': 1,
 'del': 4,
 'autoglotónimo': 1,
 'mapudungun': 1,
 'lengua': 2,
 'de': 6,
 'la': 2,
 'tierra': 1,
 'o': 1,
 'araucano': 1,
 'es': 1,
 'idioma': 1,
 'los': 2,
 'mapuches': 1,
 'un': 1,
 'pueblo': 1,
 'amerindio': 1,
 'que': 1,
 'habita': 1,
 'actuales': 1,
 'países': 1,
 'chile': 1,
 'y': 6,
 'argentina': 1,
 'su': 3,
 'número': 2,
 'hablantes': 2,
 'activos': 1,
 'se': 2,
 'estima': 1,
 'entre': 1,
 '100000': 2,
 '200000': 1,
 'pasivos': 1,
 'en': 2,
 'unas': 1,
 'personas': 1,
 'más': 1,
 'ha': 3,
 'influido': 1,
 'léxico': 1,
 'español': 2,
 'área': 1,
 'distribución': 1,
 'a': 1,
 'vez': 1,
 'suyo': 1,
 'incorporado': 1,
 'palabras': 1,
 'quechua': 1,
 'no': 1,
 'sido': 1,
 'clasificada': 1,
 'satisfactoriamente': 1,
 'por': 1,
 'momento': 1,
 'considera': 1,
 'una': 1,
 'aislada': 1}

### C. ¿Cómo visualizamos los resultados?

In [62]:
## ¿Qué hacemos con el diccionario freq_example? ¿Cómo extraemos información?

In [63]:
## algunas soluciones!

In [65]:
## primero: ¿cuáles son las palabras más frecuentes? ¿Cuáles son las menos frecuentes? ¿Cuál es la frecuencia promedio?

In [66]:
### palabras más frecuentes! para responder esto, necesitamos saber qué palabras tienen el máximo value.

## en este código, extraemos los values con freq_example.values(), lo transformamos a lista (por comodidad) con list(), y identificamos el 
## máximo de la lista list(freq_example.values()) con max() :)

max_value = max(list(freq_example.values()))

In [67]:
max_value

6

In [69]:
## entonces, la idea es ahora recorrer los keys de freq_example y encontrar aquellos cuyo value sea max_value

## aquí guardamos las palabras que estamos buscando!
lista_palabras_mas_frecuentes = []

for palabra in freq_example.keys():
    ## ahora usamos la palabra mágica: if
    ## accedemos al value con freq_example[palabra]
    ## si el value correspondiente es max_value (noten que usamos ==), entonces bingo! guardamos la palabra en la lista lista_palabras_mas_frecuentes
    if freq_example[palabra] == max_value:
        lista_palabras_mas_frecuentes = lista_palabras_mas_frecuentes + [palabra]

In [71]:
## ahora lo vemos :)

lista_palabras_mas_frecuentes

['el', 'de', 'y']

In [72]:
## ¿Qué conclusiones podemos sacar de esto? ¿Qué va a ocurrir en otros tipos de lenguas?

In [73]:
### ahora, las menos frecuentes! Es todo bien análogo a lo que ya hemos hecho. Necesitamos saber qué palabras tienen el mínimo value.

## extraemos los values con freq_example.values(), lo transformamos a lista (por comodidad) con list(), y identificamos el 
## mínimo de la lista list(freq_example.values()) con min() :)

min_value = min(list(freq_example.values()))

In [74]:
min_value

1

In [75]:
## lo mismo de antes: la idea es ahora recorrer los keys de freq_example y encontrar aquellos cuyo value sea min_value

## aquí guardamos las palabras que estamos buscando!
lista_palabras_menos_frecuentes = []

for palabra in freq_example.keys():
    ## ahora usamos la palabra mágica: if
    ## accedemos al value con freq_example[palabra]
    ## si el value correspondiente es max_value (noten que usamos ==), entonces bingo! guardamos la palabra en la lista lista_palabras_mas_frecuentes
    if freq_example[palabra] == min_value:
        lista_palabras_menos_frecuentes = lista_palabras_menos_frecuentes + [palabra]

In [76]:
## ahora lo vemos :)

lista_palabras_menos_frecuentes

['mapuche',
 'también',
 'conocido',
 'como',
 'mapudungún',
 'autoglotónimo',
 'mapudungun',
 'tierra',
 'o',
 'araucano',
 'es',
 'idioma',
 'mapuches',
 'un',
 'pueblo',
 'amerindio',
 'que',
 'habita',
 'actuales',
 'países',
 'chile',
 'argentina',
 'activos',
 'estima',
 'entre',
 '200000',
 'pasivos',
 'unas',
 'personas',
 'más',
 'influido',
 'léxico',
 'área',
 'distribución',
 'a',
 'vez',
 'suyo',
 'incorporado',
 'palabras',
 'quechua',
 'no',
 'sido',
 'clasificada',
 'satisfactoriamente',
 'por',
 'momento',
 'considera',
 'una',
 'aislada']

In [77]:
### frecuencia promedio! sabemos que los values de freq_example contienen las frecuencias ¿Cómo calculamos el promedio?

In [81]:
## forma 1

## guardamos el número de datos en N

N = len(list(freq_example.keys()))

In [82]:
N

64

In [83]:
## aquí guardamos la suma de todos los valores

suma_valores = 0

for valor in list(freq_example.values()):
    suma_valores+=valor

In [85]:
## ¿A qué les recuerda este valor?

suma_valores

95

In [86]:
## ahora, calculamos la frecuencia promedio!

frecuencia_promedio = suma_valores/N

In [87]:
frecuencia_promedio

1.484375

In [89]:
## es decir, en nuestro mini corpus cada palabra aparece en promedio 1.5 veces: ¿Qué nos dice esto?

In [90]:
## forma 2: más corta

frecuencia_promedio = sum(list(freq_example.values()))/N

In [91]:
frecuencia_promedio

1.484375

In [96]:
## forma 3: aún más corta! ;)
## importamos una librería súper famosa! https://numpy.org/
import numpy as np

frecuencia_promedio = np.mean(list(freq_example.values()))

In [97]:
frecuencia_promedio

1.484375

In [110]:
## entonces!

diccionario_descriptivo = {'rasgos del texto':['frecuencia máxima','frecuencia mínima','frecuencia promedio',
                          'número tokens','número types'],
                          'valor':[max_value,min_value,frecuencia_promedio,
                          sum(list(freq_example.values())),len(freq_example)]}

In [111]:
diccionario_descriptivo

{'rasgos del texto': ['frecuencia máxima',
  'frecuencia mínima',
  'frecuencia promedio',
  'número tokens',
  'número types'],
 'valor': [6, 1, 1.484375, 95, 64]}

In [113]:
## ahora otra súper librería! https://pandas.pydata.org/
import pandas as pd

pd.DataFrame.from_dict(diccionario_descriptivo)

Unnamed: 0,rasgos del texto,valor
0,frecuencia máxima,6.0
1,frecuencia mínima,1.0
2,frecuencia promedio,1.484375
3,número tokens,95.0
4,número types,64.0


### D. Visualizaciones gráficas. 

In [114]:
## ¿Y si graficamos los resultados?

In [115]:
## manera 1 (de muchas posibles): histogramas!

## sabemos que los values de freq_example guardan las frecuencias

frecuencias = list(freq_example.values())

In [117]:
frecuencias[:5]

[6, 1, 1, 1, 1]

In [118]:
## ¿Cómo miramos esto?