### Algunos experimentos simples con datos de unimorph (lengua: Yanesha)
#### Mini introducción al procesamiento de una lengua (y algo sobre diccionarios)

In [30]:
## https://github.com/unimorph/ame
## usamos un poco de magia para leer los datos 

import pandas as pd

datos = pd.read_csv('ame', sep='\t', header=None)
datos.columns = ['formas','inflexiones','códigos']

In [31]:
datos = datos[datos['códigos'].str.startswith('V')]

In [32]:
## nuestros datos!!! Cada fila indica una forma original, una inflexión del verbo y las coordenadas de la inflexión.

datos

Unnamed: 0,formas,inflexiones,códigos
2,a'chenkateñets,a'chenkateñets,V;NFIN
3,achenkateñets,achenkateñets,V;NFIN
4,a'chenkateñets,a'chenkateñet,V;NO3P;FIN;REAL
5,achenkateñets,a'chenkateñet,V;NO3P;FIN;REAL
6,achenkateñets,a'chenkateñ,V;NO3;FIN;REAL
...,...,...,...
3762,yotteñets,seyottena,V;NO2P;FIN;REAL
3763,yotteñets,yeyottena,V;NO1P;FIN;REAL
3764,yotteñets,yottena,V;NO3;FIN;REAL
3765,yotteñets,yotteñets,V;NFIN


In [33]:
formas = list(datos['formas'])

In [34]:
formas[:5]

["a'chenkateñets",
 'achenkateñets',
 "a'chenkateñets",
 'achenkateñets',
 'achenkateñets']

In [35]:
inflexiones = list(datos['inflexiones'])

In [36]:
inflexiones[:5]

["a'chenkateñets",
 'achenkateñets',
 "a'chenkateñet",
 "a'chenkateñet",
 "a'chenkateñ"]

In [37]:
codigos = list(datos['códigos'])

In [38]:
codigos[:5]

['V;NFIN', 'V;NFIN', 'V;NO3P;FIN;REAL', 'V;NO3P;FIN;REAL', 'V;NO3;FIN;REAL']

Algunas preguntas simples:

- Defina la lista formas_unicas, que contiene todas las formas sin repeticiones. Identifique el número de formas verbales distintas.
- Identifique el número de inflexiones distintas.
- En promedio, ¿Cúantas inflexiones distintas están asociadas a una forma verbal en Yanesha?

Un pequeño ejercicio con listas y ciclos for:

- Defina la lista codigos_unicos, que contiene los códigos únicos ¿Cúantos códigos distintos hay?
- Defina la lista codigos_extendidos, en que cada posición es una lista de tokens, por ejemplo,
```python:
codigos_extendidos = [['V','NFIN'],...]
```

- A partir de la lista anterior, defina la lista numero_codigos, que contiene el número de códigos asociados a cada inflexión.
- En promedio, ¿Cuántos códigos están asociados a una inflexión?

A partir de los experimentos anteriores, suena razonable tener una forma de almacenar las formas, y al mismo tiempo todas las inflexiones asociadas a una forma ¿Cómo hacemos esto usando **Python**? Pensemos en diccionarios!

En **Python**, los diccionarios son una estructura de datos que permite almacenar keys, o entradas, y values, o valores. A diferencia de las listas, los diccionarios **NO** están ordenados. No accedemos a posiciones, sino que a entradas, keys, como un diccionario habitual. 

In [41]:
## definamos un diccionario vacío

D = {}

## Noten que usamos {}, y no [] :)

In [43]:
## ¿Cómo incluimos elementos a un diccionario? Simplemente indicamos el key y el value

D['yotteñets'] = 'seyottena'

## entonces, para acceder al valor asociado al key 'yotteñets', usamos

In [44]:
D['yotteñets']

'seyottena'

In [45]:
## los keys pueden ser esencialmente números y strings

E = {}

E[1]=2

In [46]:
E[1]

2

In [47]:
## si queremos acceder a los keys (o entradas), usamos

list(D.keys())

['yotteñets']

In [48]:
## y para acceder a los values (o valores), usamos

list(D.values())

['seyottena']

In [49]:
## ¿Podemos mezclar for con diccionarios? Por supuesto!!!
A = list(range(10))

In [50]:
A

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [51]:
D = {}

for numero in A:
    D[numero]=numero+1

In [52]:
D

{0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10}

In [53]:
## también podríamos hacer esto manualmente!

D = {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9, 9: 10}

¿De qué forma los diccionarios nos permiten extraer información (y proponer análisis simples) de los datos de la lengua Yanesha?

- A partir de las listas formas, inflexiones y codigos, defina algún diccionario.
- Use la lista formas_unicas como los keys de un diccionario D_formas. Defina, en primer lugar, los values como 0's. Es decir,
```python:
D_formas = {'yotteñets':0,...}
```
Con esto, cuente para cada key (forma) el número de inflexiones que aparecen en nuestros datos :)
- Use la lista codigos_unicos como los keys del diccionario D_codigos. Defina este diccionario de forma que cada value es una lista vacía. Use un ciclo for. 
- En cada value de D_codigos (que es inicialmente la lista []), guarde todas las inflexiones asociadas a ese value. 