### Algunos experimentos simples con datos de unimorph (lengua: elija 1 en [link](https://github.com/unimorph) )
#### Mini introducción al procesamiento de una lengua (y algo sobre diccionarios)

In [1]:
## https://github.com/unimorph/ame
## usamos un poco de magia para leer los datos 

import pandas as pd

datos = pd.read_csv('ame', sep='\t', header=None)
datos.columns = ['formas','inflexiones','códigos']

In [2]:
datos = datos[datos['códigos'].str.startswith('V')]

In [3]:
## nuestros datos!!! Cada fila indica una forma original, una inflexión del verbo y las coordenadas de la inflexión.

datos

Unnamed: 0,formas,inflexiones,códigos
2,a'chenkateñets,a'chenkateñets,V;NFIN
3,achenkateñets,achenkateñets,V;NFIN
4,a'chenkateñets,a'chenkateñet,V;NO3P;FIN;REAL
5,achenkateñets,a'chenkateñet,V;NO3P;FIN;REAL
6,achenkateñets,a'chenkateñ,V;NO3;FIN;REAL
...,...,...,...
3762,yotteñets,seyottena,V;NO2P;FIN;REAL
3763,yotteñets,yeyottena,V;NO1P;FIN;REAL
3764,yotteñets,yottena,V;NO3;FIN;REAL
3765,yotteñets,yotteñets,V;NFIN


In [4]:
datos['formas']

2       a'chenkateñets
3        achenkateñets
4       a'chenkateñets
5        achenkateñets
6        achenkateñets
             ...      
3762         yotteñets
3763         yotteñets
3764         yotteñets
3765         yotteñets
3766         yotteñets
Name: formas, Length: 1328, dtype: object

In [5]:
formas = list(datos['formas'])

In [6]:
formas[:5]

["a'chenkateñets",
 'achenkateñets',
 "a'chenkateñets",
 'achenkateñets',
 'achenkateñets']

In [7]:
inflexiones = list(datos['inflexiones'])

In [8]:
inflexiones[:5]

["a'chenkateñets",
 'achenkateñets',
 "a'chenkateñet",
 "a'chenkateñet",
 "a'chenkateñ"]

In [9]:
codigos = list(datos['códigos'])

In [10]:
codigos[:5]

['V;NFIN', 'V;NFIN', 'V;NO3P;FIN;REAL', 'V;NO3P;FIN;REAL', 'V;NO3;FIN;REAL']

Algunas preguntas simples:

- Defina la lista formas_unicas, que contiene todas las formas sin repeticiones. Identifique el número de formas verbales distintas.
- Identifique el número de inflexiones distintas.
- En promedio, ¿Cúantas inflexiones distintas están asociadas a una forma verbal en Yanesha?

In [12]:
len(formas)

1328

In [13]:
formas_unicas = []

for elemento in formas:
    ## si elemento ya está en la lista formas_unicas, entonces no lo guardo
    if elemento not in formas_unicas:
        formas_unicas += [elemento]

In [14]:
formas_unicas[:10]

["a'chenkateñets",
 'achenkateñets',
 "a'kesheñets",
 "a'keshphateñets",
 'akeshphateñets',
 "a'koshna'teñets",
 "a'kowenteñets",
 'akreñets',
 "allokchame'teñets",
 "a'mareñets"]

In [15]:
len(formas_unicas)

184

In [16]:
len(inflexiones)

1328

In [17]:
inflexiones_unicas = []

for elemento in inflexiones:
    ## si elemento ya está en la lista formas_unicas, entonces no lo guardo
    if elemento not in inflexiones_unicas:
        inflexiones_unicas += [elemento]

In [18]:
len(inflexiones_unicas)

1314

In [19]:
len(inflexiones_unicas)/len(formas_unicas)

7.141304347826087

In [20]:
len(codigos)

1328

In [21]:
codigos[:10]

['V;NFIN',
 'V;NFIN',
 'V;NO3P;FIN;REAL',
 'V;NO3P;FIN;REAL',
 'V;NO3;FIN;REAL',
 'V;NO3;FIN;REAL',
 'V;NO1;FIN;REAL',
 'V;NO1;FIN;REAL',
 'V;NO2;FIN;REAL',
 'V;NO2;FIN;REAL']

In [22]:
codigos_unicos = []

for codigo in codigos:
    if codigo not in codigos_unicos:
        codigos_unicos += [codigo]

In [23]:
len(codigos_unicos)

7

In [24]:
codigos_unicos

['V;NFIN',
 'V;NO3P;FIN;REAL',
 'V;NO3;FIN;REAL',
 'V;NO1;FIN;REAL',
 'V;NO2;FIN;REAL',
 'V;NO2P;FIN;REAL',
 'V;NO1P;FIN;REAL']

Un pequeño ejercicio con listas y ciclos for:

- Defina la lista codigos_unicos, que contiene los códigos únicos ¿Cúantos códigos distintos hay?
- Defina la lista codigos_extendidos, en que cada posición es una lista de tokens, por ejemplo,
```python:
codigos_extendidos = [['V','NFIN'],...]
```

- A partir de la lista anterior, defina la lista numero_codigos, que contiene el número de códigos asociados a cada inflexión.
- En promedio, ¿Cuántos códigos están asociados a una inflexión?