### Algunos experimentos simples con datos de unimorph (lengua: elija 1 en [link](https://github.com/unimorph))
#### Mini introducción al procesamiento de una lengua (y algo sobre diccionarios)

In [301]:
## https://github.com/unimorph/ame
## usamos un poco de magia para leer los datos 

import pandas as pd

datos = pd.read_csv('sme', sep='\t', header=None)
datos.columns = ['formas','inflexiones','códigos']

In [302]:
datos = datos[datos['códigos'].str.startswith('V')]

In [303]:
## nuestros datos!!! Cada fila indica una forma original, una inflexión del verbo y las coordenadas de la inflexión.

datos

Unnamed: 0,formas,inflexiones,códigos
26,guhkkat,guhkke,V;PRS;IND;1;DU
27,guhkkat,guhkan,V;PRS;IND;1;SG
28,guhkkat,guhkažan,V;POT;1;SG
29,guhkkat,guhkai,V;PST;IND;3;SG
30,guhkkat,guhkalit,V;COND;2;SG;LGSPEC
...,...,...,...
62659,gođđat,gođažeahppi,V;POT;2;DU
62660,gođđat,gođđoska,V;IMP;3;DU
62661,gođđat,gođašii,V;COND;3;SG
62662,gođđat,gođažehpet,V;POT;2;PL


In [304]:
## A continuación, creamos las listas correspondientes a cada columna para poder trabajar con los datos.                                                                                                           
datos['formas']

26       guhkkat
27       guhkkat
28       guhkkat
29       guhkkat
30       guhkkat
          ...   
62659     gođđat
62660     gođđat
62661     gođđat
62662     gođđat
62663     gođđat
Name: formas, Length: 46836, dtype: object

In [305]:
formas = list(datos['formas'])

In [306]:
formas[:5]

['guhkkat', 'guhkkat', 'guhkkat', 'guhkkat', 'guhkkat']

In [307]:
inflexiones = list(datos['inflexiones'])

In [308]:
inflexiones[:5]

['guhkke', 'guhkan', 'guhkažan', 'guhkai', 'guhkalit']

In [309]:
codigos = list(datos['códigos'])

In [310]:
codigos[:5]

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC']

Algunas preguntas simples:

- Defina la lista formas_unicas, que contiene todas las formas sin repeticiones. Identifique el número de formas verbales distintas.
- Identifique el número de inflexiones distintas.
- En promedio, ¿Cúantas inflexiones distintas están asociadas a una forma verbal en la lengua elegida?

In [311]:
len(formas)

46836

In [312]:
formas_unicas = []

for elemento in formas:
    ## si elemento ya está en la lista formas_unicas, entonces no lo guardo
    if elemento not in formas_unicas:
        formas_unicas += [elemento]

In [313]:
formas_unicas[:10]

['guhkkat',
 'gulcat',
 'gulkat',
 'gullat',
 'guoddit',
 'guoggut',
 'guoggát',
 'guohkkat',
 'guoirat',
 'guolbmat']

In [314]:
len(formas_unicas)

881

In [315]:
len(inflexiones)

46836

In [316]:
inflexiones_unicas = []

for elemento in inflexiones:
    ## si elemento ya está en la lista formas_unicas, entonces no lo guardo
    if elemento not in inflexiones_unicas:
        inflexiones_unicas += [elemento]

In [317]:
len(inflexiones_unicas)

42524

In [318]:
len(inflexiones_unicas) / len (formas_unicas)

48.26787741203178

In [319]:
len(codigos)

46836

In [320]:
codigos[:10]

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC',
 'V;PST;IND;2;PL',
 'V;PRS;IND;1;PL',
 'V;POT;1;DU',
 'V;IMP;3;PL',
 'V;COND;3;PL']

Un pequeño ejercicio con listas y ciclos for:

- Defina la lista codigos_unicos, que contiene los códigos únicos ¿Cúantos códigos distintos hay?
- Defina la lista codigos_extendidos, en que cada posición es una lista de tokens, por ejemplo,
```python:
codigos_extendidos = [['V','NFIN'],...]
```

- A partir de la lista anterior, defina la lista numero_codigos, que contiene el número de códigos asociados a cada inflexión.
- En promedio, ¿Cuántos códigos están asociados a una inflexión?

In [321]:
codigos_unicos = []

for codigo in codigos:
    if codigo not in codigos_unicos:
        codigos_unicos += [codigo]

In [322]:
len(codigos_unicos)

54

In [323]:
codigos_unicos

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC',
 'V;PST;IND;2;PL',
 'V;PRS;IND;1;PL',
 'V;POT;1;DU',
 'V;IMP;3;PL',
 'V;COND;3;PL',
 'V;COND;3;DU',
 'V;COND;2;PL;LGSPEC',
 'V;IMP;2;SG',
 'V;PST;IND;1;DU',
 'V;COND;3;SG;LGSPEC',
 'V;IMP;2;DU',
 'V;COND;2;SG',
 'V;IMP;2;PL',
 'V;POT;1;PL',
 'V;COND;1;DU;LGSPEC',
 'V;PST;IND;3;PL',
 'V;COND;3;PL;LGSPEC',
 'V;PRS;IND;3;DU',
 'V;PRS;IND;3;SG',
 'V;POT;3;DU',
 'V;COND;2;DU',
 'V;IMP;1;DU',
 'V;POT;3;SG',
 'V;COND;2;PL',
 'V;PST;IND;2;DU',
 'V;IMP;1;PL',
 'V;IMP;1;SG',
 'V;COND;1;SG',
 'V;PRS;IND;3;PL',
 'V;POT;3;PL',
 'V;COND;3;DU;LGSPEC',
 'V;COND;2;DU;LGSPEC',
 'V;PRS;IND;2;SG',
 'V;COND;1;DU',
 'V;PST;IND;3;DU',
 'V;PRS;IND;2;DU',
 'V;COND;1;PL',
 'V;PST;IND;1;PL',
 'V;PST;IND;1;SG',
 'V;COND;1;SG;LGSPEC',
 'V;COND;1;PL;LGSPEC',
 'V;IMP;3;SG',
 'V;POT;2;SG',
 'V;PRS;IND;2;PL',
 'V;POT;2;DU',
 'V;IMP;3;DU',
 'V;COND;3;SG',
 'V;POT;2;PL',
 'V;PST;IND;2;SG']

In [324]:
indice_cod_ext = list(range(len(codigos_unicos)))

In [325]:
codigos_extendidos = []
lista_cod_ext = []
lista_cod_ext_esp = []

for elemento in indice_cod_ext:
    lista_cod_ext = codigos_unicos[elemento]
    lista_cod_ext_esp = lista_cod_ext.split(';')
    codigos_extendidos += [lista_cod_ext_esp]

In [326]:
codigos_extendidos

[['V', 'PRS', 'IND', '1', 'DU'],
 ['V', 'PRS', 'IND', '1', 'SG'],
 ['V', 'POT', '1', 'SG'],
 ['V', 'PST', 'IND', '3', 'SG'],
 ['V', 'COND', '2', 'SG', 'LGSPEC'],
 ['V', 'PST', 'IND', '2', 'PL'],
 ['V', 'PRS', 'IND', '1', 'PL'],
 ['V', 'POT', '1', 'DU'],
 ['V', 'IMP', '3', 'PL'],
 ['V', 'COND', '3', 'PL'],
 ['V', 'COND', '3', 'DU'],
 ['V', 'COND', '2', 'PL', 'LGSPEC'],
 ['V', 'IMP', '2', 'SG'],
 ['V', 'PST', 'IND', '1', 'DU'],
 ['V', 'COND', '3', 'SG', 'LGSPEC'],
 ['V', 'IMP', '2', 'DU'],
 ['V', 'COND', '2', 'SG'],
 ['V', 'IMP', '2', 'PL'],
 ['V', 'POT', '1', 'PL'],
 ['V', 'COND', '1', 'DU', 'LGSPEC'],
 ['V', 'PST', 'IND', '3', 'PL'],
 ['V', 'COND', '3', 'PL', 'LGSPEC'],
 ['V', 'PRS', 'IND', '3', 'DU'],
 ['V', 'PRS', 'IND', '3', 'SG'],
 ['V', 'POT', '3', 'DU'],
 ['V', 'COND', '2', 'DU'],
 ['V', 'IMP', '1', 'DU'],
 ['V', 'POT', '3', 'SG'],
 ['V', 'COND', '2', 'PL'],
 ['V', 'PST', 'IND', '2', 'DU'],
 ['V', 'IMP', '1', 'PL'],
 ['V', 'IMP', '1', 'SG'],
 ['V', 'COND', '1', 'SG'],
 ['V', 'PRS

In [327]:
indice_cod_ext = list(range(len(codigos_extendidos)))

In [328]:
numero_codigos = []

for elemento in codigos_extendidos:
    numero_codigos += [len(elemento)]

In [329]:
numero_codigos

[5,
 5,
 4,
 5,
 5,
 5,
 5,
 4,
 4,
 4,
 4,
 5,
 4,
 5,
 5,
 4,
 4,
 4,
 4,
 5,
 5,
 5,
 5,
 5,
 4,
 4,
 4,
 4,
 4,
 5,
 4,
 4,
 4,
 5,
 4,
 5,
 5,
 5,
 4,
 5,
 5,
 4,
 5,
 5,
 5,
 5,
 4,
 4,
 5,
 4,
 4,
 4,
 4,
 5]

In [330]:
suma_codigos = 0

for elemento in numero_codigos:
    suma_codigos += elemento

In [331]:
promedio_codigos = suma_codigos/ len(codigos_unicos)

In [332]:
promedio_codigos

4.5