### Algunos experimentos simples con datos de unimorph (lengua: elija 1 en [link](https://github.com/unimorph))
#### Mini introducción al procesamiento de una lengua (y algo sobre diccionarios)

In [97]:
## https://github.com/unimorph/ame
## usamos un poco de magia para leer los datos 

import pandas as pd

datos = pd.read_csv('sme', sep='\t', header=None)
datos.columns = ['formas','inflexiones','códigos']

In [98]:
datos = datos[datos['códigos'].str.startswith('V')]

In [99]:
## nuestros datos!!! Cada fila indica una forma original, una inflexión del verbo y las coordenadas de la inflexión.

datos

Unnamed: 0,formas,inflexiones,códigos
26,guhkkat,guhkke,V;PRS;IND;1;DU
27,guhkkat,guhkan,V;PRS;IND;1;SG
28,guhkkat,guhkažan,V;POT;1;SG
29,guhkkat,guhkai,V;PST;IND;3;SG
30,guhkkat,guhkalit,V;COND;2;SG;LGSPEC
...,...,...,...
62659,gođđat,gođažeahppi,V;POT;2;DU
62660,gođđat,gođđoska,V;IMP;3;DU
62661,gođđat,gođašii,V;COND;3;SG
62662,gođđat,gođažehpet,V;POT;2;PL


In [100]:
## A continuación, creamos las listas correspondientes a cada columna para poder trabajar con los datos.                                                                                                           
datos['formas']

26       guhkkat
27       guhkkat
28       guhkkat
29       guhkkat
30       guhkkat
          ...   
62659     gođđat
62660     gođđat
62661     gođđat
62662     gođđat
62663     gođđat
Name: formas, Length: 46836, dtype: object

In [101]:
formas = list(datos['formas'])

TypeError: 'list' object is not callable

In [75]:
formas[:5]

['guhkkat', 'guhkkat', 'guhkkat', 'guhkkat', 'guhkkat']

In [86]:
inflexiones = list(datos['inflexiones'])

TypeError: 'list' object is not callable

In [46]:
inflexiones[:5]

['guhkke', 'guhkan', 'guhkažan', 'guhkai', 'guhkalit']

In [47]:
codigos = list(datos['códigos'])

In [48]:
codigos[:5]

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC']

Algunas preguntas simples:

- Defina la lista formas_unicas, que contiene todas las formas sin repeticiones. Identifique el número de formas verbales distintas.
- Identifique el número de inflexiones distintas.
- En promedio, ¿Cúantas inflexiones distintas están asociadas a una forma verbal en la lengua elegida?

In [49]:
len(formas)

46836

In [50]:
formas_unicas = []

for elemento in formas:
    ## si elemento ya está en la lista formas_unicas, entonces no lo guardo
    if elemento not in formas_unicas:
        formas_unicas += [elemento]

In [51]:
formas_unicas[:10]

['guhkkat',
 'gulcat',
 'gulkat',
 'gullat',
 'guoddit',
 'guoggut',
 'guoggát',
 'guohkkat',
 'guoirat',
 'guolbmat']

In [52]:
len(formas_unicas)

881

In [53]:
len(inflexiones)

46836

In [54]:
inflexiones_unicas = []

for elemento in inflexiones:
    ## si elemento ya está en la lista formas_unicas, entonces no lo guardo
    if elemento not in inflexiones_unicas:
        inflexiones_unicas += [elemento]

In [55]:
len(inflexiones_unicas)

42524

In [56]:
len(inflexiones_unicas) / len (formas_unicas)

48.26787741203178

In [57]:
len(codigos)

46836

In [58]:
codigos[:10]

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC',
 'V;PST;IND;2;PL',
 'V;PRS;IND;1;PL',
 'V;POT;1;DU',
 'V;IMP;3;PL',
 'V;COND;3;PL']

In [59]:
codigos_unicos = []

for codigo in codigos:
    if codigo not in codigos_unicos:
        codigos_unicos += [codigo]

In [60]:
len(codigos_unicos)

54

In [61]:
codigos_unicos

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC',
 'V;PST;IND;2;PL',
 'V;PRS;IND;1;PL',
 'V;POT;1;DU',
 'V;IMP;3;PL',
 'V;COND;3;PL',
 'V;COND;3;DU',
 'V;COND;2;PL;LGSPEC',
 'V;IMP;2;SG',
 'V;PST;IND;1;DU',
 'V;COND;3;SG;LGSPEC',
 'V;IMP;2;DU',
 'V;COND;2;SG',
 'V;IMP;2;PL',
 'V;POT;1;PL',
 'V;COND;1;DU;LGSPEC',
 'V;PST;IND;3;PL',
 'V;COND;3;PL;LGSPEC',
 'V;PRS;IND;3;DU',
 'V;PRS;IND;3;SG',
 'V;POT;3;DU',
 'V;COND;2;DU',
 'V;IMP;1;DU',
 'V;POT;3;SG',
 'V;COND;2;PL',
 'V;PST;IND;2;DU',
 'V;IMP;1;PL',
 'V;IMP;1;SG',
 'V;COND;1;SG',
 'V;PRS;IND;3;PL',
 'V;POT;3;PL',
 'V;COND;3;DU;LGSPEC',
 'V;COND;2;DU;LGSPEC',
 'V;PRS;IND;2;SG',
 'V;COND;1;DU',
 'V;PST;IND;3;DU',
 'V;PRS;IND;2;DU',
 'V;COND;1;PL',
 'V;PST;IND;1;PL',
 'V;PST;IND;1;SG',
 'V;COND;1;SG;LGSPEC',
 'V;COND;1;PL;LGSPEC',
 'V;IMP;3;SG',
 'V;POT;2;SG',
 'V;PRS;IND;2;PL',
 'V;POT;2;DU',
 'V;IMP;3;DU',
 'V;COND;3;SG',
 'V;POT;2;PL',
 'V;PST;IND;2;SG']

Un pequeño ejercicio con listas y ciclos for:

- Defina la lista codigos_unicos, que contiene los códigos únicos ¿Cúantos códigos distintos hay?
- Defina la lista codigos_extendidos, en que cada posición es una lista de tokens, por ejemplo,
```python:
codigos_extendidos = [['V','NFIN'],...]
```

- A partir de la lista anterior, defina la lista numero_codigos, que contiene el número de códigos asociados a cada inflexión.
- En promedio, ¿Cuántos códigos están asociados a una inflexión?

In [62]:
codigos_extendidos = []

In [76]:
######### Ayuda -.-U Corrió la primera vez y de pronto dejó de funcionar

indice_cod_ext = list(range(len(codigos_unicos)))

TypeError: 'list' object is not callable

In [77]:
lista_cod1 = []

In [78]:
for elemento in indice_cod_ext:
    lista_cod1 = codigos_unicos[elemento]
    codigos_extendidos += [[lista_cod1]]

In [79]:
codigos_extendidos

['V;PRS;IND;1;DU',
 'V;PRS;IND;1;SG',
 'V;POT;1;SG',
 'V;PST;IND;3;SG',
 'V;COND;2;SG;LGSPEC',
 'V;PST;IND;2;PL',
 'V;PRS;IND;1;PL',
 'V;POT;1;DU',
 'V;IMP;3;PL',
 'V;COND;3;PL',
 'V;COND;3;DU',
 'V;COND;2;PL;LGSPEC',
 'V;IMP;2;SG',
 'V;PST;IND;1;DU',
 'V;COND;3;SG;LGSPEC',
 'V;IMP;2;DU',
 'V;COND;2;SG',
 'V;IMP;2;PL',
 'V;POT;1;PL',
 'V;COND;1;DU;LGSPEC',
 'V;PST;IND;3;PL',
 'V;COND;3;PL;LGSPEC',
 'V;PRS;IND;3;DU',
 'V;PRS;IND;3;SG',
 'V;POT;3;DU',
 'V;COND;2;DU',
 'V;IMP;1;DU',
 'V;POT;3;SG',
 'V;COND;2;PL',
 'V;PST;IND;2;DU',
 'V;IMP;1;PL',
 'V;IMP;1;SG',
 'V;COND;1;SG',
 'V;PRS;IND;3;PL',
 'V;POT;3;PL',
 'V;COND;3;DU;LGSPEC',
 'V;COND;2;DU;LGSPEC',
 'V;PRS;IND;2;SG',
 'V;COND;1;DU',
 'V;PST;IND;3;DU',
 'V;PRS;IND;2;DU',
 'V;COND;1;PL',
 'V;PST;IND;1;PL',
 'V;PST;IND;1;SG',
 'V;COND;1;SG;LGSPEC',
 'V;COND;1;PL;LGSPEC',
 'V;IMP;3;SG',
 'V;POT;2;SG',
 'V;PRS;IND;2;PL',
 'V;POT;2;DU',
 'V;IMP;3;DU',
 'V;COND;3;SG',
 'V;POT;2;PL',
 'V;PST;IND;2;SG',
 ['V;PRS;IND;1;DU'],
 ['V;PRS;IND;1;S