# **Introducción a la lingüística computacional con Python**
### Javier Vera Zúñiga, jveraz@pucp.edu.pe

## Clase 4
[Link interesante](https://kawennonnis.ca/wordmaker), [un paper](https://aclanthology.org/W18-4806.pdf) y dos problemas!

- **Problema 1.** Reconocer palabras que terminan en vocal. 
- **Problema 2.** Identificar las palabras únicas de un texto.  

### Problema 1. Reconocer palabras que terminan en vocal. 
¿Por qué este problema es importante? si vemos los números en Quechua, de la lista de más abajo, las terminaciones en consonante, como en **chunka pusaq-ni-yuq** suponen agregar la partícula **ni**, a diferencia de otros casos, como **chunka kimsa-yuq.** ¿Qué herramienta de **Python** nos serviría para reconocer este tipo de casos?

In [1]:
## números del 1 al 20

lista_numeros_1_20 = ['huk', 'iskay', 'kimsa', 'tawa', 'pichqa', 'suqta', 'qanchis', 'pusaq', 'isqun', 'chunka',
'chunka huk-ni-yuq', 'chunka iskay-ni-yuq', 'chunka kimsa-yuq', 'chunka tawa-yuq', 'chunka pichqa-yuq',
'chunka suqta-yuq', 'chunka qanchis-ni-yuq', 'chunka pusaq-ni-yuq', 'chunka isqun-ni-yuq', 'iskay chunka']

En esto, aparece una condición del tipo **si-entonces**. En otras palabras, para un número entre 11 y 19, dependiendo si la palabra que expresa la unidad (o sea, 1 a 9) termine en consonante, o vocal, tendremos una consecuencia. En **Python**, usamos **if-else.**

In [2]:
## definamos el conjunto de vocales

vocales = ['a', 'e', 'i', 'o', 'u']

¿Cómo podríamos decir si un string termina en alguno de los caracteres de la lista **vocales**?

In [3]:
## definimos dos variables

string_uno = 'huk'
string_tres = 'kimsa'

In [4]:
## ¿Cómo extraemos el caracter final de un string?

## forma 1: truco de strings en Python
caracter_final_uno = string_uno[-1]

## forma 2: acceso de los índices
caracter_final_uno = string_uno[len(string_uno)-1]

## forma 1: truco de strings en Python
caracter_final_tres = string_tres[-1]

## forma 2: acceso de los índices
caracter_final_tres = string_tres[len(string_tres)-1]

In [5]:
caracter_final_uno

'k'

In [6]:
caracter_final_tres

'a'

Supongamos que queremos formar número entre 11 y 19. Estos tienen la forma chunka + unidad+(-ni)-yuq, dependiendo si la unidad termina o no en vocal

In [7]:
## formemos primero un número provisorio

## 11
string_numero = 'chunka huk'

## usamos if-else
## si la palabra termina en vocal
if string_numero[-1] in vocales:
    ## agregamos -ni-yuq
    string_numero = string_numero + '-yuq'
## en otro caso, es decir, si termina en consonante
else:
    string_numero = string_numero + '-ni-yuq'

In [8]:
string_numero

'chunka huk-ni-yuq'

In [9]:
## otra versión, mezclando con ciclo for
## Recordemos que los ciclos for nos permiten recorrer una lista

## número del 1 al 9
for string_numero in ['huk', 'iskay', 'kimsa', 'tawa', 'pichqa', 'suqta', 'qanchis', 'pusaq', 'isqun']:
    ## digamos "termina en vocal" o "termina en consonante" para cada string
    ## si la palabra termina en vocal
    if string_numero[-1] in vocales:
        print(string_numero, 'termina en vocal')
    else:
        print(string_numero, 'termina en consonante')

huk termina en consonante
iskay termina en consonante
kimsa termina en vocal
tawa termina en vocal
pichqa termina en vocal
suqta termina en vocal
qanchis termina en consonante
pusaq termina en consonante
isqun termina en consonante


In [10]:
## un problema relacionado: ¿Cómo eliminamos puntuación en un string?

## lista de puntuaciones
puntuacion = ['.', ',']

## ejemplo
string_punt = 'casa.'

## usamos nuevamente if-else
## si termina con un signo de puntuación
if string_punt[-1] in puntuacion:
    ## borramos el caracter final
    string_punt = string_punt[:-1]

In [11]:
string_punt

'casa'

In [12]:
## ¿y si tenemos una lista de string?

## lista de string con problemas de puntuación
lista_strings = ['Augusta', 'Ada', 'King,', 'condesa', 'de', 'Lovelace,']

## lista con strings filtrados
lista_strings_filtrados = []

## recorremos los strings
for string in lista_strings:
    ## si terminan en puntuación
    if string[-1] in puntuacion:
        ## borramos el caracter final
        string = string[:-1]
    ## guardamos
    lista_strings_filtrados = lista_strings_filtrados + [string]

In [13]:
lista_strings_filtrados

['Augusta', 'Ada', 'King', 'condesa', 'de', 'Lovelace']

### Problema 2. Identificar las palabras únicas de un texto. 
¿Por qué este problema es importante? Si identificamos las palabras únicas de un texto, los **types**, podemos el número de veces que aparecen (los **tokens**). 

In [14]:
## lista de strings

texto = ['Augusta',
 'Ada',
 'King,',
 'condesa',
 'de',
 'Lovelace,',
 'registrada',
 'al',
 'nacer',
 'como',
 'Augusta',
 'Ada',
 'Byron',
 'y',
 'conocida',
 'habitualmente',
 'como',
 'Ada',
 'Lovelace,',
 'fue',
 'una',
 'matemática',
 'y',
 'escritora',
 'británica,',
 'célebre',
 'sobre',
 'todo',
 'por',
 'su',
 'trabajo',
 'acerca',
 'de',
 'la',
 'computadora',
 'mecánica',
 'de',
 'uso',
 'general',
 'de',
 'Charles',
 'Babbage,',
 'la',
 'denominada',
 'máquina',
 'analítica.',
 'Fue',
 'la',
 'primera',
 'en',
 'reconocer',
 'que',
 'la',
 'máquina',
 'tenía',
 'aplicaciones',
 'más',
 'allá',
 'del',
 'cálculo',
 'puro',
 'y',
 'en',
 'haber',
 'publicado',
 'lo',
 'que',
 'se',
 'reconoce',
 'hoy',
 'como',
 'el',
 'primer',
 'algoritmo',
 'destinado',
 'a',
 'ser',
 'procesado',
 'por',
 'una',
 'máquina,',
 'por',
 'lo',
 'que',
 'se',
 'la',
 'considera',
 'como',
 'la',
 'primera',
 'programadora',
 'de',
 'ordenadores.']

In [15]:
## primero, versión filtrada

## lista vacía
texto_filtrado = []

## recorremos la lista
for palabra in texto:
    ## si termina en puntuación
    if palabra[-1] in puntuacion:
        ## borramos el caracter final
        palabra = palabra[:-1]
    ## palabra en minúscula
    palabra = palabra.lower()
    ## guardamos
    texto_filtrado = texto_filtrado + [palabra]

In [16]:
texto_filtrado[:10]

['augusta',
 'ada',
 'king',
 'condesa',
 'de',
 'lovelace',
 'registrada',
 'al',
 'nacer',
 'como']

In [17]:
## lista palabras únicas
palabras_unicas = []

## recorremos las palabras
for palabra in texto_filtrado:
    ## si no está, la agregamos
    if palabra not in palabras_unicas:
        ## agregamos la palabra
        palabras_unicas = palabras_unicas + [palabra]

In [18]:
len(texto_filtrado),len(palabras_unicas)

(93, 63)

¿Cómo usamos esto para describir las frecuencias de palabras de un texto?