# 1. Fonolog√≠a

## Objetivo

- L√¶s alumn√¶s entender√°n que es la fonolog√≠a y un alfabeto fon√©tico
- Manipularan datasets disponibles en repositorios de Github
- Guardaran estos datasets en una estructura de datos
- Recuperar√°n informaci√≥n reelevante de esta estructura para resolver una tarea espec√≠fica

## ¬øQu√© es la fonolog√≠a?

- La fonolog√≠a es una rama de la Ling√º√≠stica que estudia como los humanos producimos y percibimos el lenguaje
    - Producci√≥n: La forma en que producimos el lenguaje
    - Percepci√≥n: La forma en que interpretamos el lenguaje

In [None]:
%%HTML
<iframe width="760" height="415" src="https://www.youtube.com/embed/DcNMCB-Gsn8?controls=1"></iframe>

#### Formas comunes

- Oral-Aural
    - Producci√≥n: La boca
    - Percepci√≥n: Oidos
- Manual-visual
    - Producci√≥n: Manual usando las manos
    - Percepci√≥n: Visual
- Manual-Manual
    - Producci√≥n: Manual usando las manos
    - Percepci√≥n: Manual usando las manos

#### International Phonetic Alphabet (IPA)

- Las lenguas naturales tienen muchos sonidos diferentes por lo que necesitamos una forma de describirlos independientemente de las lenguas
- Por ejemplo: Los sonidos del habla se determinan por los movimientos de la boca necesarios para producirlos
- Las dos grandes categor√≠as: Consonantes y Vocales
- IPA es una representaci√≥n escrita de los [sonidos](https://www.ipachart.com/) del habla

### Dataset: IPA-dict de open-dict

- Diccionario de palabras para varios idiomas con su representaci√≥n fon√©tica
- Representaci√≥n simple, una palabra por renglon con el formato:

```
[PALABRA][TAB][IPA]

Ejemplos
mariguana	/ma…æi…£wana/
zyuganov's   /Ààzju…°…ën…ëvz/, /Ààzu…°…ën…ëvz/
```

- [Github repo](https://github.com/open-dict-data/ipa-dict)
  - [ISO language codes](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes)
  - URL: `https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/<iso-lang>`

### Explorando el corpus

In [None]:
import requests as r

response = r.get("https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/en_US.txt")
#response.text
response.text[500:1000]

In [None]:
from pprint import pp
pp(response.text[500:1000])

('/Àå…ëÀàhus/\n'
 'aaron\t/Àà…õ…π…ôn/\n'
 "aaron's\t/Àà…õ…π…ônz/\n"
 'aarons\t/Àà…õ…π…ônz/\n'
 'aaronson\t/Àà…ë…π…ôns…ôn/, /Àà…õ…π…ôns…ôn/\n'
 "aaronson's\t/Àà…ë…π…ôns…ônz/, /Àà…õ…π…ôns…ônz/\n"
 'aarti\t/Àà…ë…πÀåti/\n'
 'aase\t/Àà…ës/\n'
 'aasen\t/Àà…ës…ôn/\n'
 'ab\t/Àà√¶b/, /Ààe…™Ààbi/\n'
 'aba\t/Àåe…™ÀåbiÀàe…™/\n'
 'ababa\t/Àà…ëb…ôb…ô/, /…ôÀàb…ëb…ô/\n'
 'abacha\t/Àà√¶b…ôk…ô/\n'
 'aback\t/…ôÀàb√¶k/\n'
 'abaco\t/Àà√¶b…ôÀåko ä/\n'
 'abacus\t/Àà√¶b…ôk…ôs/\n'
 'abad\t/…ôÀàb…ëd/\n'
 'abadaka\t/…ôÀàb√¶d…ôk…ô/\n'
 'abadi\t/…ôÀàb√¶di/\n'
 'abadie\t/…ôÀàb√¶di/\n'
 'abair\t/…ôÀàb…õ…π/\n'
 'abalkin\t/…ôÀàb…ë…´k…™n/\n'
 'abalone\t/Àå√¶b…ôÀà…´o äni/\n'
 'abalones\t/Àå√¶b…ôÀà…´o äniz/\n'
 'abalos\t/…ëÀàb…ë…´o äz/\n'
 'abandon\t/…ôÀàb√¶nd…ôn/\n'
 'abandoned\t/…ôÀàb√¶nd…ônd/\n'
 'abandoning\t/…ô')


In [None]:
words = response.text.split("\n")
print(words[:10])
print(words[100])
pp(words[-1])
pp(words[-2])
print(words[-3].split('\t'))

["'bout\t/Ààba ät/", "'cause\t/k…ôz/", "'course\t/Ààk…î…πs/", "'cuse\t/Ààkjuz/", "'em\t/…ôm/", "'frisco\t/Ààf…π…™sko ä/", "'gain\t/Àà…°…õn/", "'kay\t/Ààke…™/", "'m\t/…ôm/", "'n\t/…ôn/"]
abbreviate	/…ôÀàb…πiviÀåe…™t/
''
'zywicki\t/z…™Ààw…™ki/'
["zyuganov's", '/Ààzju…°…ën…ëvz/, /Ààzu…°…ën…ëvz/']


### Obteniendo el corpus

In [None]:
lang_codes = {
  "ar": "Arabic (Modern Standard)",
  "de": "German",
  "en_UK": "English (Received Pronunciation)",
  "en_US": "English (General American)",
  "eo": "Esperanto",
  "es_ES": "Spanish (Spain)",
  "es_MX": "Spanish (Mexico)",
  "fa": "Persian",
  "fi": "Finnish",
  "fr_FR": "French (France)",
  "fr_QC": "French (Qu√©bec)",
  "is": "Icelandic",
  "ja": "Japanese",
  "jam": "Jamaican Creole",
  "km": "Khmer",
  "ko": "Korean",
  "ma": "Malay (Malaysian and Indonesian)",
  "nb": "Norwegian Bokm√•l",
  "nl": "Dutch",
  "or": "Odia",
  "ro": "Romanian",
  "sv": "Swedish",
  "sw": "Swahili",
  "tts": "Isan",
  "vi_C": "Vietnamese (Central)",
  "vi_N": "Vietnamese (Northern)",
  "vi_S": "Vietnamese (Southern)",
  "yue": "Cantonese",
  "zh": "Mandarin"
}
iso_lang_codes = list(lang_codes.keys())

In [None]:
def response_to_dict(ipa_list: list) -> dict:
    """Parse to dict the list of word-IPA

    Each element of text hae the format:
    [WORD][TAB][IPA]

    Parameters
    ----------
    ipa_list: list
        List with each row of ipa-dict raw dataset file

    Returns
    -------
    dict:
        A dictionary with the word as key and the phonetic
        representation as value
    """
    result = {}
    for item in ipa_list:
        item_list = item.split("\t")
        result[item_list[0]] = item_list[1]
    return result

def get_ipa_dict(iso_lang: str) -> dict:
    """Get ipa-dict file from Github

    Parameters:
    -----------
    iso_lang:
        Language as iso code

    Results:
    --------
    dict:
        Dictionary with words as keys and phonetic representation
        as values for a given lang code
    """
    response = r.get(f"https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/{iso_lang}.txt")
    raw_data = response.text.split("\n")
    return response_to_dict(raw_data[:-1])

def get_ipa_transcriptions(word: str, dataset: dict) -> list[str]:
    """Search for word in a given dataset of IPA phonetics

    Given a word this function return the IPA transcriptions

    Parameters:
    -----------
    word: str
        A word to search in the dataset
    dataset: dict
        A dataset for a given language code
    Returns
    -------
    """
    return dataset.get(word.lower(), "NOT FOUND").split(", ")


In [None]:
d = {"apple": 1}
d.get('banana')

#### Obtengamos un par de datasets

In [None]:
dataset_es_mx = get_ipa_dict("es_MX")
dataset_en_us = get_ipa_dict("en_US")

In [None]:
print(f"dog | {get_ipa_transcriptions('dog', dataset_en_us)}üê∂")
print(f"mariguana | {get_ipa_transcriptions('mariguana', dataset_es_mx)} ü™¥")

dog | ['/Ààd…î…°/']üê∂
mariguana | ['/ma…æi…£wana/'] ü™¥


In [17]:
print(f"[es_MX] hola | {dataset_es_mx['hola']}")
print(f"[en_US] hotel | {dataset_en_us['hotel']}")

[es_MX] hola | /ola/
[en_US] hotel | /ho äÀàt…õ…´/


In [None]:
def get_dataset() -> dict:
    """Download corpora from ipa-dict github

    Given a list of iso lang codes download available datasets.

    Returns
    -------
    dict
        Lang codes as keys and dictionary with words-transcriptions
        as values
    """
    return {code: get_ipa_dict(code) for code in iso_lang_codes}

dataset = get_dataset()

### Busquedas b√°sicas automatizada

In [None]:
dataset.keys()

dict_keys(['ar', 'de', 'en_UK', 'en_US', 'eo', 'es_ES', 'es_MX', 'fa', 'fi', 'fr_FR', 'fr_QC', 'is', 'ja', 'jam', 'km', 'ko', 'ma', 'nb', 'nl', 'or', 'ro', 'sv', 'sw', 'tts', 'vi_C', 'vi_N', 'vi_S', 'yue', 'zh'])

In [None]:
print("Representaci√≥n fon√©tica de palabras")

print(f"Lenguas disponibles: {(iso_lang_codes)}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios üëãüèº")
while lang:
    sub_dataset = dataset[lang]
    query = input(f"  [{lang}]word>> ")
    results = get_ipa_transcriptions(query, sub_dataset)
    print(query, " | ", ", ".join(results))
    while query:
        query = input(f"  [{lang}]word>> ")
        print(query, sub_dataset.get(query, query))
    lang = input("lang>> ")
    print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios üëãüèº")

Representaci√≥n fon√©tica de palabras
Lenguas disponibles: ['ar', 'de', 'en_UK', 'en_US', 'eo', 'es_ES', 'es_MX', 'fa', 'fi', 'fr_FR', 'fr_QC', 'is', 'ja', 'jam', 'km', 'ko', 'ma', 'nb', 'nl', 'or', 'ro', 'sv', 'sw', 'tts', 'vi_C', 'vi_N', 'vi_S', 'yue', 'zh']


### Encontrando palabras que tengan terminaci√≥n similar

In [None]:
from collections import defaultdict
#sentence = "There once was a cat that ate a rat and after that sat on a yellow mat"
#sentence = "the cat sat on the mat and looked at the rat."
#sentence = "If you drop the ball it will fall on the doll"
sentence = "cuando juego con fuego siento como brilla la orilla de mi coraz√≥n"

#lang = "en_US"
lang = "es_MX"
words = sentence.split(" ")

# Get words and IPA transciptions map
word_ipa_map = {}
for word in words:
    ipa_transcriptions = get_ipa_transcriptions(word=word, dataset=dataset.get(lang))
    ipa_transcriptions = [_.strip("/") for _ in ipa_transcriptions]
    word_ipa_map.update({word: ipa_transcriptions })

rhyming_patterns = defaultdict(list)
for word, ipa_list in word_ipa_map.items():
    for ipa in ipa_list:
        ipa_pattern = ipa[-2:]
        rhyming_patterns[ipa_pattern].append(word)

for pattern, words in rhyming_patterns.items():
    if len(set(words)) > 1:
        print(f"{pattern}:: {', '.join(words)}")

…£o:: juego, fuego
on:: con, coraz√≥n
 éa:: brilla, orilla


### Pr√°ctica 1: Buscador equivalencias fon√©ticas en un corpus

**Fecha de entrega: Domingo 27 de Agosto 2023 11:59pm**

- Agregar un nuevo modo de b√∫squeda donde se extienda el comportamiento b√°sico del buscador para ahora buscar por frases. Ejemplo:

```
[es_MX]>>> Hola que hace
 /ola/ /ke/ /ase/
```

- Optimizar el c√≥digo para agregar los datasets en un "cache" a demanda y no descargar todo el corpus de un trancazo. Esto quiere decir que al inicio de la ejecuci√≥n no habr√° ningun dataset descargado. Mientras la usuaria vaya seleccionado idiomas los ir√° agregando a un cache local (puede ser persistente o en memoria). Ejemplo:

```
lang>> es_MX
Corpus no encontrado. Descargando ...
[es_MX]>>
...
lang>> en_US
Corpus no encontrado. Descargando ...
[en_US]>>
...
lang>> es_MX
[es_MX]>>
...
```

#### EXTRA

- Mejorar la soluci√≥n al escenario cuando no se encuentran las palabras en el dataset mostrando palabras similares. Ejemplo:

```
[es_MX]>> pero
No se encontro <<pero>> en el dataset. Palabras aproximadas:
perro /pero/
perno /pe…æno/
[es_MX]>>
```

In [45]:
print(list(dataset_es_mx.keys())[:100])

['a', 'aar√≥nica', 'aar√≥nicas', 'aar√≥nico', 'aar√≥nicos', 'aba', 'ababa', 'ababais', 'ab√°bamos', 'ababan', 'ababas', 'ababilla', 'ababillaba', 'ababillabais', 'ababill√°bamos', 'ababillaban', 'ababillabas', 'ababillad', 'ababillada', 'ababilladas', 'ababillado', 'ababillados', 'ababill√°is', 'ababillamos', 'ababillan', 'ababillando', 'ababill√°ndome', 'ababill√°ndonos', 'ababill√°ndoos', 'ababill√°ndose', 'ababill√°ndote', 'ababillar', 'ababillar√°', 'ababillara', 'ababillarais', 'ababill√°ramos', 'ababillar√°n', 'ababillaran', 'ababillar√°s', 'ababillaras', 'ababillar√©', 'ababillare', 'ababillar√©is', 'ababillareis', 'ababill√°remos', 'ababillaremos', 'ababillaren', 'ababillares', 'ababillar√≠a', 'ababillar√≠ais', 'ababillar√≠amos', 'ababillar√≠an', 'ababillar√≠as', 'ababillarme', 'ababillarnos', 'ababillaron', 'ababillaros', 'ababillarse', 'ababillarte', 'ababillas', 'ababillase', 'ababillaseis', 'ababill√°semos', 'ababillasen', 'ababillases', 'ababillaste', 'ababillasteis', 'aba

# Ejercicio 1. Agregar un nuevo modo de b√∫squeda donde se extienda el comportamiento b√°sico del buscador para ahora buscar por frases.

In [72]:
def phrase_to_phon(query):
    """
    Funci√≥n que separa una frase y se busca su forma fonetica (Si existe)
    Si no, busca opciones (se muestran 5) parecidas

    Parameters
    ----------
    query: String
        La frase que estamos analizando

    Returns
    -------
    result: String
        El resultado del an√°lisis fonetico
    """
    words = query.split()
    result = ""
    for word in words:
      r = "".join(get_ipa_transcriptions(word, sub_dataset))
      if r == "NOT FOUND":
        print("No se encontr√≥ la palabra ",word," palabras similares:")
        result = result + " [" + " ".join(find_similar(word)) + "]"
      else:
        result = result  + " " + r
    return result



iso_lang_codes_downloaded = {}

def add_lang(lang):
  """
Funci√≥n que a√±ade un corpus de lenguaje a nuestra colecci√≥n de corpus
Esta funci√≥n se hace en memoria por lo que se van a bajar cada que se utilize
el programa, pero se puede cambiar entre lenguajes y el programa "recuerda"
cu√°les han sido ya descargados y se muestran los lenguajes disponibles

Parameters
    ----------
lang: String
el lenguaje a descargar
"""
  if lang not in iso_lang_codes:
    print("Lenguaje no disponible")
    return
  if lang in iso_lang_codes and lang in list(iso_lang_codes_downloaded.keys()):
    print("El lenguaje ya est√° cargado")
    return
  else:
    print("Corpus no encontrado. Descargando ...")
    iso_lang_codes_downloaded[lang] = get_ipa_dict(lang)





print("Representaci√≥n fon√©tica de palabras")
print(f"Corpus disponibles: {(iso_lang_codes)}")
print(f"Corpus descargados: {(iso_lang_codes_downloaded)}")
lang = input("lang>> ")
while lang:
    add_lang(lang)
    print("Corpus descargados",list(iso_lang_codes_downloaded.keys()))
    sub_dataset = iso_lang_codes_downloaded[lang]
    print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios üëãüèº")
    query = input(f"  [{lang}]phrase>> ")
    print(query, " | ", phrase_to_phon(query))
    while query:
        query = input(f"  [{lang}]phrase>> ")
        print(query, " | ", phrase_to_phon(query))
    lang = input("lang>> ")
    print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios üëãüèº")

Representaci√≥n fon√©tica de palabras
Corpus disponibles: ['ar', 'de', 'en_UK', 'en_US', 'eo', 'es_ES', 'es_MX', 'fa', 'fi', 'fr_FR', 'fr_QC', 'is', 'ja', 'jam', 'km', 'ko', 'ma', 'nb', 'nl', 'or', 'ro', 'sv', 'sw', 'tts', 'vi_C', 'vi_N', 'vi_S', 'yue', 'zh']
Corpus descargados: {}
lang>> es_MX
Corpus no encontrado. Descargando ...
Corpus descargados ['es_MX']
Selected language: Spanish (Mexico)
  [es_MX]phrase>> cuar estara en la ti√±a
No se encontr√≥ la palabra  cuar  palabras similares:
No se encontr√≥ la palabra  estara  palabras similares:
cuar estara en la ti√±a  |  [ciar cual cuan cucar cunar][destara esbara escara estaba estaca] /en/ /la/ /ti…≤a/
  [es_MX]phrase>> 
  |  
lang>> es_MX
Selected language: Spanish (Mexico)
El lenguaje ya est√° cargado
Corpus descargados ['es_MX']
Selected language: Spanish (Mexico)
  [es_MX]phrase>> 
  |  
lang>> en_UK
Selected language: English (Received Pronunciation)
Corpus no encontrado. Descargando ...
Corpus descargados ['es_MX', 'en_UK']
Sel

In [71]:
#Funci√≥n de Levenshtein gen√©rica obtenida de
# https://machinelearningknowledge.ai/ways-to-calculate-levenshtein-distance-edit-distance-in-python/

def levenshtein_distance(s, t):
    """
    Funci√≥n que calcula la distancia de Levenshtein

    Parameters
    ----------
    s: String
        String que estamos comparando
    r: String
        String que estamos comparando

    Returns
    -------
    d[m][n]: int
        Distancia de Levenshtein entre s y t
    """
    m = len(s)
    n = len(t)
    d = [[0] * (n + 1) for i in range(m + 1)]

    for i in range(1, m + 1):
        d[i][0] = i

    for j in range(1, n + 1):
        d[0][j] = j

    for j in range(1, n + 1):
        for i in range(1, m + 1):
            if s[i - 1] == t[j - 1]:
                cost = 0
            else:
                cost = 1
            d[i][j] = min(d[i - 1][j] + 1,      # deletion
                          d[i][j - 1] + 1,      # insertion
                          d[i - 1][j - 1] + cost) # substitution

    return d[m][n]


def find_similar(query):
  """
  Funci√≥n que en un corpu busca palabras con distancia de Levenshtein variable

  Si buscamos "cuar" obtenemos [ciar cual cuan cucar cunar]

   Parameters
    ----------
    query: String
        String que estamos buscando

    Returns
    -------
    similar: List
        Lista que contiene opciones a distancia de Levenshtein baja

  """
  similar = []
  max = 5                                         #N√∫mero de opciones posibles
  for word in sub_dataset.keys():
    if max == 0:
      break
    distance = levenshtein_distance(query,word)
    if distance <= 1:                             #Distancia requerida (Entre mas mas alejada la palabra del corpus menos coincidencias)
      if not word.upper() == query.upper():
        similar.append(word)
        max = max -1
  return similar

