# 1. Fonología

## Objetivo

- Læs alumnæs entenderán que es la fonología y un alfabeto fonético
- Manipularan datasets disponibles en repositorios de Github
- Guardaran estos datasets en una estructura de datos
- Recuperarán información reelevante de esta estructura para resolver una tarea específica

## ¿Qué es la fonología?

- La fonología es una rama de la Lingüística que estudia como los humanos producimos y percibimos el lenguaje
    - Producción: La forma en que producimos el lenguaje
    - Percepción: La forma en que interpretamos el lenguaje

In [None]:
%%HTML
<iframe width="760" height="415" src="https://www.youtube.com/embed/DcNMCB-Gsn8?controls=1"></iframe>

#### Formas comunes

- Oral-Aural
    - Producción: La boca
    - Percepción: Oidos
- Manual-visual
    - Producción: Manual usando las manos
    - Percepción: Visual
- Manual-Manual
    - Producción: Manual usando las manos
    - Percepción: Manual usando las manos

#### International Phonetic Alphabet (IPA)

- Las lenguas naturales tienen muchos sonidos diferentes por lo que necesitamos una forma de describirlos independientemente de las lenguas
- Por ejemplo: Los sonidos del habla se determinan por los movimientos de la boca necesarios para producirlos
- Las dos grandes categorías: Consonantes y Vocales
- IPA es una representación escrita de los [sonidos](https://www.ipachart.com/) del habla

### Dataset: IPA-dict de open-dict

- Diccionario de palabras para varios idiomas con su representación fonética
- Representación simple, una palabra por renglon con el formato:

```
[PALABRA][TAB][IPA]

Ejemplos
mariguana	/maɾiɣwana/
zyuganov's   /ˈzjuɡɑnɑvz/, /ˈzuɡɑnɑvz/
```

- [Github repo](https://github.com/open-dict-data/ipa-dict)
  - [ISO language codes](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes)
  - URL: `https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/<iso-lang>`

### Explorando el corpus

In [3]:
import requests as r

response = r.get("https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/en_US.txt")
#response.text
response.text[500:1000]

"/ˌɑˈhus/\naaron\t/ˈɛɹən/\naaron's\t/ˈɛɹənz/\naarons\t/ˈɛɹənz/\naaronson\t/ˈɑɹənsən/, /ˈɛɹənsən/\naaronson's\t/ˈɑɹənsənz/, /ˈɛɹənsənz/\naarti\t/ˈɑɹˌti/\naase\t/ˈɑs/\naasen\t/ˈɑsən/\nab\t/ˈæb/, /ˈeɪˈbi/\naba\t/ˌeɪˌbiˈeɪ/\nababa\t/ˈɑbəbə/, /əˈbɑbə/\nabacha\t/ˈæbəkə/\naback\t/əˈbæk/\nabaco\t/ˈæbəˌkoʊ/\nabacus\t/ˈæbəkəs/\nabad\t/əˈbɑd/\nabadaka\t/əˈbædəkə/\nabadi\t/əˈbædi/\nabadie\t/əˈbædi/\nabair\t/əˈbɛɹ/\nabalkin\t/əˈbɑɫkɪn/\nabalone\t/ˌæbəˈɫoʊni/\nabalones\t/ˌæbəˈɫoʊniz/\nabalos\t/ɑˈbɑɫoʊz/\nabandon\t/əˈbændən/\nabandoned\t/əˈbændənd/\nabandoning\t/ə"

In [4]:
from pprint import pp
pp(response.text[500:1000])

('/ˌɑˈhus/\n'
 'aaron\t/ˈɛɹən/\n'
 "aaron's\t/ˈɛɹənz/\n"
 'aarons\t/ˈɛɹənz/\n'
 'aaronson\t/ˈɑɹənsən/, /ˈɛɹənsən/\n'
 "aaronson's\t/ˈɑɹənsənz/, /ˈɛɹənsənz/\n"
 'aarti\t/ˈɑɹˌti/\n'
 'aase\t/ˈɑs/\n'
 'aasen\t/ˈɑsən/\n'
 'ab\t/ˈæb/, /ˈeɪˈbi/\n'
 'aba\t/ˌeɪˌbiˈeɪ/\n'
 'ababa\t/ˈɑbəbə/, /əˈbɑbə/\n'
 'abacha\t/ˈæbəkə/\n'
 'aback\t/əˈbæk/\n'
 'abaco\t/ˈæbəˌkoʊ/\n'
 'abacus\t/ˈæbəkəs/\n'
 'abad\t/əˈbɑd/\n'
 'abadaka\t/əˈbædəkə/\n'
 'abadi\t/əˈbædi/\n'
 'abadie\t/əˈbædi/\n'
 'abair\t/əˈbɛɹ/\n'
 'abalkin\t/əˈbɑɫkɪn/\n'
 'abalone\t/ˌæbəˈɫoʊni/\n'
 'abalones\t/ˌæbəˈɫoʊniz/\n'
 'abalos\t/ɑˈbɑɫoʊz/\n'
 'abandon\t/əˈbændən/\n'
 'abandoned\t/əˈbændənd/\n'
 'abandoning\t/ə')


In [5]:
words = response.text.split("\n")
print(words[:10])
print(words[100])
pp(words[-1])
pp(words[-2])
print(words[-3].split('\t'))

["'bout\t/ˈbaʊt/", "'cause\t/kəz/", "'course\t/ˈkɔɹs/", "'cuse\t/ˈkjuz/", "'em\t/əm/", "'frisco\t/ˈfɹɪskoʊ/", "'gain\t/ˈɡɛn/", "'kay\t/ˈkeɪ/", "'m\t/əm/", "'n\t/ən/"]
abbreviate	/əˈbɹiviˌeɪt/
''
'zywicki\t/zɪˈwɪki/'
["zyuganov's", '/ˈzjuɡɑnɑvz/, /ˈzuɡɑnɑvz/']


### Obteniendo el corpus

In [6]:
lang_codes = {
  "ar": "Arabic (Modern Standard)",
  "de": "German",
  "en_UK": "English (Received Pronunciation)",
  "en_US": "English (General American)",
  "eo": "Esperanto",
  "es_ES": "Spanish (Spain)",
  "es_MX": "Spanish (Mexico)",
  "fa": "Persian",
  "fi": "Finnish",
  "fr_FR": "French (France)",
  "fr_QC": "French (Québec)",
  "is": "Icelandic",
  "ja": "Japanese",
  "jam": "Jamaican Creole",
  "km": "Khmer",
  "ko": "Korean",
  "ma": "Malay (Malaysian and Indonesian)",
  "nb": "Norwegian Bokmål",
  "nl": "Dutch",
  "or": "Odia",
  "ro": "Romanian",
  "sv": "Swedish",
  "sw": "Swahili",
  "tts": "Isan",
  "vi_C": "Vietnamese (Central)",
  "vi_N": "Vietnamese (Northern)",
  "vi_S": "Vietnamese (Southern)",
  "yue": "Cantonese",
  "zh": "Mandarin"
}
iso_lang_codes = list(lang_codes.keys())

In [8]:
def response_to_dict(ipa_list: list) -> dict:
    """Parse to dict the list of word-IPA

    Each element of text hae the format:
    [WORD][TAB][IPA]

    Parameters
    ----------
    ipa_list: list
        List with each row of ipa-dict raw dataset file

    Returns
    -------
    dict:
        A dictionary with the word as key and the phonetic
        representation as value
    """
    result = {}
    for item in ipa_list:
        item_list = item.split("\t")
        result[item_list[0]] = item_list[1]
    return result

def get_ipa_dict(iso_lang: str) -> dict:
    """Get ipa-dict file from Github

    Parameters:
    -----------
    iso_lang:
        Language as iso code

    Results:
    --------
    dict:
        Dictionary with words as keys and phonetic representation
        as values for a given lang code
    """
    response = r.get(f"https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/{iso_lang}.txt")
    raw_data = response.text.split("\n")
    return response_to_dict(raw_data[:-1])

def get_ipa_transcriptions(word: str, dataset: dict) -> list[str]:
    """Search for word in a given dataset of IPA phonetics

    Given a word this function return the IPA transcriptions

    Parameters:
    -----------
    word: str
        A word to search in the dataset
    dataset: dict
        A dataset for a given language code
    Returns
    -------
    """
    return dataset.get(word.lower(), "NOT FOUND").split(", ")


In [14]:
d = {"apple": 1}
d.get('banana')

#### Obtengamos un par de datasets

In [9]:
dataset_es_mx = get_ipa_dict("es_MX")
dataset_en_us = get_ipa_dict("en_US")

In [15]:
print(f"dog | {get_ipa_transcriptions('dog', dataset_en_us)}🐶")
print(f"mariguana | {get_ipa_transcriptions('mariguana', dataset_es_mx)} 🪴")

dog | ['/ˈdɔɡ/']🐶
mariguana | ['/maɾiɣwana/'] 🪴


In [16]:
print(f"[es_MX] hotel | {dataset_es_mx['hotel']}")
print(f"[en_US] hotel | {dataset_en_us['hotel']}")

[es_MX] hotel | /otel/
[en_US] hotel | /hoʊˈtɛɫ/


In [17]:
def get_dataset() -> dict:
    """Download corpora from ipa-dict github

    Given a list of iso lang codes download available datasets.

    Returns
    -------
    dict
        Lang codes as keys and dictionary with words-transcriptions
        as values
    """
    return {code: get_ipa_dict(code) for code in iso_lang_codes}

dataset = get_dataset()

### Busquedas básicas automatizada

In [18]:
dataset.keys()

dict_keys(['ar', 'de', 'en_UK', 'en_US', 'eo', 'es_ES', 'es_MX', 'fa', 'fi', 'fr_FR', 'fr_QC', 'is', 'ja', 'jam', 'km', 'ko', 'ma', 'nb', 'nl', 'or', 'ro', 'sv', 'sw', 'tts', 'vi_C', 'vi_N', 'vi_S', 'yue', 'zh'])

In [21]:
print("Representación fonética de palabras")

print(f"Lenguas disponibles: {(iso_lang_codes)}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")
while lang:
    sub_dataset = dataset[lang]
    query = input(f"  [{lang}]word>> ")
    results = get_ipa_transcriptions(query, sub_dataset)
    print(query, " | ", ", ".join(results))
    while query:
        query = input(f"  [{lang}]word>> ")
        print(query, sub_dataset.get(query, query))
    lang = input("lang>> ")
    print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")

Representación fonética de palabras
Lenguas disponibles: ['ar', 'de', 'en_UK', 'en_US', 'eo', 'es_ES', 'es_MX', 'fa', 'fi', 'fr_FR', 'fr_QC', 'is', 'ja', 'jam', 'km', 'ko', 'ma', 'nb', 'nl', 'or', 'ro', 'sv', 'sw', 'tts', 'vi_C', 'vi_N', 'vi_S', 'yue', 'zh']
lang>> 
Adios 👋🏼


### Encontrando palabras que tengan terminación similar