# Ayala Morales Mauricio
### No. de cuenta: 315332122

---

# 1. Niveles lingüísticos I

<center><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/8f/IPA_chart_2020.svg/660px-IPA_chart_2020.svg.png"></center>

## Objetivo

- Læs alumnæs entenderán que es la fonología y un alfabeto fonético
- Manipularan y recuperará información de datasets disponibles en repositorios de Github para resolver una tarea específica
- Læs alumnæs tendrán un acercamiento a la tarea de análisis morfológico
- Hacer una comparación entre un enfoque basado en reglas y uno estadístico para tareas de NLP

## ¿Qué es la fonología?

- La fonología es una rama de la Lingüística que estudia como las lenguajes sistematicamente organizan los fonemas
- Estudia como los humanos producimos y percibimos el lenguaje
    - Producción: La forma en que producimos el lenguaje
    - Percepción: La forma en que interpretamos el lenguaje

> Wikipedia contributors. Phonology. In Wikipedia, The Free Encyclopedia. https://en.wikipedia.org/w/index.php?title=Phonology&oldid=1206207687

## ¿Qué es la fonética?

- El estudio de los sonidos físicos del discurso humano. Es la rama de la lingüística que estudia la producción y percepción de los sonidos de una lengua con respecto a sus manifestaciones físicas.

> Fonética. Wikipedia, La enciclopedia libre. https://es.wikipedia.org/w/index.php?title=Fon%C3%A9tica&oldid=155764166.

In [None]:
%%HTML
<center><iframe width='900' height='600' src='https://www.youtube.com/embed/DcNMCB-Gsn8?controls=1'></iframe></center>

#### Formas comunes

- Oral-Aural
    - Producción: La boca
    - Percepción: Oidos

- Manual-visual
    - Producción: Manual usando las manos
    - Percepción: Visual

- Manual-Manual
    - Producción: Manual usando las manos
    - Percepción: Manual usando las manos

#### International Phonetic Alphabet (IPA)

- Las lenguas naturales tienen muchos sonidos diferentes por lo que necesitamos una forma de describirlos independientemente de las lenguas
- Por ejemplo: Los sonidos del habla se determinan por los movimientos de la boca necesarios para producirlos
- Las dos grandes categorías: Consonantes y Vocales
- IPA es una representación escrita de los [sonidos](https://www.ipachart.com/) del [habla](http://ipa-reader.xyz/)

## Dataset: IPA-dict de open-dict

- Diccionario de palabras para varios idiomas con su representación fonética
- Representación simple, una palabra por renglon con el formato:

```
[PALABRA][TAB][IPA]

Ejemplos
mariguana	/maɾiɣwana/
zyuganov's   /ˈzjuɡɑnɑvz/, /ˈzuɡɑnɑvz/
```

- [Github repo](https://github.com/open-dict-data/ipa-dict)
  - [ISO language codes](https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes)
  - URL: `https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/<iso-lang>`

### Explorando el corpus

In [None]:
# Explorando el corpus
import requests as r

response = r.get("https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/en_US.txt")
response.text[:100]

In [None]:
from pprint import pprint as pp
ipa_data = response.text.split("\n")
#print(ipa_data[-4:])
ipa_data[-1]
pp(ipa_data[400:410])

In [None]:
# Puede haber mas de una transcipcion asociada a una palabra
print(ipa_data[-3].split("\t"))
for data in ipa_data[300:500]:
    word, ipa = data.split('\t')
    representations = ipa.split(", ")
    if len(representations) >= 2:
        print(f"{word} --> {representations}")

### Obteniendo el corpus

In [None]:
def response_to_dict(ipa_list: list) -> dict:
    """Parse to dict the list of word-IPA

    Each element of text have the format:
    [WORD][TAB][IPA]

    Parameters
    ----------
    ipa_list: list
        List with each row of ipa-dict raw dataset file

    Returns
    -------
    dict:
        A dictionary with the word as key and the phonetic
        representation as value
    """
    result = {}
    for item in ipa_list:
       item_list = item.split("\t")
       result[item_list[0]] = item_list[1]
    return result

In [None]:
response_to_dict(ipa_data[:100])["ababa"]

In [None]:
def get_ipa_dict(iso_lang: str) -> dict:
    """Get ipa-dict file from Github

    Parameters:
    -----------
    iso_lang:
        Language as iso code

    Results:
    --------
    dict:
        Dictionary with words as keys and phonetic representation
        as values for a given lang code
    """
    print(f"Downloading {iso_lang}", end=" ")
    response = r.get(f"https://raw.githubusercontent.com/open-dict-data/ipa-dict/master/data/{iso_lang}.txt")
    raw_data = response.text.split("\n")
    print(f"status:{response.status_code}")
    return response_to_dict(raw_data[:-1])

In [None]:
es_mx_ipa = get_ipa_dict("es_MX")

In [None]:
def query_ipa_transcriptions(word: str, dataset: dict) -> list[str]:
    """Search for a word in an IPA phonetics dict

    Given a word this function return the IPA transcriptions

    Parameters:
    -----------
    word: str
        A word to search in the dataset
    dataset: dict
        A dataset for a given language code

    Returns
    -------
    list[str]:
        List with posible transcriptions if any,
        else a list with the string "NOT FOUND"
    """
    return dataset.get(word.lower(), "NOT FOUND").split(", ")

In [None]:
query_ipa_transcriptions("mayonesa", es_mx_ipa)

#### Obtengamos un par de datasets

In [None]:
# Get datasets
dataset_mx = get_ipa_dict("es_MX")
dataset_us = get_ipa_dict("en_US")

In [None]:
# Simple query
query_ipa_transcriptions("beautiful", dataset_us)

In [None]:
# Examples
print(f"dog -> {query_ipa_transcriptions('dog', dataset_us)}🐶")
print(f"mariguana -> {query_ipa_transcriptions('mariguana', dataset_mx)} 🪴")

#### Diferentes formas de pronunciar dependiendo la lengua, aunque la ortografía se parezca. Ejemplo:

In [None]:
# Ilustrative example
print("[es_MX] hotel |", query_ipa_transcriptions("hotel", dataset_mx))
print("[en_US] hotel |", query_ipa_transcriptions("hotel", dataset_us))

### Obteniendo corpora desde GitHub

In [None]:
lang_codes = {
  "ar": "Arabic (Modern Standard)",
  "de": "German",
  "en_UK": "English (Received Pronunciation)",
  "en_US": "English (General American)",
  "eo": "Esperanto",
  "es_ES": "Spanish (Spain)",
  "es_MX": "Spanish (Mexico)",
  "fa": "Persian",
  "fi": "Finnish",
  "fr_FR": "French (France)",
  "fr_QC": "French (Québec)",
  "is": "Icelandic",
  "ja": "Japanese",
  "jam": "Jamaican Creole",
  "km": "Khmer",
  "ko": "Korean",
  "ma": "Malay (Malaysian and Indonesian)",
  "nb": "Norwegian Bokmål",
  "nl": "Dutch",
  "or": "Odia",
  "ro": "Romanian",
  "sv": "Swedish",
  "sw": "Swahili",
  "tts": "Isan",
  "vi_C": "Vietnamese (Central)",
  "vi_N": "Vietnamese (Northern)",
  "vi_S": "Vietnamese (Southern)",
  "yue": "Cantonese",
  "zh": "Mandarin"
}
iso_lang_codes = list(lang_codes.keys())

In [None]:
def get_dataset() -> dict:
    """Download corpora from ipa-dict github

    Given a list of iso lang codes download available datasets.

    Returns
    -------
    dict
        Lang codes as keys and dictionary with words-transcriptions
        as values
    """
    return {code: get_ipa_dict(code) for code in iso_lang_codes}

dataset = get_dataset()

### Creando aplicaciones con estos datos

#### 1. Busquedas básicas automatizada
Buscador de representaciones foneticas de palabras automatizado en diferentes idiomas

In [None]:
print("Representación fonética de palabras")

print("Lenguas disponibles:")
for lang_key in dataset.keys():
    print(f"{lang_key}: {lang_codes[lang_key]}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")
while lang:
    # El programa comeinza aqui
    sub_data = dataset[lang]
    query = input(f"[{lang}] word>> ")
    results = query_ipa_transcriptions(query, sub_data)
    print(query, " | ", results)
    while query:
        query = input(f"[{lang}] word>> ")
        if query:
            results = query_ipa_transcriptions(query, sub_data)
            print(query, " | ", results)
    lang = input("lang>> ")

### 2. Encontrando palabras que tengan terminación similar

Dada una oración agrupar las palabras que tengan una pronunciación similar

In [None]:
from collections import defaultdict

#sentence = "There once was a cat that ate a rat and after that sat on a yellow mat"
#sentence = "the cat sat on the mat and looked at the rat."
#sentence = "If you drop the ball it will fall on the doll"
sentence = "cuando juego con fuego siento como brilla la orilla de mi corazón"

#lang = "en_US"
lang = "es_MX"
words = sentence.split(" ")

# Get words and IPA transciptions map
word_ipa_map = {}
for word in words:
    ipa_transcriptions = query_ipa_transcriptions(word.lower(), dataset.get(lang))
    ipa_transcriptions = [_.strip("/") for _ in ipa_transcriptions]
    word_ipa_map.update({word.lower(): ipa_transcriptions})

patterns = defaultdict(list)
for word, ipa_list in word_ipa_map.items():
    for ipa in ipa_list:
        ipa_pattern = ipa[-2:]
        patterns[ipa_pattern].append(word)

for pattern, words in patterns.items():
    if len(set(words)) > 1:
        print(f"{pattern}:: {words}")

## Morfología y análisis morfológico

### ¿Qué es la morfología?

La morfología es uno de los niveles de la lengua que estudia los procesos que conforman una palabra.

> Morfología es el estudio de la estructura interna de las palabras (Bauer, 2003)

- niñ-o
- niñ-a
- niñ-o-s
- gat-a-

### Morfemas

- Con la morfología podemos identificar como se modifica el significado variando la estructura de las palabras
- Tambien las reglas para producir:
    - niño -> niños
    - niño -> niña
- Tenemos elementos mínimos, intercambiables que varian el significado de las palabras: **morfemas**

> Un morfema es la unidad mínima con significado en la producción lingüística (Mijangos, 2020)

#### Tipos de morfemas

- Bases: Subcadenas que aportan información léxica de la palabra
    - sol
    - frasada
- Afijos: Subcadenas que se adhieren a las bases para añadir información (flexiva, derivativa)
    - Prefijos
        - *in*-parable
    - Subfijos
        - pan-*ecitos*, come-*mos*

### Aplicaciones relacionadas a la morfología en NLP

#### Análisis morfológico

La morfología es uno de los niveles más básicos del lenguaje que se puede estudiar. En ese sentido, una de las tareas más básicas del NLP es el análisis morfológico:

> El análisis morfológico es la determinación de las partes que componen la palabra y su representación lingüística, es una especie de etiquetado

Los elementos morfológicos son analizados para:

- Determinar la función morfológica de las palabras
- Hacer filtrado y pre-procesamiento de texto

#### Ejemplo: Parsing con expresiones regulares

La estructura del sustantivo en español es:

` BASE+AFIJOS (marcas flexivas)   --> Base+DIM+GEN+NUM`

In [None]:
palabras = [
    'niño',
    'niños',
    'niñas',
    'niñitos',
    'gato',
    'gatos',
    'gatitos',
    'perritos',
    'paloma',
    'palomita',
    'palomas',
    'flores',
    'flor',
    'florecita',
    'lápiz',
    'lápices',
    #'chiquitititititos',
    #'curriculum', # curricula
    #'campus', # campi
]

In [None]:
import re

def morph_parser_rules(words: list[str]) -> list[str]:
    """Aplica reglas morfológicas a una lista de palabras para realizar
    un análisis morfológico.

    Parameters:
    ----------
    words : list of str
        Lista de palabras a las que se les aplicarán las reglas morfológicas.

    Returns:
    -------
    list of str
        Una lista de palabras después de aplicar las reglas morfológicas.
    """

    #Lista para guardar las palabras parseadas
    morph_parsing = []

    # Reglas que capturan ciertos morfemas
    # {ecita, itos, as, os}
    for w in words:
        #ecit -> DIM
        R0 = re.sub(r'([^ ]+)ecit([a|o|as|os])', r'\1-DIM\2', w)
        #it -> DIM
        R1 = re.sub(r'([^ ]+)it([a|o|as|os])', r'\1-DIM\2', R0)
        #a(s) -> FEM
        R2 = re.sub(r'([^ ]+)a(s)', r'\1-FEM\2', R1)
        #a -> FEM
        R3 = re.sub(r'([^ ]+)a\b', r'\1-FEM', R2)
        #o(s) -> MSC
        R4 = re.sub(r'([^ ]+)o(s)', r'\1-MSC\2', R3)
        #o .> MSC
        R5 = re.sub(r'([^ ]+)o\b', r'\1-MSC', R4)
        #es -> PL
        R6 = re.sub(r'([^ ]+)es\b', r'\1-PL', R5)
        #s -> PL
        R7 = re.sub(r'([^ ]+)s\b', r'\1-PL', R6)
        #Sustituye la c por z cuando es necesario
        parse = re.sub(r'c-', r'z-', R7)

        #Guarda los parseos
        morph_parsing.append(parse)
    return morph_parsing

In [None]:
morph_parsing = morph_parser_rules(palabras)
for palabra, parseo in zip(palabras, morph_parsing):
    print(palabra, "-->", parseo)

#### Preguntas 🤔
- ¿Qué pasa con las reglas en lenguas donde son más comunes los prefijos y no los sufijos?
- ¿Cómo podríamos identificar características de lenguas

## Corpus: [SIGMORPHON 2022 Shared Task on Morpheme Segmentation](https://github.com/sigmorphon/2022SegmentationST/tree/main)

- Shared task donde se buscaba convertir las palabras en una secuencia de morfemas
    - ¿Qué es un shared task?
- Dividido en dos partes:
    - Segmentación a nivel de palabras (nos enfocaremos en esta)


### Track: WORDS

| word class | Description                      | English example (input ==> output)     |
|------------|----------------------------------|----------------------------------------|
| 100        | Inflection only                  | played ==> play @@ed                   |
| 010        | Derivation only                  | player ==> play @@er                   |
| 101        | Inflection and Compound          | wheelbands ==> wheel @@band @@s        |
| 000        | Root words                       | progress ==> progress                  |
| 011        | Derivation and Compound          | tankbuster ==> tank @@bust @@er        |
| 110        | Inflection and Derivation        | urbanizes ==> urban @@ize @@s          |
| 001        | Compound only                    | hotpot ==> hot @@pot                   |
| 111        | Inflection, Derivation, Compound | trackworkers ==> track @@work @@er @@s |

### Obteniendo el corpus

In [None]:
response = r.get("https://raw.githubusercontent.com/sigmorphon/2022SegmentationST/main/data/spa.word.test.gold.tsv")
response.text[:100]

In [None]:
raw_data = response.text.split("\n")
raw_data[:10]

In [None]:
element = raw_data[0].split("\t")
element[1].split()

In [None]:
for row in raw_data[:10]:
    word, morphs, category = row.split("\t")
    print(word, morphs, category)
    print(morphs.split())

In [None]:
import pandas as pd

LANGS = {
    "ces": "Czech",
    "eng": "English",
    "fra": "French",
    "hun": "Hungarian",
    "spa": "Spanish",
    "ita": "Italian",
    "lat": "Latin",
    "rus": "Russian",
}
CATEGORIES = {
    "100": "Inflection",
    "010": "Derivation",
    "101": "Inflection, Compound",
    "000": "Root",
    "011": "Derivation, Compound",
    "110": "Inflection, Derivation",
    "001": "Compound",
    "111": "Inflection, Derivation, Compound"
}

In [None]:
def get_files(lang: str, track: str = "word") -> list[str]:
    """Genera una lista de nombres de archivo basados en el idioma y el track

    Parameters:
    ----------
    lang : str
        Idioma para el cual se generarán los nombres de archivo.
    track : str, optional
        Track del shared task de donde vienen los datos (por defecto es "word").

    Returns:
    -------
    list[str]
        Una lista de nombres de archivo generados para el idioma y el track especificados.
    """
    base = f"{lang}.{track}"
    return [
        f"{base}.dev.tsv",
        #f"{base}.train.tsv",
        f"{base}.test.gold.tsv"
    ]

In [None]:
def get_raw_corpus(files: list) -> list:
    """Descarga y concatena los datos de los archivos tsv desde una URL base.

    Parameters:
    ----------
    files : list
        Lista de nombres de archivos (sin extensión) que se descargarán
        y concatenarán.

    Returns:
    -------
    list
        Una lista que contiene los contenidos descargados y concatenados
        de los archivos tsv.
    """
    result = []
    for file in files:
        print(f"Downloading {file}.tsv")
        response = r.get(f"https://raw.githubusercontent.com/sigmorphon/2022SegmentationST/main/data/{file}")
        response_list = response.text.split("\n")
        result.extend(response_list[:-1]) # Last element is empty string ''
    return result

In [None]:
get_raw_corpus(get_files(lang="ita"))[:10]

In [None]:
def raw_corpus_to_dataframe(corpus_list: list, lang: str) -> pd.DataFrame:
    """Convierte una lista de datos de corpus en un DataFrame

    Parameters:
    ----------
    corpus_list : list
        Lista de líneas del corpus a convertir en DataFrame.
    lang : str
        Idioma al que pertenecen los datos del corpus.

    Returns:
    -------
    pd.DataFrame
        Un DataFrame de pandas que contiene los datos del corpus procesados.
    """
    data = []
    for row in corpus_list:
        try:
            word, morphs, category = row.split("\t")
        except ValueError:
            # Caso donde no hay categoria
            word, morphs = row.split("\t")
            category = "N/A"
        morphs = morphs.split()
        data.append({"words": word, "morphs": morphs, "category": category, "lang": lang})
    df = pd.DataFrame(data)
    df["word_len"] = df["words"].apply(lambda x: len(x))
    df["morphs_count"] = df["morphs"].apply(lambda x: len(x))
    return df

In [None]:
# Get data
files = get_files("spa")
raw_data = get_raw_corpus(files)
df = raw_corpus_to_dataframe(raw_data, lang="spa")

In [None]:
df

### Análisis cuantitativo para el Español

In [None]:
df["category"].value_counts().head(30)

In [None]:
df["morphs_count"].mean()

In [None]:
df["word_len"].mean()

In [None]:
import matplotlib.pyplot as plt
plt.hist(df["word_len"], bins=10, edgecolor="black")
plt.xlabel("Word len")
plt.ylabel("Freq")
plt.show()

In [None]:
def plot_histogram(df, kind, lang):
    """Genera un histograma de frecuencia para una columna específica
    en un DataFrame.

    Parameters:
    ----------
    df : pd.DataFrame
        DataFrame que contiene los datos para generar el histograma.
    kind : str
        Nombre de la columna para la cual se generará el histograma.
    lang : str
        Idioma asociado a los datos.

    Returns:
    -------
    None
        Esta función muestra el histograma usando matplotlib.
    """
    counts = df[kind].value_counts().head(30)
    plt.bar(counts.index, counts.values)
    plt.xlabel(kind.upper())
    plt.ylabel('Frequency')
    plt.title(f'{kind} Frequency Graph for {lang}')
    plt.xticks(rotation=90)
    plt.tight_layout()
    plt.show()

In [None]:
plot_histogram(df, "category", "spa")

In [None]:
len(df[df["category"] == "001"])

In [None]:
def get_corpora() -> pd.DataFrame:
    """Obtiene y combina datos de corpus de diferentes idiomas en un DataFrame
    obteniendo corpora multilingüe

    Returns:
    -------
    pd.DataFrame
        Un DataFrame que contiene los datos de corpus combinados de varios idiomas.
    """
    corpora = pd.DataFrame()
    for lang in LANGS:
        files = get_files(lang)
        raw_data = get_raw_corpus(files)
        dataframe = raw_corpus_to_dataframe(raw_data, lang)
        corpora = dataframe if corpora.empty else pd.concat([corpora, dataframe], ignore_index=True)
    return corpora

corpora = get_corpora()

In [None]:
corpora

In [None]:
for lang in LANGS:
    df = corpora[corpora["lang"] == lang]
    print(f"Basic stats for {LANGS[lang]}")
    print("Total words:", len(df["words"].unique()))
    print("Mean morphs: ", df["morphs_count"].mean())
    most_common_cat = df["category"].mode()[0]
    print("Most common category:", most_common_cat, CATEGORIES.get(most_common_cat, ""))
    print("="*30)

In [None]:
# Lista de lenguas con sus colores
LANG_COLORS = {
    'ces': 'blue',
    'eng': 'green',
    'fra': 'red',
    'hun': 'purple',
    'spa': 'orange',
    'ita': 'brown',
    'lat': 'pink',
    'rus': 'gray'
}

def plot_multi_lang(column: str) -> None:
    """Genera un conjunto de subplots para mostrar la distribución
    de los datos de cierta columna en un dataframe para idiomas disponibles.

    Parameters:
    ----------
    column : str
        Nombre de la columna cuya distribución se va a graficar.

    Returns:
    -------
    None
        Esta función muestra los subplots usando matplotlib.
    """
    # Creando plots
    fig, axes = plt.subplots(nrows=2, ncols=4, figsize=(15, 10))
    fig.suptitle(f"{column.upper()} Distribution by Language", fontsize=16)
    # Iteramos sobre las lenguas y sus colores para plotearlos
    for i, (lang, color) in enumerate(LANG_COLORS.items()):
        row = i // 4
        col = i % 4
        ax = axes[row, col]
        corpus = corpora[corpora['lang'] == lang]
        ax.hist(corpus[column], bins=10, edgecolor='black', alpha=0.7, color=color)
        ax.set_title(LANGS[lang])
        ax.set_xlabel(f"{column}")
        ax.set_ylabel("Frequency")

    # Ajustando el layout
    plt.tight_layout()
    plt.subplots_adjust(top=0.85)

    # Mostramos el plot
    plt.show()

In [None]:
plot_multi_lang("word_len")

In [None]:
plot_multi_lang("morphs_count")

# Práctica 1: Niveles lingüísticos I

**Fecha de entrega: Jueves 22 de Agosto 2024 11:59pm**

1. Agregar un nuevo modo de búsqueda donde se extienda el comportamiento básico del buscador para ahora buscar por frases. Ejemplo:

```
[es_MX]>>> Hola que hace
 /ola/ /ke/ /ase/
```




Implementación de buscador de representación fonética por frases. Al igual que en la búsqueda por palabras, se carga el diccionario con las representaciones fonéticas del lenguaje deseado y la frase recibida se divide por las palabras para realizar la búsqueda de cada una de éstas en el diccionario, por último, se imprime en pantalla la representación fonética de cada palabra encontrada o `NOT FOUND` si no se encontró la palabra.

In [None]:
print("Representación fonética de frases")

print("Lenguas disponibles:")
for lang_key in dataset.keys():
    print(f"{lang_key}: {lang_codes[lang_key]}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")
while lang:
    sub_data = dataset[lang]
    query = input(f"[{lang}] word>> ")
    # Division of the phrase into words (by each whitespace) and search for each
    # one of them in the dictionary.
    results = [query_ipa_transcriptions(word, sub_data) for word in query.split()]
    print(query, " | ", results)
    while query:
        query = input(f"[{lang}] word>> ")
        if query:
            results = query_ipa_transcriptions(query, sub_data)
            print(query, " | ", results)
    lang = input("lang>> ")

2. Agregar un modo de búsqueda donde dada una palabra te muestre sus *homofonos*[1]. Debe mostrar su representación IPA y la lista de homofonos (si existen)

```
[es_MX]>>> habares
/aβaɾes/
['abares', 'habares', 'havares']
```

[1]: palabras con el mismo sonido pero distinta ortografía

Implementación de buscador de homófonos. Al igual que en la búsqueda de fonema por palabra, se carga el diccionario con las representaciones fonéticas del lenguaje deseado, se realiza la búsqueda del fonema de la palabra y se utiliza la función `query_homophones()`, la cual realiza una búsqueda de palabras con el mismo fonema en el diccionario y regresa una lista con las palabras encontradas. Por último, se imprimen en pantalla los homófonos, o una lista vacía si no se encontraron homófonos de la palabra.

In [None]:
def query_homophones(phonems: list, data: dict) -> list:
    """
    Searches for homophones of a list of phonemes from a dictionary.

    :param phonems: List of phonemes to search.
    :param data: Word's dictionary with its respective phonems.
    :return homophones: List of homophones found.
    """
    homophones = []
    for phonem in phonems:
        for key, value in data.items():
            if value == phonem:
                homophones.append(key)
    return homophones

print("Búsqueda de homófonos por palabra")

print("Lenguas disponibles:")
for lang_key in dataset.keys():
    print(f"{lang_key}: {lang_codes[lang_key]}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")
while lang:
    sub_data = dataset[lang]
    query = input(f"[{lang}] word>> ")
    results = query_ipa_transcriptions(query, sub_data)
    homophones = query_homophones(results, sub_data)
    print(query, " | ", results)
    print(homophones)
    while query:
        query = input(f"[{lang}] word>> ")
        if query:
            results = query_ipa_transcriptions(query, sub_data)
            homophones = query_homophones(results, sub_data)
            print(query, " | ", results)
            print(homophones)
    lang = input("lang>> ")

3. Observe las distribuciones de longitud de palabra y de número de morfemas por palabra para todas lenguas. Basado en esos datos, haga un comentario sobre las diferencias en morfología de las lenguas

#### EXTRA

A. Mejorar la solución en el escenario cuando no se encuentran las palabras en el dataset (incisos 1. y 2.) mostrando palabras similares. Ejemplo:

```
[es_MX]>> pero
No se encontro <<pero>> en el dataset. Palabras aproximadas:
perro /pero/
perno /peɾno/
[es_MX]>>
```

Reimplementación de la búsqueda de representación fonética por frase. En caso de que no se encuentre alguna palabra de la frase, se regresa una lista con palabras similares (hasta 4 palabras similares), o una lista vacía si no se encontró ninguna similar. Se utiliza la función `query_similar()`, en la cual se considera que una palabra es similar si empieza con alguna secuencia de caracteres igual y termina con el mismo prefijo (últimas dos letras en este caso) que la palabra ingresada.

In [None]:
def query_similar(word: str, data: dict[str, str]) -> list:
    """
    Searches for similar words to a given word from a dictionary.

    In this case, a word is similar if it starts with a same
    char sequence and ends with the same suffix (last two letters) as the
    input word.

    :param word: The word to search for similar words.
    :param data: The dictionary of words and their phonems.
    :return similar: A list of similar words.
    """
    similar = {}
    head = word[:-2].lower()
    suffix = word[-2:].lower()
    while head != '':
        for key, value in data.items():
            if key.startswith(head) and key.endswith(suffix):
                similar.update({key: value})
            if len(similar) == 4:
                return similar
        head = head[:-1]
    return similar

print("Representación fonética de frases")

print("Lenguas disponibles:")
for lang_key in dataset.keys():
    print(f"{lang_key}: {lang_codes[lang_key]}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")
while lang:
    sub_data = dataset[lang]
    query = input(f"[{lang}] word>> ")
    results = [query_ipa_transcriptions(word, sub_data) for word in query.split()]
    print(query, " | ", results)
    for i in range(len(results)):
        if results[i] == ['NOT FOUND']:
            similar = query_similar(query.split()[i], sub_data)
            print("No se encontró <<", query.split()[i], ">>. Palabras aproximadas:")
            print(similar) if similar !=[] else print("No se encontraron palabras similares.\n")
    while query:
        query = input(f"[{lang}] word>> ")
        if query:
            results = query_ipa_transcriptions(query, sub_data)
            print(query, " | ", results)
            for i in range(len(results)):
                if results[i] == ['NOT FOUND']:
                    similar = query_similar(query.split()[i], sub_data)
                    print("No se encontró <<", query.split()[i], ">>. Palabras aproximadas:")
                    print(similar) if similar !=[] else print("No se encontraron palabras similares.\n")
    lang = input("lang>> ")

Reimplementación de la búsqueda de homófonos por palabra. Se utiliza la misma función de búsqueda de palabras similares anterior en caso de no encontrarse en el diccionario la palabra ingresada.

In [None]:
def query_homophones(phonems: list, data: dict) -> list:
    """
    Searches for homophones of a list of phonemes from a dictionary.

    :param phonems: List of phonemes to search.
    :param data: Word's dictionary with its respective phonems.
    :return homophones: List of homophones found.
    """
    homophones = []
    for phonem in phonems:
        for key, value in data.items():
            if value == phonem:
                homophones.append(key)
    return homophones

def query_similar(word: str, data: dict[str, str]) -> list:
    """
    Searches for similar words to a given word from a dictionary.

    In this case, a word is similar if it starts with a same
    char sequence and ends with the same suffix (last two letters) as the
    input word.

    :param word: The word to search for similar words.
    :param data: The dictionary of words and their phonems.
    :return similar: A list of similar words.
    """
    similar = {}
    head = word[:-2].lower()
    suffix = word[-2:].lower()
    while head != '':
        for key, value in data.items():
            if key.startswith(head) and key.endswith(suffix):
                similar.update({key: value})
            if len(similar) == 4:
                return similar
        head = head[:-1]
    return similar

print("Búsqueda de homófonos por palabra:")

print("Lenguas disponibles:")
for lang_key in dataset.keys():
    print(f"{lang_key}: {lang_codes[lang_key]}")

lang = input("lang>> ")
print(f"Selected language: {lang_codes[lang]}") if lang else print("Adios 👋🏼")
while lang:
    sub_data = dataset[lang]
    query = input(f"[{lang}] word>> ")
    results = query_ipa_transcriptions(query, sub_data)
    if results == ['NOT FOUND']:
        similar = query_similar(query, sub_data)
        print("No se encontró <<", query, ">>. Palabras aproximadas:")
        print(similar) if similar != [] else print("No se encontraron palabras aproximadas.\n")
    else:
        homophones = query_homophones(results, sub_data)
        print(query, " | ", results)
        print(homophones)

    while query:
        query = input(f"[{lang}] word>> ")
        if query:
            results = query_ipa_transcriptions(query, sub_data)
            if results == ['NOT FOUND']:
                similar = query_similar(query, sub_data)
                print("No se encontró <<", query, ">>. Palabras aproximadas:")
                print(similar) if similar != [] else print("No se encontraron palabras aproximadas.\n")
            else:
                homophones = query_homophones(results, sub_data)
                print(query, " | ", results)
                print(homophones)
    lang = input("lang>> ")

### Links de interés

- [Regex 101](https://regex101.com/)