# Diccionario Quechua

Análisis de diccionarios del idioma Quechua, con fuentes en varios formatos, gráficos informativos y conclusiones.

## Índice

1. Definición del problema
1. Plantear los objetivos
1. Obtener los datos
1. Preparar y optimizar los datos
1. Procesar y analizar los datos
1. Conclusiones

## Desarrollo

### Definición del problema

El idioma quechua tiene dos vertientes en el uso de tres o cinco vocales, 
así como el número de sufijos usados.

### Plantear los objetivos

1. Describir las palabras en idioma Quechua según vocales y sufijos.
2. Listar las palabras en el idioma Quechua.
3. Clasificar según las tres vocales diferenciando los sufijos.

### Obtener los datos

El idioma Quechua cuenta con presencia en Internet y se dispone de diccionarios en varios formatos:

* Publicaciones de instituciones o autores individuales en formatos PDF, ePUB, etc.
* En formato para su fácil uso en Internet como Txt, Zip, etc.

In [1]:
# Descargar los archivos de datos
# !pip install requests

import os
import requests

data = {
    'runasimi.txt': 'https://www.runasimi.de/runasimi.txt',
    'runasimi.zip': 'https://www.runasimi.de/runasimi.zip',
    'diccionario.pdf': 'https://fcctp.usmp.edu.pe/librosfcctp/DICCIONARIO-Quechua-espanol-VOL_2.pdf'
}

if not os.path.exists('./data'):
    os.makedirs('./data')

for fname, url  in data.items():
    fpath = './data/' + fname
    print(fpath)
    if not os.path.exists(fpath):
        with requests.get(url, stream=True, verify=False) as r:
            r.raise_for_status()
            with open(fpath, 'wb') as f:
                for chunk in r.iter_content(chunk_size=8192):
                    f.write(chunk)

./data/runasimi.txt




./data/runasimi.zip




./data/diccionario.pdf




### Preparar y optimizar los datos

#### Leer los archivos

In [2]:
# Leer documento en texto separado por tabs (TSV)
# !pip install pandas

import pandas as pd

f_txt = './data/runasimi.txt'

df_txt = pd.read_csv(f_txt, sep='\t', encoding='latin1')
print(df_txt.columns)

Index(['Hanan Runasimi', 'Ima simi', 'Sikllalla Runasimi', 'QUS-aiux',
       'BuL-aiux', 'Tupah Yupanki (Qusqu)', 'Tukuman', 'Ayakuchu',
       'Qhochapampa', 'Qullasuyu', 'QUS-BuL-aiu', 'Qusqu', 'Qosqo',
       'Cajamarca (Coombs)', 'Qasamarka', 'Inkawasi', 'Laraos', 'Lamista',
       'Imbabura (runashimi killkay)', 'Quichua (esp. quillcai)', 'Wanka',
       'Jauja Wanka', 'Huánuco (Weber)', 'Wanuku', 'Ankash (ay, aw)',
       'Ankash (ee, oo)', 'Kurunku', 'Deutsch', 'English', 'Español',
       'Italiano', 'Français', 'Dansk/Norsk', 'Aymara',
       'Yurap uywap salqap amutaypaq sutin', 'Kaqlla simi'],
      dtype='object')


In [3]:
# Un archivo Excel dentro de un Zip comprimido
# !pip install xlrd

import pandas as pd
import zipfile


f_zip = './data/runasimi.zip'
f_xls = 'runasimi.xls'

with zipfile.ZipFile(f_zip, 'r') as z:
    with z.open(f_xls) as f:
        df_xls = pd.read_excel(f)
        print(df_xls.columns)

Index(['Hanan Runasimi', 'Ima simi', 'Sikllalla Runasimi', 'QUS-aiux',
       'BuL-aiux', 'Tupah Yupanki (Qusqu)', 'Tukuman', 'Ayakuchu',
       'Qhochapampa', 'Qullasuyu', 'QUS-BuL-aiu', 'Qusqu', 'Qosqo',
       'Cajamarca (Coombs)', 'Qasamarka', 'Inkawasi', 'Laraos', 'Lamista',
       'Imbabura (runashimi killkay)', 'Quichua (esp. quillcai)', 'Wanka',
       'Jauja Wanka', 'Huánuco (Weber)', 'Wanuku', 'Ankash (ay, aw)',
       'Ankash (ee, oo)', 'Kurunku', 'Deutsch', 'English', 'Español',
       'Italiano', 'Français', 'Dansk/Norsk', 'Aymara', 'Avañee', 'Русский',
       'Yurap uywap salqap amutaypaq sutin', 'Kaqlla simi', 'Sut'inchaku',
       'Ima mallki', 'Explicación del uso de la planta',
       'Gonçalez Holguin y Huaman Poma', 'Quechua clásico', 'Waruchiri',
       'Guaro Cheri', 'Tarma', 'Pastasa', 'Napuruna', 'Runasimi C',
       'Runasimi Nord'],
      dtype='object')


In [7]:
# Leer contenido en un PDF
# !pip install pdfplumber

import pdfplumber

f_pdf = './data/diccionario.pdf'

with pdfplumber.open(f_pdf) as pdf:
    print('Pages', len(pdf.pages)) # 97 - 1346
    print('Page 97 =>', pdf.pages[97].extract_text())

Pages 1443
Page 97 => romóvil. Pron. /a-bi-yún/ // ABIYUN APAY duqmi, los saberes de esa persona son los
(abiyun manihay) [transp.], tripular // ABI- [propios] de un abogado; «cult.», letrado;
YUN APAQ (abiyun manihaq) [hum.], tri- [abstr.] «fig., fam.», derecho / ABUGADUQ
pulante / ABIYUN APAYKACHAQ [+cant.], [Gen.], abogadesco, abogadil …abugaduq
aeronauta // ABIYUN LINIYA [ind.], aero- kaynin, práctica abogadesca.
línea; «+cult.», aerovía / ABIYUN PURI-
ABUNAY (esp.) [agr.] (wanuchay), abonar, fe-
NA KAMAY [ens.], aeronáutica / ABIYUN
cundar // ABUNU CHURAY [afect.], insumir.
PHALACHIQ [hum.], aguilucho ¶ / ABIYUN
QHAWAQ [hum.], controlador {de vuelo / ABURRIKUY (esp.) [psíq.] «vulg.» (amikuy),
ABIYUN WAQAYCHANA [loc.], hangar // aburrirse …aburrikuniña, ya estoy aburrido.
ABIYUNKUNA (awiyunkuna) [col.], escua-
ABUSASQA <∑ fem.> {[sex.] [+res.]}, violado;
drilla, flota, patrulla {de aviones} …pisqapi
atropellado // ABUSAYKUY (esp.) {[sex.]
huñunasqa abiyunkuna hamusharan, se es-
[+a

#### Preparar la base de datos

In [28]:
# Uso de Spark para almacenar los datos (requiere Java JDK)
# !pip install pyspark
# docker run -it --rm spark:python3 /opt/spark/bin/pyspark

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Quechua').getOrCreate()

data = [('A',), ('B',), ('C',)]
columns = ['PALABRA']
df = spark.createDataFrame(data, columns)
df.show()

+-------+
|PALABRA|
+-------+
|      A|
|      B|
|      C|
+-------+




### Procesar y analizar los datos

### Conclusiones