# Extracción de Corpus

Este Jupyter Notebook contiene el código utilizado para extraer y analizar un corpus de cuentos en Shipibo-Konibo. El objetivo de este trabajo es recopilar un conjunto representativo de textos en Shipibo-Konibo que servirá como base para el desarrollo de un Generador Automático de Cuentos en este idioma.

El corpus se construirá a partir de fuentes como el Ministerio de Cultura del Perú, bibliotecas digitales y comunidades Shipibo-Konibo hablantes. Se buscará garantizar la diversidad y representatividad del corpus, incluyendo cuentos de diferentes estilos y temáticas.

## Fuentes

- https://www.ositran.gob.pe/anterior/wp-content/uploads/2020/01/primer-concurso-cuentos-shipibo.pdf
- https://www.geocities.ws/bolsilloscreativos/historiasshipibas.pdf
- https://repositorio.minedu.gob.pe/handle/20.500.12799/9922
- https://ia902700.us.archive.org/6/items/antologia-de-relatos-bari-wesna/Antolog%C3%ADa%20de%20relatos%20Bari%20Wesna.pdf
- http://umc.minedu.gob.pe/mis-lecturas-favoritas-2019-en-shipibo-konibo/
- https://www.sil.org/system/files/reapdata/24/38/04/24380487991663194085294748233919308329/ccp12.pdf

## Lectura de datos

In [15]:
import PyPDF2
import re

In [None]:
file = open("U20190876_corpus.txt", "r", encoding="utf-8")
text = file.read()
file.close()
print(text[:200])

### Quimisha incabo ini yoia: Leyendas de los shipibo-conibo sobre los tres incas 

In [16]:
# Función para leer el archivo de texto
def leer_archivo(ruta):
    with open(ruta, 'r', encoding='utf-8') as archivo:
        contenido = archivo.read()
    return contenido

# Ruta al archivo (ajusta esta ruta según tu caso)
ruta_archivo = 'txt/U20172563_corpus_OCR.txt'

# Leer el archivo
texto_archivo = leer_archivo(ruta_archivo)




Dado que `U20172563_corpus_OCR.txt` se generó aplicando OCR. Algunas palabras que tienen caracteres no alfábeticos se deben corregir.

In [17]:
# Función para encontrar palabras con caracteres no alfabéticos
def encontrar_palabras_no_alfabeticas(texto):
    # Buscar palabras que contengan caracteres no alfabéticos
    palabras_no_alfabeticas = re.findall(r'\b\w*[^\w\s]+\w*\b', texto)
    return set(palabras_no_alfabeticas)  # Usamos set para eliminar duplicados

# Encontrar palabras no alfabéticas
palabras_no_alfabeticas = encontrar_palabras_no_alfabeticas(texto_archivo)

# Imprimir las palabras encontradas
print(palabras_no_alfabeticas)

{'Jasc&a8honqui', 'Jasc&ashon', 'bo%hon', 'chib&non', 'ra¥%hqui', 'chitemano®hon', 'mao#h', 'bia%h', 'Com&riniainqui', 'Jascata%h', 'nate$h', 'bo#hon', 'Jisé,.jahuen', 'raan®hon', 'Bo#hon', 'o%ha', 'bi¥hon', '¥hon', 'nincata®hqui', 'tsamata$h', 'pec&o', 'jainoa¥h', 'quentiano$hon', 'i¥hton', 'jascia¥hon', 'a¥hani', 'paen¥hon', 'a¥heacatiai', 'oinna%h', 'retea¥h', 'Ca#hon', 'Jain®honribi', 'ica¥#hqui', 'Jasc&aBhon', '%hon', 'boa&h', 'raan#honai', 'Jo&hon', 'Jascata¥h', 'Ica&hbi', 'yatan$hon', 'nenita®h', 'ic§d', 'chosha%hon', '#haa', 'a%hon', 'paqueta$h', 'ca%hon', 'Jain#hon', 'huasaa#h', 'a¥hanti', 'nac&Shnique', 'Che&he', 'Jasc&8hon', 'Jahuequescéa¥honmein', 'nincata$hqui', 'Jascata$8hqui', 'jasc&abani', 'a¥8hanhuana', 'oin#hon', 'menota%h', 'man#hanteo', 'Jainoa%h', 'Nenoa%h', 'joné¥hon', 'a¥heanique', 'bochiquia®h', 'Yo&shico', 'Jainoca$hqui', 'ac&nique', 'Onan¥hon', 'po#hdéquetian', 'Bo¥hon', 'o¥hacana', 'joa¥h', 'senenha¥honqui', 'joné$hon', 'o#hacasquimai', 'canhuan#hon', 'jay&%h

Diccionario con las correcciones de las palabras con caracteres no alfabéticos

In [18]:
correct_words_dict = {
    'Jasc&a8honqui': "Jascáas̈honqui",
    'Jasc&ashon': "Jascáas̈hon",
    'bo%hon': 'bos̈hon', 
    'chib&non': 'chibánon', 
    'ra¥%hqui': 'ras̈hqui', 
    'chitemano®hon': 'chitemanos̈hon', 
    'mao#h': 'maos̈h', 
    'bia%h': 'bias̈h',
    'Com&riniainqui': 'Comáriniainqui', 
    'Jascata%h': 'Jascatas̈h', 
    'nate$h': 'nates̈h', 
    'bo#hon': 'bos̈hon', 
    'Jisé,.jahuen': 'Jisé, jahuen',
    'raan®hon': 'raans̈hon', 
    'Bo#hon': 'Bos̈hon', 
    'o%ha': 'os̈ha', 
    'bi¥hon': 'bis̈hon', 
    '¥hon': 's̈hon',
    'nincata®hqui': 'nincatas̈hqui', 
    'tsamata$h': 'tsamatas̈h', 
    'pec&o': 'pecáo', 
    'jainoa¥h': 'jainoas̈h', 
    'quentiano$hon': 'quentíanos̈hon', 
    'i¥hton': 'is̈hton', 
    'jascia¥hon': 'jascáas̈hon', 
    'a¥hani': 'as̈hani', 
    'paen¥hon': 'paens̈hon',
    # TODO: Verificar correcciones de las siguientes palabras
    'a¥heacatiai': 'as̈heacatiai', 
    'oinna%h': 'oinnas̈h', 
    'retea¥h': 'reteas̈h', 
    'Ca#hon': 'Cas̈hon', 
    'Jain®honribi': 'Jainós̈honribi', 
    'ica¥#hqui': 'icas̈hqui', 
    'Jasc&aBhon': 'Jascáas̈hon', 
    '%hon': 's̈hon', 
    'boa&h': 'boas̈h', 
    'raan#honai': 'raanós̈honai', 
    'Jo&hon': 'Jos̈hon', 
    'Jascata¥h': 'Jascatas̈h', 
    'Ica&hbi': 'Icaás̈bi', 
    'yatan$hon': 'yatans̈hon', 
    'nenita®h': 'nenitaós̈h', 
    'ic§d': 'ics̈d', 
    'chosha%hon': 'choshas̈hon', 
    '#haa': 's̈haa', 
    'a%hon': 'as̈hon', 
    'paqueta$h': 'paquetas̈h', 
    'ca%hon': 'cas̈hon', 
    'Jain#hon': 'Jains̈hon', 
    'huasaa#h': 'huasas̈h', 
    'a¥hanti': 'as̈hanti', 
    'nac&Shnique': 'nacás̈hnique', 
    'Che&he': 'Cheás̈he', 
    'Jasc&8hon': 'Jascás̈hon', 
    'Jahuequescéa¥honmein': 'Jahuequescáas̈honmein', 
    'nincata$hqui': 'nincatas̈hqui', 
    'Jascata$8hqui': 'Jascatas̈s̈hqui', 
    'jasc&abani': 'jascás̈bani', 
    'a¥8hanhuana': 'as̈s̈hanhuana', 
    'oin#hon': 'oins̈hon', 
    'menota%h': 'menotas̈h', 
    'man#hanteo': 'mans̈hanteo', 
    'Jainoa%h': 'Jainoas̈h', 
    'Nenoa%h': 'Nenoas̈h', 
    'joné¥hon': 'jonés̈hon', 
    'a¥heanique': 'as̈heanique', 
    'bochiquia®h': 'bochiquiaós̈h', 
    'Yo&shico': 'Yos̈shico', 
    'Jainoca$hqui': 'Jainocas̈hqui', 
    'ac&nique': 'acás̈nique', 
    'Onan¥hon': 'Onans̈hon', 
    'po#hdéquetian': 'pos̈hdéquetian', 
    'Bo¥hon': 'Bos̈hon', 
    'o¥hacana': 'os̈hacana', 
    'joa¥h': 'joas̈h', 
    'senenha¥honqui': 'senenhas̈honqui', 
    'joné$hon': 'jonés̈hon',
    'o#hacasquimai': 'os̈hacasquimai', 
    'canhuan#hon': 'canhuans̈hon', 
    'jay&%hon': 'jayás̈hon', 
    'hab&quetian': 'habáquetian', 
    'mato.aanon': 'mato aanon', 
    'mao¥hen': 'maos̈hen', 
    'jasc&a': 'jascáa', 
    'meranoa#h': 'meranoas̈h', 
    'ib&non': 'ibánon', 
    'i%hon': 'is̈hon', 
    'Che#heyain': 'Ches̈heyain', 
    'bib&tanon': 'bibátanon', 
    'ic&d': 'icás̈d',
}

In [19]:
# Función para aplicar las correcciones
def aplicar_correcciones(texto, correcciones):
    # Ordenar las claves por longitud, de mayor a menor, para evitar problemas con subcadenas
    for incorrecto, correcto in sorted(correcciones.items(), key=lambda x: -len(x[0])):
        # Uso de expresiones regulares para reemplazar teniendo en cuenta los límites de palabra
        texto = re.sub(r'\b' + re.escape(incorrecto) + r'\b', correcto, texto)
    return texto

texto_corregido = aplicar_correcciones(texto_archivo, correct_words_dict)

print(texto_corregido[:1000])

YOASHICO INCA 

Ja requena Incan jane ronqui ipaonique, Yodshico Inca, Ja ronqui ipaonique iconbires yoashi. Jahuéqui yocicana ronqui ipaonique iconbiressiqui jatoqui yoashii. Jascara iquen ronqui apaocanique "Yodshico Inca", aquin.
Ja Yodshico Incan ronqui jato iquina ipaoni- que Bhetebo jonibo. Ja Inca ronqui ipaonique huain teetai joni; jatfbi jahuéqui bandya: nato 8hequi, atsa, paranta, Bhahui, cari, poa, cancan; jatibi jahuéqui banai joni. Jascarabiribi ronqui ipaonique jahuen tee. Jainoa8hqui ipaonique, jatfbi yobin banayaribi: nato caimito, narangha, Bhenan, bimpish, rima, rimon, tapiriba, Zhahuen- meyari, ison8homa, tansharina; ja jahuéquibo banai ronqui ipaonique.
JainBhonribiqui jatfbi yoinnabo indya Inca ronqui ic8tiai: nato huaca, cabayo, caraniro, chibo, cochi, ochiti, atapa, nonon, corocoro; ja jahuéquibo indya ronqui icétiai, ja Yoashico Inca. Jatianqui jatfibi jahuéquiati jahudquiboqui ic&- tiai jaibabicho. Jatian ronqui apaocanique, jahuen Bhetebo jonibaonqui jahuéquia