# Análisis palabras guaraníticas

In [1]:
%matplotlib inline
%load_ext autoreload
%autoreload 2
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from contrastes import read_occurrence_dataframe

df = read_occurrence_dataframe("../output/provinces_words.csv")

print("Total de palabras: {}".format(df.shape[0]))

Total de palabras: 2330112


## Sufijo "pa"
Partícula de pregunta: "pa".

Vamos a hacer lo siguiente: calculo de cada palabra cuánta "masa" tiene en las provincias guaraníticas: Chaco, Corrientes, Formosa, Misiones, Entre Ríos. Me quedo con las que tienen más de un 0.5 de su masa allí (a eso lo llamo la columna "ratio")

In [2]:

provincias_guaraniticas = ["chaco", "corrientes", "formosa", "misiones", "entrerios"]
col_ocurrencias = [prov+"_ocurrencias" for prov in provincias_guaraniticas]

df["cant_guaraniticas"] = df[col_ocurrencias].sum(axis=1)
df["ratio"] = (df.cant_guaraniticas / df.cant_palabra)


Nota: podría haber calculado las regiones y ver cuáles tienen dos o tres de estas provincias, pero esto que hacemos debería bastar (queremos ver exactamente esta región)

Veamos ahora las palabras que terminan con "pa".

In [3]:
import re

pd.set_option('display.max_rows', None)


words = df.index
matching = [w for w in words if re.match(r".*pa+$", w) or re.match(r".*pá+$", w)]
matches = df.loc[matching]
print("Cantidad de ocurrencias = {}".format(len(matches)))

col_interesantes = col_ocurrencias + ["cant_palabra", "ratio"]

matches[ (matches.ratio > 0.5) & (matches.cant_palabra > 10)][col_interesantes]

Cantidad de ocurrencias = 4904


Unnamed: 0_level_0,chaco_ocurrencias,corrientes_ocurrencias,formosa_ocurrencias,misiones_ocurrencias,entrerios_ocurrencias,cant_palabra,ratio
palabra,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
bapa,0,0,0,4,96,101,0.990099
capá,6,4,1,22,0,54,0.611111
chapá,0,0,0,15,1,20,0.8
chespa,0,0,14,0,0,14,1.0
chiiipa,3,0,3,3,0,11,0.818182
chipa,253,780,745,946,492,5030,0.639364
chipaa,6,25,12,10,8,96,0.635417
chipaaa,11,62,37,33,33,271,0.649446
curepa,2,0,4,3,1,11,0.909091
desculpa,0,8,6,7,12,48,0.6875


## Sufijos de tiempo

Los sustantivos en el guarani tienen tiempos, que se expresan mediante los siguientes modficadores (sufijos)

- Ø (Vacío o cero - para el presente
- Kue -para el pasado. Se transforma en +ngue en vocablos nasales
- Râ - para el futuro.-
- Rangue - que es incluido por algunos autores en esta clase.-

In [5]:
import re

pd.set_option('display.max_rows', None)


words = df.index
matching = [w for w in words if re.match(r".*kue+$", w) or re.match(r".*ra+ngue+$", w)]
matches = df.loc[matching]
matches.shape

(26, 51)

Son muy pocas!

In [6]:

matches[col_interesantes]

Unnamed: 0_level_0,chaco_ocurrencias,corrientes_ocurrencias,formosa_ocurrencias,misiones_ocurrencias,entrerios_ocurrencias,cant_palabra,ratio
palabra,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
aikue,0,0,1,0,0,1,1.0
bumerangue,0,0,0,1,0,2,0.5
buzhkuee,0,0,1,0,0,1,1.0
dunkue,0,0,0,0,0,4,0.0
eskue,0,0,0,0,0,1,0.0
igualkue,0,0,0,0,0,1,0.0
kikue,0,0,0,1,0,1,1.0
kue,2,1,10,1,1,47,0.319149
kuee,0,2,2,0,1,16,0.3125
kueee,0,0,0,0,0,2,0.0


Me fijo por separado la terminación "ra" porque es muy común. La busco sin el acento circunflejo también.

Para buscar menos basura, me quedo con los que tienen más de 0.6 de masa en la región guaranítica y más de 10 ocurrencias

In [10]:
matching = [w for w in words if re.match(r".*râa*$", w) or re.match(r".*ra+$", w)]
matches = df.loc[matching]
matches = matches[ (matches.ratio >= 0.8) & (matches.cant_palabra > 5)]
matches.shape

(229, 51)

In [11]:
matches[col_interesantes]

Unnamed: 0_level_0,chaco_ocurrencias,corrientes_ocurrencias,formosa_ocurrencias,misiones_ocurrencias,entrerios_ocurrencias,cant_palabra,ratio
palabra,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
aburridera,1,0,0,0,22,26,0.884615
acabadera,0,0,0,0,19,19,1.0
ahinara,1,0,0,51,0,57,0.912281
akachara,0,0,5,1,0,6,1.0
almatierra,0,0,0,0,7,7,1.0
amoraa,4,4,0,3,0,13,0.846154
apichadera,17,0,0,0,0,17,1.0
apichadura,0,3,0,8,0,11,1.0
apira,0,0,5,0,0,6,0.833333
arabera,0,10,5,0,0,16,0.9375


## 'ko'

In [14]:
matching = [w for w in words if re.match(r".*ko.*", w)]
matches = df.loc[matching]

matches = matches[(matches.ratio >= 0.75) & (matches.cant_palabra >= 10)]
print("Cantidad de ocurrencias = {}".format(len(matches)))


Cantidad de ocurrencias = 72


In [15]:
matches[col_interesantes]

Unnamed: 0_level_0,chaco_ocurrencias,corrientes_ocurrencias,formosa_ocurrencias,misiones_ocurrencias,entrerios_ocurrencias,cant_palabra,ratio
palabra,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
añarakopeguare,0,0,7,4,0,13,0.846154
bondarenko,3,0,0,13,0,18,0.888889
bondikobelt,0,0,10,0,0,10,1.0
cheko,0,1,0,0,8,12,0.75
cko,0,0,30,0,1,40,0.775
demkow,0,0,0,0,36,36,1.0
derakore,0,4,70,1,0,75,1.0
derakoreee,0,0,13,0,0,13,1.0
deskoke,0,0,0,0,13,14,0.928571
frankowski,0,0,0,16,0,16,1.0


# 'na' (por favor)

In [18]:

matching = [w for w in words if re.match(r".*na+$", w)]
matches = df.loc[matching]

matches = matches[(matches.ratio > 0.70) & (matches.cant_palabra > 10)]
print("Cantidad de ocurrencias = {}".format(len(matches)))


Cantidad de ocurrencias = 106


In [19]:
matches[col_interesantes]

Unnamed: 0_level_0,chaco_ocurrencias,corrientes_ocurrencias,formosa_ocurrencias,misiones_ocurrencias,entrerios_ocurrencias,cant_palabra,ratio
palabra,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
abana,0,0,0,0,18,20,0.9
ainaaa,0,0,17,5,0,31,0.709677
allavena,0,0,0,0,14,14,1.0
angana,0,4,6,7,0,18,0.944444
apenaaa,0,9,1,2,0,17,0.705882
aragana,3,12,17,6,24,87,0.712644
aynna,0,0,0,11,0,11,1.0
azcuirana,0,0,11,0,0,11,1.0
bettiana,9,8,1,1,0,26,0.730769
blacchyna,0,12,0,0,0,12,1.0
