# Conseguir un C2 en moabita

### La estela de Mesa

La estela de Mesa es el (casi) único texto que se conserva en lengua moabita, una lengua semítica muy cercana al hebreo bíblico que se habló en el reino de Moab, en la actual Jordania sobre los siglos X-VIII a.e.c. Se descubrió y descifró en el siglo XIX y en la actualidad se encuentra en el museo del Louvre.
En este trabajo se analizarán las inscripciones (en alfabeto fenicio), sus frecuencias, raíces, etc.
Si se traduce, se puede añadir al currículum la línea de C2 en esta lengua, dado que es lo único que se puede leer en moabita en la actualidad.

![Imagen|50](./img/estela_mesa.jfif)

### HIPÓTESIS

Estas son las hipótesis que quiero comprobar:
- Las letras en protofenicio tienen la misma frecuencia que las hebreas y se podría descifrar el alfabeto solo con frecuencias.
- El lenguaje estela cumple la ley de Zipf (puede que no lo haga debido al bajo número de palabras).
- Sigue estructura de lengua semítica (raíces trilíteras, preposiciones y conjunciones enclíticas, ¿estado constructo?).
- ¿Se puede descifrar algo con ayuda de un diccionario de hebreo antiguo? Comprobar raíces de pronombres, números y palabras más utilizadas.

## OBTENCIÓN DE LOS DATOS

### DATASETS Y FUENTES ALTERNATIVAS DE DATOS

Voy a trabajar proncipalmente con dos datasets: uno con el texto de la propia estela y otro que contiene todas las palabras del Antiguo Testamento en hebreo y arameo, así como sus frecuencias, raíces y significado.

In [1]:
import pandas as pd
from bs4 import BeautifulSoup as bs
import requests

Este dataset contiene todas las palabras del Antiguo Testamento:

In [2]:
# Data frame de frecuencias de palabras en el Antiguo Testamento (hebreo y arameo)
# Hay muchos csv de hebreo bíblico, quizás use alguno más. Este es especialmente interesante por la columna root_word
biblia = pd.read_excel('https://query.data.world/s/3ljivu4i6mi4qbhw3plofrb4nztdkg?dws=00000')
biblia.head()

Unnamed: 0,strongs_number,word,gloss,language,part_of_speech,gender,occurrences,first_occurrence,root_word,word_root_occurrence,first_root_number,first_root_hebrew,second_root_number,second_root_hebrew,third_root_number,third_root_hebrew
0,1,אָב,ab (awb) n-m.\n1. father\n{in a literal and im...,H,noun,masculine,1210,GEN 2:24,אב,1414.0,,,,,,
1,2,אַב,ab (ab) n-m.\n1. father\n[(Aramaic) correspond...,A,noun,masculine,9,EZK 4:15,אב,1414.0,1.0,אב,,,,
2,3,אֵב,'eb (abe) n-m.\n1. a green plant\n[from the s...,H,noun,masculine,2,JOB 8:12,אבב,13.0,24.0,אביב,,,,
3,4,אֵב,eb (abe) n-m.\n1. fruit\n[(Aramaic) correspond...,A,noun,masculine,3,DAN 4:12,אבב,13.0,3.0,אב,,,,
4,5,אֲבַגתָּא,"Abagtha' (ab-ag-thaw') n/p.\n1. Abagtha, a eun...",H,noun proper,masculine,1,EST 1:10,,,,,,,,


Texto de la Estela de Mesa extraído de la página de Wikipedia:

In [3]:
# Extracción del texto de la estela con webscraping:

enlace ='https://en.wikipedia.org/wiki/Mesha_Stele'
respuesta = requests.get(enlace)
print(respuesta)

<Response [200]>


In [4]:
soup = bs(respuesta.content, 'html.parser')
texto_por_linea = soup.find_all('span', class_="script-phoenician")
mesa = pd.DataFrame({'Texto':[i.get_text() for i in texto_por_linea]})
mesa['línea'] = mesa.index+1
mesa.head()

Unnamed: 0,Texto,línea
0,𐤀𐤍𐤊 𐤟 𐤌𐤔𐤏 𐤟 𐤁𐤍 𐤟 𐤊𐤌𐤔 ? ? 𐤌𐤋𐤊 𐤟 𐤌𐤀𐤁 𐤟 𐤄𐤃,1
1,𐤉𐤁𐤍𐤉 | 𐤀𐤁𐤉 𐤟 𐤌𐤋𐤊 𐤟 𐤏𐤋 𐤟 𐤌𐤀𐤁 𐤟 𐤔𐤋𐤔𐤍 𐤟 𐤔𐤕 𐤟 𐤅𐤀𐤍𐤊...,2
2,[𐤕𐤉 𐤟 𐤀𐤇𐤓 𐤟 𐤀𐤁𐤉 | 𐤅𐤀𐤏𐤔 𐤟 𐤄𐤁𐤌𐤕 𐤟 𐤆𐤀𐤕 𐤟 𐤋𐤊𐤌𐤔 𐤟 𐤁...,3
3,𐤔𐤏 𐤟 𐤊𐤉 𐤟 𐤄𐤔𐤏𐤍𐤉 𐤟 𐤌𐤊𐤋 𐤟 𐤄𐤔𐤋𐤊𐤍 𐤟 𐤅𐤊𐤉 𐤟 𐤄𐤓𐤀𐤍𐤉 𐤟 ...,4
4,𐤉 𐤟 𐤌𐤋𐤊 𐤟 𐤉𐤔𐤓𐤀𐤋 𐤟 𐤅𐤉𐤏𐤍𐤅 𐤟 𐤀𐤕 𐤟 𐤌𐤀𐤁 𐤟 𐤉𐤌𐤍 𐤟 𐤓𐤁𐤍...,5


In [5]:
mesa.tail()

Unnamed: 0,Texto,línea
29,𐤉 𐤟 [𐤀𐤕 𐤟] 𐤌𐤄𐤃[𐤁]𐤀 𐤟 𐤅𐤁𐤕 𐤟 𐤃𐤁𐤋𐤕𐤍 | 𐤅𐤁𐤕 𐤟 𐤁𐤏𐤋𐤌...,30
30,𐤑𐤀𐤍 𐤟 𐤄𐤀𐤓𐤑 | 𐤅𐤇𐤅𐤓𐤍𐤍 𐤟 𐤉𐤔𐤁 𐤟 𐤁𐤄 𐤟 𐤁𐤕 𐤟 𐤅𐤒 𐤟 𐤀𐤔....,31
31,𐤅𐤉𐤀𐤌𐤓 𐤟 𐤋𐤉 𐤟 𐤊𐤌𐤔 𐤟 𐤓𐤃 𐤟 𐤄𐤋𐤕𐤇𐤌 𐤟 𐤁𐤇𐤅𐤓𐤍𐤍 | 𐤅𐤀𐤓𐤃....,32
32,𐤅𐤉𐤔]𐤁𐤄 𐤟 𐤊𐤌𐤔 𐤟 𐤁𐤉𐤌𐤉 𐤟 𐤅𐤏𐤋 𐤟 𐤓𐤄 𐤟 𐤌𐤔𐤌 𐤟 𐤏𐤔].....,33
33,𐤔𐤕 𐤟 𐤔𐤃𐤒 | 𐤅𐤀𐤍,34


A este dataset hay que añadirle uno por frases y otro por palabras. La ventaja es que la propia estela separa las palabras con puntos y las frases con rayas verticales.

![Dibujo|50](./img/dibujo_mesa.png)   