Ríomhchlár a dhéanann aicmiú staitistiúil ar théacsanna Gaeilge de réir a gcanúint
Perl Shell
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
LASID
LICENSE
README
canuint.pl
canuint.sh
features.txt
model.txt
train.pl

README

** Réamhrá **

Séard atá sa stórlann seo ná ríomhchlár simplí a dhéanann aicmiú ar théacsanna
Gaeilge de réir a gcanúint: Gaeilge Chonnacht, Gaeilge na Mumhan,
nó Gaeilge Uladh.

Baineann sé úsáid as samhail staitistiúil (aicmiú Bayes) a thraenáil mé ó
chorpas mór téacsanna canúnacha ón tréimhse 1900-1950.  Táim buíoch
d'fhoireann Fhoclóir Stairiúil na Nua-Ghaeilge in Acadamh Ríoga na hÉireann
a chuir an corpas seo ar fáil go poiblí (http://research.dho.ie/fng/index.php)
mar acmhainn do thaighdeoirí agus do phobal na Gaeilge go ginearálta.

** Úsáid **

Tá an ríomhchlár scríofa i bPerl agus Shell. Mar sin, molaim duit an script
a úsáid ar chóras Linux nó Mac, ar líne na n-orduithe (Terminal ar Mhac),
cé gurbh fhéidir leat é a úsáid ar Windows trí ActiveState Perl nó a leithéid.

Mura bhfuil tú cleachta le git agus github, is féidir leat an pacáiste 
iomlán a íoslódáil leis an gcnaipe "Download ZIP" ar dheis.

Oibríonn sé ar chomhaid ghnáth-théacs mar a leanas:

$ cat CreNaCille.txt | bash canuint.sh
C

$ cat MoSgealFein.txt | bash canuint.sh
M

$ cat CaisleainOir.txt | bash canuint.sh
U

Is féidir tuilleadh sonraí (logprob do gach canúint) a fháil
leis an mbratach -v:

$ cat CaisleainOir.txt | bash canuint.sh -v
M: -2148.756
C: -2175.766
U: -1382.291
U

Nó fiú abairt amháin a thástáil le "echo": 

$ echo "goidé mar atá na préataí ag an bhomaite seo" | bash canuint.sh
U


** Cuidiú **

Ba dhúshlán suimiúil sa ríomhfhoghlaim é an tionscadal seo. Bhí sé an-éasca
dul thar fóir le linn an phróisis traenála ("overfitting" i mBéarla). Baineann
an fhadhb le foirmeacha a léiríonn fíordhifríocht idir na canúintí agus
litrithe éagsúla a d'úsáid údair sa chorpas nach mbaineann le 
cúrsaí canúna ar chor ar bith (go bhfios dom - mar shampla "teampal" atá
chun tosaigh i gCúige Mumhan, "teampall" i gCúige Uladh, agus "teampoll"
i gCúige Connacht).  Mar sin, ba mhór an chabhair é an tsamhail a "bhearradh"
agus gan ach na gnéithe is suntasaí a choinneáil. Gheobhaidh tú na gnéithe
seo sa chomhad "features.txt". Sílim go bhfuil sé suimiúil an comhad seo
a bhrabhsáil fiú mura bhfuil suim mhór agat sna mionsonraí teicniúla - arís,
is éard atá ann ná na gnéithe is suntasaí ó thaobh canúna, bunaithe
go hiomlán ar anailís staitistiúil.   Fearaim fáilte roimh cheartúcháin,
moltaí, nó focail/frásaí eile ba chóir dom a chur leis an liosta gnéithe.