Ríomhchlár a dhéanann aicmiú staitistiúil ar théacsanna Gaeilge de réir a gcanúint
Perl Shell
Switch branches/tags
Nothing to show
Clone or download
Latest commit b9176d0 Jul 13, 2018
Permalink
Failed to load latest commit information.
LASID lat/long for LASID points (best effort) Dec 16, 2014
LICENSE Initial commit Dec 10, 2014
README formatting Dec 11, 2014
canuint.pl don't divide by zero Jul 13, 2018
canuint.sh Initial commit of code/data Dec 10, 2014
features.txt new model Dec 24, 2014
model.txt new model Dec 24, 2014
train.pl Initial commit of code/data Dec 10, 2014

README

** Réamhrá **

Séard atá sa stórlann seo ná ríomhchlár simplí a dhéanann aicmiú ar théacsanna
Gaeilge de réir a gcanúint: Gaeilge Chonnacht, Gaeilge na Mumhan,
nó Gaeilge Uladh.

Baineann sé úsáid as samhail staitistiúil (aicmiú Bayes) a thraenáil mé ó
chorpas mór téacsanna canúnacha ón tréimhse 1900-1950.  Táim buíoch
d'fhoireann Fhoclóir Stairiúil na Nua-Ghaeilge in Acadamh Ríoga na hÉireann
a chuir an corpas seo ar fáil go poiblí (http://research.dho.ie/fng/index.php)
mar acmhainn do thaighdeoirí agus do phobal na Gaeilge go ginearálta.

** Úsáid **

Tá an ríomhchlár scríofa i bPerl agus Shell. Mar sin, molaim duit an script
a úsáid ar chóras Linux nó Mac, ar líne na n-orduithe (Terminal ar Mhac),
cé gurbh fhéidir leat é a úsáid ar Windows trí ActiveState Perl nó a leithéid.

Mura bhfuil tú cleachta le git agus github, is féidir leat an pacáiste 
iomlán a íoslódáil leis an gcnaipe "Download ZIP" ar dheis.

Oibríonn sé ar chomhaid ghnáth-théacs mar a leanas:

$ cat CreNaCille.txt | bash canuint.sh
C

$ cat MoSgealFein.txt | bash canuint.sh
M

$ cat CaisleainOir.txt | bash canuint.sh
U

Is féidir tuilleadh sonraí (logprob do gach canúint) a fháil
leis an mbratach -v:

$ cat CaisleainOir.txt | bash canuint.sh -v
M: -2148.756
C: -2175.766
U: -1382.291
U

Nó fiú abairt amháin a thástáil le "echo": 

$ echo "goidé mar atá na préataí ag an bhomaite seo" | bash canuint.sh
U


** Cuidiú **

Ba dhúshlán suimiúil sa ríomhfhoghlaim é an tionscadal seo. Bhí sé an-éasca
dul thar fóir le linn an phróisis traenála ("overfitting" i mBéarla). Baineann
an fhadhb le foirmeacha a léiríonn fíordhifríocht idir na canúintí agus
litrithe éagsúla a d'úsáid údair sa chorpas nach mbaineann le 
cúrsaí canúna ar chor ar bith (go bhfios dom - mar shampla "teampal" atá
chun tosaigh i gCúige Mumhan, "teampall" i gCúige Uladh, agus "teampoll"
i gCúige Connacht).  Mar sin, ba mhór an chabhair é an tsamhail a "bhearradh"
agus gan ach na gnéithe is suntasaí a choinneáil. Gheobhaidh tú na gnéithe
seo sa chomhad "features.txt". Sílim go bhfuil sé suimiúil an comhad seo
a bhrabhsáil fiú mura bhfuil suim mhór agat sna mionsonraí teicniúla - arís,
is éard atá ann ná na gnéithe is suntasaí ó thaobh canúna, bunaithe
go hiomlán ar anailís staitistiúil.   Fearaim fáilte roimh cheartúcháin,
moltaí, nó focail/frásaí eile ba chóir dom a chur leis an liosta gnéithe.