Skip to content
language model for tamil
Python
Branch: master
Clone or download
Pull request Compare This branch is even with vanangamudi:master.
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
anikattu
assets/images
main
model
pair_word_prediction
skipgram
skipgram_conv2d_embedding
skipgram_kvmemnet
.gitignore
LICENSE
README.md

README.md

தமிழ் மொழி ஒப்பு - tamil-lm

மொழியொப்பேற்றம், வெறும் செய்திதாள் கட்டுரைகளிலிருந்து, கணினி எப்படி சொற்களுக்கு இருக்கும் தொடர்பை கண்டுபிடிக்கிறது.

Language modelling based on skip-grams over tamil news dataset

காட்சிப்பொருள் - Demo

இந்த தளத்தில் சென்று தொடர்புடைய சொற்கள் எவையவை, தொடர்பில்லாத சொற்கள் எவையவை என்று கணியொப்பே கண்டறிந்து காட்டுவதைப்பார்கலாம்.

Please go to the link for the demo.

தரவுக்கணம் - Dataset

செய்திதாள் கட்டுரைளை படியெடுத்து, கொஞ்சம் சுத்தஞ்செய்து ஆக்கப்பட்ட தரவுக்கணம் ஒன்று விரைவில் வெளியிடப்படும். சுத்தஞ்செய்யும் முறைகளும், விளக்கப்படும். The data is scraped from tamil news websites. The dataset will be made available soon.

ஒப்புகள் - Models

இச்சட்டியில், மொத்தம் மூன்று ஒப்புகள் உள்ளன, எனினும், skipgram நன்கு செயல்படுகிறது. Though there are three models available in the repo, skipgram works well.

Model weights.

Plain text vocabulary and embedding vectors

The embedding vectors and corresponding tokens can be downloaded from vaaku2vec.zip

How to visualize?

You can upload the vocab.vectors.tsv and vocab.tokens.tsv in TensorFlow Projector to visualize them.

Use TSNE projection and let it run for more than 400 iterations. You can see the cone-ice shape come to life. It is really fun. | | | | | |

Training

$ python main.py train

Sister Projects

Malayalam - Vaaku2Vec

Thanks

And all the good people who write blogs everyday to better the humanity.

You can’t perform that action at this time.