Skip to content
language model for tamil
Branch: master
Clone or download
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
anikattu adds a function to calc the output size of conv2d layer Feb 19, 2019
assets/images images Feb 10, 2019
main
model
pair_word_prediction
skipgram
skipgram_conv2d_embedding
.gitignore
LICENSE
README.md

README.md

தமிழ் மொழி ஒப்பு - tamil-lm

மொழியொப்பேற்றம், வெறும் செய்திதாள் கட்டுரைகளிலிருந்து, கணினி எப்படி சொற்களுக்கு இருக்கும் தொடர்பை கண்டுபிடிக்கிறது.

Language modelling based on skip-grams over tamil news dataset

காட்சிப்பொருள் - Demo

இந்த தளத்தில் சென்று தொடர்புடைய சொற்கள் எவையவை, தொடர்பில்லாத சொற்கள் எவையவை என்று கணியொப்பே கண்டறிந்து காட்டுவதைப்பார்கலாம்.

Please go to the link for the demo.

தரவுக்கணம் - Dataset

செய்திதாள் கட்டுரைளை படியெடுத்து, கொஞ்சம் சுத்தஞ்செய்து ஆக்கப்பட்ட தரவுக்கணம் ஒன்று விரைவில் வெளியிடப்படும். சுத்தஞ்செய்யும் முறைகளும், விளக்கப்படும். The data is scraped from tamil news websites. The dataset will be made available soon.

ஒப்புகள் - Models

இச்சட்டியில், மொத்தம் மூன்று ஒப்புகள் உள்ளன, எனினும், skipgram நன்கு செயல்படுகிறது. Though there are three models available in the repo, skipgram works well.

Model weights.

Plain text vocabulary and embedding vectors

The embedding vectors and corresponding tokens can be downloaded from vaaku2vec.zip

How to visualize?

You can upload the vocab.vectors.tsv and vocab.tokens.tsv in TensorFlow Projector to visualize them.

Use TSNE projection and let it run for more than 400 iterations. You can see the cone-ice shape come to life. It is really fun. | | | | | |

Training

$ python main.py train

Sister Projects

Malayalam - Vaaku2Vec

Thanks

And all the good people who write blogs everyday to better the humanity.

You can’t perform that action at this time.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.