alla-g / Irony_recognition Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

Code and data for my 3rd year thesis "Distributional semantic models in sarcasm and irony detection in blogs"

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
Creating feature dataframes.ipynb		Creating feature dataframes.ipynb
Feature distribution and models.ipynb		Feature distribution and models.ipynb
Pikabu parser.ipynb		Pikabu parser.ipynb
README.md		README.md

Repository files navigation

Irony recognition

Code and data for my 3rd year thesis "Distributional semantic models in sarcasm and irony detection in blogs". HRU HSE, Moscow 2021.

Jupyter notebook files:

Pikabu parser.ipynb - code used for collecting posts from Pikabu.ru
Creating feature dataframes.ipynb - code used for calculating feature values for further classification (train and test corpora)
Feature distribution and models.ipynb - example visualizations of feature distribution + building and assessing logreg models

Data folder:

raw_texts.csv - raw texts parsed from Pikabu.ru (warning: strong language)
train_corpus.csv - annontated corpus for training models (8 956 sentences)
test_corpus.csv - annontated corpus for assessing models (100 sentences)
train_features.csv - balanced training corpus with features (2 002 sentences)
test_features.csv - unbalanced test corpus with features (100 sentences)
test_classification_results.csv - sentence text, predictions and true labels for 100 test sentences

About

Code and data for my 3rd year thesis "Distributional semantic models in sarcasm and irony detection in blogs"

word2vec logistic-regression elmo

Report repository

Releases

No releases published

Packages

Languages

Jupyter Notebook 100.0%