In [1]:
#Imports
import os
import numpy as np
import pandas as pd
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report,confusion_matrix
from google.colab import drive

In [2]:
#Mount and access drive
drive.mount('/content/drive',force_remount=True)
os.chdir('/content/drive/My Drive/Few-Shot-Tamil')
print("Change successful.")

Mounted at /content/drive
Change successful.


In [3]:
#Load the datasets
one_shot_real = pd.read_csv('one-shot-real.csv',  sep='\t')
one_shot_fake = pd.read_csv('one-shot-fake.csv',  sep='\t')
three_shot_real = pd.read_csv('three-shot-real.csv',  sep='\t')
three_shot_fake = pd.read_csv('three-shot-fake.csv',  sep='\t')
five_shot_real = pd.read_csv('five-shot-real.csv',  sep='\t')
five_shot_fake = pd.read_csv('five-shot-fake.csv',  sep='\t')

In [4]:
#Combine the datasets
one_shot = pd.concat([one_shot_real, one_shot_fake])
three_shot = pd.concat([three_shot_real, three_shot_fake])
five_shot = pd.concat([five_shot_real, five_shot_fake])

In [5]:
one_shot['Authenticity'] = [0, 0, 0, 0, 0, 1, 1, 1 ,1, 1]
three_shot['Authenticity'] = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1 ,1, 1, 1, 1, 1 ,1, 1, 1, 1, 1 ,1, 1]
five_shot['Authenticity'] = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1 ,1, 1, 1, 1, 1 ,1, 1, 1, 1, 1 ,1, 1, 1, 1, 1 ,1, 1, 1, 1, 1 ,1, 1]

In [6]:
#Take 10% of the original dataset for testing
os.chdir('/content/drive/My Drive')
news_df = pd.read_csv(filepath_or_buffer='news.csv')
X = news_df['News']
y = news_df['Authenticity']
xtrain, xtest, ytrain, ytest = train_test_split(X, y, stratify=y, random_state=42, test_size=0.1,)

In [7]:
xtest.shape

(523,)

In [8]:
xtest.reset_index(inplace = True, drop = True)

In [9]:
xtest.shape

(523,)

In [10]:
!pip install git+https://github.com/pmbaumgartner/setfit -q

  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone


In [11]:
from setfit import SetFitClassifier

### One-Shot dataset


In [12]:
#Uses a sentence-transformer model
clf_one = SetFitClassifier("paraphrase-MiniLM-L3-v2")

In [13]:
one_shot.reset_index(inplace = True, drop = True)

In [14]:
headlines = one_shot['News']
labels = one_shot['Authenticity']
headlines

0                                 நடிகர் ஜெயம் ரவிக்கு
1         ‘கடவுளின் கை’களைப் பற்றிய கால்பந்துக் கடவுள்
2     பள்ளி பேருந்துகளில் கேமரா கட்டாயம்: தமிழக அரச...
3     36-வது தேசிய விளையாட்டு | ஒரே நாளில் தமிழகத்த...
4     நாய்ஸ்ஃபிட் கோர் 2 ஸ்மார்ட்வாட்ச் அறிமுகம்: 5...
5    டேனியல் ராட்கிளிஃப் கொரோனா வைரஸால் பாதிக்கப்பட...
6                    COVID-19 வைரஸ் "இல்லை" என்கிறார்.
7    அமெரிக்க அதிபர் டொனால்ட் டிரம்ப், “இதுவரை இறக்...
8    Kieron Pollard நல்லாதான் இருக்காரு: Viral ஆன ‘...
9    PIB fact check: 5 ஜி கதிர்வீச்சுக்கும் COVID-1...
Name: News, dtype: object

In [15]:
clf_one.fit(headlines, labels) 

Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/7 [00:00<?, ?it/s]

In [16]:
predictions = clf_one.predict(xtest)

In [17]:
accuracy = sklearn.metrics.accuracy_score(predictions,ytest)
accuracy

0.5411089866156787

In [18]:
print(classification_report(predictions, ytest))

              precision    recall  f1-score   support

           0       0.67      0.49      0.56       317
           1       0.44      0.62      0.52       206

    accuracy                           0.54       523
   macro avg       0.55      0.56      0.54       523
weighted avg       0.58      0.54      0.54       523



### Three-Shot dataset

In [19]:
#Uses a sentence-transformer model
clf_three = SetFitClassifier("paraphrase-MiniLM-L3-v2")

In [20]:
three_shot.reset_index(inplace = True, drop = True)

In [21]:
headlines = three_shot['News']
labels = three_shot['Authenticity']
headlines

0                                  நடிகர் ஜெயம் ரவிக்கு
1              படங்கள் தோல்வியால் வருந்தும் பூஜா ஹெக்டே
2                             தீபாவளிக்கு வரும் படங்கள்
3          ‘கடவுளின் கை’களைப் பற்றிய கால்பந்துக் கடவுள்
4         இரண்டு குடம் தண்ணீரில் 200 கி.மீ. கார் பயணம்!
5      2020 இணைய உலகம்: இந்தியர்கள் யாரைத் தேடினார்கள்?
6      பள்ளி பேருந்துகளில் கேமரா கட்டாயம்: தமிழக அரச...
7      மத்திய அரசு திட்ட பெயர்களை தமிழில் மொழிபெயர்க...
8      இந்தியாவில் ‘ஏகே 203’ துப்பாக்கிகள் தயாரிப்பை...
9      36-வது தேசிய விளையாட்டு | ஒரே நாளில் தமிழகத்த...
10     டி20 உலகக் கோப்பை | பும்ரா இன்னும் வெளியேறவில...
11     சூர்யகுமார் யாதவ் கரியருக்கு கேகேஆர் அணியில்த...
12     நாய்ஸ்ஃபிட் கோர் 2 ஸ்மார்ட்வாட்ச் அறிமுகம்: 5...
13     பிக்சல் போனில் 'ஆண்ட்ராய்டு 13' வெர்ஷனை வெளிய...
14     புதிய பிரைவசி அம்சங்களை அறிமுகம் செய்த வாட்ஸ்...
15    டேனியல் ராட்கிளிஃப் கொரோனா வைரஸால் பாதிக்கப்பட...
16    கோபி பிரையன்ட்டின் மனைவி "இன்று காலை மனச்சோர்வ...
17    பில் காஸ்பி என்பிசியை வாங்குவதைத் தடுப்பதற

In [22]:
clf_three.fit(headlines, labels) 

Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/19 [00:00<?, ?it/s]

In [23]:
predictions = clf_three.predict(xtest)

In [24]:
accuracy = sklearn.metrics.accuracy_score(predictions,ytest)
accuracy

0.7017208413001912

In [25]:
print(classification_report(predictions, ytest))

              precision    recall  f1-score   support

           0       0.67      0.66      0.67       235
           1       0.73      0.73      0.73       288

    accuracy                           0.70       523
   macro avg       0.70      0.70      0.70       523
weighted avg       0.70      0.70      0.70       523



### Five-Shot dataset

In [27]:
#Uses a sentence-transformer model
clf_five = SetFitClassifier("paraphrase-MiniLM-L3-v2")

In [28]:
five_shot.reset_index(inplace = True, drop = True)

In [29]:
headlines = five_shot['News']
labels = five_shot['Authenticity']
headlines

0                                  நடிகர் ஜெயம் ரவிக்கு
1              படங்கள் தோல்வியால் வருந்தும் பூஜா ஹெக்டே
2                             தீபாவளிக்கு வரும் படங்கள்
3                    பாலிவுட்டில் அறிமுகமாகிறார் சிம்பு
4               'பிரின்ஸ்' படத்தின் 3வது பாடல் வெளியீடு
5          ‘கடவுளின் கை’களைப் பற்றிய கால்பந்துக் கடவுள்
6         இரண்டு குடம் தண்ணீரில் 200 கி.மீ. கார் பயணம்!
7      2020 இணைய உலகம்: இந்தியர்கள் யாரைத் தேடினார்கள்?
8            சமூக ஊடகத்தில் அதிகம் புழங்குபவரா நீங்கள்?
9                   வைரல் உலா: பிளாஸ்டிக்கில் கோட்சூட்!
10     பள்ளி பேருந்துகளில் கேமரா கட்டாயம்: தமிழக அரச...
11     மத்திய அரசு திட்ட பெயர்களை தமிழில் மொழிபெயர்க...
12     இந்தியாவில் ‘ஏகே 203’ துப்பாக்கிகள் தயாரிப்பை...
13     தொழிலதிபரை கடத்தி சொத்துகளை எழுதி வாங்கியதாக ...
14     இந்தி திணிப்புக்கு எதிராக மிகப்பெரிய போராட்ட...
15     36-வது தேசிய விளையாட்டு | ஒரே நாளில் தமிழகத்த...
16     டி20 உலகக் கோப்பை | பும்ரா இன்னும் வெளியேறவில...
17     சூர்யகுமார் யாதவ் கரியருக்கு கேகேஆர் அணிய

In [30]:
clf_five.fit(headlines, labels) 

Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/32 [00:00<?, ?it/s]

In [31]:
predictions = clf_five.predict(xtest)

In [32]:
accuracy = sklearn.metrics.accuracy_score(predictions,ytest)
accuracy

0.8240917782026769

In [33]:
print(classification_report(predictions, ytest))

              precision    recall  f1-score   support

           0       0.79      0.81      0.80       227
           1       0.85      0.83      0.84       296

    accuracy                           0.82       523
   macro avg       0.82      0.82      0.82       523
weighted avg       0.82      0.82      0.82       523

