In [1]:
!pip install clean-text



from nltk.tokenize import word_tokenize
import numpy as np
import pandas as pd
import re
from cleantext import clean

In [3]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Mike\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

# Task A

## Distributions train dataset augmented Subtask A

In [4]:
dataset = pd.read_csv("datasets/subtaskA_train_aug.csv")
dataset = dataset.drop('Id', axis=1)
dataset = dataset.rename(columns={'comment_text': 'text', 'conspiratorial': 'label'})
dataset

Unnamed: 0,text,label
0,se non ci fossero soldati non ci sarebbero gue...,0
1,shedding of infectious sars-cov-2 despite vac...,1
2,paura e delirio alla cnn: il ministero della v...,1
3,l'aspirina non aumenta la sopravvivenza dei pa...,0
4,l'italia non puo' dare armi lo vieta la costit...,0
...,...,...
3679,Abraccia la terra spesso 2000 km oooh mi ricor...,1
3680,Tuttavia le recensioni erano negative anche pr...,0
3681,"Nel frattempo, in Kazakistan, le persone che h...",1
3682,una profezia ad una conferenza nel 2015: il pr...,1


In [5]:
tokenized_text = [word_tokenize(str(s)) for s in dataset['text'].to_list()]
tokenized_text

[['se',
  'non',
  'ci',
  'fossero',
  'soldati',
  'non',
  'ci',
  'sarebbero',
  'guerre',
  '.'],
 ['shedding',
  'of',
  'infectious',
  'sars-cov-2',
  'despite',
  'vaccination',
  'diffusione',
  'del',
  'sars-cov-2',
  'nonostante',
  'la',
  'vaccinazione',
  'la',
  'variante',
  'delta',
  'del',
  'sars-cov-2',
  'puo',
  'causare',
  'elevate',
  'cariche',
  'virali',
  ',',
  'e',
  'al',
  'trasmissibile',
  'e',
  'contiene',
  'mutazioni',
  'che',
  'conferiscono',
  'una',
  'fuga',
  'immunitaria',
  'parziale',
  '.',
  'le',
  'indagini',
  "sull'epidemia",
  'suggeriscono',
  'che',
  'le',
  'persone',
  'vaccinate',
  'possono',
  'diffondere',
  'delta',
  'questi',
  'risultati',
  'indicano',
  'che',
  'anche',
  'le',
  'persone',
  'asintomatiche',
  'e',
  'comple',
  'vaccinate',
  'possono',
  'diffondere',
  'il',
  'virus',
  'infettivo',
  '.',
  'questi',
  'dati',
  'indicano',
  'che',
  'gli',
  'individui',
  'vaccinati',
  'e',
  'non',
  

In [6]:
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length aug task A with pre-processing: {tokenized_text_array.mean()}\nStd length aug task A with pre-processing: {tokenized_text_array.std()}')

Mean length aug task A with pre-processing: 51.358306188925084
Std length aug task A with pre-processing: 60.17217658449809


## Distributions original dataset Subtask A

### Without pre-processing

In [7]:
dataset = pd.read_csv("datasets/subtaskA_train.csv")
dataset = dataset.drop('Id', axis=1)
dataset = dataset.rename(columns={'comment_text': 'text', 'conspiratorial': 'label'})
dataset

Unnamed: 0,text,label
0,⚡Se non ci fossero soldati non ci sarebbero gu...,0
1,"21/08/21]( [PRE-PRINT]\n\n📄__ ""Shedding of Inf...",1
2,PAURA E DELIRIO ALLA CNN: IL MINISTERO DELLA V...,1
3,L'Aspirina non aumenta la sopravvivenza dei pa...,0
4,L'Italia non puo' dare armi lo vieta la Costit...,0
...,...,...
1837,avvolge la terra spesso 2000 km Oooh mi ricor...,1
1838,Comunque le recensioni erano negative ancora p...,0
1839,Intanto in Kazakistan la gente che ne ha le pa...,1
1840,Una profezia ad una conferenza del 2015:\nIl p...,1


In [8]:
tokenized_text = [word_tokenize(str(s)) for s in dataset['text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length task A without pre-processing: {tokenized_text_array.mean()}\nStd length task A without pre-processing: {tokenized_text_array.std()}')

Mean length task A without pre-processing: 59.17046688382193
Std length task A without pre-processing: 73.89385700328677


### With pre-processing

In [9]:
dataset = pd.read_csv("datasets/subtaskA_train.csv")
dataset = dataset.drop('Id', axis=1)
dataset = dataset.rename(columns={'comment_text': 'text', 'conspiratorial': 'label'})
dataset

Unnamed: 0,text,label
0,⚡Se non ci fossero soldati non ci sarebbero gu...,0
1,"21/08/21]( [PRE-PRINT]\n\n📄__ ""Shedding of Inf...",1
2,PAURA E DELIRIO ALLA CNN: IL MINISTERO DELLA V...,1
3,L'Aspirina non aumenta la sopravvivenza dei pa...,0
4,L'Italia non puo' dare armi lo vieta la Costit...,0
...,...,...
1837,avvolge la terra spesso 2000 km Oooh mi ricor...,1
1838,Comunque le recensioni erano negative ancora p...,0
1839,Intanto in Kazakistan la gente che ne ha le pa...,1
1840,Una profezia ad una conferenza del 2015:\nIl p...,1


In [10]:
def text_cleaning(text):
    # Convert words to lower case
    text = clean(text, no_emoji=True)

    text = re.sub(r'(\[.*?\])', '', text)
    text = re.sub(r'[0-9]{2}\/[0-9]{2}\/[0-9]{2,4}', ' ', text)
    text = re.sub(r'https?:\/\/.*[\r\n]*', '', text, flags=re.MULTILINE)
    text = re.sub(r'\<a href', ' ', text)
    text = re.sub(r'[_"\%()|+&=*%#$@\[\]/]', ' ', text)
    text = re.sub(r'<br />', ' ', text)
    text = re.sub(r'\.+','.', text)
    text = re.sub(r'\,+',',', text)
    text = re.sub(r'\!+','!', text)
    text = re.sub(r'\?+','?', text)
    text = re.sub(r'\n+','', text)
    text = re.sub(r' +', ' ', text)
    text = re.sub('[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '', text)

    return text

In [11]:
dataset['text'] = list(map(text_cleaning, dataset.text))
dataset

Unnamed: 0,text,label
0,se non ci fossero soldati non ci sarebbero gue...,0
1,shedding of infectious sars-cov-2 despite vac...,1
2,paura e delirio alla cnn: il ministero della v...,1
3,l'aspirina non aumenta la sopravvivenza dei pa...,0
4,l'italia non puo' dare armi lo vieta la costit...,0
...,...,...
1837,avvolge la terra spesso 2000 km oooh mi ricord...,1
1838,comunque le recensioni erano negative ancora p...,0
1839,intanto in kazakistan la gente che ne ha le pa...,1
1840,una profezia ad una conferenza del 2015:il pro...,1


In [12]:
tokenized_text = [word_tokenize(str(s)) for s in dataset['text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length task A with pre-processing: {tokenized_text_array.mean()}\nStd length task A with pre-processing: {tokenized_text_array.std()}')

Mean length task A with pre-processing: 52.43485342019544
Std length task A with pre-processing: 65.33217005660636


## Distribution test dataset subtask A

### With pre-processing

In [15]:
dataset_output = pd.read_csv("datasets/subtaskA_test.csv")
dataset_output

Unnamed: 0,Id,comment_text
0,0,La CNN ha appena ammesso che Trump non è più a...
1,1,"Notizia del 2017: “Autovelox, la foto viola la..."
2,2,"La foto di due ""sospetti"" in un palazzo non è ..."
3,3,La falsa notizia della bambina con il cartello...
4,4,Ah dimenticavo.. e' gratuita
...,...,...
455,455,Cina e Arabia Saudita intensificano la coopera...
456,456,La Polizia e l'avvocato Holzeisen diffidano l'...
457,457,W la libertà contro tutte le dittature
458,458,nell'unità militare di Okhtyrka sono ancora in...


In [17]:
dataset_output['comment_text'] = list(map(text_cleaning, dataset_output.comment_text))
tokenized_text = [word_tokenize(str(s)) for s in dataset_output['comment_text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length test  A with pre-processing: {tokenized_text_array.mean()}\nStd length test A with pre-processing: {tokenized_text_array.std()}')

Mean length test  A with pre-processing: 56.31086956521739
Std length test A with pre-processing: 66.4292455508961


### Without pre-processing

In [18]:
dataset_output = pd.read_csv("datasets/subtaskA_test.csv")
dataset_output

Unnamed: 0,Id,comment_text
0,0,La CNN ha appena ammesso che Trump non è più a...
1,1,"Notizia del 2017: “Autovelox, la foto viola la..."
2,2,"La foto di due ""sospetti"" in un palazzo non è ..."
3,3,La falsa notizia della bambina con il cartello...
4,4,Ah dimenticavo.. e' gratuita
...,...,...
455,455,Cina e Arabia Saudita intensificano la coopera...
456,456,La Polizia e l'avvocato Holzeisen diffidano l'...
457,457,W la libertà contro tutte le dittature
458,458,nell'unità militare di Okhtyrka sono ancora in...


In [19]:
tokenized_text = [word_tokenize(str(s)) for s in dataset_output['comment_text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length test  A without pre-processing: {tokenized_text_array.mean()}\nStd length test A without pre-processing: {tokenized_text_array.std()}')

Mean length test  A without pre-processing: 63.678260869565214
Std length test A without pre-processing: 78.6746794056647


# Task B

## Distribution train test task B

### Without pre-processing

In [21]:
dataset = pd.read_csv("datasets/subtaskB_train.csv")
dataset = dataset.drop('Id', axis=1)
dataset = dataset.rename(columns={'comment_text': 'text', 'conspiratorial': 'label'})
dataset

Unnamed: 0,text,topic,conspiracy
0,"Siamo davanti ad una prova, e non solo di quoz...",Qanon,1
1,La storia dei 2 bimbi di Bergamo - vaccini: qu...,Covid,0
2,L'avete capito che non toglieranno il green pa...,Covid,0
3,Quindi la farsa dello spazio e della terra a ...,Terra Piatta,3
4,"In breve tempo, per accedere a Internet, sarà ...",Qanon,1
...,...,...,...
805,"Incredibile!!!! EMA, Agenzia Europea del Farma...",Covid,0
806,Non ci saranno colloqui di pace con la Russia ...,Russia,2
807,"L'atmosfera è uno ""scudo protettivo"" che avvol...",Terra Piatta,3
808,OTTIMA NOTIZIA! Due ragioni per cui le élite n...,Covid,0


In [22]:
tokenized_text = [word_tokenize(str(s)) for s in dataset['text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length task B without pre-processing: {tokenized_text_array.mean()}\nStd length task B without pre-processing: {tokenized_text_array.std()}')

Mean length task B without pre-processing: 80.09135802469136
Std length task B without pre-processing: 90.74530385771949


### With pre-processing

In [23]:
dataset = pd.read_csv("datasets/subtaskA_train.csv")
dataset = dataset.drop('Id', axis=1)
dataset = dataset.rename(columns={'comment_text': 'text', 'conspiratorial': 'label'})
dataset

Unnamed: 0,text,label
0,⚡Se non ci fossero soldati non ci sarebbero gu...,0
1,"21/08/21]( [PRE-PRINT]\n\n📄__ ""Shedding of Inf...",1
2,PAURA E DELIRIO ALLA CNN: IL MINISTERO DELLA V...,1
3,L'Aspirina non aumenta la sopravvivenza dei pa...,0
4,L'Italia non puo' dare armi lo vieta la Costit...,0
...,...,...
1837,avvolge la terra spesso 2000 km Oooh mi ricor...,1
1838,Comunque le recensioni erano negative ancora p...,0
1839,Intanto in Kazakistan la gente che ne ha le pa...,1
1840,Una profezia ad una conferenza del 2015:\nIl p...,1


In [24]:
dataset['text'] = list(map(text_cleaning, dataset.text))
dataset

Unnamed: 0,text,label
0,se non ci fossero soldati non ci sarebbero gue...,0
1,shedding of infectious sars-cov-2 despite vac...,1
2,paura e delirio alla cnn: il ministero della v...,1
3,l'aspirina non aumenta la sopravvivenza dei pa...,0
4,l'italia non puo' dare armi lo vieta la costit...,0
...,...,...
1837,avvolge la terra spesso 2000 km oooh mi ricord...,1
1838,comunque le recensioni erano negative ancora p...,0
1839,intanto in kazakistan la gente che ne ha le pa...,1
1840,una profezia ad una conferenza del 2015:il pro...,1


In [26]:
tokenized_text = [word_tokenize(str(s)) for s in dataset['text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length task B with pre-processing: {tokenized_text_array.mean()}\nStd length task B with pre-processing: {tokenized_text_array.std()}')

Mean length task B with pre-processing: 52.43485342019544
Std length task B with pre-processing: 65.33217005660636


## Distribution test dataset task B

### With pre-processing

In [28]:
dataset_output = pd.read_csv("datasets/subtaskB_test.csv")
dataset_output

Unnamed: 0,Id,comment_text
0,0,Ho fatto delle foto aeree ad una quota di circ...
1,1,Prof. Bellavite: tantissime persone costrette ...
2,2,"Ma si allontana.... su una terra PIATTA,......"
3,3,Non tutti gli Ukraini sono contro la Russia.\n...
4,4,Non opinioni ma dati.\n\nUno strepitoso **Giov...
...,...,...
295,295,Dopo l'esosfera viene lo spazio... giusto???
296,296,Ci sarebbero altri... basta che andate a veder...
297,297,"Certo certo, continuate a fare il gioco di Bid..."
298,298,Sapete cosa mi dicono gli astrofili?.. Che il ...


In [30]:
dataset_output['comment_text'] = list(map(text_cleaning, dataset_output.comment_text))
tokenized_text = [word_tokenize(str(s)) for s in dataset_output['comment_text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length test  B with pre-processing: {tokenized_text_array.mean()}\nStd length test B with pre-processing: {tokenized_text_array.std()}')

Mean length test  B with pre-processing: 69.84666666666666
Std length test B with pre-processing: 75.63709289906785


### Without pre-processing

In [31]:
dataset_output = pd.read_csv("datasets/subtaskB_test.csv")
dataset_output

Unnamed: 0,Id,comment_text
0,0,Ho fatto delle foto aeree ad una quota di circ...
1,1,Prof. Bellavite: tantissime persone costrette ...
2,2,"Ma si allontana.... su una terra PIATTA,......"
3,3,Non tutti gli Ukraini sono contro la Russia.\n...
4,4,Non opinioni ma dati.\n\nUno strepitoso **Giov...
...,...,...
295,295,Dopo l'esosfera viene lo spazio... giusto???
296,296,Ci sarebbero altri... basta che andate a veder...
297,297,"Certo certo, continuate a fare il gioco di Bid..."
298,298,Sapete cosa mi dicono gli astrofili?.. Che il ...


In [33]:
tokenized_text = [word_tokenize(str(s)) for s in dataset_output['comment_text'].to_list()]
tokenized_length = [len(l) for l in tokenized_text]
tokenized_text_array = np.array(tokenized_length, dtype=int)
print(f'Mean length test  B without pre-processing: {tokenized_text_array.mean()}\nStd length test B without pre-processing: {tokenized_text_array.std()}')

Mean length test  B without pre-processing: 77.81333333333333
Std length test B without pre-processing: 83.95918743982433
