# Dataset Exploration

In this notebook we explore the dataset in order to determine which pre-processing steps are required.

In [65]:
from pathlib import Path
import sys
sys.path.append("../")

from config import Config
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('seaborn')
params = {
    'figure.figsize': (15, 5),
    'legend.fontsize': 'x-large',
    'axes.labelsize': 'x-large',
    'axes.titlesize':'x-large',
}
plt.rcParams.update(params)

In [66]:
df = pd.read_csv(Config.TRAINING_DATASET_PATH)
df

Unnamed: 0,text,irony,sarcasm
0,"Zurigo, trovato morto il presunto autore della...",0,0
1,"Zurigo, trovato morto il presunto autore della...",0,0
2,"Zingari..i soliti ""MERDOSI""..#cacciamolivia Ro...",0,0
3,"Zingari di merda,tutti al muro...bastardi Spar...",0,0
4,zero notizie decreto #tfaordinario II ciclo ze...,1,0
...,...,...,...
3972,Casini:Trovare un'intesa tra forze politiche o...,0,0
3973,Cambiare tutto per non cambiare niente sembra ...,0,0
3974,Alcuni mettono mani nelle tasche degli italian...,0,0
3975,A parte che la dieta di #Salvini dovrebbe ess...,1,0


In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3977 entries, 0 to 3976
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   text     3977 non-null   object
 1   irony    3977 non-null   int64 
 2   sarcasm  3977 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 93.3+ KB


we can see that there are no missing data.

In [4]:
text, irony, sarcasm = df['text'], df['irony'], df['sarcasm']

In [73]:
text[0]

'Zurigo, trovato morto il presunto autore della sparatoria nel centro islamico #20dicembre https://t.co/rBjvUi8RJ2'

In [60]:
from preprocessing.frameutils import extract_symbols
from prettyprinting import prettyprint_list

In [62]:
symbols = extract_symbols(text)
prettyprint_list(symbols)

) ❓ c ✔ 👎 T 0 ó 😨 س 
z H 😷 é “ ل І 9 🇹 😇 
d 🙏 . m o 😔 ^ Ù * ° 
Z / 6 ◀ 👏 ª ‍ а J 🤣 
_ 2 ò ⛪ … 😡 😞 8 ️ q 
N 🙈 · ’ ì a À 😟 😁 k 
💰 l r   1 🤦 🇧 e ا ė 
W 😱 о ! 🏼   ( \ n 😶 
♂ 😂 " I » 💥 S 📍 C É 
L � 🇸 ̀ 🐐 < ê M 🤔 💪 
😲 😒 h ] ▶ 😀 😑 5 E s 
🤕 😈 B & F è 😹 💡 🤐 😜 
È @ D ú ‘ е P u A – 
7 Q [ t R v i á 4 € 
; O 😃 w 🇮 ~ x ” f + 
: ? 💩 G $ 3 😋 ☺ 😉 # 
U - 😊 😭 💣 🤓 ü 😎 🙄 , 
j ë b X ' = à y 👍 🔹 
ù 😅 K 😕 😄 V í ✌ 😬 م 
💖 🌹 і « 🇬 Y p 🇾 🙂 % 
😳 > g | 😏 

As we can see the tweets contain non-alphanumeric and non ascii symbols, like emoji, which need to be handled.

In [63]:
prettyprint_list(list(filter(lambda x : not x.isascii(), symbols)))

❓ ✔ 👎 ó 😨 س 😷 é “ ل 
І 🇹 😇 🙏 😔 Ù ° ◀ 👏 ª 
‍ а 🤣 ò ⛪ … 😡 😞 ️ 🙈 
· ’ ì À 😟 😁 💰   🤦 🇧 
ا ė 😱 о 🏼 😶 ♂ 😂 » 💥 
📍 É � 🇸 ̀ 🐐 ê 🤔 💪 😲 
😒 ▶ 😀 😑 🤕 😈 è 😹 💡 🤐 
😜 È ú ‘ е – á € 😃 🇮 
” 💩 😋 ☺ 😉 😊 😭 💣 🤓 ü 
😎 🙄 ë à 👍 🔹 ù 😅 😕 😄 
í ✌ 😬 م 💖 🌹 і « 🇬 🇾 
🙂 😳 😏 