# Scrape data from Twitter

In [1]:
import pandas as pd
import snscrape.modules.twitter as sntwitter

pd.set_option("max_columns", None)
pd.set_option("max_colwidth", None)
pd.set_option("max_rows", None)

## How to use snscrape 
https://betterprogramming.pub/how-to-scrape-tweets-with-snscrape-90124ed006af

### Scrape from specific user.

In [None]:
# Creating list to append tweet data 
tweets_list1 = []

# Using TwitterSearchScraper to scrape data and append tweets to list
for i,tweet in enumerate(sntwitter.TwitterSearchScraper('from:jack').get_items()): #declare a username 
    if i>1000: #number of tweets you want to scrape
        break
    tweets_list1.append([tweet.date, tweet.id, tweet.content, tweet.user.username]) #declare the attributes to be returned
    
# Creating a dataframe from the tweets list above 
tweets_df1 = pd.DataFrame(tweets_list1, columns=['Datetime', 'Tweet Id', 'Text', 'Username'])


In [None]:
tweets_df1 = pd.DataFrame(tweets_list1, columns=['Datetime', 'Tweet Id', 'Text', 'Username'])

### Scrape by searching for keywords.

In [None]:
# Creating list to append tweet data to
tweets_list2 = []

# Using TwitterSearchScraper to scrape data and append tweets to list
for i,tweet in enumerate(sntwitter.TwitterSearchScraper('its the elephant since:2020-06-01 until:2020-07-31').get_items()):
    if i>500:
        break
    tweets_list2.append([tweet.date, tweet.id, tweet.content, tweet.user.username])
    
# Creating a dataframe from the tweets list above
tweets_df2 = pd.DataFrame(tweets_list2, columns=['Datetime', 'Tweet Id', 'Text', 'Username'])

### 1) Data Collection by keywords

**Import set of keywords from csv file**

In [196]:
keywords = pd.read_csv('keywords_hate.csv')
keywords

Unnamed: 0,keywords
0,ทุเรศ
1,เปรต
2,เสนียด
3,สันดาน
4,สวะ
5,ปัญญาอ่อน
6,ไพร่
7,ร่าน
8,จัญไร
9,ตอแหล


In [4]:
keywords.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 1 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   keywords  24 non-null     object
dtypes: object(1)
memory usage: 320.0+ bytes


### 2) Scrape 100 tweets per keyword

In [197]:
# Creating list to append tweet data to
tweets_list = []

# Using TwitterSearchScraper to scrape data and append tweets to list
for key in keywords['keywords']:
    for i,tweet in enumerate(sntwitter.TwitterSearchScraper(f'{key} since:2021-01-01 until:2021-10-31').get_items()):
        if i>100:
            break
        tweets_list.append([tweet.date, tweet.id, tweet.content, tweet.user.username])

In [198]:
print(f'Total sweets: {len(tweets_list)}')

Total sweets: 4646


In [199]:
# Creating a dataframe from the tweets list above
tweets_df = pd.DataFrame(tweets_list, columns=['Datetime', 'Tweet Id', 'Text', 'Username'])

**Save scraped tweets to csv file**

In [200]:
tweets_df.to_csv('tweet_from_keywords_topic.csv')

---
# Clean ThaiToxicityTweetCorpus
**How to get data to look into the file /ThaiToxicityTweetCorpus_load.ipynb**  
source: https://huggingface.co/datasets/thai_toxicity_tweet

In [28]:
tweets_df = pd.read_csv('ThaiToxicityTweetCorpus.csv')

In [None]:
tweets_df.iloc[lambda x: range(1,1000,10)]

In [29]:
tweets_df.head(50)

Unnamed: 0.1,Unnamed: 0,tweet_id,Text,toxic_votes,nontoxic_votes,is_toxic
0,0,898576382384418817,วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ,0,3,0
1,2,899587505493692417,หล่อมากกก หล่อวัวตายควายล้มกันเลยทีเดียวววว,0,3,0
2,3,898920493763280897,สิวเหี้ยไรขึ้นหลังหู เสียชาติเกิดมั้ย เกิดมามันต้องต้องโดดเด่นเด้งดึ๋งอย่าเช่นขึ้นที่หน้าไรงี้ อีควาย,0,3,0
3,4,896808964326694912,อ่ะ ป่วยก็ป่วย งานจ้างก็ต้องทำ งานเรียนก็ต้องทำ วิชาดีไซน์ตัวร้ายกับควายอย่างกูเอง,0,3,0
4,6,896808093949976576,นี่ก็เพิ่งรู้ว่า เกิดชาตินี้ชาติเดียว เป็นทั้ง เหี้ย เป็นทั้ง ควาย เลย คุ้มแท้ๆ 😆,2,1,1
5,7,898919574413783041,โว้ยอีควาย หนักกว่ากูก็มึงอะ,2,1,1
6,8,899584228056281088,ขอโทษ นะครับ อยากได้ควายให้ไปคบกับคนอื่นนะ\nพอดีกูคนไม่ใช่ควาย ☻,3,0,1
7,9,898919452036653056,ปลั๊กไฟอยู่พื้น เลยลงมานอนบนพื้น อีควาย ไฟจะดูดกูมั้ย เสียบชาร์จไฟก็แลบออกมา อีเหี้ยยย,0,3,0
8,11,899583996383776769,กูมันโง่เองที่ยังเชื่อคำสัญญาบ้าบอของคนคนนึงอยู่...\n...กูนี้มันควายจริงๆ #😏,0,3,0
9,12,898919256288501762,ควายมันอยู่บนดินไง มันบินไม่ได้,0,3,0


In [30]:
tweets_df['Text'] = tweets_df['Text'].str.replace('@([^ ]+)|#([^ ]+)|https.*|[a-zA-Z./0-9]|[^ก-๏\s.]','', regex=True)
tweets_df['Text'] = tweets_df['Text'].str.replace('\n',' ', regex=True)
tweets_df['Text'] = tweets_df['Text'].str.strip()

In [31]:
tweets_df.head(40)

Unnamed: 0.1,Unnamed: 0,tweet_id,Text,toxic_votes,nontoxic_votes,is_toxic
0,0,898576382384418817,วันๆ นี่คุยกะหมา แมว หมู ไก่ ม้า ควาย มากกว่าคุยกับคนไปละ,0,3,0
1,2,899587505493692417,หล่อมากกก หล่อวัวตายควายล้มกันเลยทีเดียวววว,0,3,0
2,3,898920493763280897,สิวเหี้ยไรขึ้นหลังหู เสียชาติเกิดมั้ย เกิดมามันต้องต้องโดดเด่นเด้งดึ๋งอย่าเช่นขึ้นที่หน้าไรงี้ อีควาย,0,3,0
3,4,896808964326694912,อ่ะ ป่วยก็ป่วย งานจ้างก็ต้องทำ งานเรียนก็ต้องทำ วิชาดีไซน์ตัวร้ายกับควายอย่างกูเอง,0,3,0
4,6,896808093949976576,นี่ก็เพิ่งรู้ว่า เกิดชาตินี้ชาติเดียว เป็นทั้ง เหี้ย เป็นทั้ง ควาย เลย คุ้มแท้ๆ,2,1,1
5,7,898919574413783041,โว้ยอีควาย หนักกว่ากูก็มึงอะ,2,1,1
6,8,899584228056281088,ขอโทษ นะครับ อยากได้ควายให้ไปคบกับคนอื่นนะ พอดีกูคนไม่ใช่ควาย,3,0,1
7,9,898919452036653056,ปลั๊กไฟอยู่พื้น เลยลงมานอนบนพื้น อีควาย ไฟจะดูดกูมั้ย เสียบชาร์จไฟก็แลบออกมา อีเหี้ยยย,0,3,0
8,11,899583996383776769,กูมันโง่เองที่ยังเชื่อคำสัญญาบ้าบอของคนคนนึงอยู่ กูนี้มันควายจริงๆ,0,3,0
9,12,898919256288501762,ควายมันอยู่บนดินไง มันบินไม่ได้,0,3,0


In [262]:
tweets_df = tweets_df[tweets_df['Text'].str.match('.+[a-zA-Z]') == False]

In [263]:
tweets_df = tweets_df[tweets_df['Text'].str.match('^[ก-๏\s.]+$') == True]

In [264]:
tweets_df.head(50)

Unnamed: 0.1,Unnamed: 0,Datetime,Tweet Id,Text,Username
0,0,2021-10-30 23:49:15+00:00,1454596289916641281,ยังไม่ได้นอน เวรทุเรศทุรัง,koyteera
1,1,2021-10-30 23:46:38+00:00,1454595632946049033,ทุเรศมาก อีสัด รพ.เอกชนแบ่งให้ประชาชนจองกี่รพ แล้วมึงก็เสนอหน้ามาเสนอจองตัดหน้าคนอื่นอะ,meowhunhun94
2,2,2021-10-30 23:45:52+00:00,1454595437923426304,น่ากลัว ทุเรศมากกกก,269zann
3,3,2021-10-30 23:43:40+00:00,1454594883813998593,โห้เห็นแล้วจะอ้วกกชั้นไม่อยากให้พิเจนมาเห็นอะไรทุเรศๆแบบนี้อ่ะ,krysxpp2
4,4,2021-10-30 23:35:22+00:00,1454592797529440256,ทุเรศ,bpsms_
6,6,2021-10-30 23:16:05+00:00,1454587943738228737,ทุเรศตั้งแต่ต้องจ่ายตังฉีดวัคซีนละอห ประเทศหัวคย,MaDMSU_603
7,7,2021-10-30 23:13:36+00:00,1454587317486718977,ไทม์โซนทุเรศ,yinhasdin
8,8,2021-10-30 23:11:15+00:00,1454586727595532290,ทุเรศมากอีสัส,na_jaemin_10
9,9,2021-10-30 23:06:02+00:00,1454585415239823363,ทุเรศเกินไปป่ะคะ,khimTF
13,13,2021-10-30 22:39:41+00:00,1454578781855748098,ทุเรศมากกก คิดได้ไงก่อน อิวายจีอย่าปล่อยเบลอนะอิสัสมึงต้องเอาเรื่องให้ถึงที่สุด,poohhsiri


In [265]:
tweets_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2796 entries, 0 to 4645
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  2796 non-null   int64 
 1   Datetime    2796 non-null   object
 2   Tweet Id    2796 non-null   int64 
 3   Text        2796 non-null   object
 4   Username    2796 non-null   object
dtypes: int64(2), object(3)
memory usage: 131.1+ KB


In [32]:
tweets_df.to_csv('Thai_Toxicity_Tweet_Corpus_clean.csv', encoding='utf-8-sig')