# Scraping Data Twitter berdasarkan User yang Terseleksi

# Library yang Dibutuhkan

Dalam melakukan proses scraping data dari Twitter digunakan beberapa library berikut:

1. Library Twint : Digunakan untuk melakukan proses scraping data dari twitter. 
Dapat dilihat di tautan https://pypi.org/project/twint/
2. Library Nest_Asyncio : Digunakan untuk menangaani error saat proses looping ketika proses scraping data dari Twitter. 
Dapat dilihat di tautan https://pypi.org/project/nest-asyncio/

**Proses install Library Twint**

In [1]:
!pip install twint 
#!pip install --user --upgrade git+https://github.com/yunusemrecatalcam/twint.git@twitter_legacy2
!pip install --user --upgrade -e git+https://github.com/twintproject/twint.git@origin/master#egg=twint

Obtaining twint from git+https://github.com/twintproject/twint.git@origin/master#egg=twint
  Updating ./src/twint clone (to revision origin/master)
  Running command git fetch -q --tags
  Running command git reset --hard -q origin/master
Installing collected packages: twint
  Attempting uninstall: twint
    Found existing installation: twint 2.1.21
    Uninstalling twint-2.1.21:
      Successfully uninstalled twint-2.1.21
  Running setup.py develop for twint
Successfully installed twint


**Proses install Library Nest_asyncio**

In [2]:
!pip install nest_asyncio



# Proses Scraping Data Twitter

**Proses Import Library**

Pertama, lakukan import library yang dibutuhkan berikut:

In [3]:
#import libraries
import twint
import nest_asyncio 
import os
import pandas as pd
import numpy as np
import glob

Setelah itu, lakukan penanganan untuk mengatasi error looping saat melakukan proses scraping data dengan library **nest_asyncio**

In [4]:
#eksekusi library nest_asyncio
nest_asyncio.apply()

Deklarasi function untuk konversi tuple ke string

In [5]:
def convertTuple(string): 
    str =  ''.join(string) 
    return str

**Konfigurasi dan proses scraping data dari Twitter**

In [6]:
latitude    = '-6.216657128974757'
longitude   = '106.83030289065285'
radius      = '10km'

Pemanggilan function general_twitter_scraping() untuk melakukan proses scraping data dari Twitter saat sebelum pandemi COVID-19

In [7]:
def profile_twitter_scraping(username, start_date, until_date, latitude, longitude, radius):
    
    #set geocode parameter value from latitude, longitude and radius
    geocode = latitude,',',longitude,',',radius
    geocode_str = convertTuple(geocode).strip()

    #configuration
    config = twint.Config()
    config.Username = username 
    config.Since = start_date
    config.Until = until_date
    config.Stats = True
    config.Count = True
    config.Favorites = True
    config.Profile_full = True
    config.User_full = True
    config.All = True
    config.Store_csv = True
    config.Include_retweets = True
    config.Filter_retweets = "include"
    config.Filter_retweets = True
    config.Retweet = True
    config.Hide_output = False
    config.Native_retweets = True
    config.Pandas = True
    config.Geo = geocode_str
    #config.Output = "/content/data/profile_scraping_result.csv"

    #running search
    twint.run.Profile(config)

    profile = twint.storage.panda.Tweets_df

    return profile

**Mengambil Data Retweet sebelum Pandemi COVID-19**

Membaca file CSV yang berisi data pengguna Twitter yang sudah terseleksi pada periode sebelum COVID-19 kemudian melakukan penyimpanan data ke bentuk object DataFrame

In [None]:
#membaca dan menyimpan username pada dataframe
profile_before_covid_df = pd.read_csv('../data/filter/noncovid/user_after_filter_13122019-13032020.csv')

Melakukan looping ke masing-masing Timeline akun pengguna yang sudah di-scraping datanya untuk mendapatkan data aktivitas Retweet. Data yang digunakan adalah data saat belum terjadi pandemi COVID-19

In [None]:
#deklarasi variabel untuk menyimpan data semua profile
all_profile_before_covid_df = pd.DataFrame()
all_profile_before_covid_df = all_profile_before_covid_df.drop(all_profile_before_covid_df.index, inplace=True)

for index, row in profile_before_covid_df.iterrows():
    del all_profile_before_covid_df
    all_profile_before_covid_df = pd.DataFrame()
    
    try:
        all_profile_before_covid_df = profile_twitter_scraping(row['username'],'2019-12-13','2020-03-14', latitude, longitude, radius)

        if not all_profile_before_covid_df.empty:
            all_profile_before_covid_df = all_profile_before_covid_df.loc[all_profile_before_covid_df['retweet'] == True]

            if not os.path.isfile("../data/filter/noncovid/final_user_after_filter_13122019-13032020.csv"):
                all_profile_before_covid_df.to_csv('../data/filter/noncovid/final_user_after_filter_13122019-13032020.csv')
            else:
                all_profile_before_covid_df = all_profile_before_covid_df.append(all_profile_before_covid_df)
                all_profile_before_covid_df.to_csv('../data/filter/noncovid/final_user_after_filter_13122019-13032020.csv', mode='a', index=True, header=False)
    except:
        pass

Membaca file CSV yang berisi scraping data Twitter pada periode sebelum terjadi COVID-19

In [None]:
#membaca dan menyimpan hasil scrapping data
profile_before_covid_df = pd.read_csv('data/filter/noncovid/final_user_after_filter_13122019-13032020.csv')

**Mengambil Data Retweet saat Pandemi COVID-19**

Membaca file CSV yang berisi data pengguna Twitter yang sudah terseleksi pada periode sebelum COVID-19 kemudian melakukan penyimpanan data ke bentuk object DataFrame

In [8]:
#membaca dan menyimpan username pada dataframe
profile_during_covid_df = pd.read_csv('../data/filter/noncovid/final_user_after_filter_13122019-13032020.csv')

Melakukan looping ke masing-masing Timeline akun pengguna yang sudah di-scraping datanya untuk mendapatkan data aktivitas Retweet. Data yang digunakan adalah data saat terjadi pandemi COVID-19

In [None]:
#deklarasi variabel untuk menyimpan data semua profile
all_profile_during_covid_df = pd.DataFrame()
all_profile_during_covid_df = all_profile_during_covid_df.drop(all_profile_during_covid_df.index, inplace=True)

for index, row in profile_during_covid_df.iterrows():
    del all_profile_during_covid_df
    all_profile_during_covid_df = pd.DataFrame()
    
    try:
        all_profile_during_covid_df = profile_twitter_scraping(row['username'],'2020-03-14','2020-06-14', latitude, longitude, radius)

        if not all_profile_during_covid_df.empty:
            all_profile_during_covid_df = all_profile_during_covid_df.loc[all_profile_during_covid_df['retweet'] == True]

            if not os.path.isfile("../data/filter/covid/final_user_after_filter_14032020-13062020.csv"):
                all_profile_during_covid_df.to_csv('../data/filter/covid/final_user_after_filter_14032020-13062020.csv')
            else:
                all_profile_during_covid_df = all_profile_during_covid_df.append(all_profile_during_covid_df)
                all_profile_during_covid_df.to_csv('../data/filter/covid/final_user_after_filter_14032020-13062020.csv', mode='a', index=True, header=False)
    except:
        pass

Membaca file CSV yang berisi scraping data Twitter pada periode saat terjadi COVID-19

In [None]:
#membaca hasil scrapping data
profile_during_covid_df = pd.read_csv('../data/filter/covid/final_user_after_filter_14032020-13062020.csv)