# Data Collection

<i>Data Collection</i> adalah proses pengumpulan sejumlah data yang banyak.
Pada proses <i>Data Collection</i>, kita dapat menggunakan berbagai macam tools atau software misalanya menggunakan Web Data Collection Tool : [import.io](https://www.import.io/) 
<br><br>
Pada praktikum kali ini, dengan menggunakan bahasa python untuk melakukan pengkoleksian data.

### 1. Twitter
Pada pengambilan data tweet di twitter memanfaatkan <i>Application Programming Interface</i> (API) dari Twitter yang bersifat <i>open source</i>.

#### a. Register App
Lakukan register app di [sini](http://apps.twitter.com). 
Pastikan mendapatkan <i>Consumer Key (API Key), Consumer Secret (API Secret), Access Token,</i> dan <i>Access Token Secret </i>.

#### b. Install Tweepy (Python Library for Accessing Twitter-API)
Untuk meng-install dapat menggunakan <u>pip install tweepy</u>.
Dokumentasi mengenai tweepy bisa diakses di [sini](http://docs.tweepy.org/en/v3.5.0/)


#### c. OAuth
Lakukan inisialisasi untuk melakukan OAuth pada API Twitter

In [None]:
import tweepy
from tweepy import OAuthHandler
 
consumer_key = 'CONSUMER KEY'
consumer_secret = 'CONSUMER SECRET'
access_token = 'ACCESS TOKEN'
access_secret = 'ACCESS SECRET'
     
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
 
api = tweepy.API(auth)

Variable <u>api</u> akan menjadi gerbang untuk akses pada API Twitter.

- Berikut ini adalah salah satu contoh yang digunakan untuk menampilkan 10 items tweet pada <u>home timeline</u>.

In [None]:
from tweepy import Cursor

i = 1
for status in Cursor(api.home_timeline).items(10):
    # Process a single status
    print(i, status.text)
    i+=1

- Menampilkan atribut dari satu tweet

In [None]:
for status in Cursor(api.home_timeline).items(1):
    # Process a single status
    print(status)

Bisa juga kita meletakkan file hasil <i>crawling</i> pada suatu file <i>json, csv, txt, dll</i>

- JSON

In [None]:
import json

with open('home_timeline_35.json', 'w') as f:
    for status in Cursor(api.home_timeline).items(2):
        # Process a single status
        f.write(json.dumps(status._json)+"\n")

- CSV

In [None]:
import csv

csvFile = open('home_timeline_35.csv', 'w')
csvWriter = csv.writer(csvFile)

row = [ "user", "text" ]
csvWriter.writerow(row)

for tweet in tweepy.Cursor(api.home_timeline).items(2):
    #Write a row to the csv file/ I use encode utf-8
    csvWriter.writerow([tweet.user.screen_name, tweet.text.encode('utf-8')])
csvFile.close()

- TXT

In [None]:
import sys

with open('home_timeline_35.txt', 'w') as txt:
    for status in Cursor(api.home_timeline).items(2):
        # Process a single status
        txt.write(status.user.screen_name + "\n")

#### d. Twitter Streaming
Pada proses ini kita mendapatkan data dengan melakukan stream langsung untuk pengambilan tweet.


In [None]:
from tweepy import Stream

class MyStreamListener(tweepy.StreamListener): 
    def on_data(self, kicau):
        print(kicau)
 
    def on_error(self, status_code):
        if status_code == 420:
            #returning False in on_data disconnects the stream
            return False
        
myStream = tweepy.Stream(auth = api.auth, listener = MyStreamListener())

myStream.filter(track=['python'], async=True)

### 2. Wikipedia
Wikipedia juga menyediakan API untuk mengakses/mengambil data yang kita butuhkan.

#### a. Install Library Wikipedia
Untuk meng-install menggunakan <u>pip install wikipedia</u>. Untuk dokumentasi bisa diakses di [sini](https://wikipedia.readthedocs.io/en/latest/quickstart.html)

In [None]:
import wikipedia

wikipedia.set_lang("id")

- Search

In [None]:
print (wikipedia.search("Semarang"))

- Suggest

In [None]:
print (wikipedia.suggest("Semarng"))

- Summary

In [None]:
print (wikipedia.summary("Semarang", sentences=1))

- Page

In [None]:
page = wikipedia.page("Semarang")

print (page.title)
print (page.url)
print (page.content)

- Images & Links

In [None]:
print (page.images[0])
print (page.links[0])
print (page.categories)

- Geosearch

In [None]:
print (wikipedia.geosearch(-6.966667, 110.41666699999996))

### 3. Foursquare 

#### a. Register app
Lakukan register app di [sini](https://id.foursquare.com/developers/). Pastikan mendapatkan <i>Client ID</i> dan <i>Client Secret</i>

#### b. Install Foursquare
Install menggunakan <u>pip install foursquare</u>. Untuk link github bisa menuju ke [sini](https://github.com/mLewisLogic/foursquare) dan untuk dokumentasi bisa dibaca di [sini](https://developer.foursquare.com/docs/)

#### c. Inisialisasi
Untuk melakukan inisialisasi, seperti biasa lakukan <b>import foursquare</b>. Pada API foursquare, untuk mengakses terdapat 2 buah cara:
1. Userless Access<br>
Pada Userless Access, disini kita tidak memerlukan <b>access token</b> untuk mengakses API. Tetapi, hanya bisa mengakses API yang tanpa melibatkan <i>user</i> karena tidak melakukan user auth untuk mendapatkan <b>access token</b>. Sehingga hanya bisa mengakses API secara umum, seperti pencarian <i>venues</i>

2. Authenticated User Access<br>
Lebih lengkap dalam mengakses API, karena sudah melakukan user auth dan mendapatkan <b>access token</b>

Pada praktikum ini, menggunakan cara <b>Userless Access</b> karena nantinya disini hanya diajarkan mendapatkan review dari suatu <i>venues</i>

In [None]:
import foursquare

client_id = "CLIENT ID"
client_secret = "CLIENT SECRET"

client = foursquare.Foursquare(client_id, client_secret)

- Mendapatkan detail user<br>
Untuk mendapatkan <b>id_user</b>, terdapat pada https://id.foursquare.com/settings 

In [None]:
client.users('ID USER')

- Mendapatkan detail dari venues<br>
Untuk mendapatkan <b>venue id</b> bisa dilihat di url saat mengakses sebuah venue di web. Misalkan pada venue Toko Pelangi https://id.foursquare.com/v/pelangi/4c73518c376da09361e9a8c6

In [None]:
client.venues('40a55d80f964a52020f31ee3')

- Mendapatkan review dari user<br>
Disini mendapatkan semua review user dari venue Pelangi. Hasil keluaran ber-format JSON

In [None]:
client.venues.tips('4c73518c376da09361e9a8c6', params={'limit': 500})

- Menyimpan hasil review pada JSON

In [None]:
import json

with open('review_pelangi_35.json', 'w') as f:
    status = client.venues.tips('4c73518c376da09361e9a8c6', params={'limit': 500})
    f.write(json.dumps(status))

- Menyimpan hasil review pada CSV

In [None]:
import csv

status = client.venues.tips('4c73518c376da09361e9a8c6', params={'limit': 500})
count = status["tips"]["count"]

csvFile = open('review_pelangi_35.csv', 'w', newline='', encoding='utf8')
csvWriter = csv.writer(csvFile)

row = [ "nomer", "nama depan", "nama belakang" "text" ]
csvWriter.writerow(row)

for i in range(count):
    # untuk melakukan cek apakah Key lastName ada pada json
    if("lastName" in status["tips"]["items"][i]["user"]):
        nama_belakang = status["tips"]["items"][i]["user"]["lastName"]
    else:
        nama_belakang = ''
    nama_depan = status["tips"]["items"][i]["user"]["firstName"]
    text = status["tips"]["items"][i]["text"]
    
    csvWriter.writerow([i, nama_depan, nama_belakang, text])
csvFile.close()

### 4. Facebook
Facebook juga menyediakan API untuk mengambil data. Namun, memiliki keterbatasan pada API-nya

#### a. Register App
Lakukan register app di [sini](https://developers.facebook.com). Untuk mendapatkan access token dari Graph API Explorer bisa menuju ke [sini](https://developers.facebook.com/tools-and-support/). Saat ini kita akan menggunakan access token melalui [sini](https://developers.facebook.com/tools/explorer/145634995501895/)
#### b. Install facebook library
Untuk meng-install dapat menggunakan <u>pip install facebook-sdk</u>. Dokumentasi mengenai library facebook bisa diakses di [sini](https://pypi.python.org/pypi/facebook-sdk)

#### c. Inisialisasi 

In [None]:
import facebook
import json

token = 'ACCESS TOKEN'

graph = facebook.GraphAPI(token, version='2.4')

- Mendapatkan post facebook : disini mendapatkan post facebook pada status [berikut](https://www.facebook.com/yasirabdr/posts/10202364671435487?comment_id=10202365367372885&notif_t=feed_comment&notif_id=1477468971875752)
<br>
Id <b>1753611558_10202364671435487</b>, artinya <b>1753611558</b> adalah user_id dan <b>10202364671435487</b> adalah post_id
<br>
Untuk mendapatkan user_id bisa melalui [sini](http://findmyfbid.com/)

In [None]:
post = graph.get_object(id='1753611558_10202364671435487')
print(post['message'])

- Mendapatkan jumlah attending event : disini mendapatkan dari event facebook [berikut](https://www.facebook.com/events/152338271896393/permalink/152339035229650/?notif_t=event_mall_reply&notif_id=1477479240069992)
<br>
Id <b>152338271896393</b> merupakan event_id.

In [None]:
event = graph.get_object(id='152338271896393', fields='attending_count,declined_count')
print(event['attending_count'])
print(event['declined_count'])

- Mendapatkan jumlah teman

In [None]:
# Get all of the authenticated user's friends
friends = graph.get_connections(id='me', connection_name='friends')

print(json.dumps(friends, indent=4))

- Melakukan comment pada post facebook : disini melakukan comment post facebook pada status [berikut](https://www.facebook.com/yasirabdr/posts/10202364671435487?comment_id=10202365367372885&notif_t=feed_comment&notif_id=1477468971875752)
<br>
Id <b>1753611558_10202364671435487</b>, artinya <b>1753611558</b> adalah user_id dan <b>10202364671435487</b> adalah post_id

In [None]:
graph.put_object(parent_object='1753611558_10202364671435487', connection_name='comments',message='Tes API!')

- Melakukan update status pada wall

In [None]:
# put_wall_post
attachment =  {
    'name': 'Link name',
    'link': 'https://www.example.com/',
    'caption': 'Check out this example',
    'description': 'This is a longer description of the attachment',
    'picture': 'https://www.example.com/thumbnail.jpg'
}

graph.put_wall_post(message='Check this out...', attachment=attachment)

- Melakukan comment pada post facebook

In [None]:
# put_comment
graph.put_comment(object_id='1753611558_10202364671435487', message='Great post...')

- Melakukan 'like' pada object tertentu, misal : comment post facebook [berikut](https://www.facebook.com/yasirabdr/posts/10202364671435487?comment_id=10202365367372885&notif_t=feed_comment&notif_id=1477468971875752)

In [None]:
# put_like
graph.put_like(object_id='10202365367372885')

- Mendapatkan post dari facebook kita dengan atribut tertentu

In [None]:
import requests

posts = graph.get_connections('me', 'posts', fields='message,created_time,description,caption,link,place,status_type,shares')
while True:  # keep paginating
    try:
        with open('my_posts_35.json', 'a') as f:
            for post in posts['data']:
                f.write(json.dumps(post)+"\n")
            # get next page
            posts = requests.get(posts['paging']['next']).json()
    except KeyError:
        # no more pages, break the loop
        break

- Mendapatkan profile facebook

In [None]:
profile = graph.get_object("me", fields='name,location{general_info,location},languages{name,description}')
print(json.dumps(profile, indent=4))

### 5. Instagram


Instagram juga menyediakan API untuk mengambil data. Namun, memiliki keterbatasan pada API-nya.

#### a. Register App
Lakukan register app di [sini](https://www.instagram.com/developer/). Untuk mendapatkan access token melalui link [sini](https://instagram.com/oauth/authorize/?client_id=[CLIENT_ID_HERE]&redirect_uri=http://localhost&response_type=token) dengan terlebih dahulu mendefinisikan pada app client redirect uri-nya.
<br><br>
Pastikan juga redirect uri yang terdapat pada app dan link di atas sama.

#### b. Install instagram library
Untuk meng-install dapat menggunakan <u>pip install python-instagram</u>. Dokumentasi mengenai library instagram bisa diakses pada github di [sini](https://github.com/facebookarchive/python-instagram). Walaupun library-nya sepertinya sudah tidak di-update lagi.

- Inisialisasi

In [None]:
from instagram.client import InstagramAPI

access_token = 'ACCESS TOKEN'
client_secret = 'CLIENT SECRET'
api = InstagramAPI(access_token=access_token, client_secret=client_secret)

### Catatan
Jika mendapatkan error <i>KeyError : 'data'</i>. Lakukan langkah berikut:
1. Buka file <b>models.py</b> pada Anaconda, misalnya C:\Users\yasir\Anaconda3\Lib\site-packages\instagram
2. Kemudian pada line 99-101 tambah kode berikut ini

<b>PASTIKAN</b> indentasi benar dengan jumlah tab selebar 4 spaces.

- Mendapatkan caption
<br>
Angka <b>1397096926</b> merupakan user_id. Untuk mendapatkan user_id bisa melalui [ini](https://smashballoon.com/instagram-feed/find-instagram-user-id/)

In [None]:
recent_media, next_ = api.user_recent_media(user_id="1397096926", count=10)
for media in recent_media:
    print(media.caption.text)

- Mendapatkan user yang terdaftar pada app

In [None]:
api.user(1397096926)

- Mendapatkan media yang disukai

In [None]:
api.user_liked_media()

- Mendapatkan detail user

In [None]:
user = api.user_search('yasirabdr')
my_usr = user[0]
print ('User id is', my_usr.id, 'and name is ', my_usr.username)

- Mendapatkan request masuk

In [None]:
api.user_incoming_requests()

- Melakukan follow user (hanya bisa pada user yang terdapat di app)

In [None]:
api.follow_user(user_id=1397096926)

- Melakukan unfollow user (hanya bisa pada user yang terdapat di app)

In [None]:
api.unfollow_user(user_id=1397096926)

- Menampilkan comment pada post
<br>
Id <b>1372565131599223982_1397096926</b> merupakan media_id yang terdapat pada post [berikut](https://www.instagram.com/p/BMMVLcMDxyu/)
<br>
Untuk mendapatkan media_id gunakan url [berikut](https://api.instagram.com/oembed/?url=https://www.instagram.com/p/BMMVLcMDxyu/)
<br>
Untuk mendapatkan media_id yang lain, tinggal mengganti url-nya saja

In [None]:
api.media_comments(media_id='1372565131599223982_1397096926')

- Menuliskan comment

In [None]:
api.create_media_comment(media_id='1372565131599223982_1397096926', text='this is my comment!')

- Melakukan like

In [None]:
api.like_media(media_id='1372565131599223982_1397096926')

- Melakukan unlike

In [None]:
api.unlike_media(media_id='1372565131599223982_1397096926')

### 6. Scrapping pada web ecommerce (Amazon) 
Melakukan scrapping adalah melakukan ekstraksi informasi pada suatu website. Pada proses scrapping yang digunakan kali ini menggunakan library python yaitu [Scrapy](https://scrapy.org/). Scrapy adalah framework untuk melakukan ekstraksi data pada web.

## Error  = Gagal Install Scrapy

#### a. Install Scrapy
Cara mudah untuk melakukan install menggunakan <u>pip install Scrapy</u>

### Catatan
Jika gagal melakukan install dan mendapatkan <i>error : Microsoft Visual C++ 14.0 is required</i>. Maka lakukan install dengan men-download di [sini](http://landinghub.visualstudio.com/visual-cpp-build-tools). 

#### b. Get Started with Scrapy
Untuk memulai kita terlebih dahulu membuat sebuah projek baru melalui <b>console</b> dengan terlebih dahulu mengarahkan ke folder tujuan
<br><br><b><pre>scrapy startproject bukalapak</pre></b><br>
Dengan melakukan hal tersebut, maka otomatis akan menghasilkan seperti berikut:
<br><b>
<pre>bukalapak/
    scrapy.cfg
   bukalapak/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
</pre>
</b><br>
Scrapy adalah <b>Object Oriented</b> programming dalam mendefinisikan item dan spider. Berikut penjelasan dari tiap item
- <b>scrapy.cfg</b><br> 
It is a project configuration file which contains information for setting module for the project along with its deployment information.<br><br>
- <b>bukalapak</b> : application directory
<br><br>
- <b>items.py</b><br>
Items are containers that will be loaded with the scraped data; they work like simple <b>Python dicts</b>. While one can use plain Python dicts with Scrapy, Items provide additional protection against populating undeclared fields, preventing typos. They are declared by creating a <b>scrapy.Item</b> class and defining its attributes as <b>scrapy.Field</b> objects.
<br><br>
- <b>pipelines.py</b><br>
After an item has been scraped by a spider, it is sent to the Item <b>Pipeline</b> which processes it through several components that are executed sequentially.Each item pipeline component is a Python class which has to implement a method called <b>process_item</b> to process scraped items. It receives an item and performs an action on it, also decides if the item should continue through the pipeline or should be dropped and and not processed any longer. If it wants to drop an item then it raises <b>DropItem</b> exception to drop it.
<br><br>
- <b>settings.py</b> : <br>
It allows one to customise the behaviour of all Scrapy <b>components</b>, including the core, extensions, pipelines and spiders themselves. It provides a global namespace of key-value mappings that the code can use to pull configuration values from.
<br><br>
- <b>spiders</b> : <br>
Spiders is a directory which contains all <b>spiders/crawlers</b> as Python classes. Whenever one runs/crawls any spider then scrapy looks into this directory and tries to find the spider with its name provided by user. Spiders define how a certain site or a group of sites will be scraped, including how to perform the crawl and how to extract data from their pages. In other words, Spiders are the place where one defines the custom behavior for crawling and parsing pages for a particular site.Spiders have to define three major attributes i.e <b>start_urls</b> which tells which URLs are to be scrapped, <b>allowed_domains</b> which defines  only those domain names which need to scraped and <b>parse</b> is a method which is called when any response comes from lodged requests. These attributes are important because these constitute the base of Spider definitions.

#### c. Lets Scrap
Dalam melakukan scrapping terdapat 3 hal yang perlu dilakukan yaitu:
1. Melakukan update <b>items.py</b> dengan mengisi field yang akan di extract.
2. Membuat sebuah <b>Spider</b> baru untuk mendefinisikan <b>allowed_domains, start_urls, parse</b> method
3. Melakukan update <b>pipelines.py</b> untuk data processing lebih jauh.

Sekarang ayo kita melakukan scrapping.

- Update <b>items.py</b>
<br>
Update file <b>items.py</b> menggunakan notepad dengan kode di bawah ini

- Create new <b>Spider</b>
Untuk membuatnya, kita bisa menggunakan default utility <b>genspider</b>. Lakukan hal tersebut pada <b>console</b>. Untuk melakukan hal ini terlebih dahulu masuk ke dalam directory <b>bukalapak</b> dengan perinyah <b>cd bukalapak</b>
<br><br><b><pre>
scrapy genspider BukalapakProductSpider bukalapak.com
</pre></b><br>

- Update <b>BukalapakProductSpider.py</b>

- Pipeline<br>
Pipeline classes implement <b>process_item</b> method which is called each and every time whenever items is being yielded by a Spider. It takes <b>item</b> and <b>spider</b> class as arguments and returns a <b>dict</b> object. So for this example, we are just returning item dict as it is.
<br><br>
Untuk menggunakan <b>pipeline</b> terlebih dahulu melakukan enable pada <b>settings.py</b>

- Melakukan <b>crawling</b>
Untuk melakukan crawing dan menyimpannya pada sebuah file json, gunakan perintah berikut
<br><br><b>scrapy crawl BukalapakDeals -o items.json</b><br><br>
Berikut output yang dihasilkan pada <b>items.json</b>