# Facebook Data Crawling
In this notebook, we will be crawling data from Facebook using the Facebook Graph API. We will be using the facebook-scraper

## Install the required library
We will be using the facebook-scraper library to crawl data from Facebook. We will install this library using pip.

In [1]:
%pip install facebook_scraper pandas numpy

^C
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: C:\Users\khanh\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip




In [None]:
from facebook_scraper import get_posts
import pandas as pd
import numpy as np

## Crawl the data using facebook_scraper
Now we can get the data from Facebook using the facebook_scraper library. We will be using the get_posts function to get the posts from the fanpage. This function will return a list of dictionaries, where each dictionary represents a post. We will be saving this list of dictionaries to a json file. More information about what you can do with the facebook_scraper library can be found here: https://github.com/kevinzg/facebook-scraper

## Define variables
First we have to define some variables that we will be using throughout the notebook. 
- FANPAGE_LINK: The link to the fanpage that we want to crawl data from. This can be found by going to the fanpage and copying the link from the address bar. For example, the link to the fanpage of the [Nintendo Switch](https://www.facebook.com/NintendoSwitch/) is https://www.facebook.com/NintendoSwitch/. We will be using this link as the value for FANPAGE_LINK.

- COOKIE_PATH: The path to the cookie file that we will be using to authenticate with Facebook. This cookie file can be obtained by logging into Facebook and copying the cookie from the browser. For example, in Chromium, use extension [Get cookies.txt LOCALLY](https://chrome.google.com/webstore/detail/get-cookiestxt/bgaddhkoddajcdgocldbbfleckgcbcid) to get the cookie file. Then save the cookie to a file and use the path to this file as the value for COOKIE_PATH. <span style="color:red; font-weight:bold">USE COOKIE FROM A FAKE ACCOUNT, OTHERWISE YOUR REAL ACCOUNT MIGHT GET BANNED.</span>.


- FOLDER_NAME: The name of the folder that we will be saving the data to. This folder will be created in the same directory as this notebook.

In [None]:
FANPAGE_LINK ="HondaVietnam"
FOLDER_PATH = "Data/"
COOKIE_PATH = "./cookies.txt"

PAGES_NUMBER = 10 # Number of pages to crawl

In [None]:
post_list = []
for post in get_posts(FANPAGE_LINK,
                    options={"comments": True, "reactions": True, "allow_extra_requests": True},
                    extra_info=True, pages=PAGES_NUMBER, cookies=COOKIE_PATH):
    print(post)
    post_list.append(post)

{'post_id': '915315276619974', 'text': '⌛ CHẶNG 6 - ARRC 2023: THỬ THÁCH CUỐI CÙNG ⌛\n\n🏁 Chặng 6 sẽ là chặng khép lại mùa giải ARRC 2023, hứa hẹn sẽ mang đến cho khán giả những cuộc đua đầy kịch tính và hấp dẫn. Các fan tốc độ hứa hẹn sẽ được chứng kiến những màn tranh tài nảy lửa, cùng vô vàn tình huống bất ngờ đầy mà các tay đua tạo ra. Chắc chắn bạn sẽ không thể rời mắt khỏi những khoảnh khắc đầy kịch tính sắp diễn ra!\n📝 Thông tin chặng 6:\n📌 Trường đua quốc tế Chang, Thái Lan\n🕐 Thời gian: 2-3.12.2023\n📺 Livestream trực tiếp cuộc đua vào lúc 12:30 thứ 7 và chủ nhật tuần này trên Fanpage Vietnam Motor Racing và Honda Việt Nam!\n\n#Honda #HondaRacingVietnam #ARRC #AsiaPower\n-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\\-\nCác trang chính thức của Công ty Honda Việt Nam:\n1. Thông tin chung của Công ty Honda Việt Nam: https://www.facebook.com/HondaVietnam/\n2. Cộng đồng Honda Winner 150: https://www.facebook.com/hondawinner\n3. Xe phân khối l



{'post_id': '909983323819836', 'text': 'HỘI THI NHÂN VIÊN BÁN HÀNG XUẤT SẮC 2023 ĐÃ TỚI MIỀN TRUNG 🎊🎊\n\n❤️Ngày 17/11/2023, tại thành phố biển Nha Trang, 25 thí sinh khu vực miền Trung đã bước vào vòng thi thứ 3 của Hội thi nhân viên bán hàng xuất sắc. Họ đã mang đến 25 phần thi ngang tài ngang sức và vô cùng xuất sắc.\n❤️Sau Nha Trang, thành phố Hạ Long sẽ chờ đón 43 thí sinh cuối cùng thuộc miền Bắc tham dự vòng khu vực của Hội thi. Chúc các bạn thí sinh ôn tập thật tốt, chuẩn bị tâm lý thật vững vàng, 100% sẵn sàng cho ngày 22/11/2023 này nhé!✌️✌️✌️\n🚩Hội thi Nhân viên Bán hàng xuất sắc được tổ chức bởi HVN từ năm 2015 nhằm khích lệ tinh thần không ngừng học hỏi, trau dồi kiến thức để phục vụ khách hàng ngày một tốt hơn của các Nhân viên Bán hàng tại các HEAD trên toàn quốc.\n🚩 Năm nay, Hội thi có 4 vòng thi: Vòng thi sơ loại tại HEAD; Vòng thi sơ loại HVN; Vòng Khu vực; Vòng Chung kết toàn quốc. Trong tháng 11 này, top 100 thí sinh sẽ tham dự vòng thi khu vực, được tổ chức tại ba m

TemporarilyBanned: You’re Temporarily Blocked

## Convert list of dicts to df

Now we can convert the list of dictionaries to a pandas dataframe. We will be using the pandas library to do this. We will also be saving the dataframe to a xlxs or csv file.

In [None]:
# Initialize dataframe to scrape Facebook post
post_df_full = pd.DataFrame(columns=post_list[0].keys(), index=range(len(post_list)), data=post_list)

# To df
path=FOLDER_PATH + FANPAGE_LINK + ".csv"
post_df_full.to_csv(path, index=False)
print(path)

Data/HondaVietnam.csv


In [None]:
post_df_full

Unnamed: 0,post_id,text,post_text,shared_text,original_text,time,timestamp,image,image_lowquality,images,...,w3_fb_url,reactions,reaction_count,with,page_id,sharers,image_id,image_ids,was_live,fetched_time
0,915321933285975,🛎 Ting ting! Bạn có 01 thông báo quan trọng từ...,🛎 Ting ting! Bạn có 01 thông báo quan trọng từ...,,,2023-11-28 19:00:12,1701172812,,https://scontent.fhan14-1.fna.fbcdn.net/v/t15....,[],...,https://www.facebook.com/HondaVietnam/posts/91...,{'thích': 5},5,,453582431466467,,,[],False,2023-11-28 19:24:56.920509
1,914821673336001,CÙNG NGẮM LẠI KHOẢNH KHẮC ĐA MODE - ĐA TRẢI NG...,CÙNG NGẮM LẠI KHOẢNH KHẮC ĐA MODE - ĐA TRẢI NG...,,,2023-11-27 21:05:14,1701093914,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://scontent.fhan14-1.fna.fbcdn.net/v/t39...,...,https://www.facebook.com/HondaVietnam/posts/91...,"{'thích': 76, 'yêu thích': 6, 'haha': 1, 'thươ...",84,,453582431466467,,,[],False,2023-11-28 19:25:13.598426
2,914636496687852,CR-V e:HEV hoàn toàn mới\nÊm ái vận hành - tự ...,CR-V e:HEV hoàn toàn mới\nÊm ái vận hành - tự ...,,,2023-11-27 19:00:05,1701086405,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://scontent.fhan14-1.fna.fbcdn.net/v/t39...,...,https://www.facebook.com/HondaVietnam/posts/91...,"{'thích': 442, 'yêu thích': 8}",450,,453582431466467,,,[],False,2023-11-28 19:25:24.145356
3,914595823358586,Honda Racing Vietnam: Hướng Đến Bục Vinh Quang...,Honda Racing Vietnam: Hướng Đến Bục Vinh Quang...,,,2023-11-27 13:00:00,1701064800,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://scontent.fhan14-1.fna.fbcdn.net/v/t39...,...,https://www.facebook.com/HondaVietnam/posts/91...,"{'thích': 40, 'yêu thích': 1}",41,,453582431466467,,,[],False,2023-11-28 19:25:40.749122
4,913630230121812,"🎉️🎉 SỰ KIỆN LỚN NHẤT NĂM ĐANG ĐẾN, SẴN SÀNG QU...","🎉️🎉 SỰ KIỆN LỚN NHẤT NĂM ĐANG ĐẾN, SẴN SÀNG QU...",,,2023-11-26 19:00:37,1701000037,,https://scontent.fhan14-1.fna.fbcdn.net/v/t15....,[],...,https://www.facebook.com/HondaVietnam/posts/91...,"{'thích': 102, 'yêu thích': 11}",113,,453582431466467,,,[],False,2023-11-28 19:25:49.904609
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,881651693319666,,,,,2023-09-25 21:56:01,1695653761,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://scontent.fhan14-1.fna.fbcdn.net/v/t39...,...,,,0,,453582431466467,,,[],False,NaT
196,881442553340580,,,,,2023-09-25 21:00:01,1695650401,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://scontent.fhan14-1.fna.fbcdn.net/v/t39...,...,,,0,,453582431466467,,,[],False,NaT
197,881441330007369,ĐÂU CẦN ĐẾN TẾT MỚI ĐOÀN VIÊN!🌝\n\nCần gì đến ...,ĐÂU CẦN ĐẾN TẾT MỚI ĐOÀN VIÊN!🌝\n\nCần gì đến ...,,,2023-09-25 13:00:05,1695621605,https://m.facebook.com/photo/view_full_size/?f...,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://m.facebook.com/photo/view_full_size/?...,...,,,0,,453582431466467,,881443570007145,[881443570007145],False,NaT
198,880179590133543,,,,,2023-09-25 08:00:00,1695603600,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,https://scontent.fhan14-1.fna.fbcdn.net/v/t39....,[https://scontent.fhan14-1.fna.fbcdn.net/v/t39...,...,,,0,,453582431466467,,880179476800221,[880179476800221],False,NaT
