# โปรแกรมดึงข้อมูลจาก Github

### ลักษณะของโปรแกรม
- ทำการดึงข้อมูลจากแต่ละหมวด(Topic) ในเว็บไซต์ Github 30 หมวดแรก
- ทำการดึงข้อมูลจากแต่ละ Repository ของหมวดนั้นอีกที 30 Reopository โดยเรียงจากดาวมากที่สุดขึ้นก่อน
- บันทึกข้อมูลลงในไฟล์ csv 

### Framework ที่ใช้
- pandas
- requests
- beaurifulsoup4

### อ้างอิง Tutorial
- ปรับแต่งฟังก์ชันมาจากแหล่งการสอนเว็บไซต์นี้ : https://www.youtube.com/watch?v=RKsLLG-bzEY

In [1]:
!pip install requests --upgrade --quiet
!pip install pandas --upgrade --quiet
!pip install beautifulsoup4 --upgrade --quiet

In [2]:
import os
import requests
import pandas as pd
from bs4 import BeautifulSoup

## กำหนดตัวแปรต่างๆ ที่สำคัญได้แก่
- set_header กำหนดค่าให้ server ได้ทราบว่าของมูลของ client เป็นอย่างไร สามารถป้อนกันระบบอาจเข้าใจว่าเราคือ bot ได้นิดนึง
- github_url กำหนดเป็นปลายทางที่ต้องการดึงข้อมูล
- doc เก็บข้อมูล html ที่ดึงมาด้วย bs4

In [12]:
set_header = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
github_url = "https://github.com/topics" 

response = requests.get(github_url, headers = set_header)
page_content = response.text
response.status_code

doc = BeautifulSoup(page_content, 'html.parser')

## ฟังก์ชันสำหรับการทำงานกับหมวดใน Github
- get_topic_title นำเอกสารที่ผ่านการแปลงจาก bs4 เป็นอาร์กิวเมนต์ ผลลัพธ์ที่ได้เป็นชื่อหมวดหมู่ ใน Github
- get_topic_desc นำเอกสารที่ผ่านการแปลงจาก bs4 เป็นอาร์กิวเมนต์ ผลลัพธ์ที่ได้เป็นคำอธิบายของหมวดหมู่ใน Github
- get_topic_url นำเอกสารที่ผ่านการแปลงจาก bs4 เป็นอาร์กิวเมนต์ ผลลัพธ์ที่ได้เป็น url ปลายทางของหมวดหมู่ สามารถคลิกเพื่อข้อไปที่หมวดหมู่นั้นได้เลย
- scrape_topics ไปต้องนำอาร์กิวเมนต์เข้าไปประมวลผล ผลลัพธ์ที่ได้เป็นข้อมูล Dataframe ของหมวดหมู่ทั้งหมด
- list_all_topics ทำการบันทึกข้อมูลหัวข้อ 30 หมวดแรก เป็นไฟล์ csv

In [5]:
def get_topic_title(doc):
    selection_class = "f3 lh-condensed mb-0 mt-1 Link--primary"
    topic_title_tag = doc.find_all('p', {"class" : selection_class})
    topic_title = []
    for tag in topic_title_tag:
        topic_title.append(tag.text)
    return topic_title

def get_topic_desc(doc):
    desc_class = "f5 color-text-secondary mb-0 mt-1"
    topic_desc_tag = doc.find_all('p', {"class" : desc_class})
    topic_desc = []
    for tag in topic_desc_tag:
        topic_desc.append(tag.text.strip())
    return topic_desc

def get_topic_url(doc):
    base_url = "https://github.com"
    url_class = "d-flex no-underline"
    topic_utl_tag = doc.find_all('a', {"class" : url_class})
    topic_url = []
    for tag in topic_utl_tag:
        topic_url.append(base_url + tag["href"])
    return topic_url

def scrape_topics():
    topics_url = "https://github.com/topics"
    response = requests.get(topics_url, headers = set_header)
    
    if response.status_code != 200:
        raise Exception('failed to loadpage'.format( topics_url))
    topic_dict = {
        'title': get_topic_title(doc),
        'description' : get_topic_desc(doc),
        "Link" : get_topic_url(doc)
    }
    return pd.DataFrame(topic_dict)

def list_all_topics():
    scrape_topics().to_csv('All Top Topic.csv', index=None)

## ฟังชั่นสำหรับการแปลงตัวเลข
ทำการแปลงตัวเลขที่ลงท้ายด้วย k ด้วยการคูณ 1,000 เข้าไป

In [6]:
def parse_count_star(stars_str):
    stars_str = stars_str.strip()
    if stars_str[-1] == 'k':
        return int(float(stars_str[:-1]) * 1000) 
    return int(stars_str)

## ฟังก์ชันสำหรับการเข้าถึงเอกสาร Repository
เมื่อเรียกใช้จะได้เอกสารที่ผ่านการแปลงจาก bs4
พารามิเตอร์เป็นตัวเลขของหมวดที่เราต้องการเข้าถึง 
- ดูตัวเลขได้จากลำดับในฟังก์ชัน get_topic_url หรือ หมวดหมู่ที่ได้จากการดึงข้อมูลครั้งก่อน


In [7]:
def get_topic_page(topic_url):
    topic = get_topic_url(doc)[topic_url]
    response = requests.get(topic, headers = set_header)
    
#     check status
    if response.status_code != 200:
        raise Exception('failed to loadpage '.format(topic))
    
#     parsing
    topic_page_doc = BeautifulSoup( response.text, 'html.parser')

    return topic_page_doc

## ฟังก์ชันสำหรับ Repository
- get_repo_info รวบรวมข้อมูลของ Repository ได้แก่ ชื่อผู้ใช้, ชื่อ repo, ดาวที่ได้รับ, การเข้าถึง url
- get_topic_repos ข้อมูล Dataframe ของ repository พารามิเตอร์เป็นตัวเลขของหมวดที่เราต้องการเข้าถึง 
- srape_repo_topic ทำการบันทึกข้อมูล Dataframe เป็นไฟล์ csv แล้วเก็บไว้ในไฟล์ folder ชื่อ file_scraping
- ถ้าหากว่าข้อมูลที่บันทึกตรงกับชื่อไฟล์ที่กำลังจะบันทึกใหม่ ระบบจะไม่บันทึกให้ต้องทำการลบออกก่อน

In [8]:
def get_repo_info(repo_tags, star_tags):
    
    base_repo_url = 'https://github.com'
    
    username = repo_tags.find_all('a')[0].text.strip()
    repo_name = repo_tags.find_all('a')[1].text.strip()
    repo_url = base_repo_url + repo_tags.find_all('a')[1]['href']
    stars = parse_count_star(star_tags.text.strip())
    
    return username, repo_name, stars, repo_url

def get_topic_repos(topic_url):
    topic_repo_doc = get_topic_page(topic_url)
    
    h1_selection_class = 'f3 color-text-secondary text-normal lh-condensed'
    star_selection_class = 'social-count float-none'
    
    repo_tags = topic_repo_doc.find_all('h1', {'class': h1_selection_class})
    star_tags = topic_repo_doc.find_all('a', {'class' : star_selection_class })
    
    
    topic_dicts = {
        'username' : [],
        'repo_names' : [],
        'star' : [],
        'repo_url': []
    }

    for i in range(len(repo_tags)):
        repo_info = get_repo_info(repo_tags[i], star_tags[i])
        
        topic_dicts['username'].append(repo_info[0])
        topic_dicts['repo_names'].append(repo_info[1])
        topic_dicts['star'].append(repo_info[2])
        topic_dicts['repo_url'].append(repo_info[3])

    topic_repo_df = pd.DataFrame(topic_dicts, index=None)
    
    return topic_repo_df

def srape_repo_topic(topic_url):
    os.makedirs('file_scraping', exist_ok=True)
    fname = 'file_scraping/'+ get_topic_title(doc)[topic_url] + ' Topic.csv'
    
    if os.path.exists(fname):
        print('file alredy exists skiping...{}'.format(fname))
        return 
    print('scraping top repository in {}'.format(fname))
    topic_df = get_topic_repos(topic_url)
    topic_df.to_csv(fname, index=None)

## ฟังก์ชันสำหรับการบันทึกไฟล์เป็น csv 
- ข้อมูลที่ได้จากไฟล์เป็นข้อมูลของหมวดหมู่นั้น
- พารามิเตอร์ใส่เป็นตัวเลข 
- ระบบจะทำการบันทึกไล่จากหมวดแรกไปถึงหมวดที่ระบุไว้

In [9]:
def scrape_all_repo_each_topic(list_number):
    for i in range(list_number + 1):
        srape_repo_topic(i)
        

### ทำการเรียกใช้ฟังก์ชัน list_all_topics และ scrape_all_repo_each_topic

In [10]:
list_all_topics()

In [11]:
scrape_all_repo_each_topic(7)

file alredy exists skiping...file_scraping/3D Topic.csv
file alredy exists skiping...file_scraping/Ajax Topic.csv
file alredy exists skiping...file_scraping/Algorithm Topic.csv
file alredy exists skiping...file_scraping/Amp Topic.csv
file alredy exists skiping...file_scraping/Android Topic.csv
file alredy exists skiping...file_scraping/Angular Topic.csv
file alredy exists skiping...file_scraping/Ansible Topic.csv
file alredy exists skiping...file_scraping/API Topic.csv
