# Request electron API
![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

### Import library

In [None]:
from github import Github
import pandas as pd
import matplotlib.pyplot as plt

## Bước 1: Chọn repo trên Github

### Kết nối tới repo

In [None]:
g = Github("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")
repo_owner = 'electron'
repo_name = 'electron'

### Lấy thông tin repo

In [None]:
repo = g.get_repo(f"{repo_owner}/{repo_name}")

## Bước 2: Thu thập dữ liệu

##### Lấy danh sách commits

In [None]:
prs = repo.get_commits()

### Tạo danh sách lưu chữ thông tin về commits

In [None]:
commit_data = []

for pr in prs:
    print(pr.last_modified_datetime)
    commit_info = {
        "sha": pr.sha,
        "author": pr.commit.author.name,
        "author_date": pr.commit.author.date,
        "committer": pr.commit.committer.name,
        "committer_date": pr.commit.committer.date,
        "message": pr.commit.message,
    }
    commit_data.append(commit_info)

## Bước 3: Làm sạch vè tiền xử lý dữ liệu

### Chuyển đổi danh sách thành DataFrame

In [None]:
df_commits = pd.DataFrame(commit_data)
df_commits.to_csv("commits_data.csv", index=False)

print(df_commits.head())

### Làm sạch dữ liệu

##### Kiểm tra thông tin còn thiếu

In [None]:
print(df_commits.isnull().sum())

##### Xử lý dữ liệu thiếu

In [None]:
df_commits = df_commits.dropna()

##### Kiểm tra và lưu lại dữ liệu sau khi làm sạch

In [None]:
print(df_commits.isnull().sum())

df_commits.to_csv("commits_data_cleaned.csv", index=False)

### Tiền xử lý dữ liệu

##### Chuyển đổi cột 'author_date' và 'committer_date' thành định dạng datetime

In [None]:
df_commits['author_date'] = pd.to_datetime(df_commits['author_date'])
df_commits['committer_date'] = pd.to_datetime(df_commits['committer_date'])

print(df_commits.dtypes)

##### Thêm cột 'year', 'month' để phân tích theo thời gian

In [None]:
df_commits['year'] = df_commits['author_date'].dt.year
df_commits['month'] = df_commits['author_date'].dt.month


##### Lưu trữ lại DataFrame sau khi tiền xử lý

In [None]:
df_commits.to_csv("commits_data_preprocessed.csv", index=False)
print(df_commits.head())

## Bước 4 & 5: Phân tích và trực quan hoá dữ liệu

### Phân tích số lượng commits theo năm

##### Lọc dữ liệu để chỉ bao gồm commits trong năm 2023

In [None]:
df_2023 = df_commits[df_commits['author_date'].dt.year == 2023]

print(df_2023.head())

##### Xác định số lượng commits theo tháng

In [None]:
commits_per_month_2023 = df_2023.groupby(df_2023['author_date'].dt.month).size()
print(commits_per_month_2023)

##### Trực quan hóa số lượng commits theo tháng trong năm 2023

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(commits_per_month_2023.index, commits_per_month_2023.values, marker='o')
plt.title('Number of Commits per Month in 2023')
plt.xlabel('Month')
plt.ylabel('Number of Commits')
plt.xticks(commits_per_month_2023.index)
plt.grid(True)
plt.show()

##### Xác định tần suất commits của các tác giả trong năm 2023

In [None]:
commits_per_author_2023 = df_2023['author'].value_counts()
print(commits_per_author_2023.head(10))

##### Trực quan hóa tần suất commits của các tác giả trong năm 2023

In [None]:
plt.figure(figsize=(10, 6))
plt.bar(commits_per_author_2023.index[:10], commits_per_author_2023.values[:10], color='skyblue')
plt.title('Top 10 Authors by Number of Commits in 2023')
plt.xlabel('Author')
plt.ylabel('Number of Commits')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

##### Phân tích số lượng commits có chứa từ khóa "fix" trong năm 2023

In [None]:
fix_commits_2023 = df_2023[df_2023['message'].str.contains("fix", case=False)]
print(len(fix_commits_2023))