### 数据预处理
 - 数据质量：缺失值处理、异常处理、重复数据
 - 数据结构：格式转化、数据合并

### 1. 删除重复数据，并输出去重前后的数据量
### 2. 缺失值处理
- 首先，去掉 gravatar_id 列，并查看各列的缺失值的情况
- 其次，将可转化成 boolean 变量的列字段转化成 boolean 变量（转成布尔类型是为了便于处理缺失字段，如是否存在公司、位置等等），文本数据用空字符串填充空值......
- 最后，再次看各列有无缺失值
### 3. 数据变换，将created_at、updated_at转为时间戳
### 4. 数据可视化
- 4.1 可视化bot和hunman类型的情况（展示图表自选，并在报告中说明选择原因、结果分析以及数据洞察）
- 4.2 可视化bot类型账号的created_at情况（展示图表自选，并在报告中说明选择原因、结果分析以及数据洞察）
- 4.3 可视化human类型账号的created_at情况（展示图表自选，并在报告中说明选择原因、结果分析以及数据洞察）
- 4.4 可视化bot类型账号的followers和following情况（展示图表自选，并在报告中说明选择原因、结果分析以及数据洞察）
- 4.5 可视化human类型账号的followers和following情况（展示图表自选，并在报告中说明选择原因、结果分析以及数据洞察）

In [7]:
import pandas as pd

# 读取数据
raw_data = pd.read_csv('data/github_bot_raw_data.csv')

# 列字段解读
columns = [
    'actor_id', 'label', 'login', 'id', 'node_id', 'avatar_url', 'gravatar_id', 'url', 'html_url', 'followers_url',
    'following_url', 'gists_url', 'starred_url', 'subscriptions_url', 'organizations_url', 'repos_url', 'events_url',
    'received_events_url', 'type', 'site_admin', 'name', 'company', 'blog', 'location', 'email', 'hireable', 'bio',
    'twitter_username', 'public_repos', 'public_gists', 'followers', 'following', 'created_at', 'updated_at'
]

# 选择需要的列
data = raw_data[columns]

# 查看去重前的数据量
print(f"去重前的数据量: {len(data)}")

# 删除重复数据
data = data.drop_duplicates()

# 查看去重后的数据量
print(f"去重后的数据量: {len(data)}")

# 缺失值处理
data = data.drop(columns=['gravatar_id'])

# 查看各列的缺失值情况
missing_values = data.isnull().sum()
print("各列的缺失值情况:\n", missing_values)

# 将可转化成 boolean 变量的列字段转化成 boolean 变量
boolean_columns = ['site_admin', 'hireable']
for col in boolean_columns:
    data[col] = data[col].fillna(False).astype(bool)

# 文本数据用空字符串填充空值
text_columns = ['company', 'blog', 'location', 'email', 'bio', 'twitter_username']
for col in text_columns:
    data[col] = data[col].fillna('')

# 再次查看各列有无缺失值
missing_values_after = data.isnull().sum()
print("处理缺失值后的各列缺失值情况:\n", missing_values_after)

# 改时间戳
data['created_at'] = pd.to_datetime(data['created_at'])
data['updated_at'] = pd.to_datetime(data['updated_at'])


去重前的数据量: 20358
去重后的数据量: 19779
各列的缺失值情况:
 actor_id                   0
label                      0
login                      0
id                         0
node_id                    0
avatar_url                 0
url                        0
html_url                   0
followers_url              0
following_url              0
gists_url                  0
starred_url                0
subscriptions_url          0
organizations_url          0
repos_url                  0
events_url                 0
received_events_url        0
type                       0
site_admin                 0
name                    2589
company                 8982
blog                   11263
location                7080
email                  11739
hireable               16481
bio                    10930
twitter_username       14859
public_repos               0
public_gists               0
followers                  0
following                  0
created_at                 0
updated_at                 0
dt