In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pandas_profiling import ProfileReport

# 1. 读取数据集
df = pd.read_csv('github_bot_processed_data.csv')

# 设置Pandas显示选项
pd.set_option('display.max_rows', 100)  # 调整显示行数
pd.set_option('display.max_columns', 50)  # 调整显示列数

# 2. 数据查看
print(df.head())  # 查看前几行
print(df.info())  # 查看每列的数据类型
print(df.describe())  # 查看描述性统计信息

# 3. 数据格式化处理
df['created_at'] = pd.to_datetime(df['created_at'])  # 假设有日期列
df['followers'] = df['followers'].apply(lambda x: f"{x:,}")  # 格式化货币或数值

# 4. 对数变换
df['log_public_repos'] = np.log1p(df['public_repos'])
df['log_followers'] = np.log1p(df['followers'])
df['log_following'] = np.log1p(df['following'])

# 5. Matplotlib绘制图表

# 条形图：展示label列的类别分布
plt.figure(figsize=(8, 6))
df['label'].value_counts().plot(kind='bar')
plt.title('Label Distribution')
plt.xlabel('Label')
plt.ylabel('Count')
plt.show()

# 堆积柱状图：展示多个布尔特征的分布
df[['Site_admin', 'company', 'location']].sum().plot(kind='bar', stacked=True)
plt.title('Stacked Bar for Boolean Features')
plt.xlabel('Features')
plt.ylabel('Count')
plt.show()

# 直方图：展示log_public_repos的对数变换后的数据分布
plt.figure(figsize=(8, 6))
plt.hist(df['log_public_repos'], bins=30, edgecolor='black')
plt.title('Log of Public Repos Distribution')
plt.xlabel('Log of Public Repos')
plt.ylabel('Frequency')
plt.show()

# 散点图：展示public_repos与followers之间的关系
plt.figure(figsize=(8, 6))
plt.scatter(df['public_repos'], df['followers'])
plt.title('Public Repos vs Followers')
plt.xlabel('Public Repos')
plt.ylabel('Followers')
plt.show()

# 散点矩阵：展示多个数值型特征之间的关系
sns.pairplot(df[['public_repos', 'followers', 'following', 'log_public_repos', 'log_followers']])
plt.show()

# 6. Seaborn绘制图表

# 箱线图：展示不同label类别下log_followers的分布
plt.figure(figsize=(8, 6))
sns.boxplot(x='label', y='log_followers', data=df)
plt.title('Log Followers Distribution by Label')
plt.show()

# 成对图：展示不同特征之间的成对关系，并根据label分类
sns.pairplot(df[['public_repos', 'followers', 'log_public_repos', 'log_followers']], hue='label')
plt.show()

# 热图：展示log_public_repos, log_public_gists, log_followers和log_following的相关性
corr_matrix = df[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following']].corr()
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Heatmap')
plt.show()

# 小提琴图：展示label与log_followers之间的分布差异
plt.figure(figsize=(8, 6))
sns.violinplot(x='label', y='log_followers', data=df)
plt.title('Violin Plot of Log Followers by Label')
plt.show()

# 7. 使用Pandas Profiling生成交互式数据分析报告
profile = ProfileReport(df, title='GitHub Bot Data Profiling Report', explorative=True)
profile.to_file('github_bot_data_report.html')  # 保存为HTML报告



ModuleNotFoundError: No module named 'matplotlib.backends.registry'