In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as snsfrom 
from pandas_profiling import ProfileReport

# 设置pandas显示选项
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)
pd.set_option('display.width', 1000)

# 读取数据集
file_path = r'D:\newcode\dase_introduction\github_bot_processed_data.csv'
data = pd.read_csv(file_path)

# 查看数据的前几行
print("数据的前几行：")
print(data.head())

# 查看每列的数据类型
print("\n每列的数据类型：")
print(data.info())

# 生成数据的描述性统计信息
print("\n数据的描述性统计信息：")
print(data.describe())

# 对数据进行格式化处理
data['created_at'] = pd.to_datetime(data['created_at'])
data['updated_at'] = pd.to_datetime(data['updated_at'])

# 展示不同格式的效果
print("\n日期格式化：")
print(data[['created_at', 'updated_at']].head())

# 对数值列进行对数变换
data['log_public_repos'] = data['public_repos'].apply(lambda x: np.log1p(x))
data['log_public_gists'] = data['public_gists'].apply(lambda x: np.log1p(x))
data['log_followers'] = data['followers'].apply(lambda x: np.log1p(x))
data['log_following'] = data['following'].apply(lambda x: np.log1p(x))

# 使用Matplotlib绘制图表

# 绘制条形图：展示label列的类别分布
plt.figure(figsize=(8, 6))
sns.countplot(data=data, x='label')
plt.title('Label 类别分布')
plt.xlabel('Label')
plt.ylabel('数量')
plt.show()

# 绘制堆积柱状图：展示多个布尔特征（如site_admin、company等）的分布
boolean_features = ['site_admin', 'company', 'blog', 'location', 'bio', 'hireable']
boolean_data = data[boolean_features].applymap(lambda x: 1 if x else 0)
boolean_data['label'] = data['label']

boolean_data.groupby('label').mean().plot(kind='bar', stacked=True, figsize=(10, 6))
plt.title('布尔特征的分布')
plt.xlabel('Label')
plt.ylabel('比例')
plt.show()

# 绘制直方图：展示log_public_repos的对数变换后的数据分布
plt.figure(figsize=(10, 6))
sns.histplot(data['log_public_repos'], bins=30, kde=True)
plt.title('log_public_repos 的分布')
plt.xlabel('log_public_repos')
plt.ylabel('数量')
plt.show()

# 绘制散点图：展示public_repos与followers之间的关系
plt.figure(figsize=(10, 6))
sns.scatterplot(data=data, x='public_repos', y='followers', hue='label')
plt.title('public_repos 与 followers 之间的关系')
plt.xlabel('public_repos')
plt.ylabel('followers')
plt.show()

# 绘制散点矩阵：展示多个数值型特征之间的成对关系
numeric_features = ['public_repos', 'public_gists', 'followers', 'following']
sns.pairplot(data=data, vars=numeric_features, hue='label')
plt.show()

# 使用Seaborn绘制图表

# 绘制箱线图：展示不同label类别下log_followers的分布
plt.figure(figsize=(10, 6))
sns.boxplot(data=data, x='label', y='log_followers')
plt.title('不同label类别下 log_followers 的分布')
plt.xlabel('Label')
plt.ylabel('log_followers')
plt.show()

# 绘制成对图：展示不同特征之间的成对关系，并根据label分类
sns.pairplot(data=data, vars=numeric_features, hue='label')
plt.show()

# 绘制热图：展示log_public_repos、log_public_gists、log_followers和log_following等特征之间的相关性
correlation_matrix = data[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following']].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('特征之间的相关性')
plt.show()

# 绘制小提琴图：展示label与log_followers之间的分布差异
plt.figure(figsize=(10, 6))
sns.violinplot(data=data, x='label', y='log_followers')
plt.title('label 与 log_followers 之间的分布差异')
plt.xlabel('Label')
plt.ylabel('log_followers')
plt.show()

# 使用pandas_profiling生成交互式数据分析报告
profile = ProfileReport(data, title="GitHub Bot Data Analysis Report", explorative=True)
profile.to_file("github_bot_data_analysis_report.html")

print("交互式数据分析报告已生成：github_bot_data_analysis_report.html")

AttributeError: module 'numba' has no attribute 'generated_jit'