In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pandas_profiling import ProfileReport

# 指定文件路径
file_path = r'D:\newcode\dase_introduction\github_bot_processed_data.csv'

# 读取CSV文件
df = pd.read_csv(file_path)

# 使用head()方法查看数据的前几行
print("数据的前几行:")
print(df.head())

# 使用info()方法查看每列的数据类型
print("\n每列的数据类型:")
df.info()

# 使用describe()方法生成数据的描述性统计信息
print("\n描述性统计信息:")
print(df.describe(include='all'))

# 格式化日期
df['created_at'] = pd.to_datetime(df['created_at'])
df['updated_at'] = pd.to_datetime(df['updated_at'])

# 格式化货币
df['public_repos'] = df['public_repos'].map('${:,.2f}'.format)

# 格式化百分比
df['followers_ratio'] = df['followers'] / df['following']
df['followers_ratio'] = df['followers_ratio'].map('{:.2%}'.format)

# 显示格式化后的数据
print("\n格式化后的数据:")
print(df.head())

# 对数变换
df['log_public_repos'] = np.log1p(df['public_repos'].astype(float))
df['log_public_gists'] = np.log1p(df['public_gists'].astype(float))
df['log_followers'] = np.log1p(df['followers'].astype(float))
df['log_following'] = np.log1p(df['following'].astype(float))

# 查看对数变换后的数据
print("\n对数变换后的数据:")
print(df[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following']].head())

# 绘制条形图：展示 label 列的类别分布
label_counts = df['label'].value_counts()
label_counts.plot(kind='bar')
plt.title('Label 分布')
plt.xlabel('Label')
plt.ylabel('Count')
plt.show()

# 绘制堆积柱状图：展示多个布尔特征的分布
bool_features = ['site_admin', 'company', 'hireable']
df[bool_features].sum().plot(kind='bar', stacked=True)
plt.title('布尔特征分布')
plt.xlabel('Feature')
plt.ylabel('Count')
plt.show()

# 绘制直方图：展示 log_public_repos 的对数变换后的数据分布
df['log_public_repos'].hist(bins=30)
plt.title('log_public_repos 分布')
plt.xlabel('log_public_repos')
plt.ylabel('Frequency')
plt.show()

# 绘制散点图：展示 public_repos 与 followers 之间的关系
plt.scatter(df['public_repos'].astype(float), df['followers'])
plt.title('public_repos 与 followers 关系')
plt.xlabel('public_repos')
plt.ylabel('followers')
plt.show()

# 绘制散点矩阵：展示多个数值型特征之间的成对关系
sns.pairplot(df[['public_repos', 'public_gists', 'followers', 'following']])
plt.show()

# 绘制箱线图：展示不同 label 类别下 log_followers 的分布
sns.boxplot(x='label', y='log_followers', data=df)
plt.title('不同 label 类别下的 log_followers 分布')
plt.xlabel('Label')
plt.ylabel('log_followers')
plt.show()

# 绘制成对图：展示不同特征之间的成对关系，并根据 label 分类
sns.pairplot(df[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following', 'label']], hue='label')
plt.show()

# 绘制热图：展示 log_public_repos, log_public_gists, log_followers 和 log_following 等特征之间的相关性
correlation_matrix = df[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following']].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('特征之间的相关性')
plt.show()

# 绘制小提琴图：展示 label 与 log_followers 之间的分布差异
sns.violinplot(x='label', y='log_followers', data=df)
plt.title('不同 label 类别下的 log_followers 分布')
plt.xlabel('Label')
plt.ylabel('log_followers')
plt.show()

# 使用 pandas_profiling 生成交互式数据分析报告
profile = ProfileReport(df, title="GitHub Bot Processed Data Report", explorative=True)

# 保存报告
profile.to_file("github_bot_processed_data_report.html")

PydanticImportError: `BaseSettings` has been moved to the `pydantic-settings` package. See https://docs.pydantic.dev/2.9/migration/#basesettings-has-moved-to-pydantic-settings for more details.

For further information visit https://errors.pydantic.dev/2.9/u/import-error