## 数据探索与可视化

### 实验目标
- 学习并掌握如何使用Python进行数据探索与可视化。
- 理解并应用数据探索的基本方法，包括数据清洗、格式化和描述性统计分析。
- 使用Matplotlib和Seaborn等可视化工具，绘制不同类型的图表，分析数据分布及特征之间的关系。
- 利用pandas_profiling生成数据的交互式报告，全面了解数据的分布、缺失值和异常值。

### 实验要求

1. 使用pandas读取数据集github_bot_processed_data.csv。探索pandas的显示选项，以便查看更多数据行和列。
2. 使用head()方法查看数据的前几行，并使用info()方法查看每列的数据类型，观察两者的区别。
使用describe()方法生成数据的描述性统计信息。
3. 对数据进行格式化处理，并展示不同格式（例如，日期、货币、百分比等）的效果。
4. 对public_repos、public_gists、followers、following等列进行对数变换，并查看其影响。
5. 使用Matplotlib绘制图表
    - 绘制条形图：展示label列的类别分布。
    - 绘制堆积柱状图：展示多个布尔特征（如site_admin、company等）的分布。
    - 绘制直方图：展示log_public_repos的对数变换后的数据分布。
    - 绘制散点图：展示public_repos与followers之间的关系。
    - 绘制散点矩阵：展示多个数值型特征之间的成对关系。
6. 使用Seaborn绘制图表
    - 绘制箱线图：展示不同label类别下log_followers的分布。
    - 绘制成对图：展示不同特征之间的成对关系，并根据label分类。
    - 绘制热图：展示log_public_repos、log_public_gists、log_followers和log_following等特征之间的相关性。
    - 绘制小提琴图：展示label与log_followers之间的分布差异。
7. 使用pandas_profiling.ProfileReport()生成交互式数据分析报告，分析数据的统计分布、缺失值、异常值等。

In [26]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from pandas_profiling import ProfileReport
from pydantic_settings import BaseSettings

# 读取数据集
df = pd.read_csv('github_bot_processed_data.csv')

# 设置显示选项
pd.set_option('display.max_rows', 100)  # 设置最多显示100行
pd.set_option('display.max_columns', 50)  # 设置最多显示50列
pd.set_option('display.width', 1000)  # 设置宽度
pd.set_option('display.float_format', '{:.2f}'.format)  # 设置浮点数格式

# 使用describe()方法生成数据的描述性统计信息
description = df.describe()
# print(description)

# 数据格式化处理（以时间戳为例）
df['created_at'] = pd.to_datetime(df['created_at'])
df['updated_at'] = pd.to_datetime(df['updated_at'])
# print(df[['created_at', 'updated_at']].head())

# 对数变换
df['log_public_repos'] = np.log1p(df['public_repos'])
df['log_public_gists'] = np.log1p(df['public_gists'])
df['log_followers'] = np.log1p(df['followers'])
df['log_following'] = np.log1p(df['following'])

# 查看对数变换后的影响
print(df[['public_repos', 'log_public_repos', 
           'public_gists', 'log_public_gists', 
           'followers', 'log_followers', 
           'following', 'log_following']].head())

# 可以选择绘制对数变换前后的分布图，进一步观察影响

# # 绘制直方图
# plt.figure(figsize=(12, 5))

# plt.subplot(1, 2, 1)
# plt.hist(df['public_repos'], bins=30, color='blue', alpha=0.7, label='public_repos')
# plt.title('Distribution of Public Repos')
# plt.xlabel('Number of Public Repos')
# plt.ylabel('Frequency')
# plt.legend()

# plt.subplot(1, 2, 2)
# plt.hist(df['log_public_repos'], bins=30, color='green', alpha=0.7, label='log_public_repos')
# plt.title('Distribution of Log Public Repos')
# plt.xlabel('Log of Public Repos')
# plt.ylabel('Frequency')
# plt.legend()

# plt.tight_layout()
# plt.show()
# # 发现：对数变换后可以使数据更加分散，更容易发现模式；减小偏态性，使数据更加符合正态分布。

# # 1. 绘制条形图：展示label列的类别分布
# plt.figure(figsize=(10, 6))
# df['label'].value_counts().plot(kind='bar', color='skyblue')
# plt.title('Distribution of Labels')
# plt.xlabel('Labels')
# plt.ylabel('Frequency')
# plt.xticks(rotation=45)
# plt.tight_layout()
# plt.show()

# # 2. 绘制堆积柱状图：展示多个布尔特征（如site_admin、company等）的分布
# df[['site_admin', 'company']].sum().plot(kind='bar', stacked=True, color=['lightcoral', 'lightblue'])
# plt.title('Stacked Bar Chart of Site Admin and Company')
# plt.xlabel('Features')
# plt.ylabel('Counts')
# plt.xticks(rotation=0)
# plt.show()

# # 3. 绘制直方图：展示log_public_repos的对数变换后的数据分布
# plt.figure(figsize=(10, 6))
# plt.hist(df['log_public_repos'], bins=30, color='green', alpha=0.7)
# plt.title('Distribution of Log Public Repos')
# plt.xlabel('Log of Public Repos')
# plt.ylabel('Frequency')
# plt.show()

# # 绘制散点图：展示public_repos与followers之间的关系
# plt.figure(figsize=(10, 6))
# plt.scatter(df['public_repos'], df['followers'], alpha=0.5, color='blue')
# plt.title('Scatter Plot of Public Repos vs Followers')
# plt.xlabel('Public Repos')
# plt.ylabel('Followers')

# # 可选：对数变换
# # 如果数据存在较大范围，可以选择对数刻度
# plt.xscale('log')  # 对public_repos进行对数变换（可选）
# plt.yscale('log')  # 对followers进行对数变换（可选）

# plt.grid(True)
# plt.show()

# # 5. 绘制散点矩阵：展示多个数值型特征之间的成对关系
# sns.pairplot(df[['log_public_repos', 'log_followers', 'public_repos', 'followers']])
# plt.suptitle('Scatter Matrix of Selected Features', y=1.02)
# plt.show()

# 绘制箱线图：展示不同label类别下log_followers的分布
# plt.figure(figsize=(12, 8))
# ax = sns.boxplot(x='label', y='log_followers', data=df, palette='Set2')

# # 添加数据点
# sns.stripplot(x='label', y='log_followers', data=df, color='black', alpha=0.5, size=4, jitter=True)

# # 标记中位线和均值
# medians = df.groupby('label')['log_followers'].median()
# for x in range(len(medians)):
#     ax.text(x, medians[x] + 0.05, round(medians[x], 2), horizontalalignment='center')

# means = df.groupby('label')['log_followers'].mean()
# for x in range(len(means)):
#     ax.text(x, means[x] + 0.05, f'Mean: {round(means[x], 2)}', horizontalalignment='center', fontsize=9, color='red')

# plt.title('Boxplot of Log Followers by Label', fontsize=16)
# plt.xticks(rotation=45)
# plt.xlabel('Label', fontsize=14)
# plt.ylabel('Log Followers', fontsize=14)
# plt.grid(axis='y')

# plt.show()

# # 2. 绘制成对图：展示不同特征之间的成对关系，并根据label分类
# sns.pairplot(df, hue='label', vars=['log_public_repos', 'log_public_gists', 'log_followers', 'log_following'])
# plt.suptitle('Pairplot of Selected Features by Label', y=1.02)
# plt.show()

# # 3. 绘制热图：展示log_public_repos、log_public_gists、log_followers和log_following等特征之间的相关性
# plt.figure(figsize=(10, 8))
# correlation_matrix = df[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following']].corr()
# sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=.5)
# plt.title('Correlation Heatmap')
# plt.show()

# # 4. 绘制小提琴图：展示label与log_followers之间的分布差异
# plt.figure(figsize=(10, 6))
# sns.violinplot(x='label', y='log_followers', data=df)
# plt.title('Violin Plot of Log Followers by Label')
# plt.xticks(rotation=45)
# plt.xlabel('Label')
# plt.ylabel('Log Followers')
# plt.show()
# 生成交互式数据分析报告
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)

# 保存报告为HTML文件
profile.to_file("github_bot_report.html")

PydanticImportError: `BaseSettings` has been moved to the `pydantic-settings` package. See https://docs.pydantic.dev/2.10/migration/#basesettings-has-moved-to-pydantic-settings for more details.

For further information visit https://errors.pydantic.dev/2.10/u/import-error