## 数据探索与可视化

### 实验目标
- 学习并掌握如何使用Python进行数据探索与可视化。
- 理解并应用数据探索的基本方法，包括数据清洗、格式化和描述性统计分析。
- 使用Matplotlib和Seaborn等可视化工具，绘制不同类型的图表，分析数据分布及特征之间的关系。
- 利用pandas_profiling生成数据的交互式报告，全面了解数据的分布、缺失值和异常值。

### 实验要求

1. 使用pandas读取数据集github_bot_processed_data.csv。探索pandas的显示选项，以便查看更多数据行和列。
2. 使用head()方法查看数据的前几行，并使用info()方法查看每列的数据类型，观察两者的区别。
使用describe()方法生成数据的描述性统计信息。
3. 对数据进行格式化处理，并展示不同格式（例如，日期、货币、百分比等）的效果。
4. 对public_repos、public_gists、followers、following等列进行对数变换，并查看其影响。
5. 使用Matplotlib绘制图表
    - 绘制条形图：展示label列的类别分布。
    - 绘制堆积柱状图：展示多个布尔特征（如site_admin、company等）的分布。
    - 绘制直方图：展示log_public_repos的对数变换后的数据分布。
    - 绘制散点图：展示public_repos与followers之间的关系。
    - 绘制散点矩阵：展示多个数值型特征之间的成对关系。
6. 使用Seaborn绘制图表
    - 绘制箱线图：展示不同label类别下log_followers的分布。
    - 绘制成对图：展示不同特征之间的成对关系，并根据label分类。
    - 绘制热图：展示log_public_repos、log_public_gists、log_followers和log_following等特征之间的相关性。
    - 绘制小提琴图：展示label与log_followers之间的分布差异。
7. 使用pandas_profiling.ProfileReport()生成交互式数据分析报告，分析数据的统计分布、缺失值、异常值等。

In [3]:
import pandas as pd
# 1. 使用pandas读取数据集，并设置显示选项以查看更多行和列
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
df = pd.read_csv('github_bot_processed_data.csv')
# 2. 使用head()查看前几行，info()查看每列的数据类型
print("Data head:")
print(df.head())
print("\nData info:")
print(df.info())
# 生成描述性统计信息
print("\nDescriptive statistics:")
print(df.describe(include='all'))


Data head:
   label  type  site_admin  company   blog  location  hireable                                                bio  public_repos  public_gists  followers  following                 created_at                 updated_at  text_bot_count
0  Human  True       False    False  False     False     False                                                NaN            26             1          5          1  2011-09-26 17:27:03+00:00  2023-10-13 11:21:10+00:00               0
1  Human  True       False    False   True     False      True  I just press the buttons randomly, and the pro...            30             3          9          6  2015-06-29 10:12:46+00:00  2023-10-07 06:26:14+00:00               0
2  Human  True       False     True   True      True      True         Time is unimportant,\nonly life important.           103            49       1212        221  2008-08-29 16:20:03+00:00  2023-10-02 02:11:21+00:00               0
3    Bot  True       False    False  False      True 

In [2]:
import pandas as pd
import numpy as np
df = pd.read_csv('github_bot_processed_data.csv')
# 3. 数据格式化处理（日期、货币、百分比等）
df['new_created_at'] = pd.to_datetime(df['created_at'])
df['new_updated_at'] = pd.to_datetime(df['updated_at'])
print(df[['new_created_at','created_at']].head(3))
print(df[['new_updated_at','updated_at']].head(3))
# 4. 对指定列进行对数变换
df['log_public_repos'] = np.log1p(df['public_repos'])
df['log_public_gists'] = np.log1p(df['public_gists'])
df['log_followers'] = np.log1p(df['followers'])
df['log_following'] = np.log1p(df['following'])
print(df[['log_public_repos','public_repos']].head(3))
print(df[['log_public_gists','public_gists']].head(3))
print(df[['log_followers','followers']].head(3))
print(df[['log_following','following']].head(3))

             new_created_at                 created_at
0 2011-09-26 17:27:03+00:00  2011-09-26 17:27:03+00:00
1 2015-06-29 10:12:46+00:00  2015-06-29 10:12:46+00:00
2 2008-08-29 16:20:03+00:00  2008-08-29 16:20:03+00:00
             new_updated_at                 updated_at
0 2023-10-13 11:21:10+00:00  2023-10-13 11:21:10+00:00
1 2023-10-07 06:26:14+00:00  2023-10-07 06:26:14+00:00
2 2023-10-02 02:11:21+00:00  2023-10-02 02:11:21+00:00
   log_public_repos  public_repos
0          3.295837            26
1          3.433987            30
2          4.644391           103
   log_public_gists  public_gists
0          0.693147             1
1          1.386294             3
2          3.912023            49
   log_followers  followers
0       1.791759          5
1       2.302585          9
2       7.100852       1212
   log_following  following
0       0.693147          1
1       1.945910          6
2       5.402677        221


对数变化让数值差距变得更小，更有利于图像的绘制以及对数据的观测。

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv('github_bot_processed_data.csv')
df['log_public_repos'] = np.log1p(df['public_repos'])
df['log_public_gists'] = np.log1p(df['public_gists'])
df['log_followers'] = np.log1p(df['followers'])
df['log_following'] = np.log1p(df['following'])
#5. 使用Matplotlib绘制图表
#柱状图
plt.figure(figsize=(10, 6))
sns.countplot(x='label', data=df)
plt.title('Distribution of Label')
plt.show()
# 堆积柱状图
bool_features = ['site_admin', 'company', 'blog', 'location', 'hireable']
df[bool_features].sum().plot(kind='barh', stacked=True)
plt.title('Stacked Bar Chart of Boolean Features')
plt.show()
# 直方图 
plt.hist(df['log_public_repos'], bins=30, edgecolor='black')
plt.title('Histogram of Log Public Repos')
plt.show()
# 散点图 - public_repos vs followers
plt.scatter(df['public_repos'], df['followers'])
plt.xlabel('Public Repos')
plt.ylabel('Followers')
plt.title('Scatter Plot: Public Repos vs Followers')
plt.show()
# 散点矩阵
sns.pairplot(df[['public_repos', 'public_gists', 'followers', 'following']])
plt.show()
#6. 使用Seaborn绘制高级图表
# 箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='label', y='log_followers', data=df)
plt.title('Boxplot of Log Followers by Label')
plt.show()
# 成对关系图
sns.pairplot(df, hue='label', vars=['log_public_repos', 'log_public_gists', 'log_followers', 'log_following'])
plt.show()
# 相关性热图
correlation = df[['log_public_repos', 'log_public_gists', 'log_followers', 'log_following']].corr()
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()
# 小提琴图
sns.violinplot(x='label', y='log_followers', data=df)
plt.title('Violin Plot of Log Followers by Label')
plt.show()


In [1]:
import pandas as pd
from ydata_profiling import ProfileReport
df = pd.read_csv('github_bot_processed_data.csv')
profile = ProfileReport(df, title="Data Analysis Report", explorative=True)
profile.to_file("report.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]