In [1]:
# 设置pip源
!pip config set global.index-url https://mirrors.aliyun.com/pypi/simple
# 设置apt源
! echo "deb http://mirrors.163.com/ubuntu/ focal main restricted universe multiverse" >> /etc/apt/sources.list
! apt update -y

In [None]:
# 安装python包
!pip install pandas numpy matplotlib seaborn scikit-learn statsmodels

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
data = pd.read_csv('data-test.csv')

In [None]:
# 查看数据集的前几行：
data.head()

In [None]:
# 查看数据集的基本信息：
data.info()

In [None]:
# 查看数据集的统计描述：
data.describe()

In [None]:
# 检查缺失值：
data.isnull().sum()

In [None]:
# 可视化缺失值
sns.heatmap(data.isnull(), yticklabels=False, cbar=False, cmap='viridis')

In [None]:
# 检查重复行
duplicated_rows = data.duplicated().sum()
print("重复行的数量:", duplicated_rows)

# 查找每个特征的唯一值数量
unique_values = data.nunique()
print("\n\n每个特征唯一值个数:\n", unique_values)

# 查找每个特征的唯一值百分比
unique_percentage = (unique_values / len(data)) * 100
print("\n\n每个特征唯一值百分比:\n", unique_percentage)

# 可视化唯一值数量
plt.figure(figsize=(12, 6))
unique_values.plot(kind='bar')
plt.title('每个特征唯一值个数')
plt.xlabel('特征')
plt.ylabel('唯一值个数')
plt.show()

In [None]:
# 可视化数据集中数值特征的分布：
num_features = data.select_dtypes(include=[np.number])

for feature in num_features.columns:
    plt.figure(figsize=(10, 5))
    sns.histplot(data[feature], kde=True)
    plt.title(f'Distribution of {feature}')
    plt.show()

In [None]:
# 可视化数据集中分类特征的分布：

cat_features = data.select_dtypes(include=[np.object])

for feature in cat_features.columns:
    plt.figure(figsize=(10, 5))
    sns.countplot(x=feature, data=data)
    plt.title(f'Distribution of {feature}')
    plt.xticks(rotation=45)
    plt.show()


In [None]:
# 计算数值特征之间的相关性：
numeric_data = data.select_dtypes(include=[np.int64,np.float64])
corr_matrix = numeric_data.corr()

# 可视化相关性矩阵：

plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

In [None]:
# 目标变量与特征之间的关系可视化
target_variable = 'y'
for column in data.columns:
    print(column)
    if data[column].dtype != 'object' and column != target_variable:
        plt.figure(figsize=(10, 6))
        sns.boxplot(data=data, x=target_variable, y=column)
        plt.title(f"{target_variable} vs {column}")
        plt.show()

In [None]:
# 箱型图（查看异常值）
for feature in data.columns:
    if data[feature].dtype != 'object':
        plt.figure(figsize=(10,5))
        sns.boxplot(data[feature])
        plt.title(f'{feature} Boxplot')
        plt.show()

# 单变量分析
单变量分析是对一个变量进行分析，以了解其分布、中心趋势和离散程度。我们可以使用直方图、箱形图和密度图等方法。

In [None]:
column_name='age'
# 直方图
sns.histplot(data[column_name])
plt.show()

# 箱形图
sns.boxplot(data[column_name])
plt.show()

# 密度图
sns.kdeplot(data[column_name])
plt.show()

# 描述性统计
data[column_name].describe()

# 双变量分析
双变量分析是对两个变量之间的关系进行分析。我们可以使用散点图、相关系数和回归图等方法。

In [None]:
column1 = 'age'
column2 = 'duration'
# 散点图
sns.scatterplot(x=column1, y=column2, data=data)
plt.show()

# 相关系数
data[[column1, column2]].corr()

# 回归图
sns.regplot(x=column1, y=column2, data=data)
plt.show()

# 多变量分析
多变量分析涉及到三个或更多变量之间的关系。我们可以使用热力图、成对图和散点图矩阵等方法。

In [None]:
# 热力图
numeric_data = data.select_dtypes(include=[np.int64,np.float64])
corr_matrix = numeric_data.corr()
sns.heatmap(corr_matrix, annot=True)
plt.show()

# 成对图
sns.pairplot(data)
plt.show()

# 散点图矩阵
sns.pairplot(data, hue='y')
plt.show()

In [18]:
# jupyter 转 html

!jupyter nbconvert --to html data-explore.ipynb

[NbConvertApp] Converting notebook data-explore.ipynb to html
[NbConvertApp] Writing 4629660 bytes to data-explore.html


In [None]:
# 安装html转markdown

!pip install html2text

In [20]:
import html2text

# 从文件读取 HTML 内容
html_content = open("data-explore.html", "r", encoding="utf-8").read()

# 初始化转换器
converter = html2text.HTML2Text()

# 转换 HTML 为 Markdown
markdown_content = converter.handle(html_content)

# 将转换后的 Markdown 保存到文件
with open("data-explore.md", "w", encoding="utf-8") as file:
    file.write(markdown_content)

In [None]:
# 将markdown文件转为docx

! apt-get install -y pandoc
! pip install pypandoc==1.12 pdfkit==1.0.0

In [26]:

import pypandoc

output = pypandoc.convert_file("data-explore.md", 'docx', outputfile="data-explore.docx")

In [None]:
# 将html转为pdf

# 直接安装
! apt-get install -y wkhtmltopdf
# 下载 离线包安装
# ! apt-get install  xfonts-encodings xfonts-utils xfonts-base xfonts-75dpi
# ! wget https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox_0.12.6-1.focal_amd64.deb
# ! dpkg -i wkhtmltox_0.12.6-1.focal_amd64.deb
! wkhtmltopdf --version
#! apt-get install -y pandoc texlive-xetex
#!jupyter nbconvert --to pdf data-explore.ipynb

In [27]:
# 将html转为pdf

import pdfkit

html = open("data-explore.html").read()

pdfkit.from_string(html, 'data-explore.pdf')

True