In [1]:
import pandas as pd
import seaborn as sns
# 从 seaborn 载入 Iris 数据集
iris = sns.load_dataset('iris')
print("Iris 数据集：\n", iris.head())

Iris 数据集：
    sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [5]:
# 从 CSV 文件读取数据（这里可以使用已经下载的 Iris 数据集，可以看出来是一样滴）
iris2 = pd.read_csv("./iris.csv")
print("从CSV读取的数据：\n", iris2.head())

从CSV读取的数据：
    ID  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0   1           5.1          3.5           1.4          0.2  setosa
1   2           4.9          3.0           1.4          0.2  setosa
2   3           4.7          3.2           1.3          0.2  setosa
3   4           4.6          3.1           1.5          0.2  setosa
4   5           5.0          3.6           1.4          0.2  setosa


In [6]:
# 查看数据前5行
print("前5行数据：\n", iris.head())

# 查看数据后5行
print("后5行数据：\n", iris.tail())


前5行数据：
    sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
后5行数据：
      sepal_length  sepal_width  petal_length  petal_width    species
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [7]:
# 查看数据基本信息
print("数据基本信息：")
iris.info()

# 数据的统计汇总
print("数据统计汇总：\n", iris.describe())


数据基本信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
数据统计汇总：
        sepal_length  sepal_width  petal_length  petal_width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000

In [8]:
# 按种类（species）分组，并计算每组特征的均值
grouped_iris = iris.groupby('species').mean()
print("按种类分组的平均值：\n", grouped_iris)


按种类分组的平均值：
             sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa             5.006        3.428         1.462        0.246
versicolor         5.936        2.770         4.260        1.326
virginica          6.588        2.974         5.552        2.026


In [9]:
# 创建另一个数据框用于合并
data = {'species': ['setosa', 'versicolor', 'virginica'],
        'region': ['North America', 'Europe', 'Asia']}
df_region = pd.DataFrame(data)

# 合并两个数据框（基于 species 列）
merged_df = pd.merge(iris, df_region, on='species')
print("合并后的数据：\n", merged_df.head())


合并后的数据：
    sepal_length  sepal_width  petal_length  petal_width species         region
0           5.1          3.5           1.4          0.2  setosa  North America
1           4.9          3.0           1.4          0.2  setosa  North America
2           4.7          3.2           1.3          0.2  setosa  North America
3           4.6          3.1           1.5          0.2  setosa  North America
4           5.0          3.6           1.4          0.2  setosa  North America


In [10]:
# 在 iris 数据集中人为添加缺失值
iris_with_nan = iris.copy()
iris_with_nan.iloc[0:5, 0] = None
print("添加缺失值后的数据：\n", iris_with_nan.head())

# 删除含有缺失值的行
iris_dropped = iris_with_nan.dropna()
print("删除缺失值后的数据：\n", iris_dropped.head())

# 填充缺失值（使用列的平均值填充）
iris_filled = iris_with_nan.fillna(iris_with_nan.mean())
print("填充缺失值后的数据：\n", iris_filled.head())


添加缺失值后的数据：
    sepal_length  sepal_width  petal_length  petal_width species
0           NaN          3.5           1.4          0.2  setosa
1           NaN          3.0           1.4          0.2  setosa
2           NaN          3.2           1.3          0.2  setosa
3           NaN          3.1           1.5          0.2  setosa
4           NaN          3.6           1.4          0.2  setosa
删除缺失值后的数据：
    sepal_length  sepal_width  petal_length  petal_width species
5           5.4          3.9           1.7          0.4  setosa
6           4.6          3.4           1.4          0.3  setosa
7           5.0          3.4           1.5          0.2  setosa
8           4.4          2.9           1.4          0.2  setosa
9           4.9          3.1           1.5          0.1  setosa
填充缺失值后的数据：
    sepal_length  sepal_width  petal_length  petal_width species
0      5.877241          3.5           1.4          0.2  setosa
1      5.877241          3.0           1.4          0.2  setosa
2   

In [11]:
# 筛选出 sepal_length 大于 5 的记录
filtered_iris = iris[iris['sepal_length'] > 5]
print("sepal_length 大于 5 的数据：\n", filtered_iris.head())


sepal_length 大于 5 的数据：
     sepal_length  sepal_width  petal_length  petal_width species
0            5.1          3.5           1.4          0.2  setosa
5            5.4          3.9           1.7          0.4  setosa
10           5.4          3.7           1.5          0.2  setosa
14           5.8          4.0           1.2          0.2  setosa
15           5.7          4.4           1.5          0.4  setosa


In [12]:
# 按 sepal_length 进行排序
sorted_iris = iris.sort_values(by='sepal_length', ascending=False)
print("按 sepal_length 降序排序后的数据：\n", sorted_iris.head())


按 sepal_length 降序排序后的数据：
      sepal_length  sepal_width  petal_length  petal_width    species
131           7.9          3.8           6.4          2.0  virginica
135           7.7          3.0           6.1          2.3  virginica
122           7.7          2.8           6.7          2.0  virginica
117           7.7          3.8           6.7          2.2  virginica
118           7.7          2.6           6.9          2.3  virginica


In [13]:
# 检查是否有重复行
print("是否有重复行：", iris.duplicated().sum())

# 去重操作（Iris 数据集中没有重复行，但可以测试）
iris_no_duplicates = iris.drop_duplicates()
print("去重后的数据：\n", iris_no_duplicates.head())


是否有重复行： 1
去重后的数据：
    sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [14]:
# 创建一个透视表，按种类（species）计算 sepal_length 和 petal_length 的均值
pivot_table = pd.pivot_table(iris, values=['sepal_length', 'petal_length'], index='species', aggfunc='mean')
print("透视表：\n", pivot_table)


透视表：
             petal_length  sepal_length
species                               
setosa             1.462         5.006
versicolor         4.260         5.936
virginica          5.552         6.588


In [15]:
# 重命名列名，将 sepal_length 改为 slength，sepal_width 改为 swidth
renamed_iris = iris.rename(columns={'sepal_length': 'slength', 'sepal_width': 'swidth'})
print("重命名列后的数据：\n", renamed_iris.head())


重命名列后的数据：
    slength  swidth  petal_length  petal_width species
0      5.1     3.5           1.4          0.2  setosa
1      4.9     3.0           1.4          0.2  setosa
2      4.7     3.2           1.3          0.2  setosa
3      4.6     3.1           1.5          0.2  setosa
4      5.0     3.6           1.4          0.2  setosa


In [16]:
# 添加一个新列 'sepal_ratio'，等于 sepal_length / sepal_width
iris['sepal_ratio'] = iris['sepal_length'] / iris['sepal_width']
print("添加新列后的数据：\n", iris.head())


添加新列后的数据：
    sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio
0           5.1          3.5           1.4          0.2  setosa     1.457143
1           4.9          3.0           1.4          0.2  setosa     1.633333
2           4.7          3.2           1.3          0.2  setosa     1.468750
3           4.6          3.1           1.5          0.2  setosa     1.483871
4           5.0          3.6           1.4          0.2  setosa     1.388889


In [17]:
# 删除新添加的 'sepal_ratio' 列
iris_dropped_col = iris.drop(columns=['sepal_ratio'])
print("删除列后的数据：\n", iris_dropped_col.head())


删除列后的数据：
    sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [18]:
# 筛选出 petal_length 大于 1.5 且 species 为 'setosa' 的行
filtered_data = iris[(iris['petal_length'] > 1.5) & (iris['species'] == 'setosa')]
print("条件筛选后的数据：\n", filtered_data.head())


条件筛选后的数据：
     sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio
5            5.4          3.9           1.7          0.4  setosa     1.384615
11           4.8          3.4           1.6          0.2  setosa     1.411765
18           5.7          3.8           1.7          0.3  setosa     1.500000
20           5.4          3.4           1.7          0.2  setosa     1.588235
23           5.1          3.3           1.7          0.5  setosa     1.545455


In [19]:
# 按行索引选择前10行，按列索引选择 'sepal_length' 和 'species'
selected_data = iris.loc[0:9, ['sepal_length', 'species']]
print("按索引选择的数据：\n", selected_data)


按索引选择的数据：
    sepal_length species
0           5.1  setosa
1           4.9  setosa
2           4.7  setosa
3           4.6  setosa
4           5.0  setosa
5           5.4  setosa
6           4.6  setosa
7           5.0  setosa
8           4.4  setosa
9           4.9  setosa


In [20]:
# 按位置选择前5行和前两列
selected_by_position = iris.iloc[0:5, 0:2]
print("按位置选择的数据：\n", selected_by_position)


按位置选择的数据：
    sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
4           5.0          3.6


In [21]:
# 定义一个自定义函数，计算 sepal_length 和 sepal_width 的乘积
def sepal_product(row):
    return row['sepal_length'] * row['sepal_width']

# 应用自定义函数，创建一个新列
iris['sepal_product'] = iris.apply(sepal_product, axis=1)
print("应用自定义函数后的数据：\n", iris.head())


应用自定义函数后的数据：
    sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio  \
0           5.1          3.5           1.4          0.2  setosa     1.457143   
1           4.9          3.0           1.4          0.2  setosa     1.633333   
2           4.7          3.2           1.3          0.2  setosa     1.468750   
3           4.6          3.1           1.5          0.2  setosa     1.483871   
4           5.0          3.6           1.4          0.2  setosa     1.388889   

   sepal_product  
0          17.85  
1          14.70  
2          15.04  
3          14.26  
4          18.00  


In [22]:
# 使用 melt 将宽表转换为长表
melted_iris = pd.melt(iris, id_vars='species', value_vars=['sepal_length', 'sepal_width'])
print("长表格式的数据：\n", melted_iris.head())

# 使用 pivot 将长表转换回宽表
pivoted_iris = melted_iris.pivot(index='species', columns='variable', values='value')
print("宽表格式的数据：\n", pivoted_iris.head())


长表格式的数据：
   species      variable  value
0  setosa  sepal_length    5.1
1  setosa  sepal_length    4.9
2  setosa  sepal_length    4.7
3  setosa  sepal_length    4.6
4  setosa  sepal_length    5.0


ValueError: Index contains duplicate entries, cannot reshape

In [23]:
# 对 'sepal_length' 列执行累积求和
iris['sepal_cumsum'] = iris['sepal_length'].cumsum()
print("累积求和后的数据：\n", iris.head())


累积求和后的数据：
    sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio  \
0           5.1          3.5           1.4          0.2  setosa     1.457143   
1           4.9          3.0           1.4          0.2  setosa     1.633333   
2           4.7          3.2           1.3          0.2  setosa     1.468750   
3           4.6          3.1           1.5          0.2  setosa     1.483871   
4           5.0          3.6           1.4          0.2  setosa     1.388889   

   sepal_product  sepal_cumsum  
0          17.85           5.1  
1          14.70          10.0  
2          15.04          14.7  
3          14.26          19.3  
4          18.00          24.3  


In [24]:
# 从数据集中随机抽取5条记录
sample_data = iris.sample(n=5)
print("随机抽取的数据：\n", sample_data)


随机抽取的数据：
     sepal_length  sepal_width  petal_length  petal_width     species  \
18           5.7          3.8           1.7          0.3      setosa   
5            5.4          3.9           1.7          0.4      setosa   
93           5.0          2.3           3.3          1.0  versicolor   
3            4.6          3.1           1.5          0.2      setosa   
85           6.0          3.4           4.5          1.6  versicolor   

    sepal_ratio  sepal_product  sepal_cumsum  
18     1.500000          21.66          95.6  
5      1.384615          21.06          29.7  
93     2.173913          11.50         513.1  
3      1.483871          14.26          19.3  
85     1.764706          20.40         466.6  


In [25]:
# 将数据框沿行轴（axis=0）连接
iris_concat = pd.concat([iris.head(), iris.tail()], axis=0)
print("连接后的数据：\n", iris_concat)


连接后的数据：
      sepal_length  sepal_width  petal_length  petal_width    species  \
0             5.1          3.5           1.4          0.2     setosa   
1             4.9          3.0           1.4          0.2     setosa   
2             4.7          3.2           1.3          0.2     setosa   
3             4.6          3.1           1.5          0.2     setosa   
4             5.0          3.6           1.4          0.2     setosa   
145           6.7          3.0           5.2          2.3  virginica   
146           6.3          2.5           5.0          1.9  virginica   
147           6.5          3.0           5.2          2.0  virginica   
148           6.2          3.4           5.4          2.3  virginica   
149           5.9          3.0           5.1          1.8  virginica   

     sepal_ratio  sepal_product  sepal_cumsum  
0       1.457143          17.85           5.1  
1       1.633333          14.70          10.0  
2       1.468750          15.04          14.7  
3     

In [26]:
# 将所有 species 为 'setosa' 的记录的 sepal_length 乘以 2
iris.loc[iris['species'] == 'setosa', 'sepal_length'] *= 2
print("条件修改后的数据：\n", iris.head())


条件修改后的数据：
    sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio  \
0          10.2          3.5           1.4          0.2  setosa     1.457143   
1           9.8          3.0           1.4          0.2  setosa     1.633333   
2           9.4          3.2           1.3          0.2  setosa     1.468750   
3           9.2          3.1           1.5          0.2  setosa     1.483871   
4          10.0          3.6           1.4          0.2  setosa     1.388889   

   sepal_product  sepal_cumsum  
0          17.85           5.1  
1          14.70          10.0  
2          15.04          14.7  
3          14.26          19.3  
4          18.00          24.3  


In [27]:
# 创建一个新的日期列，表示从某个时间开始的日期
import numpy as np
iris['date'] = pd.date_range(start='2024-01-01', periods=len(iris), freq='D')
print("带有日期列的数据：\n", iris.head())

# 将日期列设置为索引
iris.set_index('date', inplace=True)
print("设置日期为索引后的数据：\n", iris.head())


带有日期列的数据：
    sepal_length  sepal_width  petal_length  petal_width species  sepal_ratio  \
0          10.2          3.5           1.4          0.2  setosa     1.457143   
1           9.8          3.0           1.4          0.2  setosa     1.633333   
2           9.4          3.2           1.3          0.2  setosa     1.468750   
3           9.2          3.1           1.5          0.2  setosa     1.483871   
4          10.0          3.6           1.4          0.2  setosa     1.388889   

   sepal_product  sepal_cumsum       date  
0          17.85           5.1 2024-01-01  
1          14.70          10.0 2024-01-02  
2          15.04          14.7 2024-01-03  
3          14.26          19.3 2024-01-04  
4          18.00          24.3 2024-01-05  
设置日期为索引后的数据：
             sepal_length  sepal_width  petal_length  petal_width species  \
date                                                                       
2024-01-01          10.2          3.5           1.4          0.2  setosa   
20

In [28]:
# 创建一个透视表，对 sepal_length 和 petal_length 进行求和和求均值操作
pivot_table_multiagg = pd.pivot_table(iris, values=['sepal_length', 'petal_length'], index='species', aggfunc=[np.mean, np.sum])
print("透视表（多重聚合）：\n", pivot_table_multiagg)


透视表（多重聚合）：
                    mean                       sum             
           petal_length sepal_length petal_length sepal_length
species                                                       
setosa            1.462       10.012         73.1        500.6
versicolor        4.260        5.936        213.0        296.8
virginica         5.552        6.588        277.6        329.4


In [29]:
# 创建一个新的列 'source'，并与 species 一起构成多级索引
iris['source'] = ['garden'] * 50 + ['wild'] * 50 + ['botanic'] * 50
iris_multiindex = iris.set_index(['species', 'source'])
print("多级索引的数据：\n", iris_multiindex.head())

# 从多级索引中选择某一类
print("选择特定索引的数据：\n", iris_multiindex.loc[('setosa', 'garden')])


多级索引的数据：
                 sepal_length  sepal_width  petal_length  petal_width  \
species source                                                         
setosa  garden          10.2          3.5           1.4          0.2   
        garden           9.8          3.0           1.4          0.2   
        garden           9.4          3.2           1.3          0.2   
        garden           9.2          3.1           1.5          0.2   
        garden          10.0          3.6           1.4          0.2   

                sepal_ratio  sepal_product  sepal_cumsum  
species source                                            
setosa  garden     1.457143          17.85           5.1  
        garden     1.633333          14.70          10.0  
        garden     1.468750          15.04          14.7  
        garden     1.483871          14.26          19.3  
        garden     1.388889          18.00          24.3  
选择特定索引的数据：
                 sepal_length  sepal_width  petal_length  pet

In [30]:
# 计算 sepal_length 的滚动平均值，窗口大小为 3
iris['sepal_rolling_mean'] = iris['sepal_length'].rolling(window=3).mean()
print("滚动平均值后的数据：\n", iris.head())


滚动平均值后的数据：
             sepal_length  sepal_width  petal_length  petal_width species  \
date                                                                       
2024-01-01          10.2          3.5           1.4          0.2  setosa   
2024-01-02           9.8          3.0           1.4          0.2  setosa   
2024-01-03           9.4          3.2           1.3          0.2  setosa   
2024-01-04           9.2          3.1           1.5          0.2  setosa   
2024-01-05          10.0          3.6           1.4          0.2  setosa   

            sepal_ratio  sepal_product  sepal_cumsum  source  \
date                                                           
2024-01-01     1.457143          17.85           5.1  garden   
2024-01-02     1.633333          14.70          10.0  garden   
2024-01-03     1.468750          15.04          14.7  garden   
2024-01-04     1.483871          14.26          19.3  garden   
2024-01-05     1.388889          18.00          24.3  garden   

      

In [31]:
# 使用 query 方法选择 sepal_length 大于 5 且 species 为 'setosa' 的行
query_data = iris.query('sepal_length > 5 and species == "setosa"')
print("查询语句筛选的数据：\n", query_data)


查询语句筛选的数据：
             sepal_length  sepal_width  petal_length  petal_width species  \
date                                                                       
2024-01-01          10.2          3.5           1.4          0.2  setosa   
2024-01-02           9.8          3.0           1.4          0.2  setosa   
2024-01-03           9.4          3.2           1.3          0.2  setosa   
2024-01-04           9.2          3.1           1.5          0.2  setosa   
2024-01-05          10.0          3.6           1.4          0.2  setosa   
2024-01-06          10.8          3.9           1.7          0.4  setosa   
2024-01-07           9.2          3.4           1.4          0.3  setosa   
2024-01-08          10.0          3.4           1.5          0.2  setosa   
2024-01-09           8.8          2.9           1.4          0.2  setosa   
2024-01-10           9.8          3.1           1.5          0.1  setosa   
2024-01-11          10.8          3.7           1.5          0.2  setosa   


In [32]:
# 按月重采样，计算每月的平均值
monthly_resample = iris.resample('M').mean()
print("按月重采样的数据：\n", monthly_resample)


按月重采样的数据：
             sepal_length  sepal_width  petal_length  petal_width  sepal_ratio  \
date                                                                            
2024-01-31     10.038710     3.438710      1.477419     0.245161     1.465904   
2024-02-29      8.634483     3.224138      2.448276     0.637931     1.702781   
2024-03-31      5.964516     2.745161      4.303226     1.335484     2.197244   
2024-04-30      6.300000     2.876667      5.156667     1.810000     2.203419   
2024-05-31      6.596552     3.003448      5.475862     2.003448     2.207287   

            sepal_product  sepal_cumsum  sepal_rolling_mean  
date                                                         
2024-01-31      17.357097     79.900000           10.055172  
2024-02-29      17.297586    233.251724            8.767816  
2024-03-31      16.425161    406.806452            5.969892  
2024-04-30      18.274667    590.503333            6.263333  
2024-05-31      19.872759    785.062069          