# 1. 创建、重命名

| 操作类型     | ​**Series**                            | ​**DataFrame**                         | 解释                                                                 |
|--------------|---------------------------------------|---------------------------------------|----------------------------------------------------------------------|
| ​**创建**     | `s = pd.Series(data, index=[])`       | `df = pd.DataFrame(data)`            | `Series`：一维数据（默认索引从 0 开始）<br>`DataFrame`：二维数据（默认行列索引从 0 开始） |
| ​**重命名**   | `s.rename(index={'old': 'new'})`      | `df.rename(columns={'old_name': 'new_name'})` | `Series`：只能重命名索引<br>`DataFrame`：可以重命名行或列名 |
| ​**设置索引** | 不支持设置索引（索引在创建时定义）     | `df.set_index('column_name')`         | `Series`：在创建时已定义，后续无法更改<br>`DataFrame`：支持后续修改 |
| ​**重置索引** | 不支持                                | `df.reset_index()`                    | `Series`：不支持<br>`DataFrame`：可以重置为默认的整数索引 |

In [61]:
import pandas as pd

# 创建 Series 和 DataFrame 示例
data = [10, 20, 30, 40] # 这是个列表
s = pd.Series(data, index=['a', 'b', 'c', 'd']) # 创建索引
print("创建的 Series:")
s


创建的 Series:


a    10
b    20
c    30
d    40
dtype: int64

In [62]:
# 这是个字典
data_dict = {'Name': ['Alice', 'Bob', 'Charlie'], 
             'Age': [25, 30, 35], 
             'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data_dict) # 创建 DataFrame
print("\n创建的 DataFrame:")
df



创建的 DataFrame:


Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [63]:

# 重命名操作
s_renamed = s.rename(index={'a': 'A'}) # 重命名索引
print("\n重命名 Series 中索引 'a' 为 'A':")

s_renamed


重命名 Series 中索引 'a' 为 'A':


A    10
b    20
c    30
d    40
dtype: int64

In [64]:

df_renamed = df.rename(columns={'Name': 'Full Name'}) # 重命名列
print("\n重命名 DataFrame 中 'Name' 列为 'Full Name':")

df_renamed


重命名 DataFrame 中 'Name' 列为 'Full Name':


Unnamed: 0,Full Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [65]:

# 设置索引
df_set_index = df.set_index('Name')
print("\n设置 DataFrame 中 'Name' 列为索引:")
df_set_index



设置 DataFrame 中 'Name' 列为索引:


Unnamed: 0_level_0,Age,City
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,25,New York
Bob,30,Los Angeles
Charlie,35,Chicago


In [66]:

# 重置索引
df_reset_index = df_set_index.reset_index()
print("\n重置 DataFrame 索引:")

df_reset_index


重置 DataFrame 索引:


Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


# 2.增删改查相关操作

In [67]:
import pandas as pd
import numpy as np

# 创建 Series 和 DataFrame 示例
data_series = [10, 20, 30, 40]
s = pd.Series(data_series, index=['a', 'b', 'c', 'd'])
print("创建的 Series:")
print(s)


创建的 Series:
a    10
b    20
c    30
d    40
dtype: int64


In [68]:
data_dict = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data_dict)
print("\n创建的 DataFrame:")
print(df)



创建的 DataFrame:
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago


In [69]:
# 添加数据
s.loc['e'] = 50  # Series：通过新索引添加元素
df['Country'] = ['USA', 'USA', 'USA']  # DataFrame：添加新列
df.loc[2, 'City'] = 'San Francisco'
print("\n添加数据:")
print("Series 添加新数据:")
print(s)
print("DataFrame 添加新列:")
print(df)



添加数据:
Series 添加新数据:
a    10
b    20
c    30
d    40
e    50
dtype: int64
DataFrame 添加新列:
      Name  Age           City Country
0    Alice   25       New York     USA
1      Bob   30    Los Angeles     USA
2  Charlie   35  San Francisco     USA


In [70]:
# 填充缺失值
s_with_na = s.copy() # 创建副本
s_with_na['b'] = np.nan # 添加缺失值Nan
s_filled = s_with_na.fillna(99)  # Series：填充缺失值
df_with_na = df.copy()
df_with_na.loc[1, 'Age'] = pd.NA
df_with_na.loc[1, 'City'] = np.nan
df_filled = df_with_na.fillna({'Age': 40, 'City': 'Unknown'})  # DataFrame：填充缺失值
print("\n填充缺失值:")
print("Series 填充缺失值:")
print(s_filled)
print("DataFrame 填充缺失值:")
print(df_filled)



填充缺失值:
Series 填充缺失值:
a    10.0
b    99.0
c    30.0
d    40.0
e    50.0
dtype: float64
DataFrame 填充缺失值:


      Name   Age           City Country
0    Alice  25.0       New York     USA
1      Bob  40.0        Unknown     USA
2  Charlie  35.0  San Francisco     USA


In [71]:

# 删除操作
s_dropped = s.drop('b')
print("\n删除 Series 中索引 'b' 的元素:")
print(s_dropped)



删除 Series 中索引 'b' 的元素:
a    10
c    30
d    40
e    50
dtype: int64


In [72]:

df_dropped_row = df.drop(1, axis=0)  # 按索引删除行
df_dropped_col = df.drop('City', axis=1)  # 按表头删除列
print("\n删除 DataFrame 中索引为 1 的行:")
print(df_dropped_row)
print("\n删除 DataFrame 中 'City' 列:")
print(df_dropped_col)



删除 DataFrame 中索引为 1 的行:
      Name  Age           City Country
0    Alice   25       New York     USA
2  Charlie   35  San Francisco     USA

删除 DataFrame 中 'City' 列:
      Name  Age Country
0    Alice   25     USA
1      Bob   30     USA
2  Charlie   35     USA


In [73]:

# 删除重复数据
s_duplicate = pd.Series([10, 20, 20, 40, 40, 40])
df_duplicate = pd.DataFrame({'Name': ['Alice', 'Bob', 'Bob', 'Charlie', 'Charlie', 'Charlie'], 'Age': [25, 30, 30, 35, 35, 35]})
s_no_duplicates = s_duplicate.drop_duplicates()  # Series：删除重复值
df_no_duplicates = df_duplicate.drop_duplicates()  # DataFrame：删除重复值
print("\n删除重复数据:")
print("Series 删除重复值:")
print(s_no_duplicates)
print("DataFrame 删除重复行:")
print(df_no_duplicates)



删除重复数据:
Series 删除重复值:
0    10
1    20
3    40
dtype: int64
DataFrame 删除重复行:
      Name  Age
0    Alice   25
1      Bob   30
3  Charlie   35


In [74]:
# 删除缺失值
s_with_na_2 = s.copy()
s_with_na_2['c'] = np.nan
s_without_na = s_with_na_2.dropna()  # Series：删除缺失值
df_with_na_2 = df.copy()
df_with_na_2.loc[0, 'Age'] = np.nan
df_without_na = df_with_na_2.dropna()  # DataFrame：删除包含缺失值的行
print("\n删除缺失值:")
print("Series 删除缺失值:")
print(s_without_na)
print("DataFrame 删除缺失值:")
print(df_without_na)


删除缺失值:
Series 删除缺失值:
a    10.0
b    20.0
d    40.0
e    50.0
dtype: float64
DataFrame 删除缺失值:
      Name   Age           City Country
1      Bob  30.0    Los Angeles     USA
2  Charlie  35.0  San Francisco     USA


In [75]:
# 修改数据
s['a'] = 100  # Series：修改单个元素
df['Age'] = [26, 31, 36]  # DataFrame：修改指定列的值
print("\n修改数据:")
print("Series 修改数据:")
print(s)
print("DataFrame 修改数据:")
print(df)



修改数据:
Series 修改数据:
a    100
b     20
c     30
d     40
e     50
dtype: int64
DataFrame 修改数据:
      Name  Age           City Country
0    Alice   26       New York     USA
1      Bob   31    Los Angeles     USA
2  Charlie   36  San Francisco     USA


In [76]:
# 合并数据
s2 = pd.Series([50, 60, 70], index=['e', 'f', 'g'])
s_merged = pd.concat([s, s2], axis=0)  # Series：合并
df2 = pd.DataFrame({'Name': ['David', 'Eva'], 'Age': [40, 45], 'City': ['Seattle', 'Austin']})
df_merged = pd.concat([df, df2], axis=0)  # DataFrame：按行合并
df_merged_columns = pd.concat([df, df2], axis=1)  # DataFrame：按列合并
print("\n合并数据:")
print("Series 合并:")
print(s_merged)
print("DataFrame 按行合并:")
print(df_merged)
print("DataFrame 按列合并:")
print(df_merged_columns)



合并数据:
Series 合并:
a    100
b     20
c     30
d     40
e     50
e     50
f     60
g     70
dtype: int64
DataFrame 按行合并:
      Name  Age           City Country
0    Alice   26       New York     USA
1      Bob   31    Los Angeles     USA
2  Charlie   36  San Francisco     USA
0    David   40        Seattle     NaN
1      Eva   45         Austin     NaN
DataFrame 按列合并:
      Name  Age           City Country   Name   Age     City
0    Alice   26       New York     USA  David  40.0  Seattle
1      Bob   31    Los Angeles     USA    Eva  45.0   Austin
2  Charlie   36  San Francisco     USA    NaN   NaN      NaN


In [77]:
# 查看前几项
print("\n查看前几项:")
print("Series 前 3 项:")
print(s.head(3))  # 查看前 3 项
print("DataFrame 前 2 行:")
print(df.head(2))  # 查看前 2 行



查看前几项:
Series 前 3 项:
a    100
b     20
c     30
dtype: int64
DataFrame 前 2 行:
    Name  Age         City Country
0  Alice   26     New York     USA
1    Bob   31  Los Angeles     USA


In [78]:
# 查看后几项
print("\n查看后几项:")
print("Series 后 2 项:")
print(s.tail(2))  # 查看后 2 项
print("DataFrame 后 1 行:")
print(df.tail(1))  # 查看后 1 行



查看后几项:
Series 后 2 项:
d    40
e    50
dtype: int64
DataFrame 后 1 行:
      Name  Age           City Country
2  Charlie   36  San Francisco     USA


In [79]:
# 查看数据
print("\n查看数据:")
print("Series 的值:")
print(s.values)  # 获取 Series 的值
print("DataFrame 的值:")
print(df.values)  # 获取 DataFrame 的值



查看数据:
Series 的值:
[100  20  30  40  50]
DataFrame 的值:
[['Alice' 26 'New York' 'USA']
 ['Bob' 31 'Los Angeles' 'USA']
 ['Charlie' 36 'San Francisco' 'USA']]


In [80]:
# 查看索引
print("\n查看索引:")
print("Series 的索引:")
print(s.index)  # 获取 Series 的索引
print("DataFrame 的索引:")
print(df.index)  # 获取 DataFrame 的索引



查看索引:
Series 的索引:
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
DataFrame 的索引:
RangeIndex(start=0, stop=3, step=1)


In [81]:
# 按位置选择数据
print("\n按位置选择数据:")
print("Series 按位置选择（第 2 个元素）:")
print(s.iloc[1])  # 根据位置选择
print("DataFrame 按位置选择（第 2 行）:")
print(df.iloc[1])  # 根据位置选择



按位置选择数据:
Series 按位置选择（第 2 个元素）:
20
DataFrame 按位置选择（第 2 行）:
Name               Bob
Age                 31
City       Los Angeles
Country            USA
Name: 1, dtype: object


In [82]:
# 按标签选择数据
print("\n按标签选择数据:")
print("Series 按标签选择（索引 'a' 的元素）:")
print(s.loc['a'])  # 根据标签选择
print("DataFrame 按标签选择（行标签为 'Bob'）:")
print(df.loc[1])  # 根据行标签选择
print("DataFrame 按标签选择（列 'City' 的数据）:")
print(df['City'])  # 根据列标签选择



按标签选择数据:
Series 按标签选择（索引 'a' 的元素）:
100
DataFrame 按标签选择（行标签为 'Bob'）:
Name               Bob
Age                 31
City       Los Angeles
Country            USA
Name: 1, dtype: object
DataFrame 按标签选择（列 'City' 的数据）:
0         New York
1      Los Angeles
2    San Francisco
Name: City, dtype: object


In [83]:
# 按条件选择数据
print("\n按条件选择数据:")
print("Series 按条件选择（大于 20 的元素）:")
print(s[s > 20])  # 条件筛选
print("DataFrame 按条件选择（Age 大于 30 的行）:")
print(df[df['Age'] > 30])  # 条件筛选


按条件选择数据:
Series 按条件选择（大于 20 的元素）:
a    100
c     30
d     40
e     50
dtype: int64
DataFrame 按条件选择（Age 大于 30 的行）:
      Name  Age           City Country
1      Bob   31    Los Angeles     USA
2  Charlie   36  San Francisco     USA
