# Pandas 教程 | Pandas Tutorial

作者: 宛莹
日期: 2025年1月

Author: Wanying
Date: January 2025

Pandas是一个强大的数据分析库,它提供了两种主要的数据结构:Series和DataFrame。
Pandas is a powerful data analysis library that provides two main data structures: Series and DataFrame.

我们将学习如何创建、索引和操作这些数据结构。
We will learn how to create, index, and manipulate these data structures.

In [43]:
import pandas as pd
import numpy as np

## 创建Series | Creating Series

Series是一个一维的数据结构,类似于一维数组,但是每个元素都有一个标签。
A Series is a one-dimensional data structure, similar to a one-dimensional array, but each element has a label.

我们可以从列表或NumPy数组创建Series。
We can create a Series from a list or NumPy array.

In [44]:
fruits = pd.Series(["apple", "banana", "orange", "grape"])
print("Fruits Series:\n", fruits)

numbers = pd.Series(np.array([1, 2, 3, 4, 5]))
print("Numbers Series:\n", numbers)

Fruits Series:
 0     apple
1    banana
2    orange
3     grape
dtype: object
Numbers Series:
 0    1
1    2
2    3
3    4
4    5
dtype: int32


我们也可以在创建Series时指定索引标签。 We can also specify index labels when creating a Series.

In [45]:
fruits_with_labels = pd.Series(["apple", "banana", "orange", "grape"], index=["a", "b", "c", "d"])
print("Fruits Series with labels:\n", fruits_with_labels)

Fruits Series with labels:
 a     apple
b    banana
c    orange
d     grape
dtype: object


## 创建DataFrame | Creating DataFrame

DataFrame是一个二维的数据结构,类似于电子表格或SQL表。
A DataFrame is a two-dimensional data structure, similar to a spreadsheet or SQL table.

我们可以从字典创建DataFrame,其中字典的键为列名,值为列数据。
We can create a DataFrame from a dictionary, where the keys are column names and the values are column data.

In [46]:
student_data = {
    "Name": ["Alice", "Bob", "Charlie", "David"],
    "Age": [25, 30, 35, 40],
    "Major": ["Math", "Physics", "Chemistry", "Biology"]
}
students_df = pd.DataFrame(student_data)
print("Students DataFrame:\n", students_df)

Students DataFrame:
       Name  Age      Major
0    Alice   25       Math
1      Bob   30    Physics
2  Charlie   35  Chemistry
3    David   40    Biology


我们也可以从列表字典创建DataFrame。
We can also create a DataFrame from a list of dictionaries.

In [47]:
student_dicts = [
    {"Name": "Alice", "Age": 25, "Major": "Math"},
    {"Name": "Bob", "Age": 30, "Major": "Physics"},
    {"Name": "Charlie", "Age": 35, "Major": "Chemistry"},
    {"Name": "David", "Age": 40, "Major": "Biology"}
]
students_from_dicts = pd.DataFrame(student_dicts)
print("Students DataFrame from list of dicts:\n", students_from_dicts)

Students DataFrame from list of dicts:
       Name  Age      Major
0    Alice   25       Math
1      Bob   30    Physics
2  Charlie   35  Chemistry
3    David   40    Biology


## 索引Series | Indexing Series

我们可以使用标签或位置索引Series。
We can index a Series using labels or positions.

In [48]:
print("Fruit at index 'b':", fruits_with_labels["b"])  # 使用标签索引 | Indexing with label
print("Fruit at index 2:", fruits[2])  # 使用位置索引 | Indexing with position

Fruit at index 'b': banana
Fruit at index 2: orange


我们也可以使用切片获取多个元素。
We can also use slicing to get multiple elements.

In [49]:
print("Fruits from 'b' to 'd':\n", fruits_with_labels["b":"d"])  # 使用标签切片 | Slicing with labels
print("Fruits from index 1 to 3:\n", fruits[1:3])  # 使用位置切片 | Slicing with positions

Fruits from 'b' to 'd':
 b    banana
c    orange
d     grape
dtype: object
Fruits from index 1 to 3:
 1    banana
2    orange
dtype: object



## 索引DataFrame | Indexing DataFrame

我们可以使用列名来索引DataFrame的列。
We can index DataFrame columns using column names.

In [50]:
print("Names column:\n", students_df["Name"])

# 我们可以使用loc和iloc来索引DataFrame的行。loc使用标签,iloc使用位置。
# We can index DataFrame rows using loc and iloc. loc uses labels, while iloc uses positions.
print("Student at index 1:\n", students_df.loc[1])  # 使用loc和标签索引 | Indexing with loc and label
print("Student at index 2:\n", students_df.iloc[2])  # 使用iloc和位置索引 | Indexing with iloc and position

# 我们可以同时索引行和列。
# We can index rows and columns simultaneously.
print("Age of Bob:", students_df.loc[1, "Age"])  # 使用loc和标签索引 | Indexing with loc and labels
print("Major of Charlie:", students_df.iloc[2, 2])  # 使用iloc和位置索引 | Indexing with iloc and positions

# 我们也可以使用布尔索引来筛选数据。
# We can also use boolean indexing to filter data.
print("Students older than 30:\n", students_df[students_df["Age"] > 30])

Names column:
 0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object
Student at index 1:
 Name         Bob
Age           30
Major    Physics
Name: 1, dtype: object
Student at index 2:
 Name       Charlie
Age             35
Major    Chemistry
Name: 2, dtype: object
Age of Bob: 30
Major of Charlie: Chemistry
Students older than 30:
       Name  Age      Major
2  Charlie   35  Chemistry
3    David   40    Biology


## 读取外部数据 | Reading External Data

Pandas可以读取各种格式的外部数据,如CSV、Excel、SQL等。
Pandas can read various formats of external data, such as CSV, Excel, SQL, etc.

In [51]:
# 读取CSV文件 | Reading CSV file
csv_data = pd.read_csv("working_data/data.csv")
print("Data from CSV:\n", csv_data)

# 读取Excel文件 | Reading Excel file
excel_data = pd.read_excel("working_data/data.xlsx", sheet_name="Sheet1")
print("Data from Excel:\n", excel_data)

Data from CSV:
    序号  分数    姓名
0   1  90    Ma
1   2  57  Chan
2   3  68  Zhou
3   4  90    Du
4   5  88   Xie
5   6  90   Amy
Data from Excel:
    序号  分数    姓名
0   1  90    Ma
1   2  57  Chan
2   3  68  Zhou
3   4  90    Du
4   5  88   Xie
5   6  90   Amy


##  数据编辑 | Data Editing

Pandas提供了强大的数据编辑功能,可以方便地进行增、删、查、改等操作。
Pandas provides powerful data editing capabilities, allowing for easy addition, deletion, querying, and modification operations.

我们将深入探讨如何使用Pandas进行数据编辑。
 we will dive into how to use Pandas for data editing.

In [52]:

# 创建示例DataFrame | Creating a sample DataFrame
dict1 = {"姓名": '张三', "出生年月": '1988', "id": '2', "成绩": 76}
dict2 = {"姓名": '李四', "出生年月": '2013', "id": '3', "成绩": 78}
dict3 = {"姓名": '王五', "出生年月": '2014', "id": '4', "成绩": 86}
dict4 = {"姓名": '狗六', "出生年月": '1988', "id": '5', "成绩": 90}
list_dict = [dict1, dict2, dict3, dict4]
df = pd.DataFrame.from_dict(list_dict)
print("Original DataFrame:")
print(df)

Original DataFrame:
   姓名  出生年月 id  成绩
0  张三  1988  2  76
1  李四  2013  3  78
2  王五  2014  4  86
3  狗六  1988  5  90


### 增: 添加数据 | Addition: Adding Data

我们可以使用insert()方法插入新列。
We can use the insert() method to insert a new column.

In [53]:
df.insert(1, "性别", "男")
print("\nAfter inserting a new column:")
print(df)


After inserting a new column:
   姓名 性别  出生年月 id  成绩
0  张三  男  1988  2  76
1  李四  男  2013  3  78
2  王五  男  2014  4  86
3  狗六  男  1988  5  90


我们可以使用append()方法添加新行。
We can use the append() method to add new rows.

In [54]:
dict5 = {"姓名": '赵一', "出生年月": '1988', "id": '6', "成绩": 92}
df = df.append(dict5, ignore_index=True)
print("\nAfter appending a new row:")
print(df)


After appending a new row:
   姓名   性别  出生年月 id  成绩
0  张三    男  1988  2  76
1  李四    男  2013  3  78
2  王五    男  2014  4  86
3  狗六    男  1988  5  90
4  赵一  NaN  1988  6  92


我们还可以使用merge()方法合并两个DataFrame。
We can also use the merge() method to merge two DataFrames.

In [55]:
df_left = pd.DataFrame({'key': ['一', '二', '四'], 'lval': [1, 2, 3]})
df_right = pd.DataFrame({'key': ['一', '二', '三'], 'rval': [4, 5, 6]})
print("\nMerging two DataFrames (inner join):")
print(pd.merge(df_left, df_right, on='key', how='inner'))


Merging two DataFrames (inner join):
  key  lval  rval
0   一     1     4
1   二     2     5


### 删: 删除数据 | Deletion: Deleting Data

我们可以使用del关键字删除列。
We can use the del keyword to delete columns.

In [56]:
print("\nBefore deleting a column:")
print(df)
del df["性别"]
print("After deleting a column:")
print(df)


Before deleting a column:
   姓名   性别  出生年月 id  成绩
0  张三    男  1988  2  76
1  李四    男  2013  3  78
2  王五    男  2014  4  86
3  狗六    男  1988  5  90
4  赵一  NaN  1988  6  92
After deleting a column:
   姓名  出生年月 id  成绩
0  张三  1988  2  76
1  李四  2013  3  78
2  王五  2014  4  86
3  狗六  1988  5  90
4  赵一  1988  6  92


我们可以使用drop()方法删除行或列。
We can use the drop() method to delete rows or columns.

In [57]:
print("\nBefore dropping rows:")
print(df)
df = df.drop(index=[0, 2])
print("After dropping rows:")
print(df)


Before dropping rows:
   姓名  出生年月 id  成绩
0  张三  1988  2  76
1  李四  2013  3  78
2  王五  2014  4  86
3  狗六  1988  5  90
4  赵一  1988  6  92
After dropping rows:
   姓名  出生年月 id  成绩
1  李四  2013  3  78
3  狗六  1988  5  90
4  赵一  1988  6  92


我们可以使用drop_duplicates()方法删除重复行。
We can use the drop_duplicates() method to delete duplicate rows.

In [58]:
dict6 = {"姓名": '王五', "出生年月": '1988', "id": '6', "成绩": 92}
df = df.append(dict6, ignore_index=True)
print("\nBefore dropping duplicates:")
print(df)
df = df.drop_duplicates(["姓名"], keep='last')
print("After dropping duplicates:")
print(df)


Before dropping duplicates:
   姓名  出生年月 id  成绩
0  李四  2013  3  78
1  狗六  1988  5  90
2  赵一  1988  6  92
3  王五  1988  6  92
After dropping duplicates:
   姓名  出生年月 id  成绩
0  李四  2013  3  78
1  狗六  1988  5  90
2  赵一  1988  6  92
3  王五  1988  6  92


### 查: 查询数据 | Query: Querying Data

我们可以使用布尔索引查询满足条件的行。
We can use boolean indexing to query rows that satisfy a condition.

In [59]:
print("\nQuerying rows where 姓名 is 王五:")
print(df[df["姓名"] == '王五'])


Querying rows where 姓名 is 王五:
   姓名  出生年月 id  成绩
3  王五  1988  6  92


我们可以使用index属性获取查询结果的索引。
We can use the index attribute to get the indexes of the query result.

In [60]:
index1 = df["姓名"] == '王五'
print("Indexes of rows where 姓名 is 王五:")
print(df[index1].index)

Indexes of rows where 姓名 is 王五:
Int64Index([3], dtype='int64')


### 改: 修改数据 | Modification: Modifying Data

# 我们可以使用loc[]或iloc[]方法修改特定行和列的值。
# We can use the loc[] or iloc[] method to modify values at specific rows and columns.

In [61]:
print("\nBefore modification:")
print(df)
df.loc[df["姓名"] == '王五', "姓名"] = "王六"
print("After modifying 姓名 of 王五 to 王六:")
print(df)


Before modification:
   姓名  出生年月 id  成绩
0  李四  2013  3  78
1  狗六  1988  5  90
2  赵一  1988  6  92
3  王五  1988  6  92
After modifying 姓名 of 王五 to 王六:
   姓名  出生年月 id  成绩
0  李四  2013  3  78
1  狗六  1988  5  90
2  赵一  1988  6  92
3  王六  1988  6  92


## 数据分析 | Data Analysis

在本教程中,我们将深入探讨如何使用Pandas进行数据分析,包括查看DataFrame信息、数据筛选和清洗、统计分析、分组操作以及数据输出。
In this tutorial, we will dive into how to use Pandas for data analysis, including viewing DataFrame information, data filtering and cleaning, statistical analysis, grouping operations, and data output.

In [62]:
df = pd.DataFrame({"学号":[202401,202402,202403,202404,202405,202406],
                   "姓名":['Zhang ', 'Amy', 'Chen', 'Li', 'Bob', 'Ape'],
                   "年龄":[33,46,54,33,34,39],
                   "班级":['a','a','a','b','b','b'],
                   "身高":[186,176,np.nan,165,np.nan,174],
                   "性别":['男','男','男','女','男','男']},
                  columns =['学号','姓名','年龄','班级','身高','性别'])
print("Original DataFrame:")
print(df)

Original DataFrame:
       学号      姓名  年龄 班级     身高 性别
0  202401  Zhang   33  a  186.0  男
1  202402     Amy  46  a  176.0  男
2  202403    Chen  54  a    NaN  男
3  202404      Li  33  b  165.0  女
4  202405     Bob  34  b    NaN  男
5  202406     Ape  39  b  174.0  男


### 查看DataFrame信息 | Viewing DataFrame Information

我们可以使用各种方法和属性来查看DataFrame的相关信息。
We can use various methods and attributes to view information about the DataFrame.

In [63]:
print("\nDataFrame info:")
print(df.info())  # 查看DataFrame的全部信息 | View all information of the DataFrame
print("DataFrame shape:", df.shape)  # 查看DataFrame的维度 | View the dimensions of the DataFrame
print("DataFrame values:\n", df.values)  # 查看DataFrame的全部值 | View all values of the DataFrame
print("DataFrame columns:", df.columns.tolist())  # 查看DataFrame的全部列名 | View all column names of the DataFrame
print("DataFrame dtypes:\n", df.dtypes)  # 查看所有列的数据格式 | View the data types of all columns
print("Is null:\n", df.isnull())  # 查看各个位置是否为空 | Check if each position is null
print("Unique values in 姓名:", df["姓名"].unique())  # 查看某列的不重复值 | View unique values in a column
print("Head of DataFrame:\n", df.head(3))  # 查看前几行数据 | View the first few rows of data
print("Tail of DataFrame:\n", df.tail(3))  # 查看后几行数据 | View the last few rows of data


DataFrame info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   学号      6 non-null      int64  
 1   姓名      6 non-null      object 
 2   年龄      6 non-null      int64  
 3   班级      6 non-null      object 
 4   身高      4 non-null      float64
 5   性别      6 non-null      object 
dtypes: float64(1), int64(2), object(3)
memory usage: 416.0+ bytes
None
DataFrame shape: (6, 6)
DataFrame values:
 [[202401 'Zhang ' 33 'a' 186.0 '男']
 [202402 'Amy' 46 'a' 176.0 '男']
 [202403 'Chen' 54 'a' nan '男']
 [202404 'Li' 33 'b' 165.0 '女']
 [202405 'Bob' 34 'b' nan '男']
 [202406 'Ape' 39 'b' 174.0 '男']]
DataFrame columns: ['学号', '姓名', '年龄', '班级', '身高', '性别']
DataFrame dtypes:
 学号      int64
姓名     object
年龄      int64
班级     object
身高    float64
性别     object
dtype: object
Is null:
       学号     姓名     年龄     班级     身高     性别
0  False  False  False  False  False  False
1  

### 数据筛选和清洗 | Data Filtering and Cleaning

我们可以使用各种方法对数据进行筛选和清洗,包括填充空值、删除空值、清除空格、更改数据类型和列名等。
We can use various methods to filter and clean the data, including filling null values, deleting null values, removing spaces, changing data types and column names, etc.

In [64]:
print("\nFill null values with 0:")
print(df.fillna(0))
print("Delete rows with null values:")
print(df.dropna())


Fill null values with 0:
       学号      姓名  年龄 班级     身高 性别
0  202401  Zhang   33  a  186.0  男
1  202402     Amy  46  a  176.0  男
2  202403    Chen  54  a    0.0  男
3  202404      Li  33  b  165.0  女
4  202405     Bob  34  b    0.0  男
5  202406     Ape  39  b  174.0  男
Delete rows with null values:
       学号      姓名  年龄 班级     身高 性别
0  202401  Zhang   33  a  186.0  男
1  202402     Amy  46  a  176.0  男
3  202404      Li  33  b  165.0  女
5  202406     Ape  39  b  174.0  男


In [65]:
print("Strip spaces in 姓名:")
df['姓名'] = df['姓名'].str.strip()
print(df)

Strip spaces in 姓名:
       学号     姓名  年龄 班级     身高 性别
0  202401  Zhang  33  a  186.0  男
1  202402    Amy  46  a  176.0  男
2  202403   Chen  54  a    NaN  男
3  202404     Li  33  b  165.0  女
4  202405    Bob  34  b    NaN  男
5  202406    Ape  39  b  174.0  男


In [66]:
print("Change data type of 身高:")
df['身高'] = df['身高'].astype('float')
print(df.dtypes)
print("Rename column 班级 to 所在班级:")

Change data type of 身高:
学号      int64
姓名     object
年龄      int64
班级     object
身高    float64
性别     object
dtype: object
Rename column 班级 to 所在班级:


In [67]:
df = df.rename(columns={'班级': '所在班级'})
print(df)

       学号     姓名  年龄 所在班级     身高 性别
0  202401  Zhang  33    a  186.0  男
1  202402    Amy  46    a  176.0  男
2  202403   Chen  54    a    NaN  男
3  202404     Li  33    b  165.0  女
4  202405    Bob  34    b    NaN  男
5  202406    Ape  39    b  174.0  男


In [68]:
print("Replace values in 姓名:")
df['姓名'] = df['姓名'].replace('钱二', '钱大')
print(df)

Replace values in 姓名:
       学号     姓名  年龄 所在班级     身高 性别
0  202401  Zhang  33    a  186.0  男
1  202402    Amy  46    a  176.0  男
2  202403   Chen  54    a    NaN  男
3  202404     Li  33    b  165.0  女
4  202405    Bob  34    b    NaN  男
5  202406    Ape  39    b  174.0  男


In [69]:
print("Add a new column based on conditions:")
df['group'] = np.where(df['身高'] > 175, 'high', 'low')
print(df)

Add a new column based on conditions:
       学号     姓名  年龄 所在班级     身高 性别 group
0  202401  Zhang  33    a  186.0  男  high
1  202402    Amy  46    a  176.0  男  high
2  202403   Chen  54    a    NaN  男   low
3  202404     Li  33    b  165.0  女   low
4  202405    Bob  34    b    NaN  男   low
5  202406    Ape  39    b  174.0  男   low


In [70]:
print("Filter rows based on conditions:")
print(df[df['姓名'].isin(['赵一', '孙六'])])
print("Modify values based on conditions:")
df.loc[df['年龄'] > 40, '年龄'] = 40
print(df)

Filter rows based on conditions:
Empty DataFrame
Columns: [学号, 姓名, 年龄, 所在班级, 身高, 性别, group]
Index: []
Modify values based on conditions:
       学号     姓名  年龄 所在班级     身高 性别 group
0  202401  Zhang  33    a  186.0  男  high
1  202402    Amy  40    a  176.0  男  high
2  202403   Chen  40    a    NaN  男   low
3  202404     Li  33    b  165.0  女   low
4  202405    Bob  34    b    NaN  男   low
5  202406    Ape  39    b  174.0  男   low


### 统计分析 | Statistical Analysis

我们可以使用各种统计函数对数据进行描述性统计和推断性统计。
We can use various statistical functions to perform descriptive and inferential statistics on the data.

In [71]:
print("\nDescriptive statistics:")
print(df.describe())
print("Mean of 年龄:", df['年龄'].mean())  # 计算平均值 | Calculate mean
print("Standard deviation of 身高:", df['身高'].std())  # 计算标准差 | Calculate standard deviation
print("Correlation matrix:")
print(df.corr())  # 计算相关系数矩阵 | Calculate correlation matrix
print("Covariance between 学号 and 年龄:", df['学号'].cov(df['年龄']))  # 计算协方差 | Calculate covariance


Descriptive statistics:
                  学号         年龄          身高
count       6.000000   6.000000    4.000000
mean   202403.500000  36.500000  175.250000
std         1.870829   3.507136    8.616844
min    202401.000000  33.000000  165.000000
25%    202402.250000  33.250000  171.750000
50%    202403.500000  36.500000  175.000000
75%    202404.750000  39.750000  178.500000
max    202406.000000  40.000000  186.000000
Mean of 年龄: 36.5
Standard deviation of 身高: 8.616843969807043
Correlation matrix:
          学号        年龄        身高
学号  1.000000  0.076205 -0.632416
年龄  0.076205  1.000000 -0.023057
身高 -0.632416 -0.023057  1.000000
Covariance between 学号 and 年龄: 0.5


### 分组操作 | Grouping Operations

我们可以使用groupby函数对数据进行分组,然后对每个组进行统计分析。
We can use the groupby function to group the data, and then perform statistical analysis on each group.

In [72]:
print("\nGroup by 性别 and calculate mean:")
print(df.groupby('性别').mean())
print("Group by 性别 and 所在班级, and calculate sum:")
print(df.groupby(['性别', '所在班级']).sum())


Group by 性别 and calculate mean:
          学号    年龄          身高
性别                            
女   202404.0  33.0  165.000000
男   202403.4  37.2  178.666667
Group by 性别 and 所在班级, and calculate sum:
             学号   年龄     身高
性别 所在班级                    
女  b     202404   33  165.0
男  a     607206  113  362.0
   b     404811   73  174.0


### 数据输出 | Data Output

我们可以使用to_excel和to_csv函数将DataFrame输出为Excel和CSV文件。
We can use the to_excel and to_csv functions to output the DataFrame as Excel and CSV files.

In [73]:
print("\nExport DataFrame to Excel:")
df.to_excel('working_data/output.xlsx', index=False)
print("Export DataFrame to CSV:")
df.to_csv('working_data/output.csv', index=False)


Export DataFrame to Excel:
Export DataFrame to CSV:
