# Pandas 学习路线

## 任务1:Pandas 基础入门

学习目标:了解 Pandas 的基本概念和核心数据结构

In [32]:
! pip install pandas
! pip install openpyxl



In [33]:
# 任务1完成步骤:
# 1. 安装 pandas 库:pip install pandas
# 2. 导入 pandas 库:import pandas as pd
import pandas as pd
# 3. 了解 Series 和 DataFrame 两种核心数据结构
# 4. 学习如何创建 Series
data = [10*(i+1) for i in range(5)]
print(f"原数据为: {data}")
print('-' * 50)
s = pd.Series(data)
print(f"用pd.Series处理之后的数据为: \n{s}")

index = [chr(ord('a') + i) for i in range(5)]
s_with_index = pd.Series(data=data, index=index)
print(f"用index参数之后的Series为: \n{s_with_index}")

dict = {"apple":3, "banana":5, "orange":2}
s_from_dict = pd.Series(dict)
print(f"用字典创建的Series: \n {s_from_dict}")
print('-'*50)
# 5. 学习如何创建DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'London', 'Tokyo']
}
df = pd.DataFrame(data)
print(f"用字典创建DataFrame: \n {df}")

data_list = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'London'],
    ['Charlie', 35, 'Tokyo']
]
df_from_list = pd.DataFrame(data_list, columns=['Name', 'Age', 'City'])
print(f"用列表创建的DataFrame: \n{df_from_list}")

name_series = pd.Series(['Alice', 'Bob', 'Charlie'])
age_series = pd.Series([25, 30, 35])
df_from_series = pd.DataFrame({
    'Name': name_series,
    'Age' : age_series
})
print(f"用Series创建的DataFrame: \n{df_from_series}")
# 6. 掌握基本的数据查看方法（head, tail, info, describe）
print('-'*50)
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace'],
    'Age': [25, 30, 35, 28, 32, 29, 27],
    'City': ['New York', 'London', 'Tokyo', 'Paris', 'Sydney', 'Berlin', 'Madrid'],
    'Salary': [50000, 60000, 70000, 55000, 65000, 58000, 52000]
}
df = pd.DataFrame(data)

# 查看前 5 行（默认）
print("前 5 行数据:")
print(df.head())

# 查看前 3 行
print("\n前 3 行数据:")
print(df.head(3))

# 查看后 5 行（默认）
print("后 5 行数据:")
print(df.tail())

# 查看后 3 行
print("\n后 3 行数据:")
print(df.tail(3))

# 查看 DataFrame 的详细信息
print("\nDataFrame 信息:")
df.info()

# 查看数值列的统计信息
print("\n描述性统计:")
print(df.describe())

# 包括非数值列的统计信息
print("\n包含所有列的统计信息:")
print(df.describe(include='all'))

原数据为: [10, 20, 30, 40, 50]
--------------------------------------------------
用pd.Series处理之后的数据为: 
0    10
1    20
2    30
3    40
4    50
dtype: int64
用index参数之后的Series为: 
a    10
b    20
c    30
d    40
e    50
dtype: int64
用字典创建的Series: 
 apple     3
banana    5
orange    2
dtype: int64
--------------------------------------------------
用字典创建DataFrame: 
       Name  Age      City
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Tokyo
用列表创建的DataFrame: 
      Name  Age      City
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Tokyo
用Series创建的DataFrame: 
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
--------------------------------------------------
前 5 行数据:
      Name  Age      City  Salary
0    Alice   25  New York   50000
1      Bob   30    London   60000
2  Charlie   35     Tokyo   70000
3    David   28     Paris   55000
4      Eva   32    Sydney   65000

前 3 行数据:
      Name  Age      City  Salary
0    Alice   25  New

## 任务2:数据导入与导出

学习目标:掌握各种数据格式的导入导出操作

In [34]:
import pandas as pd
import json
import os
# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    'age': [25, 30, 35, 28, 32],
    'city': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix'],
    'occupation': ['Engineer', 'Designer', 'Teacher', 'Doctor', 'Artist']
}

# 创建DataFrame
df = pd.DataFrame(data)

# 1. 学习创建和导出CSV文件
csv_filename = os.path.join("data", "pandas_data.csv")
df.to_csv(csv_filename, index=False)
print(f"CSV文件已创建:{csv_filename}")

# 2. 学习创建和导出Excel文件
excel_filename = os.path.join("data", "pandas_data.xlsx")
df.to_excel(excel_filename, index=False, sheet_name='Sheet1')
print(f"Excel文件已创建:{excel_filename}")
# 导出为Excel的多个工作表
excel_multisheet_filename = os.path.join("data", "pandas_data_multisheet.xlsx")
with pd.ExcelWriter(excel_multisheet_filename) as writer:
    df.to_excel(writer, sheet_name='Sheet1', index=False)
    df.to_excel(writer, sheet_name='Sheet2', index=False)

# 3. 学习创建和导出JSON文件
json_filename = os.path.join("data", "pandas_data.json")
df.to_json(json_filename, orient='records', indent=2)
print(f"JSON文件已创建:{json_filename}")
# json的不同格式
json_split_filename = os.path.join("data", "pandas_json_split.json")
json_index_filename = os.path.join("data", "pandas_json_index.json")
df.to_json(json_split_filename, orient='split', indent=2)
df.to_json(json_index_filename, orient='index', indent=2)

CSV文件已创建:data\pandas_data.csv
Excel文件已创建:data\pandas_data.xlsx
JSON文件已创建:data\pandas_data.json


In [35]:
# 任务2完成步骤:
# 1. 学习读取 CSV 文件:pd.read_csv()
df_csv = pd.read_csv(csv_filename)
print(f"从CSV中读取数据: \n{df_csv}")
# 2. 学习读取 Excel 文件:pd.read_excel()
df_excel = pd.read_excel(excel_filename)
print(f"从Excel中读取数据: \n{df_excel}")
df_excel_multisheet = pd.read_excel(excel_multisheet_filename, sheet_name=1)
print(f"读取一个Excel中Sheet1的内容: \n {df_excel_multisheet}")
# 3. 学习读取 JSON 文件:pd.read_json()
df_json = pd.read_json(json_filename)
print(f"从json中读取数据: \n {df_json}")

df_json_index = pd.read_json(json_index_filename, orient='index')
print(f"用index属性读取json文件: \n {df_json_index}")

df_json_split = pd.read_json(json_split_filename, orient='split')
print(f"用index属性读取json文件: \n {df_json_split}")

从CSV中读取数据: 
      name  age         city occupation
0    Alice   25     New York   Engineer
1      Bob   30  Los Angeles   Designer
2  Charlie   35      Chicago    Teacher
3    Diana   28      Houston     Doctor
4      Eve   32      Phoenix     Artist
从Excel中读取数据: 
      name  age         city occupation
0    Alice   25     New York   Engineer
1      Bob   30  Los Angeles   Designer
2  Charlie   35      Chicago    Teacher
3    Diana   28      Houston     Doctor
4      Eve   32      Phoenix     Artist
读取一个Excel中Sheet1的内容: 
       name  age         city occupation
0    Alice   25     New York   Engineer
1      Bob   30  Los Angeles   Designer
2  Charlie   35      Chicago    Teacher
3    Diana   28      Houston     Doctor
4      Eve   32      Phoenix     Artist
从json中读取数据: 
       name  age         city occupation
0    Alice   25     New York   Engineer
1      Bob   30  Los Angeles   Designer
2  Charlie   35      Chicago    Teacher
3    Diana   28      Houston     Doctor
4      Eve   32  

## 任务3:数据选择与过滤

学习目标:掌握数据的选择、切片和条件过滤

In [36]:
# 任务3完成步骤:
import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve', 'Frank', 'Grace'],
    'age': [25, 30, 35, 28, 32, 27, 31],
    'city': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio'],
    'occupation': ['Engineer', 'Designer', 'Teacher', 'Doctor', 'Artist', 'Engineer', 'Teacher'],
    'salary': [70000, 65000, 55000, 80000, 50000, 72000, 58000]
}
df = pd.DataFrame(data)
print(f"原始数据为: \n {df} \n")
print("-" * 50)
# 1. 学习列选择:df['column_name'] 或 df.column_name
print(f"选择单列(方法1): \n {df['name']}")
print(f"\n选择单列(方法2):\n {df.name}")
print(f"\n选择多列: \n{df[['name', 'age', 'salary']]}")
print("\n" + "="*50)
# 2. 学习行选择:df.loc[] 和 df.iloc[]
print("-" * 50)
print(f"第0行数据为: \n {df.loc[0]}")
print(f"第(0-2)行数据: \n {df.loc[0:2]}")
print(f"使用iloc选择位置行(第0行): \n {df.iloc[0]}")
print(f"使用iloc选择多行(0-2行)但是iloc为左闭右开区间: \n {df.iloc[0:3]}")
print(f"使用iloc选择特定行列(前3行, 前2列): \n {df.iloc[0:3, 0:2]}")
# 3. 掌握条件过滤:df[df['column'] > value]
print(f"Age>30的人员: \n {df[df['age'] > 30]}")
print(f"职业为Engineer的人员: \n {df[df['occupation'] == 'Engineer']}")
print(f"姓名中包含字母'i'的人员: \n{df[df['name'].str.contains('i', case=False)]}")
# 4. 学习多条件过滤:& (与), | (或), ~ (非)
print(f"年龄大于28且薪资大于60000的人员: \n {df[(df['age']>28) & (df['salary'] > 60000)]}")
print(f"年龄大于30且职业不是Engineer的人员: \n {df[(df['age']>30) & ~(df['occupation']=='Engineer')]}")
print(f"城市为New York或Los Angeles,且年龄小于35的人员: \n {df[(df['city'].isin(['New York', 'Los Angeles'])) & (df['age']<35)]}")
# 5. 练习复杂的数据选择操作
print(f"选择age大于30, 只显示name,age,salary: \n {df.loc[df['age']>30, ['name', 'age', 'salary']]}")
print(f"\n使用iloc和条件过滤salary>60000的人的name和occupation: \n {df[df['salary']>60000].iloc[:, [0, 3]]}")
print(f"\n使用query方法进行复杂查询: \n {df.query('age > 28 and salary < 70000')}")

原始数据为: 
       name  age          city occupation  salary
0    Alice   25      New York   Engineer   70000
1      Bob   30   Los Angeles   Designer   65000
2  Charlie   35       Chicago    Teacher   55000
3    Diana   28       Houston     Doctor   80000
4      Eve   32       Phoenix     Artist   50000
5    Frank   27  Philadelphia   Engineer   72000
6    Grace   31   San Antonio    Teacher   58000 

--------------------------------------------------
选择单列(方法1): 
 0      Alice
1        Bob
2    Charlie
3      Diana
4        Eve
5      Frank
6      Grace
Name: name, dtype: object

选择单列(方法2):
 0      Alice
1        Bob
2    Charlie
3      Diana
4        Eve
5      Frank
6      Grace
Name: name, dtype: object

选择多列: 
      name  age  salary
0    Alice   25   70000
1      Bob   30   65000
2  Charlie   35   55000
3    Diana   28   80000
4      Eve   32   50000
5    Frank   27   72000
6    Grace   31   58000

--------------------------------------------------
第0行数据为: 
 name             Alice
a

## 任务4:数据清洗与处理

学习目标:掌握数据清洗的基本技能

In [None]:
# 任务4完成步骤:
import pandas as pd
import numpy as np

# 创建包含缺失值和重复值的示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve', 'Frank', 'Grace', 'Alice', None],
    'age': [25, 30, np.nan, 28, 32, 27, 31, 25, 29],
    'city': ['New York', 'Los Angeles', 'Chicago', None, 'Phoenix', 'Philadelphia', 'San Antonio', 'New York', 'Boston'],
    'occupation': ['Engineer', 'Designer', 'Teacher', 'Doctor', 'Artist', 'Engineer', 'Teacher', 'Engineer', 'Lawyer'],
    'salary': [70000, 65000, 55000, np.nan, 50000, 72000, 58000, 70000, 80000],
    'email': ['alice@email.com', 'bob@email.com', 'charlie@email.com', 'diana@email.com', 
              'eve@email.com', 'frank@email.com', 'grace@email.com', 'alice.dup@email.com', 'helen@email.com']
}

df = pd.DataFrame(data)
print(f"原始数据为: \n {df}")
# 1. 检测缺失值:isnull(), notnull()
print(f"每一列null值的数量: \n {df.isnull().sum()}")
print(f"null值bool矩阵: \n{df.isnull().head()}")
print(f"显示包含null的行: \n{df.isnull().any(axis=1)}")
print('-' * 50)
# 2. 处理缺失值:dropna(), fillna()
df_drop_rows = df.dropna()
print(f"删除包含null的行: \n {df_drop_rows}")

df_drop_all = df.dropna(how='all')
print(f"删除所有值都是null的行: \n {df_drop_all}")

df_drop_age = df.dropna(subset=['age'])
print(f"去掉所有age为null的行: \n {df_drop_age}")

df_filled = df.fillna(
    {
        'age' : df['age'].mean(),
        'city' : 'Unknown',
        'salary': df['salary'].median()
    }
)
print(f"用特定值填充null值之后的df为: \n{df_filled}")

df_ffill = df.ffill()
print(f"使用前一个值填充null: \n {df_ffill}")
df_bfill = df.bfill()
print(f"\n用后一个值填充缺失值: \n{df_bfill}")
print('-' * 50)
# 3. 去除重复值:drop_duplicates()
print(f"所有列都跟别人不一样的行: \n{df.drop_duplicates()}")
print(f"Name列不能的相同的行: \n {df.drop_duplicates(subset=['name'])}")
print(f"Name列不同'和'Age列不相同的行: \n {df.drop_duplicates(subset=['name', 'age'])}")
print(f"保留最后一条重复记录: \n {df.drop_duplicates(subset=['name'], keep='last')}")
print(f"标记重复值但是不删除: \n {df.duplicated()}")
# 4. 数据类型转换:astype()
print('-' * 50)
print(f"原始df的数据类型: \n {df.dtypes}")
df['age'] = df['age'].fillna(df['age'].mean()).astype(int)
print(f"把age转换成整数类型: \n {df.dtypes}")
print("\n转换为分类数据类型（节省内存）:")
df['occupation_cat'] = df['occupation'].astype('category')
print(df)
print(df[['occupation', 'occupation_cat']].dtypes)
# 5. 字符串操作:str 系列方法
print('-' * 50)
df_str = df.copy()
df_str['name'] = df_str['name'].fillna('Unknown')
print(f"原数据name列: \n{df_str['name']}")

print(f"把name列全部改成小写: \n {df_str['name'].str.lower()}")

print(f"查看字符串是否含有'email'字符: \n {df_str['email'].str.contains('email')}")

print(f"替换字符串: \n {df_str['email'].str.replace('email', 'newemail')}")

city_state = pd.Series(['New York, NY', 'Los Angeles, CA', 'Chicago, IL'])
print("原始城市州信息:\n", city_state.tolist())
print("分割后的城市:\n", city_state.str.split(', ').str[0].tolist())
print("分割后的州:\n", city_state.str.split(', ').str[1].tolist())

print("\n使用正则表达式提取:")
phone_numbers = pd.Series(['(555) 123-4567', '(555) 987-6543', 'No phone'])
print("原始电话号码:", phone_numbers.tolist())
print("提取区号:", phone_numbers.str.extract(r'\((\d{3})\)')[0].tolist())
print("\n字符串填充:")
print(df_str['name'].str.pad(width=10, side='both', fillchar='-'))
print("\n字符串切片:")
print(df_str['email'].str.slice(start=-4))  # 获取邮箱后缀

原始数据为: 
       name   age          city occupation   salary                email
0    Alice  25.0      New York   Engineer  70000.0      alice@email.com
1      Bob  30.0   Los Angeles   Designer  65000.0        bob@email.com
2  Charlie   NaN       Chicago    Teacher  55000.0    charlie@email.com
3    Diana  28.0          None     Doctor      NaN      diana@email.com
4      Eve  32.0       Phoenix     Artist  50000.0        eve@email.com
5    Frank  27.0  Philadelphia   Engineer  72000.0      frank@email.com
6    Grace  31.0   San Antonio    Teacher  58000.0      grace@email.com
7    Alice  25.0      New York   Engineer  70000.0  alice.dup@email.com
8     None  29.0        Boston     Lawyer  80000.0      helen@email.com
每一列null值的数量: 
 name          1
age           1
city          1
occupation    0
salary        1
email         0
dtype: int64
null值bool矩阵: 
    name    age   city  occupation  salary  email
0  False  False  False       False   False  False
1  False  False  False       Fals

## 任务5:数据分组与聚合

学习目标:掌握数据的分组统计和聚合操作

In [None]:
# 任务5完成步骤:
# 1. 学习 groupby 操作:df.groupby()
# 2. 掌握聚合函数:sum(), mean(), count(), max(), min()
# 3. 学习多个列的分组聚合
# 4. 掌握 agg() 方法进行多种聚合
# 5. 学习 transform 和 apply 方法

## 任务6:数据合并与连接

学习目标:掌握多个数据集的合并操作

In [None]:
# 任务6完成步骤:
# 1. 学习 concat 纵向和横向合并:pd.concat()
# 2. 掌握 merge 数据库风格连接:pd.merge()
# 3. 学习 join 操作:df.join()
# 4. 理解不同连接方式:inner, outer, left, right
# 5. 处理合并后的数据冲突

## 任务7:时间序列处理

学习目标:掌握时间序列数据的处理技能

In [None]:
# 任务7完成步骤:
# 1. 创建时间序列:pd.date_range(), pd.to_datetime()
# 2. 设置时间索引:df.set_index()
# 3. 时间序列切片和选择
# 4. 时间重采样:resample()
# 5. 时间窗口操作:rolling()

## 任务8:数据可视化

学习目标:使用 Pandas 进行基本的数据可视化

In [None]:
# 任务8完成步骤:
# 1. 学习基本绘图:df.plot()
# 2. 掌握不同图表类型:line, bar, hist, scatter, box
# 3. 自定义图表样式和参数
# 4. 多子图绘制:subplots
# 5. 结合 matplotlib 进行高级可视化

## 任务9:高级操作与性能优化

学习目标:掌握 Pandas 的高级功能和性能优化技巧

In [None]:
# 任务9完成步骤:
# 1. 学习 pivot_table 和交叉表
# 2. 掌握多级索引操作
# 3. 学习向量化操作提高性能
# 4. 使用 apply 和 map 进行自定义操作
# 5. 内存优化技巧和数据类型选择

## 任务10:实战项目练习

学习目标:通过实际项目巩固所学知识

In [None]:
# 任务10完成步骤:
# 1. 选择真实数据集进行分析
# 2. 完整的数据清洗流程
# 3. 探索性数据分析（EDA）
# 4. 数据可视化和洞察提取
# 5. 撰写分析报告和总结