# Pandas简介

## 第一章：Pandas简介与基础概念

### 1.1 什么是Pandas？

Pandas是Python数据科学生态系统中最重要的工具库之一。它的名字来源于"Panel Data"（面板数据），这暗示了它最初是为处理经济学和金融领域的数据而设计的。今天，Pandas已经发展成为一个通用的数据分析工具，被广泛应用于各个领域。

想象你面前有一堆Excel表格、CSV文件、数据库导出文件，需要对它们进行清理、转换、分析和整合。这正是Pandas擅长的领域 - 它就像是一个强大的数据处理助手，能够帮你轻松处理这些任务。

### 1.2 为什么选择Pandas？

1. **数据处理效率**
   - 比Excel处理大规模数据更快
   - 支持自动化操作，减少重复工作
   - 处理数百万行数据不在话下

2. **灵活的数据操作**
   - 强大的数据清洗功能
   - 灵活的数据转换能力
   - 丰富的数据分析工具

3. **广泛的格式支持**
   - Excel文件（.xlsx，.xls）
   - CSV和文本文件
   - SQL数据库
   - JSON和HTML
   - 压缩文件

4. **与其他工具的集成**
   - 无缝对接NumPy进行数值计算
   - 与Matplotlib完美配合实现数据可视化
   - 作为Scikit-learn机器学习的数据准备工具

## 第二章：Pandas的核心数据结构

Pandas的两个核心数据结构 - Series和DataFrame，就像是数据分析的"积木"，让我们能够构建复杂的数据分析流程。

### 2.1 Series：一维数据的得力助手

Series可以被看作是一个增强版的数组或字典，它不仅存储数据，还为每个数据点提供一个标签（索引）。

#### 2.1.1 Series的特点

1. **带标签的数组**
   - 每个元素都有索引
   - 支持通过位置和标签访问
   - 可以像字典一样使用

2. **灵活的数据类型**
   - 可以存储任何Python对象
   - 常用于存储数值、字符串、时间等
   - 支持缺失值处理

#### 2.1.2 创建Series的多种方式

In [1]:
import pandas as pd

# 从列表创建
numbers = pd.Series([1, 2, 3, 4, 5])
print(numbers)
# 带自定义索引创建
fruits = pd.Series([3, 6, 2], index=['苹果', '香蕉', '橙子'])
print(fruits)
# 从字典创建
prices = pd.Series({'苹果': 3, '香蕉': 6, '橙子': 2})
print(prices)

0    1
1    2
2    3
3    4
4    5
dtype: int64
苹果    3
香蕉    6
橙子    2
dtype: int64
苹果    3
香蕉    6
橙子    2
dtype: int64


Series 的索引与切片：

In [2]:
print(fruits['苹果']) 

3


In [3]:
print(fruits[1]) 

6


In [4]:
print(fruits.iloc[1])

6


- 在Pandas中，iloc是我们在数据分析时最常用的"数据定位器"之一。它的名字来源于"integer-location"（整数位置），顾名思义，就是通过数字位置来精确定位和选择数据的工具。想象一下，如果把数据表格看作一个棋盘，那么iloc就像是棋手的手指，可以通过行号和列号（从0开始计数）精确地指向任何一个位置。

  使用iloc时，我们采用的语法格式是df.iloc[行位置, 列位置]。这就像在说"我要第几行第几列的数据"。这里的行位置和列位置都是可选的参数 - 你可以只选择行，只选择列，或者同时选择两者。比如，df.iloc[0, 1]就是在说"给我第一行第二列的数据"（因为位置计数从0开始），而df.iloc[0]则是在说"给我第一行的所有数据"。这种灵活性使得iloc成为数据选择和切片操作中最实用的工具之一。

  值得注意的是，和我们在日常生活中习惯的计数方式不同，iloc使用的是计算机的计数方式，即从0开始计数。这意味着第一行的索引是0，第二行是1，以此类推。这种设计虽然刚开始可能需要一点适应，但在编程中是最自然和高效的方式。通过iloc，我们可以像在Excel中选择单元格一样精确地操作数据，只不过是用代码而不是鼠标来完成这个过程。

- 常用属性和方法：

  - `index`：返回索引。
  - `values`：返回所有元素的值。
  - `mean()`、`sum()`、`count()`：对数据进行聚合计算。

In [1]:
import pandas as pd
import numpy as np

# 创建一个表示某商店一周销售额的Series
daily_sales = pd.Series(
    data=[2380, 3150, 2980, 4280, 3520, 5180, 4920],
    index=['周一', '周二', '周三', '周四', '周五', '周六', '周日'],
    name='日销售额'
)

# 1. 基本信息查看
print("=== 基本信息 ===")
print("\n原始数据：")
print(daily_sales)

print("\n索引：")
print(daily_sales.index)

print("\n数值：")
print(daily_sales.values)

# 2. 基础统计计算
print("\n=== 基础统计 ===")
#.2f表示小数点后两位
print(f"平均日销售额：{daily_sales.mean():.2f}元")
print(f"总销售额：{daily_sales.sum():.2f}元")
print(f"销售天数：{daily_sales.count()}天")
print(f"最高日销售额：{daily_sales.max():.2f}元")
print(f"最低日销售额：{daily_sales.min():.2f}元")
print(f"销售额标准差：{daily_sales.std():.2f}元")


=== 基本信息 ===

原始数据：
周一    2380
周二    3150
周三    2980
周四    4280
周五    3520
周六    5180
周日    4920
Name: 日销售额, dtype: int64

索引：
Index(['周一', '周二', '周三', '周四', '周五', '周六', '周日'], dtype='object')

数值：
[2380 3150 2980 4280 3520 5180 4920]

=== 基础统计 ===
平均日销售额：3772.86元
总销售额：26410.00元
销售天数：7天
最高日销售额：5180.00元
最低日销售额：2380.00元
销售额标准差：1046.72元


### 2.2 DataFrame：数据分析的核心工具

DataFrame是Pandas最重要的数据结构，它像一个智能的电子表格，既能存储数据，又提供强大的数据处理功能。

#### 2.2.1 DataFrame的本质特征

1. **二维表格结构**
   - 行和列都有标签
   - 每列可以是不同的数据类型
   - 类似于Excel工作表或SQL表

2. **数据对齐机制**
   - 自动对齐行和列
   - 处理缺失值
   - 保证数据一致性

3. **灵活的索引系统**
   - 支持单级和多级索引
   - 可以用标签或位置访问
   - 支持复杂的条件筛选

#### 2.2.2 创建DataFrame的常用方法

In [2]:
# create_sample_data.py

import pandas as pd
import sqlite3
import json
import numpy as np
from datetime import datetime, timedelta

def create_csv_file():
    """创建销售数据CSV文件"""
    sales_data = {
        '日期': [(datetime(2024, 1, 1) + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)],
        '产品': ['手机', '笔记本', '平板', '耳机', '手表', '手机', '笔记本', '平板', '耳机', '手表'],
        '价格': np.random.randint(1000, 10000, 10),
        '数量': np.random.randint(1, 50, 10),
        '销售员': ['张三', '李四', '王五', '赵六', '钱七'] * 2
    }
    df = pd.DataFrame(sales_data)
    df.to_csv('data/sales_data.csv', index=False, encoding='utf-8')
    print("sales_data.csv已创建")

def create_excel_file():
    """创建公司数据Excel文件"""
    with pd.ExcelWriter('data/company_data.xlsx') as writer:
        # 员工信息sheet
        employee_data = {
            '员工ID': ['EMP001', 'EMP002', 'EMP003', 'EMP004', 'EMP005'],
            '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
            '部门': ['销售', '技术', '技术', '市场', '销售'],
            '入职日期': ['2023-01-01', '2023-02-15', '2023-03-20', '2023-04-10', '2023-05-01'],
            '工资': [8000, 12000, 12000, 9000, 8000]
        }
        pd.DataFrame(employee_data).to_excel(writer, sheet_name='员工信息', index=False)
        
        # 部门信息sheet
        department_data = {
            '部门': ['销售', '技术', '市场', '人事', '财务'],
            '主管': ['王明', '李强', '张艳', '刘波', '周红'],
            '人数': [20, 30, 15, 5, 8],
            '预算': [200000, 300000, 150000, 100000, 120000]
        }
        pd.DataFrame(department_data).to_excel(writer, sheet_name='部门信息', index=False)
    print("company_data.xlsx已创建")

def create_json_file():
    """创建产品数据JSON文件"""
    product_data = {
        "products": [
            {
                "id": "P001",
                "name": "iPhone 15",
                "category": "手机",
                "price": 6999,
                "specs": {
                    "color": ["黑色", "白色", "蓝色"],
                    "storage": ["128GB", "256GB", "512GB"],
                    "screen": "6.1英寸"
                }
            },
            {
                "id": "P002",
                "name": "MacBook Pro",
                "category": "笔记本",
                "price": 12999,
                "specs": {
                    "color": ["深空灰", "银色"],
                    "storage": ["256GB", "512GB", "1TB"],
                    "screen": "14英寸"
                }
            },
            {
                "id": "P003",
                "name": "iPad Air",
                "category": "平板",
                "price": 4799,
                "specs": {
                    "color": ["银色", "玫瑰金", "天蓝色"],
                    "storage": ["64GB", "256GB"],
                    "screen": "10.9英寸"
                }
            }
        ]
    }
    
    with open('data/products.json', 'w', encoding='utf-8') as f:
        json.dump(product_data, f, ensure_ascii=False, indent=4)
    print("products.json已创建")

def create_sqlite_db():
    """创建公司数据SQLite数据库"""
    conn = sqlite3.connect('data/company.db')
    c = conn.cursor()
    
    # 创建表
    c.execute('''CREATE TABLE IF NOT EXISTS employees
                 (id TEXT PRIMARY KEY,
                  name TEXT,
                  department TEXT,
                  salary REAL,
                  hire_date TEXT)''')
    
    c.execute('''CREATE TABLE IF NOT EXISTS departments
                 (name TEXT PRIMARY KEY,
                  manager TEXT,
                  budget REAL)''')
    
    # 插入示例数据
    employees = [
        ('EMP001', '张三', '销售', 8000, '2023-01-01'),
        ('EMP002', '李四', '技术', 12000, '2023-02-15'),
        ('EMP003', '王五', '技术', 12000, '2023-03-20'),
        ('EMP004', '赵六', '市场', 9000, '2023-04-10'),
        ('EMP005', '钱七', '销售', 8000, '2023-05-01')
    ]
    
    departments = [
        ('销售', '王明', 200000),
        ('技术', '李强', 300000),
        ('市场', '张艳', 150000),
        ('人事', '刘波', 100000),
        ('财务', '周红', 120000)
    ]
    
    c.executemany('INSERT OR REPLACE INTO employees VALUES (?,?,?,?,?)', employees)
    c.executemany('INSERT OR REPLACE INTO departments VALUES (?,?,?)', departments)
    
    conn.commit()
    conn.close()
    print("company.db已创建")

if __name__ == "__main__":
    # 创建data目录
    import os
    if not os.path.exists('data'):
        os.makedirs('data')
        
    # 创建所有示例文件
    create_csv_file()
    create_excel_file()
    create_json_file()
    create_sqlite_db()
    
    print("\n所有示例数据文件已创建完成。")

sales_data.csv已创建
company_data.xlsx已创建
products.json已创建
company.db已创建

所有示例数据文件已创建完成。


读取CSV文件：

In [3]:
import pandas as pd
import numpy as np

# =============== 1. 基础读取演示 ===============
# read_csv是Pandas最常用的数据导入函数之一
# 这里我们使用Python引擎而不是默认的C引擎
# Python引擎的优势：
# - 支持更多高级功能（如skipfooter）
# - 更好的错误处理能力
# - 更灵活的解析选项
# 虽然性能较C引擎稍慢，但功能更加完整
print("=== 1. 基础CSV读取 ===")
df = pd.read_csv('data/sales_data.csv', engine='python')

# head()函数默认显示前5行数据
print("\n1.1 查看前5行数据：")
print(df.head())

print("\n1.2 数据基本信息：")
print(df.info())

# =============== 2. 数据类型控制 ===============
print("\n=== 2. 数据类型控制 ===")

# 使用Python引擎进行数据类型转换
# Python引擎在处理数据类型转换时更加灵活
df_typed = pd.read_csv('data/sales_data.csv',
                      engine='python',
                      dtype={
                          '产品': str,           
                          '价格': float,         
                          '数量': int,           
                          '销售员': 'category'   
                      },
                      parse_dates=['日期'])      

print("\n2.1 指定数据类型后的信息：")
print(df_typed.info())

# =============== 3. 索引控制 ===============
print("\n=== 3. 索引控制 ===")

# Python引擎在处理索引时更加灵活
print("\n3.1 使用日期列作为索引：")
df_indexed = pd.read_csv('data/sales_data.csv', 
                        engine='python',
                        index_col='日期')
print(df_indexed.head())

print("\n3.2 使用多个列创建多级索引：")
df_multi_indexed = pd.read_csv('data/sales_data.csv', 
                              engine='python',
                              index_col=['日期', '产品'])
print(df_multi_indexed.head())

# =============== 4. 数据筛选 ===============
print("\n=== 4. 数据筛选 ===")

print("\n4.1 只读取指定列：")
df_selected = pd.read_csv('data/sales_data.csv', 
                         engine='python',
                         usecols=['日期', '产品', '价格'])
print(df_selected.head())

print("\n4.2 使用列的位置选择（前三列）：")
df_selected_by_position = pd.read_csv('data/sales_data.csv',
                                    engine='python',
                                    usecols=[0, 1, 2])
print(df_selected_by_position.head())

# =============== 5. 大文件处理 ===============
print("\n=== 5. 大文件处理技巧 ===")

# Python引擎在处理大文件时可能比C引擎慢
# 但提供更好的错误处理和更多功能
print("\n5.1 分块读取示例（每次读取3行）：")
chunk_counter = 1
for chunk in pd.read_csv('data/sales_data.csv', 
                        engine='python',
                        chunksize=3):
    print(f"\n第{chunk_counter}块数据：")
    print(chunk)
    chunk_counter += 1
    if chunk_counter > 2:  
        break

print("\n5.2 只读取前4行数据：")
df_limited = pd.read_csv('data/sales_data.csv', 
                        engine='python',
                        nrows=4)
print(df_limited)

# =============== 6. 高级参数使用 ===============
print("\n=== 6. 高级参数使用 ===")

# Python引擎在处理特殊情况时更加灵活
print("\n6.1 自定义缺失值处理：")
df_na = pd.read_csv('data/sales_data.csv',
                    engine='python',
                    na_values=['未知', 'N/A', ''],  
                    keep_default_na=True)           

print("\n6.2 数据格式化：")
df_formatted = pd.read_csv('data/sales_data.csv',
                          engine='python',
                          thousands=',',    
                          decimal='.')      

# Python引擎原生支持skipfooter
print("\n6.3 跳过特定行：")
df_skipped = pd.read_csv('data/sales_data.csv',
                        engine='python',    # Python引擎完全支持skipfooter
                        skiprows=[1, 3],    
                        skipfooter=1)       

# =============== 7. 数据验证 ===============
print("\n=== 7. 数据验证 ===")

print("\n7.1 数值列的统计描述：")
print(df.describe())

print("\n7.2 查看产品列的唯一值：")
print(df['产品'].unique())

print("\n7.3 检查缺失值：")
print(df.isnull().sum())

# =============== 8. 实用技巧 ===============
print("\n=== 8. 实用技巧 ===")

# Python引擎在处理自定义函数时更加灵活
print("\n8.1 读取时使用自定义处理函数：")
df_processed = pd.read_csv('data/sales_data.csv',
                          engine='python',
                          converters={
                              '产品': lambda x: x.strip().upper(),  
                              '销售员': lambda x: x.strip()         
                          })
print(df_processed.head())

# 8.2 设置显示选项
pd.set_option('display.max_columns', None)  
pd.set_option('display.max_rows', 10)       
pd.set_option('display.float_format', lambda x: '%.2f' % x)

=== 1. 基础CSV读取 ===

1.1 查看前5行数据：
           日期   产品    价格  数量 销售员
0  2024-01-01   手机  1263  31  张三
1  2024-01-02  笔记本  2267  19  李四
2  2024-01-03   平板  9563   3  王五
3  2024-01-04   耳机  4004  40  赵六
4  2024-01-05   手表  5001  44  钱七

1.2 数据基本信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   日期      10 non-null     object
 1   产品      10 non-null     object
 2   价格      10 non-null     int64 
 3   数量      10 non-null     int64 
 4   销售员     10 non-null     object
dtypes: int64(2), object(3)
memory usage: 532.0+ bytes
None

=== 2. 数据类型控制 ===

2.1 指定数据类型后的信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   日期      10 non-null     datetime64[ns]
 1   产品      10 non-null     object        
 2   价格      10 non-null     f

读取EXCEL文件：

In [8]:
import pandas as pd
import numpy as np

# =============== 1. 基础读取演示 ===============
# read_excel是Pandas中处理Excel文件的主要函数
# 默认情况下，它会：
# - 读取第一个工作表
# - 使用第一行作为列名
# - 自动推断数据类型
# - 创建默认的数字索引（0,1,2...）
print("=== 1. 基础Excel读取 ===")

# 1.1 读取默认sheet（第一个sheet）
print("\n1.1 读取第一个sheet：")
df = pd.read_excel('data/company_data.xlsx')
print("数据预览：")
print(df.head())
print("\n基本信息：")
print(df.info())

# 1.2 读取指定名称的sheet
print("\n1.2 读取指定sheet（部门信息）：")
df_dept = pd.read_excel('data/company_data.xlsx', 
                       sheet_name='部门信息')
print(df_dept.head())

# =============== 2. 多sheet处理 ===============
print("\n=== 2. 多sheet处理 ===")

# 2.1 读取所有sheet
# sheet_name=None 会返回一个字典，键为sheet名，值为对应的DataFrame
print("\n2.1 读取所有sheet：")
all_sheets = pd.read_excel('data/company_data.xlsx', 
                          sheet_name=None)
for sheet_name, df in all_sheets.items():
    print(f"\nSheet名称: {sheet_name}")
    print(df.head())

# 2.2 读取多个指定sheet
print("\n2.2 读取指定的多个sheet：")
selected_sheets = pd.read_excel('data/company_data.xlsx',
                              sheet_name=['员工信息', '部门信息'])
for sheet_name, df in selected_sheets.items():
    print(f"\nSheet名称: {sheet_name}")
    print(df.head())

# =============== 3. 数据类型控制 ===============
print("\n=== 3. 数据类型控制 ===")

# 3.1 指定列的数据类型
# 明确指定数据类型可以：
# - 确保数据的准确性
# - 优化内存使用
# - 防止数据类型推断错误
print("\n3.1 指定数据类型：")
df_typed = pd.read_excel('data/company_data.xlsx',
                        dtype={
                            '员工ID': str,        # 将ID转换为字符串
                            '工资': float,        # 确保工资为浮点数
                            '部门': 'category'    # 使用类别类型节省内存
                        })
print(df_typed.info())

# =============== 4. 数据选择与过滤 ===============
print("\n=== 4. 数据选择与过滤 ===")

# 4.1 选择特定列
print("\n4.1 只读取指定列：")
df_selected = pd.read_excel('data/company_data.xlsx',
                           usecols=['员工ID', '姓名', '工资'])
print(df_selected.head())

# 4.2 使用列的位置选择
print("\n4.2 使用列的位置选择：")
df_by_position = pd.read_excel('data/company_data.xlsx',
                              usecols=[0, 1, 2])  # 选择前三列
print(df_by_position.head())

# =============== 5. 日期处理 ===============
print("\n=== 5. 日期处理 ===")

# 5.1 转换日期列
print("\n5.1 处理日期数据：")
df_dates = pd.read_excel('data/company_data.xlsx',
                        parse_dates=['入职日期'])  # 将入职日期转换为datetime
print(df_dates.dtypes)

# =============== 6. 高级参数使用 ===============
print("\n=== 6. 高级参数使用 ===")

# 6.1 跳过行
print("\n6.1 跳过特定行：")
df_skipped = pd.read_excel('data/company_data.xlsx',
                          skiprows=[1],    # 跳过第二行
                          header=0)        # 使用第一行作为列名
print(df_skipped.head())

# 6.2 处理空值
print("\n6.2 自定义空值处理：")
df_na = pd.read_excel('data/company_data.xlsx',
                      na_values=['无', 'N/A', '--'])  # 将这些值视为NA
print(df_na.isnull().sum())

# =============== 7. 数据验证 ===============
print("\n=== 7. 数据验证 ===")

# 7.1 基本统计信息
print("\n7.1 数值列的统计描述：")
print(df.describe())

# 7.2 检查唯一值
print("\n7.2 查看部门的唯一值：")
print(df['部门'].unique())

# 7.3 检查缺失值
print("\n7.3 检查缺失值：")
print(df.isnull().sum())

# =============== 8. 实用技巧 ===============
print("\n=== 8. 实用技巧 ===")

# 8.1 转换器使用
print("\n8.1 使用自定义转换器：")
df_converted = pd.read_excel('data/company_data.xlsx',
                            converters={
                                '员工ID': str.upper,        # ID转大写
                                '姓名': str.strip,          # 去除姓名中的空格
                                '部门': lambda x: f"{x}部"   # 添加"部"字
                            })
print(df_converted.head())

# 8.2 设置显示选项
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 10)       # 最多显示10行
pd.set_option('display.float_format', lambda x: '%.2f' % x)  # 浮点数格式

# =============== 9. Excel特有功能 ===============
print("\n=== 9. Excel特有功能 ===")

# 9.1 读取指定范围
print("\n9.1 读取特定单元格范围：")
df_range = pd.read_excel('data/company_data.xlsx',
                        usecols="A:C",     # 只读取A到C列
                        nrows=5)           # 只读取前5行
print(df_range)

# 9.2 处理合并的单元格
print("\n9.2 处理合并单元格：")
df_merged = pd.read_excel('data/company_data.xlsx',
                         keep_default_na=True,  # 保留默认的NA处理
                         na_filter=True)        # 启用NA值过滤
print(df_merged.head())

=== 1. 基础Excel读取 ===

1.1 读取第一个sheet：
数据预览：
     员工ID  姓名  部门        入职日期     工资
0  EMP001  张三  销售  2023-01-01   8000
1  EMP002  李四  技术  2023-02-15  12000
2  EMP003  王五  技术  2023-03-20  12000
3  EMP004  赵六  市场  2023-04-10   9000
4  EMP005  钱七  销售  2023-05-01   8000

基本信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   员工ID    5 non-null      object
 1   姓名      5 non-null      object
 2   部门      5 non-null      object
 3   入职日期    5 non-null      object
 4   工资      5 non-null      int64 
dtypes: int64(1), object(4)
memory usage: 332.0+ bytes
None

1.2 读取指定sheet（部门信息）：
   部门  主管  人数      预算
0  销售  王明  20  200000
1  技术  李强  30  300000
2  市场  张艳  15  150000
3  人事  刘波   5  100000
4  财务  周红   8  120000

=== 2. 多sheet处理 ===

2.1 读取所有sheet：

Sheet名称: 员工信息
     员工ID  姓名  部门        入职日期     工资
0  EMP001  张三  销售  2023-01-01   8000
1  EMP002  李四  技术  2023-02-15  1200

读取JSON文件：

In [9]:
import pandas as pd
import json
import numpy as np

# =============== 1. 基础JSON读取 ===============
# JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式
# 它的特点是：
# - 易于人阅读和编写
# - 易于机器解析和生成
# - 基于键值对和数组结构
print("=== 1. 基础JSON读取 ===")

# 1.1 直接读取JSON文件
print("\n1.1 基本读取：")
df = pd.read_json('data/products.json')
print("数据预览：")
print(df)
print("\n数据信息：")
print(df.info())

# 1.2 读取并指定数据类型
print("\n1.2 指定数据类型读取：")
df_typed = pd.read_json('data/products.json',
                       dtype={'id': str,
                             'price': float})
print(df_typed.dtypes)

# =============== 2. 处理嵌套JSON ===============
print("\n=== 2. 处理嵌套JSON ===")

# 2.1 使用Python内置json模块读取
print("\n2.1 使用json模块读取：")
with open('data/products.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
print("原始JSON数据结构：")
print(json.dumps(data, indent=2, ensure_ascii=False))

# 2.2 使用json_normalize处理嵌套结构
print("\n2.2 展平嵌套结构：")
df_normalized = pd.json_normalize(data['products'])
print(df_normalized)

# 2.3 处理多层嵌套
print("\n2.3 处理多层嵌套：")
df_nested = pd.json_normalize(
    data['products'],
    sep='_',          # 指定分隔符
    max_level=2       # 限制展开层级
)
print(df_nested)

# =============== 3. 高级JSON处理 ===============
print("\n=== 3. 高级JSON处理 ===")

# 3.1 选择性展平
print("\n3.1 选择性展平特定字段：")
df_selected = pd.json_normalize(
    data['products'],
    record_path=['specs', 'color'],    # 展开color数组
    meta=[                             # 保留的其他字段
        'id',
        'name',
        'price',
        ['specs', 'screen']            # 嵌套字段路径
    ]
)
print(df_selected)

# 3.2 处理数组类型
print("\n3.2 处理数组类型字段：")
# 展开specs.color数组
df_exploded = df_normalized.explode('specs.color')
print(df_exploded)

# =============== 4. 数据验证和清理 ===============
print("\n=== 4. 数据验证和清理 ===")

# 4.1 检查数据类型
print("\n4.1 数据类型检查：")
print(df_normalized.dtypes)

# 4.2 检查缺失值
print("\n4.2 缺失值检查：")
print(df_normalized.isnull().sum())

# =============== 5. JSON特有功能 ===============
print("\n=== 5. JSON特有功能 ===")

# 5.1 处理日期时间
print("\n5.1 日期时间处理：")
# 假设JSON中包含日期字符串
df_dates = pd.read_json('data/products.json',
                       convert_dates=['update_time'])  # 转换日期字段

# 5.2 处理不同的JSON格式
print("\n5.2 处理不同JSON格式：")
# 处理紧凑型JSON
df_compact = pd.read_json('data/products.json',
                         lines=True)  # 每行一个JSON对象

# =============== 6. 实用技巧 ===============
print("\n=== 6. 实用技巧 ===")

# 6.1 自定义JSON解析
print("\n6.1 使用自定义解析：")
def custom_parser(json_str):
    """自定义JSON解析函数"""
    data = json.loads(json_str)
    # 在这里可以添加自定义的处理逻辑
    return data

with open('data/products.json', 'r', encoding='utf-8') as f:
    custom_data = custom_parser(f.read())
    df_custom = pd.DataFrame(custom_data['products'])
print(df_custom)

# 6.2 处理特殊字符
print("\n6.2 处理特殊字符：")
df_encoded = pd.read_json('data/products.json',
                         encoding='utf-8')  # 指定编码

# =============== 7. 数据转换 ===============
print("\n=== 7. 数据转换 ===")

# 7.1 JSON到其他格式
print("\n7.1 转换为其他格式：")
# 转换为CSV
df_normalized.to_csv('data/products_converted.csv', index=False)
# 转换为Excel
df_normalized.to_excel('data/products_converted.xlsx', index=False)

# 7.2 数据规范化
print("\n7.2 数据规范化：")
# 处理价格字段
df_normalized['price_normalized'] = df_normalized['price'].apply(
    lambda x: float(str(x).replace(',', ''))
)

# =============== 8. 设置显示选项 ===============
print("\n=== 8. 设置显示选项 ===")

# 设置显示选项以更好地查看JSON数据
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 10)       # 限制显示行数
pd.set_option('display.max_colwidth', 100)  # 限制列宽
pd.set_option('display.precision', 2)       # 设置小数精度

=== 1. 基础JSON读取 ===

1.1 基本读取：
数据预览：
                                            products
0  {'id': 'P001', 'name': 'iPhone 15', 'category'...
1  {'id': 'P002', 'name': 'MacBook Pro', 'categor...
2  {'id': 'P003', 'name': 'iPad Air', 'category':...

数据信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   products  3 non-null      object
dtypes: object(1)
memory usage: 156.0+ bytes
None

1.2 指定数据类型读取：
products    object
dtype: object

=== 2. 处理嵌套JSON ===

2.1 使用json模块读取：
原始JSON数据结构：
{
  "products": [
    {
      "id": "P001",
      "name": "iPhone 15",
      "category": "手机",
      "price": 6999,
      "specs": {
        "color": [
          "黑色",
          "白色",
          "蓝色"
        ],
        "storage": [
          "128GB",
          "256GB",
          "512GB"
        ],
        "screen": "6.1英寸"
      }
    },
    {
      "id": "P002",
      "name": "Ma

ValueError: Expected object or value

读取数据库

In [29]:
import pandas as pd
import sqlite3
import numpy as np

# =============== 1. 基础数据库连接 ===============
# SQLite是一个轻量级的关系型数据库
# 特点：
# - 无需单独的数据库服务器
# - 整个数据库存储在单个文件中
# - 支持标准的SQL语法
# - 适合嵌入式应用和小型项目
print("=== 1. 数据库连接 ===")

# 建立数据库连接
# connect()函数可以：
# - 连接现有数据库
# - 如果数据库不存在，则创建新数据库
conn = sqlite3.connect('data/company.db')

# =============== 2. 基本表读取 ===============
print("\n=== 2. 基本表读取 ===")

# 2.1 读取employees表
print("\n2.1 读取员工表：")
df_employees = pd.read_sql_query(
    "SELECT * FROM employees", 
    conn
)
print("员工数据预览：")
print(df_employees)
print("\n数据信息：")
print(df_employees.info())

# 2.2 读取departments表
print("\n2.2 读取部门表：")
df_departments = pd.read_sql_query(
    "SELECT * FROM departments", 
    conn
)
print("部门数据预览：")
print(df_departments)

# =============== 3. 复杂查询示例 ===============
print("\n=== 3. 复杂查询示例 ===")

# 3.1 JOIN查询
# 展示如何连接多个表获取完整信息
print("\n3.1 表连接查询：")
join_query = """
SELECT 
    e.name as employee_name,    -- 员工姓名
    e.salary,                   -- 工资
    d.name as department_name,  -- 部门名称
    d.manager                   -- 部门经理
FROM employees e
JOIN departments d ON e.department = d.name
"""
df_joined = pd.read_sql_query(join_query, conn)
print(df_joined)

# 3.2 条件查询
# 使用WHERE子句筛选数据
print("\n3.2 条件查询：")
condition_query = """
SELECT *
FROM employees
WHERE salary > 10000  -- 筛选高薪员工
    AND hire_date >= '2023-02-01'  -- 筛选特定日期后入职的员工
"""
df_filtered = pd.read_sql_query(condition_query, conn)
print(df_filtered)

# 3.3 聚合查询
# 使用GROUP BY进行数据汇总
print("\n3.3 聚合统计：")
agg_query = """
SELECT 
    department,
    COUNT(*) as employee_count,         -- 员工数量
    AVG(salary) as avg_salary,          -- 平均工资
    MAX(salary) as max_salary,          -- 最高工资
    MIN(salary) as min_salary           -- 最低工资
FROM employees
GROUP BY department
HAVING COUNT(*) > 1                     -- 只显示员工数大于1的部门
"""
df_aggregated = pd.read_sql_query(agg_query, conn)
print(df_aggregated)

# =============== 4. 高级查询技巧 ===============
print("\n=== 4. 高级查询技巧 ===")

# 4.1 子查询示例
print("\n4.1 使用子查询：")
subquery = """
SELECT e.*
FROM employees e
WHERE salary > (
    SELECT AVG(salary) 
    FROM employees
)  -- 查找高于平均工资的员工
"""
df_subquery = pd.read_sql_query(subquery, conn)
print(df_subquery)

# 4.2 窗口函数使用
print("\n4.2 窗口函数：")
window_query = """
SELECT 
    name,
    department,
    salary,
    AVG(salary) OVER (PARTITION BY department) as dept_avg_salary,
    salary - AVG(salary) OVER (PARTITION BY department) as salary_diff
FROM employees
"""
df_window = pd.read_sql_query(window_query, conn)
print(df_window)

# =============== 5. 数据类型处理 ===============
print("\n=== 5. 数据类型处理 ===")

# 5.1 日期处理
print("\n5.1 日期数据处理：")
date_query = """
SELECT 
    name,
    hire_date,
    date('now') as current_date,
    (julianday('now') - julianday(hire_date)) as days_employed
FROM employees
"""
df_dates = pd.read_sql_query(date_query, conn)
df_dates['hire_date'] = pd.to_datetime(df_dates['hire_date'])
print(df_dates)

# =============== 6. 数据导出与转换 ===============
print("\n=== 6. 数据导出与转换 ===")

# 6.1 导出到不同格式
# 转换为CSV
df_employees.to_csv('data/employees_export.csv', index=False)
# 转换为Excel
df_employees.to_excel('data/employees_export.xlsx', index=False)

# 6.2 数据透视
print("\n6.2 数据透视分析：")
pivot_table = pd.pivot_table(
    df_employees,
    values='salary',
    index='department',
    aggfunc=['mean', 'count', 'sum']
)
print(pivot_table)

# =============== 7. 数据验证 ===============
print("\n=== 7. 数据验证 ===")

# 7.1 基本统计信息
print("\n7.1 数值统计：")
print(df_employees['salary'].describe())

# 7.2 数据完整性检查
print("\n7.2 空值检查：")
print(df_employees.isnull().sum())

# 7.3 唯一值检查
print("\n7.3 部门分布：")
print(df_employees['department'].value_counts())

# =============== 8. 关闭数据库连接 ===============
# 注意：使用完数据库后必须关闭连接
conn.close()
print("\n数据库连接已关闭")

# =============== 9. 设置显示选项 ===============
# 配置pandas显示选项
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 10)       # 限制显示行数
pd.set_option('display.precision', 2)       # 设置小数精度

=== 1. 数据库连接 ===

=== 2. 基本表读取 ===

2.1 读取员工表：
员工数据预览：
       id name department   salary   hire_date
0  EMP001   张三         销售  8000.00  2023-01-01
1  EMP002   李四         技术 12000.00  2023-02-15
2  EMP003   王五         技术 12000.00  2023-03-20
3  EMP004   赵六         市场  9000.00  2023-04-10
4  EMP005   钱七         销售  8000.00  2023-05-01

数据信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          5 non-null      object 
 1   name        5 non-null      object 
 2   department  5 non-null      object 
 3   salary      5 non-null      float64
 4   hire_date   5 non-null      object 
dtypes: float64(1), object(4)
memory usage: 332.0+ bytes
None

2.2 读取部门表：
部门数据预览：
  name manager    budget
0   销售      王明 200000.00
1   技术      李强 300000.00
2   市场      张艳 150000.00
3   人事      刘波 100000.00
4   财务      周红 120000.00

=== 3. 复杂查询示例 ===

3.1 表连接查询：
  empl

使用字典创建dataframe

In [30]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# =============== 1. 基础字典创建 ===============
print("=== 1. 基础字典创建 ===")

# 1.1 使用最简单的字典结构
# 字典的键将成为DataFrame的列名
# 字典的值将成为DataFrame的数据（要求所有值长度相同）
print("\n1.1 简单字典创建：")
basic_dict = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, 28, 32, 35],
    '部门': ['销售', '技术', '技术', '市场'],
    '工资': [8000, 12000, 15000, 10000]
}
df_basic = pd.DataFrame(basic_dict)
print("基础DataFrame：")
print(df_basic)
print("\n数据信息：")
print(df_basic.info())

# 1.2 指定索引创建
print("\n1.2 指定索引创建：")
df_indexed = pd.DataFrame(
    basic_dict,
    index=['A001', 'A002', 'A003', 'A004']  # 自定义索引
)
print(df_indexed)

# =============== 2. 不同数据类型的处理 ===============
print("\n=== 2. 不同数据类型的处理 ===")

# 2.1 包含多种数据类型
print("\n2.1 多种数据类型示例：")
complex_dict = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, 28, 32, 35],
    '入职日期': [datetime(2023, 1, 1) + timedelta(days=x*30) for x in range(4)],
    '是否在职': [True, True, False, True],
    '工资历史': [
        [7000, 7500, 8000],
        [10000, 11000, 12000],
        [13000, 14000, 15000],
        [8000, 9000, 10000]
    ],
    '绩效评分': [4.5, 4.8, 3.9, 4.2]
}
df_complex = pd.DataFrame(complex_dict)
print(df_complex)
print("\n数据类型信息：")
print(df_complex.dtypes)

# =============== 3. 嵌套字典处理 ===============
print("\n=== 3. 嵌套字典处理 ===")

# 3.1 嵌套字典创建
print("\n3.1 嵌套字典示例：")
nested_dict = {
    '张三': {
        '部门': '销售',
        '工资': 8000,
        '评分': 4.5
    },
    '李四': {
        '部门': '技术',
        '工资': 12000,
        '评分': 4.8
    },
    '王五': {
        '部门': '技术',
        '工资': 15000,
        '评分': 3.9
    }
}
df_nested = pd.DataFrame(nested_dict).T  # .T表示转置
print(df_nested)

# =============== 4. 使用字典列表 ===============
print("\n=== 4. 使用字典列表 ===")

# 4.1 字典列表创建
print("\n4.1 字典列表示例：")
dict_list = [
    {'姓名': '张三', '年龄': 25, '部门': '销售'},
    {'姓名': '李四', '年龄': 28, '部门': '技术'},
    {'姓名': '王五', '年龄': 32, '部门': '技术'},
    {'姓名': '赵六', '年龄': 35, '部门': '市场'}
]
df_dict_list = pd.DataFrame(dict_list)
print(df_dict_list)

# =============== 5. 特殊数据处理 ===============
print("\n=== 5. 特殊数据处理 ===")

# 5.1 包含缺失值
print("\n5.1 处理缺失值：")
missing_dict = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, None, 32, 35],
    '部门': ['销售', '技术', None, '市场'],
    '工资': [8000, 12000, 15000, None]
}
df_missing = pd.DataFrame(missing_dict)
print(df_missing)
print("\n缺失值统计：")
print(df_missing.isnull().sum())

# 5.2 类别数据处理
print("\n5.2 类别数据处理：")
category_dict = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '性别': ['男', '女', '男', '女'],
    '学历': ['本科', '研究生', '本科', '大专']
}
df_category = pd.DataFrame(category_dict)
df_category['性别'] = df_category['性别'].astype('category')
df_category['学历'] = df_category['学历'].astype('category')
print(df_category.dtypes)

# =============== 6. 数据操作示例 ===============
print("\n=== 6. 数据操作示例 ===")

# 6.1 添加计算列
print("\n6.1 添加计算列：")
df_basic['年终奖'] = df_basic['工资'] * 2
print(df_basic)

# 6.2 条件筛选
print("\n6.2 条件筛选：")
high_salary = df_basic[df_basic['工资'] > 10000]
print(high_salary)

# =============== 7. 数据验证 ===============
print("\n=== 7. 数据验证 ===")

# 7.1 基本统计
print("\n7.1 数值统计：")
print(df_basic.describe())

# 7.2 唯一值检查
print("\n7.2 部门分布：")
print(df_basic['部门'].value_counts())

# =============== 8. 高级创建技巧 ===============
print("\n=== 8. 高级创建技巧 ===")

# 8.1 使用numpy创建数据
print("\n8.1 使用numpy创建数据：")
np.random.seed(42)
advanced_dict = {
    '数值': np.random.randn(5),  # 正态分布随机数
    '整数': np.random.randint(1, 100, 5),  # 随机整数
    '分类': np.random.choice(['A', 'B', 'C'], 5)  # 随机分类
}
df_advanced = pd.DataFrame(advanced_dict)
print(df_advanced)

# 8.2 使用日期范围
print("\n8.2 使用日期范围：")
date_dict = {
    '日期': pd.date_range(start='2024-01-01', periods=5, freq='D'),
    '值': np.random.randn(5)
}
df_dates = pd.DataFrame(date_dict)
print(df_dates)

# =============== 9. 显示设置 ===============
# 设置显示选项
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 10)       # 限制显示行数
pd.set_option('display.float_format', lambda x: '%.2f' % x)  # 浮点数格式

=== 1. 基础字典创建 ===

1.1 简单字典创建：
基础DataFrame：
   姓名  年龄  部门     工资
0  张三  25  销售   8000
1  李四  28  技术  12000
2  王五  32  技术  15000
3  赵六  35  市场  10000

数据信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      4 non-null      object
 1   年龄      4 non-null      int64 
 2   部门      4 non-null      object
 3   工资      4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 260.0+ bytes
None

1.2 指定索引创建：
      姓名  年龄  部门     工资
A001  张三  25  销售   8000
A002  李四  28  技术  12000
A003  王五  32  技术  15000
A004  赵六  35  市场  10000

=== 2. 不同数据类型的处理 ===

2.1 多种数据类型示例：
   姓名  年龄       入职日期   是否在职                   工资历史  绩效评分
0  张三  25 2023-01-01   True     [7000, 7500, 8000]  4.50
1  李四  28 2023-01-31   True  [10000, 11000, 12000]  4.80
2  王五  32 2023-03-02  False  [13000, 14000, 15000]  3.90
3  赵六  35 2023-04-01   True    [8000, 9000, 10000]  4.20

数据类型信息：
姓名  

Pandas中的DataFrame是一个极其强大且灵活的数据处理工具。它就像是一个数据处理的"全能选手"，几乎可以处理所有常见的结构化数据格式。从文件读取（CSV、Excel、JSON等）到数据库操作，从简单的字典转换到复杂的数据处理，DataFrame都能优雅地完成。
通过我们前面的示例，我们已经展示了如何从各种数据源创建DataFrame（字典、CSV、Excel、JSON、SQLite等），以及如何对数据进行清洗、转换和分析。这些示例涵盖了日常数据分析工作中的大多数场景，展示了DataFrame强大的数据处理能力。无论是数据类型的转换、缺失值的处理、数据的筛选和聚合，还是复杂的多表连接操作，DataFrame都提供了简洁而强大的解决方案。这使得它成为数据分析师、数据科学家和开发者必不可少的工具。