# 1. CSV与JSON简明解释
CSV（逗号分隔值）

用途：存储表格数据，每行为一条记录，用逗号分隔字段

场景：Excel数据导出/导入、简单数据库备份、数据分析原始数据

JSON（JavaScript对象表示法）

用途：存储结构化数据，支持嵌套键值对和列表

场景：API数据传输、配置文件、Web应用前后端交互

# 2. 代码示例
CSV基础操作

```python
import csv
# 写入CSV
with open('data.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['Name', 'Age'])  # 标题行
    writer.writerow(['Alice', 28])
    writer.writerow(['Bob', 32])

# 读取CSV
with open('data.csv', 'r') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(f"{row['Name']} is {row['Age']} years old")
```

JSON基础操作

```python
import json

# 写入JSON
data = {
    "users": [
        {"name": "Alice", "age": 28},
        {"name": "Bob", "age": 32}
    ]
}
with open('data.json', 'w') as f:
    json.dump(data, f, indent=2)

# 读取JSON
with open('data.json', 'r') as f:
    loaded = json.load(f)
    print(loaded['users'][0]['name'])  # 输出: Alice
```
# 3. 常见错误与解决方法
    -CSV

    错误1：忘记设置newline='' 导致空行
    → 在open()中始终添加newline=''参数

    错误2：未处理标题行导致数据错位
    → 使用csv.DictReader自动处理标题

    错误3：包含特殊字符（如逗号）未加引号
    → 使用csv.writer自动处理转义

    -JSON

    错误1：忘记关闭引号或括号导致解析失败
    → 使用jsonlint.com验证JSON格式

    错误2：混淆dump与dumps（文件写入 vs 字符串生成）
    → 记忆口诀：dump到文件，dumps到字符串

    错误3：数值类型被错误转换为字符串
    → 确保数据类型的正确性（如age应为数字而非字符串）

# 4. 实际应用场景
CSV

电商平台导出每日订单数据（订单号、金额、时间）

科研实验记录温度传感器读数（时间戳、温度值、设备ID）

JSON

天气预报API返回数据（城市、温度、湿度、未来24小时预测）

游戏存档配置（玩家等级、装备列表、地图进度）

# 5. 练习题（感觉好难做。。。）
    初级：将以下数据写入data.csv CSV文件


产品名称,库存,价格
手机,100,2999
耳机,50,399
    
    中级：读取JSON文件weather.json，找出温度高于30℃的所有日期
文件内容示例：

json

{"forecast": [
    {"date": "2023-08-20", "temp": 28},
    {"date": "2023-08-21", "temp": 32}
]}
    
    高级：将CSV文件sales.csv转换为嵌套JSON结构：


月份,类别,销售额
2023-01,电子产品,150000
2023-01,服饰,80000
→ 
{
    "2023-01": {
        "电子产品": 150000,
        "服饰": 80000
    }
}
# 6.深入思考问题
当处理百万行级别的CSV数据时：

如何在不加载整个文件到内存的情况下，实现实时数据清洗与统计？
    流式处理

JSON的树形结构在存储层级数据时有何优势？当数据层级超过5层时，会遇到哪些性能瓶颈？
    优势：直观 瓶颈内存占用多

如果CSV文件中存在不一致的编码格式（如部分行是UTF-8，部分行是GBK），如何设计健壮的读取方案？
    混合编码

请尝试从内存管理、算法优化、异常处理等角度思考解决方案。

In [None]:
import csv
def write_csv(sentence):
    lines=sentence.strip().split()#按空格分割，
    print(lines)#输出分割后的数组
    data=[line.split(',') for line in lines]#每行按"，"分割
    print(data)
    with open ("data.csv","a",encoding="utf-8-sig",newline='') as f:
        writer=csv.writer(f)
        writer.writerows(data)
if __name__=="__main__":
    sen="产品名称,库存,价格 手机,100,2999 耳机,50,399"
    write_csv(sen)

In [None]:
import json
def search_in_json(filename):
    try:
        with open(filename,'r',encoding="utf-8") as f:
            data=json.load(f)
            for entry in data.get('forecast',[]):
                print(entry)#读取键值为'forecast'的值
            high_temp_datas=[
                entry['date'] for entry in data.get('forecast',[]) 
                if  isinstance(entry.get('temp'),(int,float)) and entry['temp'] > 30
            ]

            return high_temp_datas
    except FileNotFoundError:
        print(f"错误，文件名对应文件不存在")
    except json.JSONDecodeError:
        print("JSON文件格式不正确")
        return []

if __name__=="__main__":
    search_in_json("weather.json")

{'date': '2023-08-20', 'temp': 28}
{'date': '2023-08-21', 'temp': 32}
{'date': '2023-08-20', 'temp': 28}
{'date': '2023-08-21', 'temp': 32}


In [14]:
import csv
def write_csv(sentence):
    lines=sentence.strip().split()#按空格分割，
    print(lines)#输出分割后的数组
    data=[line.split(',') for line in lines]#每行按"，"分割
    print(data)
    with open ("sales.csv","a",encoding="utf-8-sig",newline='') as f:
        writer=csv.writer(f)
        writer.writerows(data)
if __name__=="__main__":
    sen1="月份,类别,销售额 2023-01,电子产品,150000 2023-01,服饰,80000 2023-01,食品,invalid_sales "
    write_csv(sen1)

['月份,类别,销售额', '2023-01,电子产品,150000', '2023-01,服饰,80000', '2023-01,食品,invalid_sales']
[['月份', '类别', '销售额'], ['2023-01', '电子产品', '150000'], ['2023-01', '服饰', '80000'], ['2023-01', '食品', 'invalid_sales']]


PermissionError: [Errno 13] Permission denied: 'sales.csv'

In [15]:
import csv
import json
from collections import defaultdict

def csv_to_nested_json(csv_file, output_json):
    """
    将CSV文件转换为嵌套JSON结构并保存
    
    Args:
        csv_file (str): 输入CSV文件路径
        output_json (str): 输出JSON文件路径
    """
    # 初始化嵌套字典结构，自动处理键不存在的情况
    result = defaultdict(lambda: defaultdict(int))
    
    try:
        # 打开CSV文件（处理编码问题）
        with open(csv_file, 'r', encoding='utf-8-sig') as f:  # utf-8-sig处理BOM头
            reader = csv.DictReader(f)
            
            # 检查必要列是否存在
            required_columns = {'月份', '类别', '销售额'}
            if not required_columns.issubset(reader.fieldnames):
                raise ValueError(f"CSV文件缺少必要列：{required_columns - set(reader.fieldnames)}")
            
            # 逐行处理数据
            for row_num, row in enumerate(reader, start=1):  # start=1从第1行计数
                try:
                    # 提取月份和类别
                    month = row['月份'].strip()
                    category = row['类别'].strip()
                    
                    # 处理销售额（支持含逗号和无效值）
                    sales = row['销售额'].replace(',', '').strip()
                    print(row_num,row)
                    if not sales.isdigit():
                        raise ValueError(f"第{row_num}行销售额无效：{sales}")
                    sales_value = int(sales)
                    
                    # 更新嵌套字典（累加模式）
                    result[month][category] += sales_value
                
                except ValueError as e:
                    print(f"警告：跳过第{row_num}行 - {str(e)}")
                    continue
                except KeyError as e:
                    print(f"错误：第{row_num}行缺少关键字段 - {str(e)}")
                    continue
            
        # 转换为标准字典（去除defaultdict类型）
        final_result = {month: dict(categories) for month, categories in result.items()}
        
        # 写入JSON文件
        with open(output_json, 'w', encoding='utf-8') as f:
            json.dump(final_result, f, ensure_ascii=False, indent=2)
            
        print(f"转换成功！结果已保存至 {output_json}")
    
    except FileNotFoundError:
        print(f"错误：文件 {csv_file} 不存在")
    except Exception as e:
        print(f"未知错误：{str(e)}")

# 使用示例
csv_to_nested_json('sales.csv', 'sales.json')

1 {'月份': '2023-01', '类别': '电子产品', '销售额': '150000'}
2 {'月份': '2023-01', '类别': '服饰', '销售额': '80000'}
3 {'月份': '2023-01', '类别': '食品', '销售额': 'invalid_sales'}
警告：跳过第3行 - 第3行销售额无效：invalid_sales
转换成功！结果已保存至 sales.json
