# pandas数据处理

## 读取文本数据

1. read_csv()和read_table函数可以从文件、url、文件型对象中获取数据转为DataFrame对象；
   * read_csv()默认分隔符为,    read_table()默认分隔符为\t

In [None]:
import pandas as pd
df = pd.read_csv('examples/ex1.csv')
print(df)

2. read_csv和read_table函数中常用关键参数
   * sep或者delimiter：分隔符或者正则表达式
   * header:用作列名的行号，默认为0（即第一行），如果没有header，应该设置为None

In [None]:
# sep参数示例
import pandas as pd
df = pd.read_table('examples/ex1.csv',sep = ',')
print(df)
print("--" * 10)
df = pd.read_table('examples/ex2.csv',delimiter='\s+')  # 使用正则表达式匹配分隔符
print(df)
print("--" * 10)
# header参数示例
df = pd.read_csv('examples/ex1.csv', header=0)  # 第一行作为表头
print(df)
print("--" * 10)
df = pd.read_csv('examples/ex3.csv', header=None)  # 没有表头,使用默认的整数索引作为列名
print(df)

2. 关键参数
   * names :结合header = None，配置列名，也可修改原有列名
   * index_col:用作行索引的列编号或者列名，可以是单个数字/名称或列表，如果是列表则为层次索引

In [None]:
import pandas as pd

#names参数示例
names = ['A', 'B', 'C', 'D', 'Message'] # 自定义列名
df = pd.read_csv('examples/ex3.csv', header=None,names=names)  # 没有表头,使用自定义的列名
print(df)
print("--" * 10)
df = pd.read_csv('examples/ex1.csv', names=names)  # 使用默认的列名
print(df)  # 此时会覆盖原有的表头
print("--" * 10)

#index_col参数示例
df = pd.read_csv('examples/ex3.csv', names=names, index_col='Message')
print(df)   #此时Message列已经变成了索引，Message成为了索引名
print("--" * 10)
#层次化索引
df = pd.read_csv('examples/ex4.csv', index_col=[0, 1])  # 使用多列作为索引
print(df)  # 此时第一列和第二列已经变成了索引

2. 关键参数
   * skiprows:需要忽略的行数
   * na_values:用于指定哪些字符串应该被识别为缺失值

In [None]:
import pandas as pd
# skiprows参数示例
# 跳过前3行
df = pd.read_csv('examples/ex5.csv', skiprows=[0, 2, 3])  # 跳过第0,2，3行 
print(df)
print("--" * 10)

#na_values参数示例
df = pd.read_csv('examples/ex6.csv') # 默认会将空字符串、'NA'、'NaN'等识别为缺失值，以NaN显示
print(df)
print("--" * 10)

result = pd.read_csv('examples/ex6.csv',na_values=['one'])
print(result)  # 除默认的外，将'one'也识别为缺失值
print("--" * 10)

sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
# 使用字典指定不同列的缺失值
result = pd.read_csv('examples/ex6.csv', na_values=sentinels)
print(result)  # 除默认的外，将message列中的'foo'和'NA'，something列中的'two'也识别为缺失值

2. 关键参数
   * nrows:需要读取的行数
   * chunksize： 文件块的大小（用于迭代）

In [None]:
import pandas as pd
# nrows参数示例
# 只读取前3行
df = pd.read_csv('examples/ex6.csv', nrows=3)  # 只读取前3行
print(df)  # 只显示前3行
print("--" * 10)

# chunksize参数示例
# 逐块读取数据，每块1000行
chunkReader = pd.read_csv('examples/ex6.csv', chunksize=1000)
for piece in chunkReader:  # chunker是一个迭代器，每次迭代返回1000行
    print("Chunk shape:", piece.shape)  # 打印当前块的形状
    # 可以在这里对每个块进行处理，例如计算某些统计信息等
    # 这里只打印块的形状，实际使用中可以根据需求进行处理

## 将DataFrame对象写出到文件

* to_csv()方法写出到csv文件中，默认为逗号分隔符可以使用sep进行定义分隔符

In [None]:
import pandas as pd
import sys
data = pd.read_csv('examples/ex1.csv')
# 使用to_csv方法将DataFrame保存为CSV文件
data.to_csv('examples/output.csv', index=False)  # 保存为CSV文件，不包含索引

data.to_csv(sys.stdout, sep='|') # 将DataFrame输出到标准输出，使用'|'作为分隔符

1. to_csv()等相关参数
   * sep：定义分隔符
   * na_rep：缺失值替换值
   * header:是否写出标题行
   * columns:需要输出的列和顺序

In [None]:
from email import header
import pandas as pd
import sys

#na_rep参数示例
data = pd.read_csv('examples/ex6.csv') #含有缺失值
data.to_csv(sys.stdout, na_rep='NULL',index = False)  # 将缺失值替换为'NULL'并保存为CSV文件,默认为空字符串
print("--" * 10)

#header参数示例
data.to_csv(sys.stdout, na_rep='NULL',index = False,header=False)  # 不输出表头
print("--" * 10)

#columns参数示例
data.to_csv(sys.stdout, na_rep='NaN', index=False, columns=['a', 'b', 'd', 'c'])  # 按顺序输出a, b, d, c列

## 读取JSON数据

1. JSON简介
   * json.loads方法可以将json对象转为python对象
   * json.dumps则将Python对象转换成JSON格式：

In [None]:
import pandas as pd
import json

obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

result = json.loads(obj)
print(result)  # 将JSON字符串解析为Python字典
print("--" * 10)
asjson = json.dumps(result)
print(asjson)  # 将Python字典转换为JSON字符串

2. 使用pandas的read_json加载json对象为DataFrame  
   使用to_json方法将DataFrame对象转为json

In [None]:
import pandas as pd
import json
data = pd.read_json('examples/ex7.json')
print(data)  # 将JSON文件解析为DataFrame
print("--" * 10)
json_str = data.to_json()  # 将DataFrame转换为JSON字符串
print(json_str)