In [4]:
import pandas as pd

读写文本格式的数据
pandas 提供了一些用于将表格型数据读取为 DF 对象的函数。

pandas 中的文本和二进制数据的加载函数：

![jupyter](./6.1.png)
![jupyter](./6.2.png)

In [None]:
以上函数都是将文本数据转化为 DF 大致分为三类：
索引：
    将一列或多列作为返回的 DF，以及是否从文件、参数获取列名。

类型推断和数据转换：
    用户自定义的值转换和自定义的缺失值标记列表。

日期和时间解析：
    组合功能，将分散在多列的日期和时间信息组合成结果中的单个列。

迭代：
    对大文件进行逐块迭代。

不规整数据：
    跳过行、页脚、注释等其他不重要的内容，如由数千个逗号分隔的数值数据。

其中一些函数会进行类型判断，因为列的数据类型不属于数据类型，可以有多种类型。
一般处理日期和其他自定义类型需要花多一点时间。

最多的即时小型逗号分隔文件（CSV）：

In [2]:
!cat ../examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [None]:
使用unix的cat命令查看csv的内容。win则使用type

因为此文件都是以逗号分隔，则可以直接使用pd.read_csv读入 DF 中

In [5]:
df = pd.read_csv("../examples/ex1.csv")
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
#读取这个文件，可以选择pandas默认列名赋值，也可以自己指定列名：
pd.read_csv("../examples/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
pd.read_csv("../examples/ex2.csv", names=["a", "b", "c", "d", "message"])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
#用message列作为返回的 DF 索引，可以指明索引为 4 的列，也可以使用 index_col 参数知明函数使用“message”
#人话：让message列做索引
names=["a", "b", "c", "d", "message"]
pd.read_csv("../examples/ex2.csv", names=names, index_col="message")

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [10]:
#如果想要多列做成层次化索引（8.1章），只需传入由列编号或列名组成的列表即可：
!cat ../examples/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [11]:
parsed = pd.read_csv("../examples/csv_mindex.csv",
                     index_col=["key1", "key2"])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [None]:
index_col=["key1", "key2"]：
index_col 参数用于指定哪些列应该作为 DataFrame 的索引。
在这种情况下，key1 和 key2 列被指定为多级索引（MultiIndex），这意味着它们将共同作为 DataFrame 的索引。
MultiIndex 允许 DataFrame 拥有多个层次的索引，便于处理更复杂的数据结构。

parsed 是一个 DataFrame，其中 key1 和 key2 列作为多级索引（MultiIndex）。
每一行的数据由 key1 和 key2 共同唯一标识。
例如，key1=a 和 key2=one 对应的行有 value1=1 和 value2=2。
DataFrame 的索引现在有两级，第一层是 key1，第二层是 key2。这样可以更方便地进行数据分组、筛选和操作。

In [12]:
#有些表格使用的可能不是固定的分隔符，而是用空白符或其他分隔字段：
!cat ../examples/../examples/ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491
