# 读取文本格式的数据

- 这些函数预置类型推断功能

|函数|说明|
|:----|:----|
|read_csv|分隔符默认为","的数据|
|read_table|分隔符默认为"\t"的数据|
|read_fwf|定宽列式数据，无分隔符|
|read_clipboard|剪贴板数据，在将网页转换为表格时很有用|

- read_csv/read_table函数的参数

|参数|说明|
|:----|:----|
|path||
|sep/delimiter||
|header|作为列**名**的行号，默认为0，没有header就设置为None
|index_col|用作行**索引**的列号，可以是列表|
|names|列名列表，前提是header=None|
|skiprows|行数或者是行号列表|
|na_values||
|comments||
|parse_dates||
|keep_date_col||
|converters|一个以列号或列名为键，处理函数为值的字典，用于将某列进行预处理|
|dayfirst||
|date_parser||
|nrows|需要读取的行数|
|iterator|返回一个TextParser用于逐块读取文件|
|chunksize|文件块的大小|
|skip_footer|需要忽略的末尾行数|
|verbose|打印各种解析器输出信息|
|encoding|用户unicode的文本编码格式|
|squeeze|如果数据解析后只有一列，则返回Series|
|thousands|千分位分隔符|

- 虽然可以用read_xxx方法读入一列数据再转化为Series，但是可以直接用Series的from_csv方法


In [5]:
import pandas as pd
from pandas import Series, DataFrame

In [11]:
# 文件带有列名
df = pd.read_csv('ex1.csv')
print(df)
print()
print(df.info())

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
a          3 non-null int64
b          3 non-null int64
c          3 non-null int64
d          3 non-null int64
message    3 non-null object
dtypes: int64(4), object(1)
memory usage: 200.0+ bytes
None


In [17]:
# 文件不带列名
df = pd.read_csv("ex2.csv", header=None, names=['a','b','c','d','message'])

print(df)
print()
print(df.info())


   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
a          3 non-null int64
b          3 non-null int64
c          3 non-null int64
d          3 non-null int64
message    3 non-null object
dtypes: int64(4), object(1)
memory usage: 200.0+ bytes
None


In [19]:
# 指定某列作为索引
df = pd.read_csv("ex2.csv", header=None, names=['a','b','c','d','message'], index_col='message')

print(df)
print()
print(df.info())

         a   b   c   d
message               
hello    1   2   3   4
world    5   6   7   8
foo      9  10  11  12

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, hello to foo
Data columns (total 4 columns):
a    3 non-null int64
b    3 non-null int64
c    3 non-null int64
d    3 non-null int64
dtypes: int64(4)
memory usage: 120.0+ bytes
None


In [24]:
# 层次索引
# 按照书上的index_key=['key1','key2']出错了
df = pd.read_csv("csv_mindex.csv", index_col=[0,1])

print(df)
print()
print(df.info())

           value1  value2
key1 key2                
one  a          1       1
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 8 entries, (one, a) to (two, d)
Data columns (total 2 columns):
value1    8 non-null int64
value2    8 non-null int64
dtypes: int64(2)
memory usage: 298.0+ bytes
None


In [27]:
# 用正则表达式作为分隔符
df = pd.read_table("ex3.txt", sep="\s+")

print(df)
print()
print(df.info())

     A  B  C
aaa  1  2  3
bbb  4  5  6
ccc  d  e  f
ddd  g  h  i

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, aaa to ddd
Data columns (total 3 columns):
A    4 non-null object
B    4 non-null object
C    4 non-null object
dtypes: object(3)
memory usage: 128.0+ bytes
None


In [28]:
# 跳过注释行
df = pd.read_csv("ex4.csv", skiprows=[0,2])

print(df)
print()
print(df.info())

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
a          3 non-null int64
b          3 non-null int64
c          3 non-null int64
d          3 non-null int64
message    3 non-null object
dtypes: int64(4), object(1)
memory usage: 200.0+ bytes
None


In [33]:
# 处理文件中缺失数据
df = pd.read_csv("ex5.csv", na_values=['balabala'])

print(df)
print()
print(df.notnull())

# 用字典为各列指定不同的缺失值
df = pd.read_csv("ex5.csv", na_values={'b':['balabala']})

print(df)
print()
print(df.notnull())

   a    b     c     d message
0  1  2.0   NaN   4.0   hello
1  5  6.0   7.0   NaN   world
2  9  NaN  11.0  12.0     NaN

      a      b      c      d  message
0  True   True  False   True     True
1  True   True   True  False     True
2  True  False   True   True    False
   a    b     c     d message
0  1  2.0   NaN   4.0   hello
1  5  6.0   7.0   NaN   world
2  9  NaN  11.0  12.0     NaN

      a      b      c      d  message
0  True   True  False   True     True
1  True   True   True  False     True
2  True  False   True   True    False


## 将数据写出到文本

- DataFrame.to_csv(sys.stdout)
    - 默认分割符为逗号，通过sep参数自定义
    - 默认输出行列标签，通过index=False和header=False禁用
    - 缺失值默认输出为空字符串，通过na_rep自定义
    - 默认输出全部列，通过cols自定义输出列及其顺序
- 同样Series也有这个方法，


## 使用CSV包手工处理分隔符格式
（略）

# JSON
- 所有的键都必须是字符串
- json.loads读取文件，json.dumps写出文件
- 详见第七章USDA Food Database案例

# XML和HTML：web信息收集
- lxml可以读写html和xml类型的数据
- 这里用lxml.html处理html，lxml.objectify处理xml数据
- 