# 第7讲 Pandas 文件操作

- EXCEL 文件
- CSV 文件
- TXT 文件

In [1]:
import numpy as np
import pandas as pd

#### <center>pandas可以读取的对象</center>

<table class="colwidths-given table">
<colgroup>
<col style="width: 12%">
<col style="width: 40%">
<col style="width: 24%">
<col style="width: 24%">
</colgroup>
<thead>
<tr class="row-odd"><th class="head"><p>Format Type</p></th>
<th class="head"><p>Data Description</p></th>
<th class="head"><p>Reader</p></th>
<th class="head"><p>Writer</p></th>
</tr>
</thead>
<tbody>
<tr class="row-even"><td><p>text</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/Comma-separated_values">CSV</a></p></td>
<td><p><a class="reference internal" href="#io-read-csv-table"><span class="std std-ref">read_csv</span></a></p></td>
<td><p><a class="reference internal" href="#io-store-in-csv"><span class="std std-ref">to_csv</span></a></p></td>
</tr>
<tr class="row-odd"><td><p>text</p></td>
<td><p>Fixed-Width Text File</p></td>
<td><p><a class="reference internal" href="#io-fwf-reader"><span class="std std-ref">read_fwf</span></a></p></td>
<td></td>
</tr>
<tr class="row-even"><td><p>text</p></td>
<td><p><a class="reference external" href="https://www.json.org/">JSON</a></p></td>
<td><p><a class="reference internal" href="#io-json-reader"><span class="std std-ref">read_json</span></a></p></td>
<td><p><a class="reference internal" href="#io-json-writer"><span class="std std-ref">to_json</span></a></p></td>
</tr>
<tr class="row-odd"><td><p>text</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/HTML">HTML</a></p></td>
<td><p><a class="reference internal" href="#io-read-html"><span class="std std-ref">read_html</span></a></p></td>
<td><p><a class="reference internal" href="#io-html"><span class="std std-ref">to_html</span></a></p></td>
</tr>
<tr class="row-even"><td><p>text</p></td>
<td><p>Local clipboard</p></td>
<td><p><a class="reference internal" href="#io-clipboard"><span class="std std-ref">read_clipboard</span></a></p></td>
<td><p><a class="reference internal" href="#io-clipboard"><span class="std std-ref">to_clipboard</span></a></p></td>
</tr>
<tr class="row-odd"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/Microsoft_Excel">MS Excel</a></p></td>
<td><p><a class="reference internal" href="#io-excel-reader"><span class="std std-ref">read_excel</span></a></p></td>
<td><p><a class="reference internal" href="#io-excel-writer"><span class="std std-ref">to_excel</span></a></p></td>
</tr>
<tr class="row-even"><td><p>binary</p></td>
<td><p><a class="reference external" href="http://www.opendocumentformat.org">OpenDocument</a></p></td>
<td><p><a class="reference internal" href="#io-ods"><span class="std std-ref">read_excel</span></a></p></td>
<td></td>
</tr>
<tr class="row-odd"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://support.hdfgroup.org/HDF5/whatishdf5.html">HDF5 Format</a></p></td>
<td><p><a class="reference internal" href="#io-hdf5"><span class="std std-ref">read_hdf</span></a></p></td>
<td><p><a class="reference internal" href="#io-hdf5"><span class="std std-ref">to_hdf</span></a></p></td>
</tr>
<tr class="row-even"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://github.com/wesm/feather">Feather Format</a></p></td>
<td><p><a class="reference internal" href="#io-feather"><span class="std std-ref">read_feather</span></a></p></td>
<td><p><a class="reference internal" href="#io-feather"><span class="std std-ref">to_feather</span></a></p></td>
</tr>
<tr class="row-odd"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://parquet.apache.org/">Parquet Format</a></p></td>
<td><p><a class="reference internal" href="#io-parquet"><span class="std std-ref">read_parquet</span></a></p></td>
<td><p><a class="reference internal" href="#io-parquet"><span class="std std-ref">to_parquet</span></a></p></td>
</tr>
<tr class="row-even"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://orc.apache.org/">ORC Format</a></p></td>
<td><p><a class="reference internal" href="#io-orc"><span class="std std-ref">read_orc</span></a></p></td>
<td></td>
</tr>
<tr class="row-odd"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://msgpack.org/index.html">Msgpack</a></p></td>
<td><p><a class="reference internal" href="#io-msgpack"><span class="std std-ref">read_msgpack</span></a></p></td>
<td><p><a class="reference internal" href="#io-msgpack"><span class="std std-ref">to_msgpack</span></a></p></td>
</tr>
<tr class="row-even"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/Stata">Stata</a></p></td>
<td><p><a class="reference internal" href="#io-stata-reader"><span class="std std-ref">read_stata</span></a></p></td>
<td><p><a class="reference internal" href="#io-stata-writer"><span class="std std-ref">to_stata</span></a></p></td>
</tr>
<tr class="row-odd"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/SAS_(software)">SAS</a></p></td>
<td><p><a class="reference internal" href="#io-sas-reader"><span class="std std-ref">read_sas</span></a></p></td>
<td></td>
</tr>
<tr class="row-even"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/SPSS">SPSS</a></p></td>
<td><p><a class="reference internal" href="#io-spss-reader"><span class="std std-ref">read_spss</span></a></p></td>
<td></td>
</tr>
<tr class="row-odd"><td><p>binary</p></td>
<td><p><a class="reference external" href="https://docs.python.org/3/library/pickle.html">Python Pickle Format</a></p></td>
<td><p><a class="reference internal" href="#io-pickle"><span class="std std-ref">read_pickle</span></a></p></td>
<td><p><a class="reference internal" href="#io-pickle"><span class="std std-ref">to_pickle</span></a></p></td>
</tr>
<tr class="row-even"><td><p>SQL</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/SQL">SQL</a></p></td>
<td><p><a class="reference internal" href="#io-sql"><span class="std std-ref">read_sql</span></a></p></td>
<td><p><a class="reference internal" href="#io-sql"><span class="std std-ref">to_sql</span></a></p></td>
</tr>
<tr class="row-odd"><td><p>SQL</p></td>
<td><p><a class="reference external" href="https://en.wikipedia.org/wiki/BigQuery">Google BigQuery</a></p></td>
<td><p><a class="reference internal" href="#io-bigquery"><span class="std std-ref">read_gbq</span></a></p></td>
<td><p><a class="reference internal" href="#io-bigquery"><span class="std std-ref">to_gbq</span></a></p></td>
</tr>
</tbody>
</table>

## 7.1 EXCEL 文件操作

- 读 Excel 文件
- 写 Excel 文件

### 7.1.1 创建 DataFrame 对象

In [2]:
names     = ["宋江","卢俊义","吴用","公孙胜","关胜","林冲","秦明","呼延灼"]
features  = ["忠诚","智慧","勇敢","法术","生命"]

heroes_df = pd.DataFrame(np.random.randint(90,100,(8,5)), index=names, columns=features)
heroes_df

Unnamed: 0,忠诚,智慧,勇敢,法术,生命
宋江,90,91,97,95,95
卢俊义,91,98,99,92,98
吴用,95,98,92,99,99
公孙胜,92,93,97,94,95
关胜,91,93,97,94,95
林冲,96,94,99,94,99
秦明,94,96,95,99,90
呼延灼,92,99,92,93,95


In [4]:
heroes_df.loc['宋江','勇敢'] = np.nan
heroes_df.loc['卢俊义','勇敢'] = 95.93234
heroes_df

Unnamed: 0,忠诚,智慧,勇敢,法术,生命
宋江,90,91,,95,95
卢俊义,91,98,95.93234,92,98
吴用,95,98,92.0,99,99
公孙胜,92,93,97.0,94,95
关胜,91,93,97.0,94,95
林冲,96,94,99.0,94,99
秦明,94,96,95.0,99,90
呼延灼,92,99,92.0,93,95


### 7.1.2 写 xlsx 文件

- 语法
```python
>>> df.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)
```


- 参数
    - excel_writer —— 字符串、ExcelWriter对象、文件路径等
    - sheet_name —— 字符串，缺省为 "sheet1"，将包含DataFrame的表的名称。
    - na_rep : 字符串,默认‘ ’，缺失数据表示方式。
    - float_format : 字符串,默认None，格式化浮点数的字符串
    - columns —— 列标记，要编写的列
    - encoding —— 编码
    - header : 布尔或字符串列表，默认为Ture。写出列名。如果给定字符串列表，则假定它是列名称的别名。
    - index :布尔,默认的Ture。写行名（索引）
    - index_label : 字符串或序列，默认为None。；如果需要，可以使用索引列的列标签。如果没有给出，标题和索引为true，则使用索引名称。如果数据文件使用多索引，则需使用序列。
    - startrow : 左上角的单元格行来转储数据框
    - startcol : 左上角的单元格列转储数据帧
    - engine : 字符串,默认没有；使用写引擎 - 您也可以通过选项io.excel.xlsx.writer，io.excel.xls.writer和io.excel.xlsm.writer进行设置。
    - merge_cells : 布尔,默认为Ture；编码生成的excel文件。 只有xlwt需要，其他编写者本地支持unicode。
    - inf_rep : 字符串,默认“正”，无穷大的表示(在Excel中不存在无穷大的本地表示)
    - freeze_panes : 整数的元组(长度2)，默认为None。指定要冻结的基于1的最底部行和最右边的列


<img src = 'images\ch07\ch07-01.PNG' width = 500>

In [9]:
heroes_df.to_excel(r"data\梁山好汉榜01.xlsx",na_rep='*')  # 也可以是 xls 文件
heroes_df

Unnamed: 0,忠诚,智慧,勇敢,法术,生命
宋江,90,91,,95,95
卢俊义,91,98,95.93234,92,98
吴用,95,98,92.0,99,99
公孙胜,92,93,97.0,94,95
关胜,91,93,97.0,94,95
林冲,96,94,99.0,94,99
秦明,94,96,95.0,99,90
呼延灼,92,99,92.0,93,95


In [10]:
heroes_df.to_excel("data\梁山好汉榜02.xlsx",sheet_name='游戏人物',) #控制sheet name

In [11]:
heroes_df.to_excel("data\梁山好汉榜03.xlsx",float_format='%6.2f')  # 控制小数格式

In [12]:
heroes_df.to_excel("data\梁山好汉榜04.xlsx",startrow = 3, startcol = 5)  # 控制起始存储位置

In [13]:
heroes_df.to_excel("data\梁山好汉榜05.xlsx",index = False)  # 控制起始存储位置  #不输出index

In [14]:
heroes_df.to_excel("data\梁山好汉榜06.xlsx",index_label = ["姓名"])  # 左上角第一个空格

In [15]:
heroes_df.to_excel("data\梁山好汉榜07.xlsx",index_label = ["姓名"], freeze_panes=(1,1))  # 左上角第一个空格:冻结位置

In [16]:
data_df = pd.DataFrame(np.random.randint(50,10000,(8,5))/100, columns = ['A','B','C','D','E'], index = list('abcdefgh'))
data_df.iloc[1:5,1] = np.nan
data_df

Unnamed: 0,A,B,C,D,E
a,89.03,91.83,97.79,77.21,44.52
b,99.09,,30.09,3.1,76.63
c,38.43,,79.41,32.98,61.99
d,24.85,,81.08,77.32,36.54
e,78.1,,84.18,19.4,73.4
f,42.82,24.9,2.32,66.21,53.68
g,43.62,10.79,14.84,20.41,63.8
h,5.8,14.16,55.73,96.63,52.52


#### 例1.1  如果na数据用 "N/A" 显示；冻结（1,1）； 保留小数点2位； sheet名字指定

In [17]:
data_df.to_excel("data\data_df.xlsx", na_rep = 'N/A', freeze_panes=(1,1), float_format='%6.2f', sheet_name='data_df')

In [18]:
data_df.to_excel?

### 7.1.3 读 xlsx 文件

- 语法
```python
    >>> pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None,
                engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None,
                na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0,
                convert_float=True, **kwds)
```


- 参数
    - io —— 字符串、路径、URL等
    - sheet_name
    - header —— 用着列标签

In [19]:
# 先删除
try:
    del heroes_df    
except NameError:
    print("变量不存在，无法删除")
try:
    heroes_df
except NameError:
    print("变量不存在，无法输出")    

变量不存在，无法输出


In [22]:
heroes_df = pd.read_excel("data/梁山好汉榜.xlsx")
heroes_df

Unnamed: 0.1,Unnamed: 0,忠诚,智慧,勇敢,法术,生命
0,宋江,90,99,*,98,90
1,卢俊义,99,95,95.9323,94,91
2,吴用,91,91,96,97,96
3,公孙胜,96,92,98,95,92
4,关胜,92,92,93,93,98
5,林冲,95,95,93,94,98
6,秦明,94,92,94,95,99
7,呼延灼,91,98,92,97,93


In [None]:
#先看这个文档

In [None]:
!data\character.xlsx

In [25]:
IO = 'data\character.xlsx'  #定义一个文件名称

In [26]:
sheet = pd.read_excel(io=IO) 

In [27]:
sheet

Unnamed: 0,姓名,年龄,出生日期,爱好,关系
0,张三,23,1990-12-15 00:00:00,游戏,兄弟
1,张四,19,1992-10-13 00:00:00,电影,
2,小明,12,2008-03-18 00:00:00,看书,同学
3,小红,12,2008-02-14 00:00:00,电影,
4,小芳,12,2007-12-19 00:00:00,钢琴,
5,赵匡胤,850,1159/05/08,武术,历史人物


- sheetname：默认是sheetname为0，
    - 返回多表使用sheetname=[0,1]，
    - 若sheetname=None是返回全表 。
    - 注意：int/string返回的是dataframe，而none和list返回的是dict of dataframe。

In [28]:
sheet = pd.read_excel(IO,sheet_name= [0,1])
#sheet = pd.read_excel(IO,sheet_name= None)
sheet

OrderedDict([(0,     姓名   年龄                 出生日期  爱好    关系
              0   张三   23  1990-12-15 00:00:00  游戏    兄弟
              1   张四   19  1992-10-13 00:00:00  电影   NaN
              2   小明   12  2008-03-18 00:00:00  看书    同学
              3   小红   12  2008-02-14 00:00:00  电影   NaN
              4   小芳   12  2007-12-19 00:00:00  钢琴   NaN
              5  赵匡胤  850           1159/05/08  武术  历史人物), (1,    3  2  1  学生
              0  6  5  4  讲师
              1  9  8  7  教授)])

- 参数为None时，返回全部的表格，是一个表格的字典；
- 当参数为list = [0，1，2，3]此类时，返回的多表格同样是字典

In [29]:
sheet[0].values

array([['张三', 23, datetime.datetime(1990, 12, 15, 0, 0), '游戏', '兄弟'],
       ['张四', 19, datetime.datetime(1992, 10, 13, 0, 0), '电影', nan],
       ['小明', 12, datetime.datetime(2008, 3, 18, 0, 0), '看书', '同学'],
       ['小红', 12, datetime.datetime(2008, 2, 14, 0, 0), '电影', nan],
       ['小芳', 12, datetime.datetime(2007, 12, 19, 0, 0), '钢琴', nan],
       ['赵匡胤', 850, '1159/05/08', '武术', '历史人物']], dtype=object)

In [30]:
sheet[1]

Unnamed: 0,3,2,1,学生
0,6,5,4,讲师
1,9,8,7,教授


In [31]:
#同样可以根据表头名称或者表的位置读取该表的数据
#通过表名
sheet = pd.read_excel(IO,sheet_name= 'Sheet2') #仅仅读入第二个
#sheet = pd.read_excel(IO,sheet_name= 1) #效果同上

sheet

Unnamed: 0,3,2,1,学生
0,6,5,4,讲师
1,9,8,7,教授


- header ：指定作为列名的行，默认0，即取第一行，数据为列名行以下的数据；若数据不含列名，则设定 header = None；

In [32]:
sheet = pd.read_excel(IO,sheet_name= 1,header = None) #默认第一行数据作为列名
sheet

Unnamed: 0,0,1,2,3
0,3,2,1,学生
1,6,5,4,讲师
2,9,8,7,教授


In [33]:
sheet = pd.read_excel(IO,sheet_name= 1,header = 0) #默认第一行数据作为列名
sheet

Unnamed: 0,3,2,1,学生
0,6,5,4,讲师
1,9,8,7,教授


- skiprows：省略指定行数的数据
- skipfooter：省略从尾部数的行数据

In [34]:
sheet = pd.read_excel(IO,sheet_name= 1,header = None,skiprows= 1)
#略去1行的数据，自上而下的开始略去数据的行
sheet

Unnamed: 0,0,1,2,3
0,6,5,4,讲师
1,9,8,7,教授


In [35]:
sheet = pd.read_excel(IO,sheet_name= 1,header = None,skipfooter= 1)
#略去1行的数据，自上而下的开始略去数据的行
sheet

Unnamed: 0,0,1,2,3
0,3,2,1,学生
1,6,5,4,讲师


- index_col ：指定列为索引列，也可以使用 u’string’

In [36]:
#指定第二列的数据作为行索引
sheet = pd.read_excel(IO,sheet_name= 1,header = None,skipfooter= 0,index_col=3)
sheet

Unnamed: 0_level_0,0,1,2
3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
学生,3,2,1
讲师,6,5,4
教授,9,8,7


- names：指定列的名字，传入一个list数据

In [37]:
sheet = pd.read_excel(IO,sheet_name= 1,header = None,skipfooter= 0,index_col=3,names=['a','b','c'])
sheet

Unnamed: 0,a,b,c
学生,3,2,1
讲师,6,5,4
教授,9,8,7


### 7.1.4 写对象 / 类 —— ExcelWriter

- 语法

```python
>>> pd.ExcelWriter(path, engine=None, **kwargs)
```


- 参数

    - path 指向 xls 或 xlsx 文件的路径
    - engine 字符串，写引擎（略）
    - kwds 关键字参数（date_format、datetime_format 等，略）
    

- 良好习惯 —— 使用 `with`

In [38]:
with pd.ExcelWriter('data\梁山好汉榜-多表.xlsx') as writer:
    heroes_df[["忠诚","智慧","勇敢"]].to_excel(writer, sheet_name='忠智勇')
    heroes_df[["法术","生命"]].to_excel(writer, sheet_name='术数')

### 7.1.5 读对象/类 —— ExcelFile

- 语法

```python
>>> pd.ExcelFile(io, **kwds)
```


- 参数

    - io 字符串、路径对象、类文件对象
    - kwds 关键字参数（略）

In [39]:
try:
    del heroes_df
    heroes_df
except NameError:
    print("{0}对象已经被删除".format("heroes_df"))

heroes_df对象已经被删除


In [40]:
xlsx = pd.ExcelFile('data\梁山好汉榜-多表.xlsx') # 文件必须存在
heroes_df = pd.read_excel(xlsx)
heroes_df

Unnamed: 0.1,Unnamed: 0,忠诚,智慧,勇敢
0,0,90,99,*
1,1,99,95,95.9323
2,2,91,91,96
3,3,96,92,98
4,4,92,92,93
5,5,95,95,93
6,6,94,92,94
7,7,91,98,92


In [41]:
heroes_df = pd.read_excel("data\梁山好汉榜.xlsx")
heroes_df

Unnamed: 0.1,Unnamed: 0,忠诚,智慧,勇敢,法术,生命
0,宋江,90,99,*,98,90
1,卢俊义,99,95,95.9323,94,91
2,吴用,91,91,96,97,96
3,公孙胜,96,92,98,95,92
4,关胜,92,92,93,93,98
5,林冲,95,95,93,94,98
6,秦明,94,92,94,95,99
7,呼延灼,91,98,92,97,93


In [42]:
with pd.ExcelFile('data\梁山好汉榜-多表.xlsx') as xls:
    df1 = pd.read_excel(xls, sheet_name='忠智勇')
    df2 = pd.read_excel(xls, sheet_name='术数')

df_heros = pd.concat([df1,df2],axis=1)
df_heros
#pd.read_excel?

Unnamed: 0.2,Unnamed: 0,忠诚,智慧,勇敢,Unnamed: 0.1,法术,生命
0,0,90,99,*,0,98,90
1,1,99,95,95.9323,1,94,91
2,2,91,91,96,2,97,96
3,3,96,92,98,3,95,92
4,4,92,92,93,4,93,98
5,5,95,95,93,5,94,98
6,6,94,92,94,6,95,99
7,7,91,98,92,7,97,93


- 试一试写入excel的几个参数

In [43]:
data_df  #再看看数据

Unnamed: 0,A,B,C,D,E
a,89.03,91.83,97.79,77.21,44.52
b,99.09,,30.09,3.1,76.63
c,38.43,,79.41,32.98,61.99
d,24.85,,81.08,77.32,36.54
e,78.1,,84.18,19.4,73.4
f,42.82,24.9,2.32,66.21,53.68
g,43.62,10.79,14.84,20.41,63.8
h,5.8,14.16,55.73,96.63,52.52


In [44]:
writer = pd.ExcelWriter("data\data.xlsx")
data_df.to_excel(writer, sheet_name='数据1')
data_df.to_excel(writer, sheet_name='数据2', na_rep='NULL', float_format="%.1f") 
data_df.to_excel(writer, sheet_name='数据3', columns=["D", "C", "A"] )
data_df.to_excel(writer, sheet_name='数据4', header = ["AA", "BB", "CC", "DD", "EE"])
data_df.to_excel(writer, sheet_name='数据5', index = False)
data_df.to_excel(writer, sheet_name='数据6', index_label = ["索引"])
data_df.to_excel(writer, sheet_name='数据7', startrow = 2)
data_df.to_excel(writer, sheet_name='数据8', startcol = 2)
data_df.to_excel(writer, sheet_name='数据9', startrow = 2, startcol = 2)
##其他的大家自己区尝试
writer.save()

- 试一试读入excel的几个参数

In [45]:
pd.read_excel?

In [None]:
with pd.ExcelFile('data\\data.xlsx') as reader:
    data1_df = pd.read_excel(reader)
    #data1_df = pd.read_excel(reader, sheet_name='数据2')
    #data1_df = pd.read_excel(reader, sheet_name='数据3', index_col=None, header=None)  #
    #data1_df = pd.read_excel(reader, sheet_name='数据7', skiprows = [1])
    #data1_df = pd.read_excel(reader, sheet_name='数据7', skiprows = [1], index_col = [0])
    #data1_df = pd.read_excel(reader, sheet_name='数据7', header=[1])
    #data1_df = pd.read_excel(reader, sheet_name='数据9',  header=[2])#, skipfooter=3)  #忽略后面三行
    #data1_df = pd.read_excel(reader, sheet_name='数据2', names=["AA","BB","CC","DE","FE"])# 读入后列标题名字修改
    #大家可以自己去尝试

data1_df

## 7.2 CSV 文件简介


- CSV 文件介绍
    - 逗号分隔值(Comma-Separated Values)文件
    - 纯文本，使用某个字符集，比如ASCII、Unicode、EBCDIC或GB2312 等
    - 类表格、类数据库
    - 由记录组成（典型的是每行一条记录）
    - 每条记录被分隔符分隔为字段（典型分隔符有逗号、分号或制表符；有时分隔符可以包括可选的空格）
    - 每条记录都有同样的字段序列


- CSV 文件的常规打开方式
    - 文本编辑器：记事本、写字板、notepad++、vi、vim、emacs、ultra-editor...
    - EXCEL 软件
    - 等

## 7.3 CSV 文件（文本文件）操作

- 写 CSV 文件
- 读 CSV 文件

### 7.3.1 写 CSV 文件

- 命令语法

    ```python
    >>> df = pd.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True,
                 index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"',
                 line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True,
                 escapechar=None, decimal='.')
    ```
    
    
- 参数说明
    - path_or_buf —— 字符串或文件句柄、缺省为 None
    - sep —— 分隔符，缺省为逗号
    - encoding —— 汉字编码，选 "utf_8_sig"
    - 其它 —— 略
    
    
- 功能 —— 写 csv 文件

In [None]:
# 先制造一个 `csv` 文件
heroes_df.to_csv("data\heroes_table1.csv", encoding="utf_8_sig")
#heroes_df.to_csv("data\heroes_table2.csv", encoding = "utf-8") # 汉字乱码 #用excel打开
#heroes_df.to_csv("data\heroes_table3.csv")

### 7.3.2 读 CSV 文件

- 命令语法

    ```python
    >>> df = pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, 
                         squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, 
                         true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, 
                         na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, 
                         parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, 
                         dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', 
                         lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, 
                         dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, 
                         doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    ```
    
    
- 参数说明
    - filepath_or_buffer —— 文件名（句柄）、StringIO、URL
    - sep —— 分隔符，缺省为逗号
    - delimiter —— 定界符，备选分隔符（如果指定该参数，则sep参数失效）
    - names —— 拟采用列的名称数组
    - 其它 —— 略
    
    
- 注意
    - 扩展名可以采用 `txt`
    - 文件名路径包含中文名可能报错

In [None]:
heroes_df_from_csv = pd.read_csv("data\heroes_table.csv")
heroes_df_from_csv

In [None]:
heroes_df_from_csv = pd.read_csv("data\heroes_table.csv",index_col=0)
heroes_df_from_csv

### 7.3.3 字符串 IO 对象 —— `StringIO`

- 很多时候，数据读写不一定是文件，也可以在内存中读写。
- StringIO顾名思义就是在内存中读写str。
- 要把str写入StringIO，我们需要先创建一个StringIO，然后，像文件一样写入即可.
-  
- BytesIO操作的只能是str，如果要操作二进制数据，就需要使用BytesIO。
- BytesIO实现了在内存中读写bytes，我们创建一个BytesIO，然后写入一些bytes

In [None]:
from io import StringIO
# from pandas.compat import StringIO, BytesIO #早期StringIO在pandas模块下

#### (1) 类 `csv` 字符串

In [None]:
data1 = 'col1,col2,col3\na,b,1\na,b,2\nc,d,3'
data1

In [None]:
pd.read_csv(StringIO(data1))

#### (2) 良好的格式

In [None]:
data2 = ('col1,col2,col3\n'
         'a,b,1\n'
         'a,b,2\n'
         'c,d,3')
data2

In [None]:
pd.read_csv(StringIO(data2))

#### (3) 列筛选

In [None]:
pd.read_csv(StringIO(data1), usecols = ['col1', 'col3'])
# pd.read_csv(StringIO(data1), usecols =lambda x: x.upper() in ['COL1', 'COL3'])

## 7.4 Html中的表格文件


In [None]:
url = 'http://app.finance.ifeng.com/list/stock.php?t=ha'

In [None]:
from io import StringIO, BytesIO
import pandas as pd

In [None]:
dfs = pd.read_html(url)

In [None]:
dfs[0]

## 7.5 Json文件读取

### 7.5.1 什么是Jason文件

#### JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。 易于人阅读和编写。

- JSON建构于两种结构，一是“名称/值”对的集合（A collection of name/value pairs）。
    - 不同的语言中，它被理解为对象（object），纪录（record），结构（struct），字典（dictionary），哈希表（hash table），有键列表（keyed list），或者关联数组 （associative array）。
- 二是值的有序列表（An ordered list of values）。在大部分语言中，它被理解为数组（array）。

### 7.5.2 Jason文件读取

In [None]:
# 可更换为自己的字符串

json_str = """
[{"ttery":"min","issue":"20130801-3391","code":"8,4,5,2,9","code1":"297734529","code2":null,"time":1013395466000},
{"ttery":"min","issue":"20130801-3390","code":"7,8,2,1,2","code1":"298058212","code2":null,"time":1013395406000},
{"ttery":"min","issue":"20130801-3389","code":"5,9,1,2,9","code1":"298329129","code2":null,"time":1013395346000},
{"ttery":"min","issue":"20130801-3388","code":"3,8,7,3,3","code1":"298588733","code2":null,"time":1013395286000},
{"ttery":"min","issue":"20130801-3387","code":"0,8,5,2,7","code1":"298818527","code2":null,"time":1013395226000}]
"""

In [None]:
dfs = pd.read_json(json_str)
dfs

### 7.5.3 Jason文件存放

#### 存为xlsx格式

In [None]:
dfs.to_excel("data\json_str.xlsx", index=False)

#### 存为json格式

- json格式可用文本类文件打开，如`记事本`、`Notepad++`、`UltraEdit`等
- json在线可视化工具：http://www.esjson.com/jsonviewer.html

In [None]:
dfs.to_json("data\json_str.json")

### 7.5.3 Jason文件读取

In [3]:
dfs02 = pd.read_json("data\json_str.json")
dfs02

ValueError: Expected object or value

## 7.6 应用示例 —— 纽约市 车辆碰撞数据

- 数据来源：纽约开放交通数据
- 时间范围：2015年1月 —— 2017年2月

### 7.6.1 查看文件位置

- Windows 环境 —— dir 命令
- Linux 环境 —— ls 命令

In [None]:
!dir data\vehicle-collisions.csv

### 7.6.2 读入 CSV 文件

In [None]:
vehicle_collisions_df = pd.read_csv('data/vehicle-collisions.csv')
vehicle_collisions_df.dtypes

### 7.6.3 处理读入的数据 —— 观察首尾

In [None]:
vehicle_collisions_df.head(5)

In [None]:
vehicle_collisions_df.tail(5)

### 7.6.4 读属性信息 —— index、columns、values

In [None]:
vehicle_collisions_df.index

In [None]:
vehicle_collisions_df.columns

In [None]:
vehicle_collisions_df.values[0:3]  #取三行数据看一看

### 7.6.5 查看撞车日期

In [None]:
vehicle_collisions_df['DATE']

### 7.6.6 修改 datetime 类型函数

- 语法

```python
>>> pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=False)
```


- 作用 —— 转换成时间戳（timestamp）


- 参数
    - arg —— integer、float、string、datetime、list、tuple、1-d array、Series、DataFrame等
    - 其它 ——略
    
    
- 返回 依赖输入
    - list-like: DatetimeIndex
    - Series: Series of datetime64 dtype
    - scalar: Timestamp

In [None]:
pd.to_datetime?

In [None]:
vehicle_collisions_df['DATE'] = pd.to_datetime(vehicle_collisions_df['DATE'])
vehicle_collisions_df['DATE']

### 7.6.7 新生成一列 'DAY_OF_WEEK'


- vehicle_collisions_df['DATE'] 为时间戳序列
- 时间戳的成员 dt 为 DatetimeProperty 类型，包括
    - year、month、day
    - hour、minute、second
    - dayofweek、weekday_name
    - 等

In [None]:
vehicle_collisions_df.loc[0:4,'DATE'].dt.weekday

In [None]:
vehicle_collisions_df.loc[0:4,'DATE'].dt.dayofweek

In [None]:
vehicle_collisions_df['DAY_OF_WEEK'] = vehicle_collisions_df['DATE'].dt.dayofweek
vehicle_collisions_df['DAY_OF_WEEK']

### 7.6.8 统计 每日 撞车 次数

- 使用数据分组函数 groupby


- 语法
```python
>>> DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
```


- 功能 —— 分组操作

In [None]:
date_count = vehicle_collisions_df.groupby('DATE').DATE.count() # 按 "DATE" 列进行分组，按 DATE 属性计数，返回序列

values = date_count.values # 序列值
dates = date_count.index   # 序列索引

In [None]:
# 每日 撞车 计数
date_count

In [None]:
# 基本统计分析
date_count.describe()

### 7.6.9 每日 撞车 次数 分布图

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.bar(dates, values)
plt.title('Amount of Collisions')
plt.xticks(rotation='vertical')
plt.show()

### 7.6.10 查看前 3 个月

In [None]:
plt.bar(dates[:120], values[:120])
plt.title('Amount of Collisions')
plt.xticks(rotation='vertical')
plt.show()

### 7.6.11 2015年2月的统计分布

In [None]:
plt.bar(dates[(dates.year==2015) & (dates.month==2)], values[(dates.year==2015) & (dates.month==2)])
plt.title('Amount of Collisions in Feb 2015')
plt.xticks(rotation='vertical')
plt.show()

### 7.6.12 统计 每月 撞车 次数

In [None]:
# 新增一列 'YEAR_MONTH'
vehicle_collisions_df['YEAR_MONTH'] = ["%d"%(date.year) + '-' + "%02d"%(date.month) for date in vehicle_collisions_df['DATE']]
# 

In [None]:
# 按月统计撞车次数
month_count = vehicle_collisions_df.groupby('YEAR_MONTH').YEAR_MONTH.count()
month_count

In [None]:
# 每月撞车数 统计分析
print(month_count.describe())

### 7.6.13 绘 每月 撞车次数 分布图

In [None]:
plt.bar(month_count.index, month_count.values)
plt.title('Amount of Collisions per month')
plt.xticks(rotation='vertical')
plt.show()

### 7.6.14 统计 每周日 撞车 次数

In [None]:
# 按每周各天统计撞车次数
day_of_week_count = vehicle_collisions_df.groupby('DAY_OF_WEEK').DAY_OF_WEEK.count()

# 每周 各天 撞车数 统计分析
day_of_week_count

In [None]:
print(day_of_week_count.describe())

### 7.6.15 绘 每周日 撞车次数 分布图

In [None]:
day_of_week_str = ['MONDAY', 'TUESDAY', 'WEDNESDAY', 'THURSDAY', 'FRIDAY', 'SATDAY', 'SUNDAY']
plt.bar(day_of_week_count.index, day_of_week_count.values)
plt.title('Amount of Collisions per week day')
plt.xticks(rotation='vertical')
plt.show()

### 7.6.16 更多的操作（略）

- 结合地图模块的可视化
- 特征分析、提取等

## 7.7 应用示例 —— 纽约市 车辆碰撞数据

#### 某地风速数据

In [None]:
# windspeed.xlsx 尝试读取某地风速资料

In [None]:
windspeed = pd.read_excel("data\windspeed.xlsx",header=None, \
                          names = ["year","month","day","Uday","Umean","Umeandir","Umax","Umaxdir"])
windspeed

In [None]:
windspeed.describe()

In [None]:
import matplotlib.pyplot as mpl

In [None]:
windspeed["Uday"].hist()

### 结束