In [1]:
import pandas as pd

# Read and Write File

## set_option()

- 读取文件前的简单设置

### 描述

- set_option() 函数用于对文本行列对齐。

### 用法
- pd.set_option('display.unicode.east_asian_width', True) -- 列名对齐
- pd.set_option('display.max_rows', 1000)  -- 修改默认输出最大行数
- pd.set_option('display.max_columns', 1000)  -- 修改默认输出最大列数

### 示例

####  解决输出列名不对齐

- 没有设置前内容(显然结果歪歪扭扭)

In [2]:
df1_1_1 = pd.read_excel(r'data\0301.xlsx')
print(df1_1_1.head())

   排名    球员    球队 进球（点球）  出场次数  出场时间  射门  射正
0   1   瓦尔迪   莱斯特  17(3)    20  1800  49  29
1   2    英斯  南安普敦     14    22  1537  57  26
2   3  奥巴梅扬   阿森纳  14(1)    22  1945  55  22
3   4  拉什福德    曼联  14(5)    22  1881  74  34
4   5  亚伯拉罕   切尔西     13    21  1673  66  29


- 设置后就对齐了

In [3]:
pd.set_option('display.unicode.east_asian_width', True)

- 设置后就对齐了

In [4]:
df1_1_2 = pd.read_excel(r'data\0301.xlsx')
print(df1_1_2.head())

   排名      球员      球队 进球（点球）  出场次数  出场时间  射门  射正
0     1    瓦尔迪    莱斯特        17(3)        20      1800    49    29
1     2      英斯  南安普敦           14        22      1537    57    26
2     3  奥巴梅扬    阿森纳        14(1)        22      1945    55    22
3     4  拉什福德      曼联        14(5)        22      1881    74    34
4     5  亚伯拉罕    切尔西           13        21      1673    66    29


## read_excel()


### 描述

- read_excel() 函数用导入.xls或.xlsx。

### 语法
```python
pd.read_excel(io,sheet_name=0,header=0,names=None,indexcol=None,usecols=None)
```

### 参数
- io: 字符串，xls或xlsx文件路径或类文件对象.
- sheet_name: 获取工作表，默认值为0.
    - sheet_name=[0,1,'Sheet3'] 第一个，第二个和名为'Sheet3'的Sheet页.
- header: 指定作为列名的行，默认值为0.数据为除列名以外的数据，设置header=None(此时列索引为数字).
- names: 默认值为None,要使用的列名列表.
- index_col: 指定列为索引列，默认值为None，索引0是DataFrame对象的行标签。
- usecols: int,list,字符串，默认为None.
    - None: 解析所有列.
    - int: 解析最后一列.  <font color=red># 已失效!!!  # 必须是[int]</font>
    - list: 解析列号和列表的列。
    - str: "A:E" or "A,C,E:F"     # 范围包括前后

### 示例

In [5]:
excel_path = r'data/0312.xlsx'

#### 常规导入
- 只需要输入path，就可以读取excel

In [6]:
df1_2_1 = pd.read_excel(excel_path)
print(df1_2_1.head())

  买家会员名  买家实际支付金额 收货人姓名            宝贝标题
0      mrhy1             41.86     周某某      零基础学Python
1      mrhy2             41.86     杨某某      零基础学Python
2      mrhy3             48.86     刘某某      零基础学Python
3      mrhy4             48.86     张某某      零基础学Python
4      mrhy5             48.86     赵某某  C#项目开发实战入门


#### sheet_name
- None、字符串、整数、字符串列表或整数列表，默认值为0.
    - None：获取所有的工作表。

In [7]:
'''sheet_name=None'''
df1_2_2 = pd.read_excel(excel_path, sheet_name=None)
# print(df1_2_2) # 获取所有工作表后生成的是dict对象
print(len(df1_2_2))
print(df1_2_2.keys())  # 可以看到excel所有工作表的名称
print('\n',df1_2_2['明日'].head())

3
dict_keys(['明日', '莫寒', '白桦'])

   买家会员名  买家实际支付金额 收货人姓名            宝贝标题
0      mrhy1             41.86     周某某      零基础学Python
1      mrhy2             41.86     杨某某      零基础学Python
2      mrhy3             48.86     刘某某      零基础学Python
3      mrhy4             48.86     张某某      零基础学Python
4      mrhy5             48.86     赵某某  C#项目开发实战入门


In [8]:
'''sheet_name混合使用'''
df1_2_3 = pd.read_excel(excel_path, sheet_name=[0,'白桦'])
# print(df1_2_3)  # 此时也是生成的dict对象，但是不同点在于key值跟随着我们的sheet_name内容的
print(df1_2_3.keys())
print('\n',df1_2_3[0].head())

dict_keys([0, '白桦'])

   买家会员名  买家实际支付金额 收货人姓名            宝贝标题
0      mrhy1             41.86     周某某      零基础学Python
1      mrhy2             41.86     杨某某      零基础学Python
2      mrhy3             48.86     刘某某      零基础学Python
3      mrhy4             48.86     张某某      零基础学Python
4      mrhy5             48.86     赵某某  C#项目开发实战入门


#### header
- 指定作为列名的行，默认值为0.数据为除列名以外的数据，设置header=None(此时列索引为数字).

In [9]:
'''原文本'''
df1_2_4 = pd.read_excel(excel_path)
print(df1_2_4.head())

  买家会员名  买家实际支付金额 收货人姓名            宝贝标题
0      mrhy1             41.86     周某某      零基础学Python
1      mrhy2             41.86     杨某某      零基础学Python
2      mrhy3             48.86     刘某某      零基础学Python
3      mrhy4             48.86     张某某      零基础学Python
4      mrhy5             48.86     赵某某  C#项目开发实战入门


In [10]:
'''header=None'''
df1_2_5 = pd.read_excel(excel_path, header=None)
print(df1_2_5.head())
# 会发现第一行也变成了数据，列索引为[0,1,2,3...]

            0                 1           2               3
0  买家会员名  买家实际支付金额  收货人姓名        宝贝标题
1       mrhy1             41.86      周某某  零基础学Python
2       mrhy2             41.86      杨某某  零基础学Python
3       mrhy3             48.86      刘某某  零基础学Python
4       mrhy4             48.86      张某某  零基础学Python


In [11]:
'''header=1'''
df1_2_6 = pd.read_excel(excel_path, header=1)
print(df1_2_6.head())
# header=number时，前面行的数据就被抹去了。

   mrhy1  41.86  周某某      零基础学Python
0  mrhy2  41.86  杨某某      零基础学Python
1  mrhy3  48.86  刘某某      零基础学Python
2  mrhy4  48.86  张某某      零基础学Python
3  mrhy5  48.86  赵某某  C#项目开发实战入门
4  mrhy6  48.86  李某某  C#项目开发实战入门


In [12]:
'''header=2'''
df1_2_7 = pd.read_excel(excel_path, header=2)
print(df1_2_7.head())
# header=number时，前面行的数据就被抹去了。

   mrhy2   41.86  杨某某      零基础学Python
0  mrhy3   48.86  刘某某      零基础学Python
1  mrhy4   48.86  张某某      零基础学Python
2  mrhy5   48.86  赵某某  C#项目开发实战入门
3  mrhy6   48.86  李某某  C#项目开发实战入门
4  mrhy7  104.72  张某某  C语言精彩编程200例


#### names
- 默认值为None,要使用的列名列表
    - <font color=red>不做说明时，names会覆盖excel第0行</font>

In [13]:
df1_2_8 = pd.read_excel(excel_path, names=[0,1,2,3])
print(df1_2_8.head())

       0      1       2                   3
0  mrhy1  41.86  周某某      零基础学Python
1  mrhy2  41.86  杨某某      零基础学Python
2  mrhy3  48.86  刘某某      零基础学Python
3  mrhy4  48.86  张某某      零基础学Python
4  mrhy5  48.86  赵某某  C#项目开发实战入门


- header=None 就不会覆盖了

In [14]:
df1_2_9 = pd.read_excel(excel_path, names=[0,1,2,3], header=None)
print(df1_2_9.head())

            0                 1           2               3
0  买家会员名  买家实际支付金额  收货人姓名        宝贝标题
1       mrhy1             41.86      周某某  零基础学Python
2       mrhy2             41.86      杨某某  零基础学Python
3       mrhy3             48.86      刘某某  零基础学Python
4       mrhy4             48.86      张某某  零基础学Python


- 发现的确是先执行header的结果，再执行names
    - header=2,前两行的都消失了，然后names替换第三行

In [15]:
df1_2_9 = pd.read_excel(excel_path, names=[0,1,2,3], header=2)
print(df1_2_9.head())

       0       1       2                   3
0  mrhy3   48.86  刘某某      零基础学Python
1  mrhy4   48.86  张某某      零基础学Python
2  mrhy5   48.86  赵某某  C#项目开发实战入门
3  mrhy6   48.86  李某某  C#项目开发实战入门
4  mrhy7  104.72  张某某  C语言精彩编程200例


#### index_col
- 指定列为索引列，默认值为None，索引0是DataFrame对象的行标签。

- 列索引就变化了，但是形式变的奇怪起来

In [16]:
df1_2_10 = pd.read_excel(excel_path, index_col=0)
print(df1_2_10.head())

            买家实际支付金额 收货人姓名            宝贝标题
买家会员名                                                 
mrhy1                  41.86     周某某      零基础学Python
mrhy2                  41.86     杨某某      零基础学Python
mrhy3                  48.86     刘某某      零基础学Python
mrhy4                  48.86     张某某      零基础学Python
mrhy5                  48.86     赵某某  C#项目开发实战入门


- 与header不同的是，index_col不会丢失前面的列

In [17]:
df1_2_11 = pd.read_excel(excel_path, index_col=1)
print(df1_2_11.head())

                 买家会员名 收货人姓名            宝贝标题
买家实际支付金额                                          
41.86                 mrhy1     周某某      零基础学Python
41.86                 mrhy2     杨某某      零基础学Python
48.86                 mrhy3     刘某某      零基础学Python
48.86                 mrhy4     张某某      零基础学Python
48.86                 mrhy5     赵某某  C#项目开发实战入门


- 可以看出是默认的先header后index_col，不推荐使用index_col，格式异常混乱

In [18]:
df1_2_12 = pd.read_excel(excel_path, index_col=0, header=1)
print(df1_2_12.head())

       41.86  周某某      零基础学Python
mrhy1                                   
mrhy2  41.86  杨某某      零基础学Python
mrhy3  48.86  刘某某      零基础学Python
mrhy4  48.86  张某某      零基础学Python
mrhy5  48.86  赵某某  C#项目开发实战入门
mrhy6  48.86  李某某  C#项目开发实战入门


#### usecols
- usecols: int,list,字符串，默认为None.
    - None: 解析所有列.
    - int: 解析最后一列.  <font color=red># 已失效!!!  # 必须是[int]</font>
    - list: 解析列号和列表的列。
    - str: "A:E" or "A,C,E:F"     # 范围包括前后

- <font color=red># ```int```已失效!!!  # 必须是```[int]```</font>

In [19]:
# df1_2_13 = pd.read_excel(excel_path, usecols=2)
# ValueError: Passing an integer for `usecols` is no longer supported.  Please pass in a list of int from 0 to `usecols` inclusive instead.

In [20]:
df1_2_13 = pd.read_excel(excel_path, usecols=[2])
print(df1_2_13.head())

  收货人姓名
0     周某某
1     杨某某
2     刘某某
3     张某某
4     赵某某


- 字符串也是要放在列表里才能读出来

In [21]:
# df1_2_14 = pd.read_excel(excel_path, usecols='收货人姓名')
# print(df1_2_14.head())
#  ValueError: Invalid column name: 收货人姓名

In [29]:
df1_2_14 = pd.read_excel(excel_path, usecols=['收货人姓名'])
print(df1_2_14.head())

  收货人姓名
0     周某某
1     杨某某
2     刘某某
3     张某某
4     赵某某


- 字符串的用法比较单一，均是报错

In [38]:
# df1_2_18 = pd.read_excel(excel_path, usecols=['买家会员名'，'收货人姓名'])
# # SyntaxError: invalid character in identifier
# df1_2_18 = pd.read_excel(excel_path, usecols=['买家会员名': '收货人姓名'])
# # SyntaxError: invalid syntax
# df1_2_18 = pd.read_excel(excel_path, usecols=[['买家会员名']: ['收货人姓名']])
# # SyntaxError: invalid syntax
# print(df1_2_18.head())

SyntaxError: invalid syntax (<ipython-input-38-47825b072021>, line 5)

- <font color=darkred>还可以用Excel列字母来选取</font>

In [23]:
df1_2_15 = pd.read_excel(excel_path, usecols='A')
print(df1_2_15.head())

  买家会员名
0      mrhy1
1      mrhy2
2      mrhy3
3      mrhy4
4      mrhy5


In [24]:
df1_2_16 = pd.read_excel(excel_path, usecols='A,C')
print(df1_2_16.head())

  买家会员名 收货人姓名
0      mrhy1     周某某
1      mrhy2     杨某某
2      mrhy3     刘某某
3      mrhy4     张某某
4      mrhy5     赵某某


In [25]:
df1_2_17 = pd.read_excel(excel_path, usecols='A:C,D')
print(df1_2_17.head())

  买家会员名  买家实际支付金额 收货人姓名            宝贝标题
0      mrhy1             41.86     周某某      零基础学Python
1      mrhy2             41.86     杨某某      零基础学Python
2      mrhy3             48.86     刘某某      零基础学Python
3      mrhy4             48.86     张某某      零基础学Python
4      mrhy5             48.86     赵某某  C#项目开发实战入门


In [None]:
# df1_2_18 = pd.read_excel(excel_path, usecols=['A'])
# print(df1_2_18.head())
# ValueError: Usecols do not match columns, columns expected but not found: ['A']
'''字符串是列字母专用，列表则可以输入字符串和数字'''

In [None]:
# df1_2_18 = pd.read_excel(excel_path, usecols=[0, '收货人姓名'])
# print(df1_2_18.head())
# ValueError: 'usecols' must either be list-like of all strings, all unicode, all integers or a callable.
'''同时列表里int和str是不能混用的'''