# `pandas.read_excel` 参数说明

## 文件路径和文件类型
- **io**: 文件路径、URL、文件对象或类似文件的对象。

## 工作表选择
- **sheet_name**: 要读取的工作表名称或索引，默认为0（即第一个工作表）。
    - `str` : 工作表名称
    - `int` : 工作表索引
    - `list` : 工作表名称或索引列表

## 数据类型和转换
- **dtype**: 指定列的数据类型。
    - `dict` : 指定某列的数据类型
    - `str` : 指定所有列的数据类型
    
- **converters**: 字典，指定某列的转换函数。


## 处理缺失值
- **na_values**: 指定为缺失值的字符串。
- **keep_default_na**: 是否保持默认缺失值标识，默认是`True`。
- **na_filter**: 是否检测缺失值，默认是`True`。

## 行和列的选择
- **header**: 指定行号作为列名，默认为`0`（第一行）。
- **names**: 
    - `None`: 不指定列名。
    - `list`: 指定列名。
- **index_col**: 将某列作为行索引。
- **usecols**: 指定要读取的列名或列号。
- **skiprows**: 跳过前`n`行或指定的行号列表。
- **nrows**: 读取前`n`行。
- **skipfooter**: 跳过尾部`n`行。

## 日期和时间
- **parse_dates**: 将某列解析为日期。
- **date_parser**: 自定义日期解析函数。

## 其他
- **verbose**: 是否打印详细输出。
- **true_values**: 被视为`True`的值列表。
- **false_values**: 被视为`False`的值列表。
- **mangle_dupe_cols**: 是否在重复列名中添加后缀，默认是`True`。
- **storage_options**: 指定存储选项。
- **engine_kwargs**: 传递给excel引擎的关键字参数。
- **engine**: 解析引擎，`openpyxl`（用于`.xlsx`）、`xlrd`（用于`.xls`）。




| 参数            | 可选              | 描述                                       |
|-----------------|-------------------|--------------------------------------------|
| excel_file      | 必选              | Excel 文件路径或文件对象。                     |
| sheet_name      | 默认为 `None`      | 工作表名称或索引。                           |
| header          | 默认为 `None`      | 行号或列名列表，指定作为列名的行或行号。  |
| names            | 列表              | 用作列名的列表，如果文件没有列名。         |
| index_col       | 列名或 `None`     | 用作行索引的列名或 `None`。                 |
| usecols          | 列表或 `None`     | 指定要读取的列名或列索引的列表。             |
| skiprows         | 整数或列表        | 要跳过的行数或行号列表。                     |
|skipfooter| 整数或列表        | 要跳过的尾部行数或行号列表。                     |
| nrows            | 整数或 `None`     | 要读取的行数或 `None`。                      |
| na_values        | 列表              | 将这些值视为缺失值。                           |
| parse_dates      | 默认为 `False`     | 布尔值、列表或字典，指定是否解析日期时间列。|
| date_parser      | 函数              | 用于解析日期的函数。                          |
| thousands        | 字符串            | 千位分隔符。                                   |
| decimal          | 字符串            | 浮点数的小数点符号。                             |
| engine           | 字符串或 `None`   | 用于读取 Excel 文件的引擎，如 `'openpyxl'`。  |
| engine_kwargs    | 字典或 `None`     | 传递给 `engine` 的关键字参数。                 |
| converters       | 字典              | 用于转换列的函数字典。                         |
| true_values      | 列表              | 将这些值视为布尔值 `True`。                   |
| false_values     | 列表              | 将这些值视为布尔值 `False`。                  |
| nrows            | 整数或 `None`     | 要读取的行数或 `None`。                      |
| na_filter        | 布尔值            | 如果为 `True`，则 `na_values` 将被用于数据清洗。  |
| verbose          | 布尔值            | 如果为 `True`，则打印详细的进度信息。           |
| parse_dates      | 列表或 `None`     | 指定要解析为日期的列名列表。                   |
| dayfirst         | 布尔值            | 确定日期的解析方式。                           |
| iterator         | 布尔值            | 如果为 `True`，则返回一个迭代器。               |
| chunksize        | 整数              | 迭代器每次迭代的行数。                         |

In [27]:
import pandas as pd
df = pd.read_excel(
    r'..\0-data\student_excel\student_excel.xlsx',
    sheet_name='Sheet1',
    usecols='B:D',
    header=2,
)
df

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


In [15]:
with pd.ExcelFile(r'..\0-data\student_excel\student_excel.xlsx') as xlsx:
    df1=xlsx.parse('Sheet1',usecols='B:D',header=2)
    df2=pd.read_excel(xlsx,'Sheet1',usecols='B:D',header=2)
df1

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


In [17]:
xlsx=pd.ExcelFile(r'..\0-data\student_excel\student_excel.xlsx')

In [19]:
xlsx.parse()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,,,
1,,姓名,科目,分数
2,,小明,语文,85
3,,,数学,80
4,,,英语,90
5,,,,
6,,小王,语文,85
7,,,数学,
8,,,英语,90
9,,,,


In [5]:
url='https://download.samplelib.com/xls/sample-simple-2.xls'

In [22]:
pd_file=pd.read_excel(
    url,
    sheet_name=[0,1],
)

In [23]:
pd_file

{0: Empty DataFrame
 Columns: [test1]
 Index: [],
 1: Empty DataFrame
 Columns: [test2]
 Index: []}

In [30]:
from requests import get
from io import BytesIO

url = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vSRMkrVnE54beC4fo_aYhaD943D44iKYy5_A3m3PJA7T2g_cYQDWgozL0ZK9ukkvA/pub?output=xlsx'
r = get(url)
file = BytesIO(r.content)
df = pd.read_excel(file, index_col=[0, 1, 2])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,经度,纬度
省,市,区,Unnamed: 3_level_1,Unnamed: 4_level_1
全国,全国,全国,116.413384,39.910925
北京市,北京市,北京市,116.413384,39.910925
北京市,市辖区,市辖区,116.413384,39.910925
北京市,市辖区,东城区,116.422401,39.934827
北京市,市辖区,西城区,116.372514,39.918124
...,...,...,...,...
澳门特别行政区,路氹填海區,路氹填海區,113.570544,22.146272
台湾省,台湾省,台湾省,86.181494,41.732373
台湾省,台北市,台北市,121.539414,25.073653
台湾省,高雄市,高雄市,120.315994,22.679904
