In [None]:
import pandas as pd

files = r'D:\datas\上市公司主要财务指标.xlsx'
dataset = pd.read_excel(files,dtype={'证券代码': "object", '统计截止日期': 'datetime64[s]'}, index_col=None, header=0, skiprows=[0, 2])
dataset['统计截止日期']= dataset['统计截止日期'].dt.year
dataset = dataset[['证券代码','统计截止日期','无形资产']]
dataset.rename(columns={'证券代码':'股票代码','统计截止日期':'截止日期','无形资产':'无形资产总量'},inplace=True)
dataset.to_csv(r'D:\Projects\DigitalTransformation\01.年报爬取与关键词提取\datas\无形资产总量.csv',index=None,encoding='utf-8')

在数据分析任务中，我们常常需要读取Excel文件中的数据。但是，如果Excel文件特别大，内存无法加载整个文件，这时候pandas读取Excel文件会出现内存溢出的错误。本文介绍几种优化方法，可以有效解决这个问题。


1. 分块读取文件
我们可以将文件分成多个块，逐块读取，避免加载整个文件。例如:

```python
for df in pd.read_excel(file,sheet_name=sheet,chunksize=1000000):
```
对分块进行处理
2. 指定行数范围读取
可以只读取文件的某些行，避免读取不需要的行。例如:

```python
df = pd.read_excel(file,sheet_name=sheet,skiprows=100000,nrows=500000)
# 跳过前10万行，读取50万行
```
3. 加载数据时不读索引和标题行
通过header=None和index_col=None参数:

```python
df = pd.read_excel(file,sheet_name=sheet,header=None, index_col=None)
```
4. 选择需要的列读取
通过usecols参数只选择需要的列，避免读取无用的数据列。

```python
df = pd.read_excel(file,sheet_name=sheet,usecols=["col1","col3","col6"])
```
5. 转换数据类型以最小化内存使用
使用dtype参数，选择合适的类型加载列的数据，避免默认使用object类型加载，这可以显著减少内存使用。

```python
df = pd.read_excel(file,sheet_name=sheet,dtype={"col1": np.int32,"col2": np.float64})
```
以上几种方法可以结合使用，有效减少内存使用，解析大Excel文件。通过适当优化，pandas完全有能力高效读取大文件的内容，解决各种数据分析任务。