---
title: "导入&导出数据"
format:
  html:
  #  code-fold: true
   code-tools: true
jupyter: python3
---

导入和导出是数据处理中的重要环节，也是我们的第一步，它们涉及将数据从外部文件或数据源加载到Python中进行处理，并将处理后的结果保存到文件或其他数据源中。在Python中，使用pandas库可以轻松实现数据的导入和导出操作。

![](./img/rw.png)

像我们最常用的CSV、Excel文件，就用`read_csv`或者`read_excel`，保存地理位置数据的json文件，也可以用`read_json`进行导入。

除了上述常见的文件类型，pandas还支持导入和导出其他数据源和格式，如数据库查询结果、HDF5文件、Parquet文件等。通过pandas提供的灵活接口和函数，可以轻松处理各种数据类型和文件格式，实现数据的导入和导出操作。

![](./img/导入导出.png)


### 读取本地数据

#### 读取CSV文件,[官方文档参数介绍](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#csv-text-files)
1. 第一步先点击data.csv下载文件

获取数据```data.csv```[下载地址](https://www.w3schools.com/python/pandas/data.csv)，将csv文件下载到本地。建议大家创建一个夏令营文件夹，方便对新文件统一管理

2. 导入pandas包进行调用，`import`是导入包体，`as`是重命名为`pd`，尽量为缩写，方便使用
   
3. 设置变量`df`，方便后续调用（也可以不设置变量直接使用）；`pd`是pandas包的缩写，使用`read_csv()`函数；单引号内为本地`CSV`文件路径

4. `df` 执行变量

Tips：如果已经来到了文件所在路径，则可以直接使用`pd.read_csv('data.csv') `读取csv文件

In [5]:
# 导入pandas包
import pandas as pd

# 注意csv文件路径，读取CSV文件，默认分隔符为逗号
df = pd.read_csv('./example_data/data.csv') 

# 调用变量df
df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


::: {.callout-tip}
此处直接使用`df`打印结果，是因为在pandas中默认使用[DataFrame](https://www.runoob.com/pandas/pandas-dataframe.html)格式，相较于`print()`会更加清晰。

`DataFrame`是Pandas中最常用的数据结构之一，它提供了一种二维表格的数据结构，类似于电子表格或关系型数据库中的数据表。DataFrame由行和列组成，每列可以包含不同的数据类型（例如整数、浮点数、字符串等）。
:::

遇到不熟悉的函数或者python库的时候，可以使用`help()`来查找相应文档，并且一般最下面会给一个例子

In [14]:
help(pd.read_table)


Help on function read_table in module pandas.io.parsers.readers:

read_table(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', *, sep: 'str | None | lib.NoDefault' = <no_default>, delimiter: 'str | None | lib.NoDefault' = None, header: "int | Sequence[int] | None | Literal['infer']" = 'infer', names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>, index_col: 'IndexLabel | Literal[False] | None' = None, usecols=None, squeeze: 'bool | None' = None, prefix: 'str | lib.NoDefault' = <no_default>, mangle_dupe_cols: 'bool' = True, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters=None, true_values=None, false_values=None, skipinitialspace: 'bool' = False, skiprows=None, skipfooter: 'int' = 0, nrows: 'int | None' = None, na_values=None, keep_default_na: 'bool' = True, na_filter: 'bool' = True, verbose: 'bool' = False, skip_blank_lines: 'bool' = True, parse_dates=False, infer_datetime_format: 'bool' = False, keep_date_col: 'bool

#### 读取Excel文件,[官方文档参数介绍](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-excel-reader)
1. 步骤同上，第一步先点击`Financial_Sample.xlsx`下载文件

获取数据```Financial_Sample.xlsx```[下载地址](https://go.microsoft.com/fwlink/?LinkID=521962)，将Excel文件下载到本地。

2. 导入pandas包进行调用；
   
3. 使用`read_excel()`函数；单引号内为本地`Excel`文件路径

4. `df` 执行变量

Tips：如果出现编码问题无法导入，可尝试将Excel文件，另存为为`Utf-8`格式，然后重新导入

In [16]:
# 导入pandas包
import pandas as pd

# 注意csv文件路径
df = pd.read_excel('./example_data/Financial Sample.xlsx') 

# 调用变量df，表格前五行
df.head()

Unnamed: 0,Segment,Country,Product,Discount Band,Units Sold,Manufacturing Price,Sale Price,Gross Sales,Discounts,Sales,COGS,Profit,Date,Month Number,Month Name,Year
0,Government,Canada,Carretera,,1618.5,3,20,32370.0,0.0,32370.0,16185.0,16185.0,2014-01-01,1,January,2014
1,Government,Germany,Carretera,,1321.0,3,20,26420.0,0.0,26420.0,13210.0,13210.0,2014-01-01,1,January,2014
2,Midmarket,France,Carretera,,2178.0,3,15,32670.0,0.0,32670.0,21780.0,10890.0,2014-06-01,6,June,2014
3,Midmarket,Germany,Carretera,,888.0,3,15,13320.0,0.0,13320.0,8880.0,4440.0,2014-06-01,6,June,2014
4,Midmarket,Mexico,Carretera,,2470.0,3,15,37050.0,0.0,37050.0,24700.0,12350.0,2014-06-01,6,June,2014


::: {.callout-warning}
如果使用Jupyter，必须确保文件与当前工作目录在同一目录下，或者指定文件的绝对路径。[绝对路径 vs 相对路径区别](https://zhuanlan.zhihu.com/p/489252588#:~:text=Python%E7%9A%84%E6%96%87%E6%A1%A3%E8%B7%AF%E5%BE%84%E6%9C%89,%E6%96%87%E4%BB%B6%E5%A4%B9%E5%90%8D%E7%A7%B0%E5%81%9A%E7%BB%93%E5%B0%BE%E3%80%82)
:::


### 读取线上数据
线上[数据地址](https://www.w3schools.com/python/pandas/data.csv.txt)

In [2]:
df = pd.read_csv('https://www.w3schools.com/python/pandas/data.csv.txt')

# 打印前五个
df.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


In [1]:
# 获取案例数据
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv') 
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### `read_csv()`参数介绍
以下参数也适用于大部分pandas导入方式，也就是`read_`函数。

- filepath_or_buffer：要读取的文件路径或文件对象。
- sep：字段分隔符，默认为逗号（,），可以使用其他字符或字符串作为分隔符。
- header：指定作为列名的行号，默认为'infer'，表示使用文件中的第一行作为列名，可以设为None来表示没有列名。
- index_col：指定作为索引列的列号或列名。
- usecols：要读取的列的列号或列名列表。
- dtype：指定列的数据类型。
- parse_dates：指定要解析为日期的列。
- skiprows：跳过指定的行数。
- na_values：指定用于表示缺失值的字符串列表。
- encoding：指定文件的编码方式。

In [30]:
import pandas as pd

# 默认情况下
df1 = pd.read_csv('./example_data/data.csv')
df1.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


`header`：指定作为列名的行号，默认为'infer'，表示使用文件中的第一行作为列名，可以设为None来表示没有列名。


In [35]:
# 指定第二行为列名

df1 = pd.read_csv('./example_data/data.csv', header = 1)
df1.head()

Unnamed: 0,60,110,130,409.1
0,60,117,145,479.0
1,60,103,135,340.0
2,45,109,175,282.4
3,45,117,148,406.0
4,60,102,127,300.0


`index_col`：指定作为索引列的列号或列名。有时候导入后会自动添加一列索引，可使用`index_col=None`去除索引。

In [43]:
df2 = pd.read_csv('./example_data/data.csv', index_col="Duration")
df2.head()

Unnamed: 0_level_0,Pulse,Maxpulse,Calories
Duration,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
60,110,130,409.1
60,117,145,479.0
60,103,135,340.0
45,109,175,282.4
45,117,148,406.0


`encoding`：指定文件的编码方式。使用`utf-8`编码是因为它是一种广泛支持的字符编码，能够处理几乎所有的文本数据。出现编码问题用这个大概率就对了～

In [44]:
df3 = pd.read_csv('./example_data/data.csv', encoding='utf-8')
df3.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


### 常见错误

1. 错误：FileNotFoundError: [Errno 2] No such file or directory: 'data.csv'
   
   解决方法：检查文件路径和文件名是否正确，并确保文件存在于指定位置。

2. 错误：ParserError: Error tokenizing data. C error: Expected N fields in line M, saw K
   
   解决方法：确保文件中的数据与指定的分隔符一致，并且每行数据的字段数目相同。


3. 错误：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte
   
   解决方法：尝试指定正确的文件编码，如encoding='utf-8-sig'来处理带有BOM（字节顺序标记）的文件。

<!-- {{< video http://szmspython.oss-cn-hangzhou.aliyuncs.com/Pandas%20IOtools.mp4
    title="pandas导入导出"
    width="350" 
    height="350"start="10"
aspect-ratio="4x3" 
>}} -->
<!-- 
<video width="600" height="450" controls poster="img/pandas导入导出.jpeg">
  <source src="http://szmspython.oss-cn-hangzhou.aliyuncs.com/Pandas%20IOtools.mp4">
</video> -->


### Pandas连接MySQL数据库导入导出数据（拓展）

#### 步骤1：安装必要的库
在开始之前，确保已经安装了以下库：

Pandas：用于数据处理和操作。

SQLAlchemy：用于数据库连接和交互

可以使用以下命令通过pip安装它们：


In [None]:
pip install pandas sqlalchemy

#### 步骤2：链接数据库

首先，我们需要使用SQLAlchemy来建立与数据库的连接。根据使用的数据库类型（如MySQL、SQLite、PostgreSQL等），使用适当的连接字符串和数据库驱动程序。

以下是使用SQLite数据库的示例代码：

In [None]:
import sqlalchemy

# 建立与数据库的连接
engine = sqlalchemy.create_engine('sqlite:///path/to/database.db')

::: {.callout-tip}
将`path/to/database.db`替换为实际的数据库文件路径或连接字符串
:::

#### 步骤3：导入数据
有几种方法可以使用Pandas从数据库中导入数据。最简单的方法是使用read_sql()函数，该函数接受一个SQL查询语句并将结果读取为DataFrame对象。

以下是使用read_sql()函数导入数据的示例代码：

In [None]:
import pandas as pd

# 执行SQL查询并将结果读取为DataFrame
query = 'SELECT * FROM table_name'
df = pd.read_sql(query, engine)

# 打印DataFrame
print(df)

::: {.callout-tip}
将table_name替换为要查询的实际表名。
:::


#### 步骤4：导出数据
同样，使用Pandas可以将DataFrame中的数据导出到数据库中。可以使用to_sql()函数将DataFrame写入数据库表。

以下是使用to_sql()函数导出数据的示例代码

In [None]:
# 将DataFrame写入数据库表
df.to_sql('table_name', engine, if_exists='replace', index=False)


::: {.callout-tip}
将table_name替换为要写入的实际表名。if_exists='replace'表示如果表已经存在，则替换它。index=False表示不将DataFrame的索引写入数据库。
:::
