<center><h1>Pandas</h1></center>

# Pandas

做数据处理和数据分析Pandas库是首选。Pandas库的两个主要数据结构Series（一维）和DataFrame（二维）。

* Series结构
* DataFrame
* 数据的导入导出


# 4.1 Series结构

Series即序列（也称系列），用于存储一行或一列的数据，以及与之相关的索引的集合，使用方法如下。
> pandas.Series( data, index, dtype, copy) 


<img src="image/Chapter4_9.png"  width="600" height="600">

In [None]:
from pandas import Series
import numpy as np
import pandas as pd

## （1）从ndarray创建Series

In [None]:
data = np.array(['a','b','c','d'])
s = pd.Series(data)
s

## （2） 从字典创建一个Series 

字典 可以作为输入传递，如果没有指定索引，则按字典键的排序顺序构建索引。如果传递了 索引 ，则会提取与索引标签对应的数据值。

In [None]:
s=Series({'a':1 ,'b':2,'c':3}) #可将字典转化为Series
s

## （3）从标量创建 Series

In [None]:
s = pd.Series(5, index=[0, 1, 2, 3])
s

## （4）从list创建Series

In [None]:

X = Series(['a',2,'中国'],index=[1,2,3])
X

一个序列允许存放多种数据类型，索引也可以省略；可以通过位置或者索引访问数据。例如，X[3]，返回“中国”。


Series的索引index可以省略，索引号默认从0开始，也可以指定索引名。为了方便后面的使用和说明解释，此处我们将可以省略的index叫作索引号，也就是默认的索引，从0开始计数；赋值给定的或者命名的index，我们叫它索引名，有时也叫行标签。   
在Spyder中写入以下代码。


In [None]:
from pandas import Series
A=Series([1,2,3]) #定义序列的时候，数据类型不限
A

In [None]:
from pandas import Series
A=Series([1,2,3],index=[1,2,3]) #可自定义索引，如索引名123、ABCD等
A

In [None]:
from pandas import Series
A=Series([1,2,3],index=['A','B','C'])
A

一般容易犯下面的错误。


In [None]:
from pandas import Series
A=Series([1,2,3],index=[A,B,C])
A

这里A、B、C都是字符串，注意需要使用引号。


访问序列值时，需要通过索引来实现，序列的索引index和值是一一对应的关系


<img src="image/Chapter4_1.png"  width="600" height="600">

### 从Series中按位置访问数据[]

In [None]:
from pandas import Series
A=Series([14,26,31])
A

In [None]:
A[1]

In [None]:
A[5] #超出index的总长度会报错


### 使用标签（索引）检索数据

In [None]:
A=Series([14,26,31],index=['first','second','third'])

In [None]:
A

In [None]:
A['second'] #如设置了index参数（索引名），可通过参数来访问序列值


In [None]:
from pandas import Series
#混合定义一个序列
x = Series(['a', True, 1], index=['first', 'second', 'third'])
x


In [None]:
x[1] #按索引号访问

### .iloc索引器（基于位置）

In [None]:
x.iloc[1]

In [None]:
x['second'] #按索引名访问

### .loc索引器（基于标签）

In [None]:
x.loc['second']

### 注意事项
当`Series`的索引是整数时，使用`[]`访问元素可能会有些混淆，因为整数索引可能会被误解为位置索引。在这种情况下，明确使用`.loc`（基于标签的访问）和`.iloc`（基于位置的访问）可以帮助避免混淆。

### 总结
- **方括号**[]：可以用来通过索引名或索引位置访问`Series`中的元素。
- **索引名**：直接使用定义好的索引标签（如字符、数字等）来访问元素。
- **索引位置**：使用整数位置（从0开始计数）来访问元素，类似于列表的索引方式。

In [None]:
x[3]#不能越界访问，会报错

In [None]:
x.append('2')#不能追加单个元素，但可以追加序列

> In relatively recent pandas version, 1.5.2, append works, but gives a warning.  
In pd 2.0, append has been removed  
https://stackoverflow.com/questions/76102473/how-to-fix-attributeerror-series-object-has-no-attribute-append

In [None]:
n = Series(['2'])
# Under the covers, append method uses _append, which works without raising the warning:
x._append(n)#追加一个序列

In [None]:
x1 = x._append(n) #x.append(n)返回的是一个新序列
2 in x1.values#判断值是否存在，数字和逻辑型(True/False)是不需要加引号的

In [None]:
'2' in x.values,x


In [None]:
x[1:3]#切片

In [None]:
x.drop('first') #按索引名删除

In [None]:
x,'---',x.index,'---',x.values

In [None]:
x.index[3]

In [None]:
x.index[2]#按照索引号找出对应的索引名

In [None]:
x.drop(x.index[3])#根据位置（索引）删除，返回新的序列

In [None]:
x,'---',x.index,'---',x.values

In [None]:
'2'!=x.values

In [None]:
x['2'!=x.values]#根据值删除，显示值不等于2的序列，即删除2，返回新序列

In [None]:
x,'---',x.index,'---',x.values

In [None]:
x.values==True

In [None]:
x.index[x.values==True]

In [None]:
#修改序列的值。将True值改为b，先找到True的索引x.index[True==x.values]

# x.index[x.values==True]
x[x.index[x.values==True]]='b'#注意结果，把值为1也当作True处理了


In [None]:
x

In [None]:
x.values=='a'

In [None]:
x.index[1]

In [None]:
x.index[x.values=='a']#通过值访问序列index

Series的sort_index(ascending=True) 方法可以对index进行排序操作，ascending参数用于控制升序或降序，默认为升序，也可使用reindex()方法重新排序。


在Series上调用reindex()方法重排数据，使得它符合新的索引，如果索引的值不存在，就引入缺失数据值。

In [None]:
from pandas import Series
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])#reindex重排序
obj

# 4.2 DataFrame

DataFrame是一个二维数据结构，即数据以行和列的方式以表格形式对齐，类似于Excel的二维表格。  
DataFrame的特点  
- 可能存在不同类型的列
- 大小可变
- 带有标签的轴（行和列）
- 可以对行和列进行算术运算

其中数据行列位置如下图所示。


<img src='image/Chapter4_2.png' width="400" height="400">

### 可以使用以下构造器创建pandas DataFrame：

> pandas.DataFrame( data, index, columns, dtype, copy)

<img src='image/Chapter4_10.png' >

## 创建DataFrame

可以使用不同的输入来创建pandas DataFrame，如：

- 列表
- 字典
- 系列
- Numpy ndarrays
- 另一个DataFrame

## （1）创建一个空的DataFrame

In [None]:
import pandas as pd
df = pd.DataFrame()
df

## （2）从列表创建DataFrame

可以使用单个列表或列表的列表来创建DataFrame。

### 示例1

In [None]:
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
df

### 示例2

In [None]:

data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
df

### 示例3

In [None]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=object)
df

## （3）从字典的ndarrays /列表创建DataFrame

所有的 ndarray 必须具有相同的长度。如果传递了索引，则索引的长度应与数组的长度相等。  

如果不传递索引，则默认情况下，索引将是range(n)，其中 n 是数组的长度  

### 示例1

In [None]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
df

注意 - 观察值0,1,2,3。它们是使用函数range(n)被分配给每个默认索引。

### 示例2
现在让我们使用数组创建一个索引化的DataFrame。

In [None]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
df

## （4）从字典列表创建DataFrame

可以将字典列表作为输入数据来创建DataFrame。字典的键默认被作为列名。

下面的示例展示了如何通过传递字典列表来创建一个DataFrame。

In [None]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
df

以下例子展示了如何通过传递一个字典列表和行索引来创建DataFrame。

In [None]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
df

### 示例2

以下例子展示了如何通过传递一个字典列表和行索引来创建DataFrame。

In [None]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
df

### 示例3
下面的示例显示了如何使用字典列表、行索引和列索引创建一个DataFrame

In [None]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

#With two column indices, values same as dictionary keys
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

#With two column indices with one index with other name
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])

In [None]:
df1

In [None]:
df2

观察，df2 DataFrame是使用除字典键以外的列索引创建的；因此，NaN被追加在原位。而df1是使用与字典键相同的列索引创建的，所以NaN被追加。

## （5）从Series字典创建DataFrame

In [None]:
from pandas import Series
from pandas import DataFrame
#列名及其数据
d = {'age':Series([26,29,24]), 'name':Series(['Ken','Jerry','Ben'])}
df=DataFrame(d, index=[0,1,2]) #给定的索引
df

In [None]:
d = {'age':Series([26,29,24]), 'name':Series(['Ken','Jerry','Ben'])}
df=DataFrame(d) #索引可以省略
df

注意：DataFrame单词是驼峰写法，索引不指定时也可以省略。使用数据框时，要先从pandas中导入DataFrame包，数据框中的数据访问方式如下表。


<img src='image/Chapter4_3.png' >

###  列选择

In [None]:
df

In [None]:
A=df['age'] #获取age列的值
A

### 列相加

In [None]:
df['sex']=pd.Series(['male','male','female'])
df

In [None]:
df['age1']=pd.Series([10,10,10])
df

In [None]:
df['age2'] = df['age'] + df['age1']
df

### 列删除

列可以被删除或弹出

In [None]:
df.pop('age2')
df


In [None]:
del df['age1']

In [None]:
df

### 行选择、添加和删除


In [None]:
df.index = ['a','b','c'] 
df

### 按标签选择

In [None]:
df.loc['b']

### 根据整数位置进行选择

可以通过将整数位置传递给iloc函数来选择行。

In [None]:
df.iloc[2]

### 选择行

In [None]:
df

In [None]:
df[1:2] #获取索引号是第一行的值(其实是第二行，从0开始的)

### 添加行

使用 append 函数将新行添加到DataFrame中。该函数将在末尾附加行。

In [None]:
df2 = pd.DataFrame([[29, 'jason','male']], columns = ['age','name','sex'],index=['d'])
df = df._append(df2)
df

### 删除行

使用索引标签从DataFrame中删除行。如果标签重复，则会删除多行。  

观察上面的例子，标签是重复的。让我们删除一个标签，看看会删除多少行。    

In [None]:
df = df.drop('d')
df

###  其他(书本)

In [None]:
C=df.iloc[0:2,0:2] #获取第0行到第2行(不含)与第0列到第2列(不含)的块
C

In [None]:
D=df.at[0,'name'] #获取第0行与name列的交叉值
D

In [None]:
D1=df.loc[0,'name']#获取第0行与name列的交叉值，loc在后面再介绍
D1

注意：访问某一行时，不能仅用行的index来访问，如访问df的index为1的行，不能写成df[1]，而要写成df[1:2]。DataFrame的index可以是任意的，不像Series会报错，但显示为“Empty DataFrame”，并列出Columns: [列名]。执行下面的代码并查看运行结果。


In [None]:
from pandas import DataFrame
df1 = DataFrame({'age': [21, 22, 23],  'name': ['KEN', 'John', 'JIMI']})
df1[1:100] #显示index=1及其以后的99行数据，不包括index=100

In [None]:
df2 = DataFrame(data={'age': [21, 22, 23],  'name': ['KEN', 'John', 'JIMI']}, index=['first', 'second', 'third'])
df1[2:2] #显示空

In [None]:
df2["third":"third"] #按索引名访问某一行

In [None]:
df2["first":"second"] #按索引名访问多行

访问数据框的列

In [None]:
df1['age'] #按列名访问

In [None]:
df1[df1.columns[0:1]] #按索引号访问

访问数据框的块

In [None]:
df1.iloc[1:, 0:1] #按行列索引号访问

In [None]:
df1.loc[1:,('age','name')] #按行列索引名访问

访问数据框的某个具体的位置

In [None]:
df1.at[1, 'name'] #这里的1是索引

In [None]:
df2.at['second', 'name'] #这里的second是索引名

In [None]:
df2

In [None]:
df2.at[1, 'name'] #这里用索引号就会报错，当有索引名时，不能用索引号

In [None]:
df2.loc['first','name']#获取第0行与name列的交叉值

修改索引列名，增删行列的代码如下。

In [None]:
df1

In [None]:
df1.columns=['age2', 'name2']#修改列名
df1

In [None]:
df1.index = range(1,4) #修改行索引
df1

In [None]:
df1.drop(1, axis=0) #根据行索引删除，axis=0表示行轴，也可以省略

In [None]:
df1.drop('age2', axis=1) #根据列名进行删除，axis=1表示列轴，不可省略

In [None]:
df1['newColumn'] = [2, 4, 6] #增加列
df1

In [None]:
df2.loc[len(df2)]=[24,"Keno"] #增加行。这种方法效率比较低
df2

增加行的办法可以通过合并两个DataFrame来解决。

In [None]:
from pandas import DataFrame
df = DataFrame([[1, 2], [3, 4]], columns=list('AB')) 
df

In [None]:
df2 = DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df2

In [None]:
df._append(df2) #仅把df和df2“叠”起来了，没有修改合并后df2的index

In [None]:
df._append(df2, ignore_index=True) #修改index，对df2部分重新索引了


注意：合并两个数据框并需要重新更新索引时，需要添加“ignore_index=True”参数。

### 总结

在Pandas库中，`[]`、`loc`、`iloc`、`at`、`iat` 和 `ix` 是用于数据选择和索引的常用方法。它们各自有着不同的使用场景和性能特点。以下是每个方法的用法区别和规律总结：

### 1. `[]` （方括号索引器）
- **用途**：直接对DataFrame或Series进行索引。
- **功能**：
  - 对列进行索引（例如，`df['column_name']` 返回该列的数据）。
  - 对行进行切片（例如，`df[1:5]` 返回第2行到第5行的数据）。
  - 布尔索引（例如，`df[df['column'] > 0]` 返回列中满足条件的行）。
- **注意**：不能同时对行和列进行索引。

### 2. `loc`（基于标签的索引器）
- **用途**：通过行标签和列标签进行索引。
- **功能**：
  - 单个标签索引（例如，`df.loc[0, 'column_name']`）。
  - 标签切片（例如，`df.loc[0:5, 'column_name']`）。
  - 布尔数组（例如，`df.loc[df['column'] > 0, :]`）。
  - 列表或数组（例如，`df.loc[[1, 2, 3], ['col1', 'col2']]`）。
- **注意**：`loc` 使用闭区间，即 `0:5` 包括0和5。

### 3. `iloc`（基于位置的索引器）
- **用途**：通过行位置和列位置（即索引的整数位置）进行索引。
- **功能**：
  - 整数位置索引（例如，`df.iloc[0, 1]` 返回第1行第2列的数据）。
  - 位置切片（例如，`df.iloc[0:5, 0:2]`）。
  - 布尔数组（较少使用）。
  - 列表或数组（例如，`df.iloc[[0, 1, 2], [0, 1]]`）。
- **注意**：`iloc` 使用开区间，即 `0:5` 不包括5。

### 4. `at`（基于标签的快速标量索引器）
- **用途**：快速访问单个元素。
- **功能**：
  - 快速获取或设置单个元素的值（例如，`df.at[0, 'column_name']`）。
- **注意**：只能用于获取单个元素，比 `loc` 快，但只限于标签索引。

### 5. `iat`（基于位置的快速标量索引器）
- **用途**：快速访问单个元素。
- **功能**：
  - 快速获取或设置单个元素的值（例如，`df.iat[0, 1]`）。
- **注意**：只能用于获取单个元素，比 `iloc` 快，但只限于位置索引。

### 6. `ix`（混合标签和位置的索引器）
- **用途**：以前可以用来基于标签或位置进行索引，但已经在Pandas 0.20.0后被弃用。
- **功能**：混合了`loc`和`iloc`的功能。
- **注意**：不建议使用，可能会在未来的版本中完全移除。

### 总结
- 使用`loc`和`iloc`分别进行基于标签和位置的复杂索引。
- 使用`at`和`iat`进行单个元素的快速访问。
- 尽量避免使用已弃用的`ix`。
- 使用`[]`适合进行较简单的索引任务，特别是单列选择或基于布尔条件的行选择。

以下是使用Pandas中的`[]`、`loc`、`iloc`、`at`、`iat` 和 `ix` 的具体代码举例：

首先，让我们创建一个简单的DataFrame用于演示：

```python
import pandas as pd
import numpy as np

# 创建一个简单的DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 6, 7, 8, 9],
    'C': [10, 11, 12, 13, 14]
}
df = pd.DataFrame(data)
print(df)
```

### 1. `[]` （方括号索引器）
```python
# 选择一列
print(df['A'])

# 选择多列
print(df[['A', 'B']])

# 行切片
print(df[1:4])

# 布尔索引
print(df[df['A'] > 2])
```

### 2. `loc`（基于标签的索引器）
```python
# 选择单个元素
print(df.loc[0, 'A'])

# 行切片和单列
print(df.loc[1:3, 'B'])

# 行切片和多列
print(df.loc[1:3, ['A', 'B']])

# 布尔数组
print(df.loc[df['A'] > 2, 'C'])
```

### 3. `iloc`（基于位置的索引器）
```python
# 选择单个元素
print(df.iloc[0, 1])  # 选择第1行第2列的元素，即'B'列的第一个元素

# 行和列的位置切片
print(df.iloc[1:4, 0:2])  # 选择第2至4行的第1和第2列

# 列表或数组的索引
print(df.iloc[[0, 1, 2], [0, 1]])
```

### 4. `at`（基于标签的快速标量索引器）
```python
# 快速访问单个元素
print(df.at[0, 'B'])  # 获取第1行'B'列的元素
```

### 5. `iat`（基于位置的快速标量索引器）
```python
# 快速访问单个元素
print(df.iat[0, 1])  # 获取第1行第2列的元素
```

### 6. `ix`（混合标签和位置的索引器）
`ix` 已经被弃用，不推荐使用。在旧版本的Pandas中，`ix` 允许使用标签或位置进行索引，但为避免混淆和提高代码的清晰度，现已由`loc`和`iloc`完全替代。

```python
# ix的使用在新版Pandas中已不被支持
# df.ix[0, 'B'] 或 df.ix[1:3, 0:2]
```

这些示例提供了如何在不同的数据选择需求中选择使用不同的索引方法。每种方法在适当的上下文中使用可以提高代码的可读性和性能。

# 4.3 数据的导入

数据存在的形式多样，有文件（txt、csv、excel）和数据库（MySQL、Access、SQL Server）等形式。在Pandas库中，常用的载入函数是read_csv。除此之外还有read_excel()和read_table()，table()函数可以读取TXT文件。若是服务器相关的部署，则还会用到read_sql()函数，直接访问数据库，但它必须配合MySQL相关的包。


## 1．导入TXT文件

TXT是存储文本信息的格式，即文字信息。这种格式所占空间小。读取TXT文件到Pandas库的语句格式如下。
> read_table(file, names=[列名1,列名2,…], sep="",…)

file：文件路径与文件名。  
names：列名，默认为文件中的第一行作为列名。  
sep：分隔符，默认为空。  


<img src="image/Chapter4_4.png"  width="600" height="600">

导入数据首先需要引入相关的库或模块。

from pandas import read_table
df = read_table(r'file\rz.txt', sep=" ")
df.head()   #查看df的前五项数据


注意：  
（1）txt文本文件要保存成UTF-8格式才不会报错。  
（2）查看数据框df前n项数据使用df.head(n)，后m项数据用df.tail(m)。默认均是5项数据。  


## 2．导入csv文件


逗号分隔值（Comma-Separated Values，CSV），有时也称为字符分隔值，因为分隔字符也可以不是逗号，其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。  
CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列，通常都是纯文本文件。CSV格式常见于手机通信录，可以使用Excel打开。读取CSV数据到Pandas库的语句格式如下。


> read_csv(file,names=[列名1,列名2,..],sep="",…)  

file：文件路径与文件名。  
names：列名，默认为文件中的第一行作为列名。  
sep：分隔符，默认为空，表示默认导入为一列。  


In [None]:
from pandas import read_csv
df = read_csv(r'file\stock_data_bac.csv',sep=",")
df.tail(5)


使用read_table命令也能执行，结果与read_csv一致

## 3．导入Excel文件

Excel是常见的存储和处理数据的软件，其保存的数据文件有两种格式的后缀名xls和xlsx，read_excel都能读取，但比较敏感，在读取时注意后缀名。读取Excel数据到Pandas库的语句格式如下。

> read_excel(file, shee_tname,header=0)

file：文件路径与文件名。 
sheet_name：sheet的名称，如：sheet1。  
header：列名，默认为0（只接受布尔型0和1），文件的第一行作为列名。  


注：Pandas 0.21以前版本在读取Excel时，参数'sheetname'更新为'sheet_name'。查阅Pandas的版本号，代码：Print(pd_Version_)。

In [None]:
from pandas import read_excel
df = read_excel(r'file\db_data.xls',sheet_name='Sheet1')
df.head(7)


注意：header取0和1的差别，取0表示第一行作为表头显示，取1表示第一行丢弃不作为表头显示。有时可以跳过首行或者读取多个表，如下： 
> df = pd.read_excel(filefullpath, sheet_name=[0,2],skiprows=[0]) 

sheet_name可以指定为读取几个表sheet，sheet数目从0开始，如果shee_tname=[0,2]，则代表读取第1页和第3页的sheet，skiprows=[0]代表读取时跳过第1行。

In [None]:
## 4．导入MySQL库

在Python中操作MySQL的模块是pymysql，在导入MySQL数据之前，需要安装pymysql模块。目前由于MySQLdb模块还不支持Python3.x，所以Python3.x如果想连接MySQL需要安装pymysql模块。安装pymysql如图所示，命令为pip install pymysql。


<img src="image/Chapter4_5.png"  width="600" height="600">

读取数据到Pandas库的语句格式如下。  
>     read_sql(sql,conn)

sql：从数据库中查询数据的SQL语句。  
conn：数据库的连接对象，需要在程序中选创建。  
示例代码如下。  


In [None]:
import pandas as pd
import pymysql
dbconn=pymysql.connect(host="localhost",
                          database="kimbo",
                          user="root",
                          password="123456",
                          port=3306,
                          charset='utf8') #加上字符集参数，防止中文乱码
sqlcmd="select * from tb_user"   #sql语句
a=pd.read_sql(sqlcmd,dbconn)   #利用pandas模块导入mysql数据
dbconn.close()
b=a.head()    #取前5行数据
print(b)

# 4.4 数据的导出

## 1．导出为csv文件

> to_csv(file_path,sep= ", ", index=True, header=True)

file_path：文件路径。  
sep：分隔符，默认是逗号。  
index：是否导出行序号，默认是True，导出行序号。  
header：是否导出列名，默认是True，导出列名。  

In [None]:
from pandas import DataFrame
from pandas import Series
df = DataFrame({'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])})
df


In [None]:
df.to_csv(r'file\01.csv')      #默认带上index列
df.to_csv(r'file\02.csv',index=False) #无index

<img src="image/Chapter4_6.png"  width="400" height="400">

## 2．导出为excel文件


> to_excel(file_path, index=True,header=True)

file_path：文件路径。  
index：是否导出行序号，默认是True，导出行序号。  
header：是否导出列名，默认是True，导出列名。  


In [None]:
from pandas import DataFrame
from pandas import Series
df = DataFrame({'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])})

In [None]:
df.to_excel(r'file\01.xlsx') #默认带上index
df.to_excel(r'file\02.xlsx',index=False)#无index

<img src="image/Chapter4_7.png"  width="400" height="400">

## 3．导出到MySQL库

to_sql(tableName, con=数据库链接)  
tableName：数据库中的表名。  
con：数据库的连接对象，需要在程序中选创建。  
示例代码如下。  


In [None]:
#Python3.11下利用pymysql将DataFrame文件写入到MySQL数据库 
from pandas import DataFrame
from pandas import Series
from sqlalchemy import create_engine
#启动引擎
# engine = create_engine("mysql+pymysql://user:password@host:port/databasename?charset=utf8")
engine = create_engine("mysql+pymysql://root:123456@localhost:3306/kimbo",encoding='utf-8', echo=True)
#这里一定要写成mysql+pymysql，不要写成mysql+mysqldb
# user:password是账户和密码，host:port是访问地址和端口，databasename是库名
#DataFrame数据
df = DataFrame({'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])})

In [None]:
#存入mysql
df.to_sql(name = 'mysql_output',
          con = engine,
          if_exists = 'append',
          index = False,
          index_label = False)

mysql+mysqldb：要用的数据库和需要用的接口程序。  
root：数据库账户。  
password：数据库密码。  
host：数据库所在服务器的地址。  
port：mysql占用的端口。  
databasename：数据库的名字。  
charset=utf8：设置数据库的编码方式，这样可以防止latin字符不识别而报错。  


# 4.5 实战体验：输出符合条件的属性内容

<b>需求</b>：现有一张Excel表。表中有多个字段，其中有“申请日”和“发明人”，发明人字段中的发明人一般含有多个人，但都用“；”分隔开了，如图所示。请将所有含有发明人“吴峰”的发明专利的“申请日”打印出来，<font color="red">并将含有发明人“吴峰”的所有发明专利条目保存到Excel中。</font>


首先接收数据。把数据导入，并查看数据的类型。


In [None]:
# -*- coding: utf-8 -*-

#接收数据
from pandas import read_excel 
df = read_excel(r"file\zhuanli.xls")
#查看数据
df.head()


<img src="image/Chapter4_8.png"  width="900" height="900">

提取“发明人”这一列数据作为被处理对象。目的是将“发明人”这一列数据中的每一行作为一个列表，每个发明人名就是其中的一个元素，主要是为了方便判断“吴峰”在不在这一行。为了将人名分隔开，我们将使用split()函数按照人名间的“；”进行分隔。


In [None]:
#提取“发明人”这一列并查看
fmr = df['发明人']
fmr.tail(10)
print(len(fmr))
#将“发明人”这一列做成列表fmr_list，每一行（多个发明人）就是一个元素
fmr_list = map(lambda x:fmr[x],list(range(len(fmr))))
fmr_list = list(fmr_list)
#将“fmr_list”每一行元素按照“；”把它隔开做成列表，每个发明人就是fmr_list列表中的元素列表的元素
fmr_list_0 = []
k = 0
for i in range(len(fmr_list)):    
     fmr_list_0.append(fmr_list[k].split(';'))
     k += 1
fmr_list_0

In [None]:

#判断每行（fmr_list中的每个元素）是否含有发明人“吴峰”，有，输出1，无，输出0，并按序做成一个index_0的列表
index_0 = []
p = 0
q = "吴峰"
for j in fmr_list_0:
     if q in fmr_list_0[p]:
          index_0.append(1)
     else:
          index_0.append(0)
     p +=1
index_0

In [None]:
#为了看得方便，直接将对应的0、1带上了索引号
ind = []
for (index, index_0) in enumerate(index_0):
     ind.append((index, index_0))

ind

In [None]:
#将输出为1所对应的索引号做成一个列表rq，打印出df中含有rq列表中的索引号所对应的日期——“申请日”
rq =[]
for elment in ind:
     if elment[1] == 1:
          rq.append(elment[0])
          print(elment[0])
    
for j in rq:
     print(df['申请日'][j])
len(rq)

<b>将结果保存到Excel中。</b>


In [None]:
#先要造一个跟原数据列表相同的列
##方法1
df0 = df.copy()
df0.drop(df0.index,inplace=True)

In [None]:
##方法2
# import pandas as pd
# col = df.columns
# df0 = pd.DataFrame(columns = col)


In [None]:
# #将提取出来的数据放入数据列表df0中
m = 0
for i in rq:
     df0.loc[m] = df.loc[i]
     m += 1
len(df0)  
# 将数据列表保存到Excel中
df0.to_excel(r"file\output_zhuanli.xlsx")