### 创建DataFrame对象

#### 通过二维数组创建DataFrame对象

In [1]:
import numpy as np
import pandas as pd

In [2]:
scores = np.random.randint(60, 101, (5, 3))
courses = ['语文', '数学', '英语']
stu_ids = np.arange(1001, 1006)
df1 = pd.DataFrame(data=scores, columns=courses, index=stu_ids)
df1

Unnamed: 0,语文,数学,英语
1001,63,99,90
1002,90,100,73
1003,99,98,100
1004,66,96,73
1005,69,80,90


#### 通过字典创建DataFrame对象

In [3]:
scores = {
    '语文': [62, 72, 93, 88, 93],
    '数学': [95, 65, 86, 66, 87],
    '英语': [66, 75, 82, 69, 82],
}
stu_ids = np.arange(1001, 1006)
df2 = pd.DataFrame(data=scores, index=stu_ids)
df2

Unnamed: 0,语文,数学,英语
1001,62,95,66
1002,72,65,75
1003,93,86,82
1004,88,66,69
1005,93,87,82


#### 读取CSV文件创建DataFrame对象

可以通过pandas 模块的read_csv函数来读取 CSV 文件，read_csv函数的参数非常多，下面介绍几个比较重要的参数。

- `sep` / `delimiter`：分隔符，默认是,。
- `header`：表头（列索引）的位置，默认值是`infer`，用第一行的内容作为表头（列索引）。
- `index_col`：用作行索引（标签）的列。
- `usecols`：需要加载的列，可以使用序号或者列名。
- `true_values` / `false_values`：哪些值被视为布尔值`True` / `False`。
- `skiprows`：通过行号、索引或函数指定需要跳过的行。
- `skipfooter`：要跳过的末尾行数。
- `nrows`：需要读取的行数。
- `na_values`：哪些值被视为空值。
- `iterator`：设置为`True`，函数返回迭代器对象。
- `chunksize`：配合上面的参数，设置每次迭代获取的数据体量。


In [7]:
df3 = pd.read_csv('data/2023年北京积分落户数据.csv', index_col='公示编号')
df3

Unnamed: 0_level_0,姓名,出生年月,单位名称,积分分值
公示编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
202300001,张浩,1977-02,北京首钢股份有限公司,140.05
202300002,冯云,1982-02,中国人民解放军空军二十三厂,134.29
202300003,王天东,1975-01,中建二局第三建筑工程有限公司,133.63
202300004,陈军,1976-07,中建二局第三建筑工程有限公司,133.29
202300005,樊海瑞,1981-06,中国民生银行股份有限公司,132.46
...,...,...,...,...
202305999,曹恰,1983-09,首都师范大学科德学院,109.92
202306000,罗佳,1981-05,厦门方胜众合企业服务有限公司海淀分公司,109.92
202306001,席盛代,1983-06,中国华能集团清洁能源技术研究院有限公司,109.92
202306002,彭芸芸,1981-09,北京汉杰凯德文化传播有限公司,109.92


#### 读取Excel工作表创建DataFrame对象

可以通过pandas 模块的read_excel函数来读取 Excel 文件，该函数与上面的read_csv非常类似，多了一个sheet_name参数来指定数据表的名称，但是不同于 CSV 文件，没有sep或delimiter这样的参数。假设有名为“2022年股票数据.xlsx”的 Excel 文件，里面有用股票代码命名的五个表单，分别是阿里巴巴（BABA）、百度（BIDU）、京东（JD）、亚马逊（AMZN）、甲骨文（ORCL）这五个公司2022年的股票数据，如果想加载亚马逊的股票数据，代码如下所示。

In [11]:
df4 = pd.read_excel('data/2022年股票数据.xlsx', index_col='Date')
df4

Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-12-30,87.450,89.4100,87.4101,88.09,11926714
2022-12-29,87.625,89.5200,87.0600,89.13,12535405
2022-12-28,88.980,90.1500,86.4647,87.20,16268785
2022-12-27,86.550,90.6893,86.2100,89.86,22959936
2022-12-23,87.850,88.6500,85.5201,85.65,17949298
...,...,...,...,...,...
2022-01-07,130.240,133.8800,128.1800,129.81,38113003
2022-01-06,124.260,128.3999,123.4650,126.63,32045782
2022-01-05,118.000,126.6200,117.7001,121.16,36651071
2022-01-04,119.530,120.8700,115.7700,119.56,20824000


#### 读取关系数据库二维表创建DataFrame对象

pandas模块的read_sql函数可以通过 SQL 语句从数据库中读取数据创建DataFrame对象，该函数的第二个参数代表了需要连接的数据库。对于 MySQL 数据库，我们可以通过pymysql或mysqlclient来创建数据库连接（需要提前安装好三方库），得到一个Connection 对象，而这个对象就是read_sql函数需要的第二个参数，代码如下所示。

In [16]:
import pymysql

# 创建一个MySQL数据库的连接对象
conn = pymysql.connect(
    host='101.42.16.8', port=3306,
    user='guest', password='Guest.618',
    database='hrs', charset='utf8mb4'
)
# 通过SQL从数据库二维表读取数据创建DataFrame
df5 = pd.read_sql('select * from tb_emp', conn, index_col='eno')
df5

OperationalError: (2003, "Can't connect to MySQL server on '101.42.16.8' (timed out)")

执行上面的代码会出现一个警告，因为 pandas 库希望我们使用SQLAlchemy三方库接入数据库，具体内容是：“UserWarning: pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.”。如果不想看到这个警告，我们可以试一试下面的解决方案。

In [17]:
%pip install sqlalchemy

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.45-cp311-cp311-macosx_11_0_arm64.whl.metadata (9.5 kB)
Downloading sqlalchemy-2.0.45-cp311-cp311-macosx_11_0_arm64.whl (2.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.2/2.2 MB[0m [31m11.1 MB/s[0m  [33m0:00:00[0meta [36m0:00:01[0m
[?25hInstalling collected packages: sqlalchemy
Successfully installed sqlalchemy-2.0.45
Note: you may need to restart the kernel to use updated packages.


通过SQLAlchemy的create_engine函数创建Engine对象作为read_sql函数的第二个参数，此时read_sql函数的第一个参数可以是 SQL 语句，也可以是二维表的表名。

In [18]:
from sqlalchemy import create_engine

# 通过指定的URL（统一资源定位符）访问数据库
engine = create_engine('mysql+pymysql://guest:Guest.618@101.42.16.8:3306/hrs')
# 直接通过表名加载整张表的数据
df5 = pd.read_sql('tb_emp', engine, index_col='eno')
df5

OperationalError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')
(Background on this error at: https://sqlalche.me/e/20/e3q8)

我们再来加载部门表的数据创建DataFrame对象。

In [19]:
df6 = pd.read_sql('select dno, dname, dloc from tb_dept', engine, index_col='dno')
df6

OperationalError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')
(Background on this error at: https://sqlalche.me/e/20/e3q8)

在完成数据加载后，如果希望释放数据库连接，可以使用下面的代码。

In [20]:
engine.connect().close()

OperationalError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')
(Background on this error at: https://sqlalche.me/e/20/e3q8)

### 基本属性和方法

在开始讲解DataFrame的属性和方法前，我们先从之前提到的hrs数据库中读取三张表的数据，创建出三个DataFrame对象，完整的代码如下所示。

In [23]:
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://guest:Guest.618@101.42.16.8:3306/hrs')
dept_df = pd.read_sql_table('tb_dept', engine, index_col='dno')
emp_df = pd.read_sql_table('tb_emp', engine, index_col='eno')
emp2_df = pd.read_sql_table('tb_emp2', engine, index_col='eno')

OperationalError: (pymysql.err.OperationalError) (2003, "Can't connect to MySQL server on '101.42.16.8' (timed out)")
(Background on this error at: https://sqlalche.me/e/20/e3q8)