In [4]:
# 利用pandas生成示例数据文件
import numpy as np
import pandas as pd

generated_df = pd.DataFrame(
    {
        '类别': np.random.choice(list('ABCDEF'), 1000000),
        '数值': np.round(np.random.uniform(0, 1000000, 1000000), 3)
    }
)

# 分别导出为csv、parquet格式
generated_df.to_csv('./demo_data.csv', index=False)
generated_df.to_parquet('./demo_data.parquet')

In [18]:
import duckdb

demo_r = duckdb.read_csv('./demo_data.csv')

In [11]:
duckdb.sql("SELECT * FROM demo_r LIMIT 5")

┌─────────┬────────────┐
│  类别   │    数值    │
│ varchar │   double   │
├─────────┼────────────┤
│ D       │ 486849.155 │
│ E       │ 991552.809 │
│ F       │  94633.147 │
│ F       │ 525311.039 │
│ E       │  311041.77 │
└─────────┴────────────┘

In [13]:
#统计数据记录数
duckdb.sql("SELECT count(1) FROM demo_r LIMIT 5")

┌──────────┐
│ count(1) │
│  int64   │
├──────────┤
│  1000000 │
└──────────┘

In [15]:
# 计算类别字段唯一值数量
duckdb.sql("SELECT count(DISTINCT 类别) FROM demo_r")

┌────────────────────────┐
│ count(DISTINCT "类别") │
│         int64          │
├────────────────────────┤
│                      6 │
└────────────────────────┘

In [16]:
# 分组统计平均值
duckdb.sql("SELECT 类别, mean(数值) FROM demo_r GROUP BY 类别")

┌─────────┬────────────────────┐
│  类别   │    mean("数值")    │
│ varchar │       double       │
├─────────┼────────────────────┤
│ D       │ 499386.22450161417 │
│ B       │ 499310.77418313216 │
│ F       │  499218.4566548568 │
│ A       │  500331.9496410528 │
│ E       │  500012.6134286426 │
│ C       │  500703.2416496983 │
└─────────┴────────────────────┘

In [None]:
# 连接到数据库（可选，如果不需要持久化数据库）
conn = duckdb.connect('School.db')

conn.execute("""
CREATE TABLE "Student"(
	"s_id" VARCHAR(20),
	"s_name" VARCHAR(20) NOT NULL DEFAULT '',
	"s_birth" VARCHAR(20) NOT NULL DEFAULT '',
	"s_sex" VARCHAR(10) NOT NULL DEFAULT '',
	PRIMARY KEY("s_id")
);
--课程表
CREATE TABLE "Course"(
	"c_id"  VARCHAR(20),
	"c_name" VARCHAR(20) NOT NULL DEFAULT '',
	"t_id" VARCHAR(20) NOT NULL,
	PRIMARY KEY("c_id")
);
--教师表
CREATE TABLE "Teacher"(
	"t_id" VARCHAR(20),
	"t_name" VARCHAR(20) NOT NULL DEFAULT '',
	PRIMARY KEY("t_id")
);
--成绩表
CREATE TABLE "Score"(
	"s_id" VARCHAR(20),
	"c_id"  VARCHAR(20),
	"s_score" INT,
	PRIMARY KEY("s_id","c_id")
);
--插入学生表测试数据
insert into "Student" values('01' , '赵雷' , '1990-01-01' , '男');
insert into "Student" values('02' , '钱电' , '1990-12-21' , '男');
insert into "Student" values('03' , '孙风' , '1990-05-20' , '男');
insert into "Student" values('04' , '李云' , '1990-08-06' , '男');
insert into "Student" values('05' , '周梅' , '1991-12-01' , '女');
insert into "Student" values('06' , '吴兰' , '1992-03-01' , '女');
insert into "Student" values('07' , '郑竹' , '1989-07-01' , '女');
insert into "Student" values('08' , '王菊' , '1990-01-20' , '女');
--课程表测试数据
insert into "Course" values('01' , '语文' , '02');
insert into "Course" values('02' , '数学' , '01');
insert into "Course" values('03' , '英语' , '03');
""")
conn.close()

<_duckdb.DuckDBPyConnection at 0x12b4ec7c530>

In [45]:
conn.sql("SELECT * FROM Student").show()

┌─────────┬─────────┬────────────┬─────────┐
│  s_id   │ s_name  │  s_birth   │  s_sex  │
│ varchar │ varchar │  varchar   │ varchar │
├─────────┼─────────┼────────────┼─────────┤
│ 01      │ 赵雷    │ 1990-01-01 │ 男      │
│ 02      │ 钱电    │ 1990-12-21 │ 男      │
│ 03      │ 孙风    │ 1990-05-20 │ 男      │
│ 04      │ 李云    │ 1990-08-06 │ 男      │
│ 05      │ 周梅    │ 1991-12-01 │ 女      │
│ 06      │ 吴兰    │ 1992-03-01 │ 女      │
│ 07      │ 郑竹    │ 1989-07-01 │ 女      │
│ 08      │ 王菊    │ 1990-01-20 │ 女      │
└─────────┴─────────┴────────────┴─────────┘



In [46]:
conn.table("Student").show()

┌─────────┬─────────┬────────────┬─────────┐
│  s_id   │ s_name  │  s_birth   │  s_sex  │
│ varchar │ varchar │  varchar   │ varchar │
├─────────┼─────────┼────────────┼─────────┤
│ 01      │ 赵雷    │ 1990-01-01 │ 男      │
│ 02      │ 钱电    │ 1990-12-21 │ 男      │
│ 03      │ 孙风    │ 1990-05-20 │ 男      │
│ 04      │ 李云    │ 1990-08-06 │ 男      │
│ 05      │ 周梅    │ 1991-12-01 │ 女      │
│ 06      │ 吴兰    │ 1992-03-01 │ 女      │
│ 07      │ 郑竹    │ 1989-07-01 │ 女      │
│ 08      │ 王菊    │ 1990-01-20 │ 女      │
└─────────┴─────────┴────────────┴─────────┘



In [48]:
conn = duckdb.connect('School.db')
conn.table("Student").show()

┌─────────┬─────────┬────────────┬─────────┐
│  s_id   │ s_name  │  s_birth   │  s_sex  │
│ varchar │ varchar │  varchar   │ varchar │
├─────────┼─────────┼────────────┼─────────┤
│ 01      │ 赵雷    │ 1990-01-01 │ 男      │
│ 02      │ 钱电    │ 1990-12-21 │ 男      │
│ 03      │ 孙风    │ 1990-05-20 │ 男      │
│ 04      │ 李云    │ 1990-08-06 │ 男      │
│ 05      │ 周梅    │ 1991-12-01 │ 女      │
│ 06      │ 吴兰    │ 1992-03-01 │ 女      │
│ 07      │ 郑竹    │ 1989-07-01 │ 女      │
│ 08      │ 王菊    │ 1990-01-20 │ 女      │
└─────────┴─────────┴────────────┴─────────┘



In [49]:
conn.table("Course").show()

┌─────────┬─────────┬─────────┐
│  c_id   │ c_name  │  t_id   │
│ varchar │ varchar │ varchar │
├─────────┼─────────┼─────────┤
│ 01      │ 语文    │ 02      │
│ 02      │ 数学    │ 01      │
│ 03      │ 英语    │ 03      │
└─────────┴─────────┴─────────┘



In [51]:
conn.close()