# duckdb读数

In [1]:
import pandas as pd
import duckdb

duckdb可以读取的文件格式：CSV Files、Parquet Files、HTTP(S), S3 and GCP、JSON Files、Excel Files with the Spatial Extension、Querying Other Database Systems

In [2]:
path = "../data/AirPassengers.csv"  # 可以读取其他格式的数据
query = f"""
SELECT DISTINCT Month FROM \'{path}\'
ORDER BY Month
LIMIT 10
"""
result = duckdb.sql(query).df()  # 读取数据并转为Dataframe

In [None]:
result.to_parquet("../data/AirPassengers.parquet")

# matlab读数

In [2]:
import scipy.io as scio 
path = "../data/data2.mat"
data = scio.loadmat(path)

In [3]:
data

{'__header__': b'MATLAB 5.0 MAT-file, Platform: PCWIN, Created on: Sun Oct 25 16:29:54 2009',
 '__version__': '1.0',
 '__globals__': [],
 'data': array([[0.1291, 0.4842, 0.7976],
        [0.1084, 0.4579, 0.8187],
        [0.1828, 0.7977, 0.743 ],
        [0.122 , 0.5468, 0.8048],
        [0.113 , 0.3636, 0.814 ],
        [0.1719, 0.6011, 0.754 ],
        [0.1237, 0.4425, 0.8031],
        [0.1721, 0.6152, 0.7626],
        [0.1432, 0.5845, 0.7942]])}

# parquet读数

In [1]:
import pandas as pd

df = pd.read_parquet('../data/AirPassengers.parquet')

In [2]:
df

Unnamed: 0,Month
0,1949-01
1,1949-02
2,1949-03
3,1949-04
4,1949-05
5,1949-06
6,1949-07
7,1949-08
8,1949-09
9,1949-10


In [5]:
import pyarrow.parquet as parquet

table = parquet.read_table('../data/AirPassengers.parquet')
df = table.to_pandas()

In [8]:
import pandas as pd
# 读取部分列
df = pd.read_parquet('../data/AirPassengers.parquet', columns=['Month'])

In [9]:
import pyarrow.parquet as parquet
# 读取部分列
table = parquet.read_table('../data/AirPassengers.parquet', columns=['Month'])
df = table.to_pandas()

# python读数

## 实时向csv文件写入数据

最常用的一种方法，利用pandas包

In [None]:
import pandas as pd
import os

#任意的多组列表
a = [1,2,3]
b = [4,5,6]    

#字典中的key值即为csv中列名
dataframe = pd.DataFrame({'a_name':a,'b_name':b})

#将DataFrame存储为csv,index表示是否显示行名，default=True，"a"表示导入的数据不会将test3.csv文件中的原始数据覆盖
dataframe.to_csv("test.csv", mode='a', index=False,sep=',')

#同样pandas也提供简单的读csv方法，会得到一个DataFrame类型的data
data = pd.read_csv('test.csv')
print(data)

os.remove("test.csv")

另一种方法用csv包，一行一行写入

In [None]:
import csv

with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(["index","a_name","b_name"])

上述代码参数解释：

​ test3.csv表示要创建一个test3.csv的文件，注意:如果当前目录下没有这个文件，则会自动生成test3.csv文件，如果当前目录下已经有了test3.csv的文件，那么在新建结束后，会将原始的test3.csv文件覆盖。

​ "a"表示导入的数据不会将test3.csv文件中的原始数据覆盖，即：在后面继续添加，如果需要覆盖，则将"a"改成"w"即可。

​ newline=’ ’ 表示不会以空行作为每一行的分割线，注意:这一行代码必须添加上，否则csv文件中的每一行数据的前面会出现空行。

In [None]:
list1=[0,0,0]
list2=[1,1,1]

data_array=[[5,5,5],[1,2,3]]
with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile)
    # 多行写入用writerows
    writer.writerows(data_array)

    # 单行逐个写入用 writerow
#     writer.writerow(list1)
#     writer.writerow(list2)
    
    # 执行添加数据操作之后，要写close关闭，否则下次无法再次插入新的数据
    csvfile.close()

 实时写入数据时，有可能是逐个写入，也可能是一次性写入多个数据。多行写入用writerows，

单行逐个写入用 writerow，根据需求调整。close()这行代码一定要加上，否则下次无法再次插入新的数据。

In [None]:
list1=[0,0,0]
list2=[1,1,1]

data_array=[[5,5,5],[1,2,3]]
with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile)
    # 写入多行用writerows
#     writer.writerows(data_array)

#     写入单行用 writerow
    writer.writerow(list1)
    writer.writerow(list2)
    
    # 执行添加数据操作之后，要写close关闭，否则下次无法再次插入新的数据
    csvfile.close()

In [None]:
import csv
with open("test3.csv","r") as csvfile:
    reader = csv.reader(csvfile)
    #这里不需要readlines
    for line in reader:
        print(line)
        
os.remove("test3.csv")

## 实时向txt文件写入数据

实时向txt文件写入内容的过程，与创建csv文件，实时向文件写入内容大致相同，只需要添加一个换行符就行。

In [None]:
with open ('testing.txt','a') as f:
    f.write('%s       %s      %s'%('姓名','国籍','金额'))

再次向txt文件中写入数据：

In [None]:
with open ('testing.txt','a') as f:   
    f.write('\n')     #换行
    f.write('%s       %s      %d' %('张三','中国',2000))

In [None]:
with open("testing.txt","r") as testfile:
    reader = csv.reader(testfile)
    #这里不需要readlines
    for line in reader:
        print(line)
        
os.remove("testing.txt")

# mysql读数

参数：
- sql: SQL命令字符串

- con: 连接sql数据库的engine，一般可以用SQLalchemy或者pymysql之类的包建立

- index_col: 选择某一列作为index

- coerce_float: 将数字形式的字符串直接以float型读入

- parse_dates: 将某一列日期型字符串转换为datetime型数据，与pd.to_datetime函数功能类似。可以直接提供需要转换的列名以默认的日期形式转换，也可以用字典的格式提供列名和转换的日期格式，比如{column_name: format string}（format string："%Y:%m:%H:%M:%S"）。

- columns: 要选取的列。一般没啥用，因为在sql命令里面一般就指定要选择的列

- chunksize：如果提供了一个整数值，那么就会返回一个generator，每次输出的行数就是提供的值的大小。

- name: 要写入表的名字

- con: 创建数据库连接的对象。

- schema: 用于创建数据库对象，基本上都是使用默认值。

- if_exists：如果表存在怎么办?

fail：抛出ValueError异常、
replace：在插入数据之前删除表。注意不是仅删除数据，是删除原来的表，重新建表.
append：插入新数据。如果有主键，要避免主键冲突；看清表的格式，DataFrame的columns与表的columns是对应的；DF的index默认是作为一列数据的，也就是说默认会写入数据库的，
- index: 将索引作为一列写入数据库，默认为True,也就是说默认DF的索引是要写入数据库的，index_label为列名

- index_label: 将索引写入数据库时的列名，默认为index；如果DF是多级索引，则index_label应为一个序列

- chunksize: 批处理，每次处理多少条数据。默认全部，一般没啥用，除非数据量太大，明显感觉卡的时候可以分批处理。

- dtype: 一个字典，指定列的数据类型。键是列的名字，值是sqlalchemy types或者sqlite3的字符串形式。如果是新建表，则需要指定类型，不然会以存储量最大类型作为默认类型。比如varchar类型就会成为text类型，空间资源浪费很多。如果是添加数据，则一般不需要规定该参数。

In [1]:
from sqlalchemy import create_engine
import pandas as pd

# 创建数据库连接对象
user = 'root'  # 数据库用户名
password = '162532'  # 数据库密码
host = 'localhost'  # 数据库ip地址
port = 3306  # 端口号
database = 'sys'  # 数据库名称

# 连接数据库
engine = create_engine(
    f'mysql+pymysql://{user}:{password}@{host}:{port}/{database}', echo=True)

# sql语句
sql = "SELECT * FROM energy"

# 通过pandas读取数据
data = pd.read_sql(sql, engine)

2025-05-06 16:40:19,307 INFO sqlalchemy.engine.Engine SELECT DATABASE()
2025-05-06 16:40:19,307 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-05-06 16:40:19,308 INFO sqlalchemy.engine.Engine SELECT @@sql_mode
2025-05-06 16:40:19,308 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-05-06 16:40:19,309 INFO sqlalchemy.engine.Engine SELECT @@lower_case_table_names
2025-05-06 16:40:19,309 INFO sqlalchemy.engine.Engine [raw sql] {}
2025-05-06 16:40:19,310 INFO sqlalchemy.engine.Engine SELECT COUNT(*) FROM information_schema.tables WHERE table_schema = %(table_schema)s AND table_name = %(table_name)s
2025-05-06 16:40:19,311 INFO sqlalchemy.engine.Engine [generated in 0.00039s] {'table_schema': 'sys', 'table_name': 'SELECT * FROM energy'}
2025-05-06 16:40:19,314 INFO sqlalchemy.engine.Engine SELECT * FROM energy
2025-05-06 16:40:19,314 INFO sqlalchemy.engine.Engine [raw sql] {}


In [2]:
data

Unnamed: 0,time,load,temp
0,2012-01-01 00:00:00,2698.0,32.00
1,2012-01-01 01:00:00,2558.0,32.67
2,2012-01-01 02:00:00,2444.0,30.00
3,2012-01-01 03:00:00,2402.0,31.00
4,2012-01-01 04:00:00,2403.0,32.00
...,...,...,...
26299,2014-12-31 19:00:00,4012.0,18.00
26300,2014-12-31 20:00:00,3856.0,16.67
26301,2014-12-31 21:00:00,3671.0,17.00
26302,2014-12-31 22:00:00,3499.0,15.33
