# duckdb读数

In [1]:
import pandas as pd
import duckdb

duckdb可以读取的文件格式：CSV Files、Parquet Files、HTTP(S), S3 and GCP、JSON Files、Excel Files with the Spatial Extension、Querying Other Database Systems

In [2]:
path = "../data/AirPassengers.csv"  # 可以读取其他格式的数据
query = f"""
SELECT DISTINCT Month FROM \'{path}\'
ORDER BY Month
LIMIT 10
"""
result = duckdb.sql(query).df()  # 读取数据并转为Dataframe

In [None]:
result.to_parquet("../data/AirPassengers.parquet")

# matlab读数

In [2]:
import scipy.io as scio 
path = "../data/data2.mat"
data = scio.loadmat(path)

In [3]:
data

{'__header__': b'MATLAB 5.0 MAT-file, Platform: PCWIN, Created on: Sun Oct 25 16:29:54 2009',
 '__version__': '1.0',
 '__globals__': [],
 'data': array([[0.1291, 0.4842, 0.7976],
        [0.1084, 0.4579, 0.8187],
        [0.1828, 0.7977, 0.743 ],
        [0.122 , 0.5468, 0.8048],
        [0.113 , 0.3636, 0.814 ],
        [0.1719, 0.6011, 0.754 ],
        [0.1237, 0.4425, 0.8031],
        [0.1721, 0.6152, 0.7626],
        [0.1432, 0.5845, 0.7942]])}

# parquet读数

In [1]:
import pandas as pd

df = pd.read_parquet('../data/AirPassengers.parquet')

In [2]:
df

Unnamed: 0,Month
0,1949-01
1,1949-02
2,1949-03
3,1949-04
4,1949-05
5,1949-06
6,1949-07
7,1949-08
8,1949-09
9,1949-10


In [5]:
import pyarrow.parquet as parquet

table = parquet.read_table('../data/AirPassengers.parquet')
df = table.to_pandas()

In [8]:
import pandas as pd
# 读取部分列
df = pd.read_parquet('../data/AirPassengers.parquet', columns=['Month'])

In [9]:
import pyarrow.parquet as parquet
# 读取部分列
table = parquet.read_table('../data/AirPassengers.parquet', columns=['Month'])
df = table.to_pandas()

# python读数

## 实时向csv文件写入数据

最常用的一种方法，利用pandas包

In [None]:
import pandas as pd
import os

#任意的多组列表
a = [1,2,3]
b = [4,5,6]    

#字典中的key值即为csv中列名
dataframe = pd.DataFrame({'a_name':a,'b_name':b})

#将DataFrame存储为csv,index表示是否显示行名，default=True，"a"表示导入的数据不会将test3.csv文件中的原始数据覆盖
dataframe.to_csv("test.csv", mode='a', index=False,sep=',')

#同样pandas也提供简单的读csv方法，会得到一个DataFrame类型的data
data = pd.read_csv('test.csv')
print(data)

os.remove("test.csv")

另一种方法用csv包，一行一行写入

In [None]:
import csv

with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(["index","a_name","b_name"])

上述代码参数解释：

​ test3.csv表示要创建一个test3.csv的文件，注意:如果当前目录下没有这个文件，则会自动生成test3.csv文件，如果当前目录下已经有了test3.csv的文件，那么在新建结束后，会将原始的test3.csv文件覆盖。

​ "a"表示导入的数据不会将test3.csv文件中的原始数据覆盖，即：在后面继续添加，如果需要覆盖，则将"a"改成"w"即可。

​ newline=’ ’ 表示不会以空行作为每一行的分割线，注意:这一行代码必须添加上，否则csv文件中的每一行数据的前面会出现空行。

In [None]:
list1=[0,0,0]
list2=[1,1,1]

data_array=[[5,5,5],[1,2,3]]
with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile)
    # 多行写入用writerows
    writer.writerows(data_array)

    # 单行逐个写入用 writerow
#     writer.writerow(list1)
#     writer.writerow(list2)
    
    # 执行添加数据操作之后，要写close关闭，否则下次无法再次插入新的数据
    csvfile.close()

 实时写入数据时，有可能是逐个写入，也可能是一次性写入多个数据。多行写入用writerows，

单行逐个写入用 writerow，根据需求调整。close()这行代码一定要加上，否则下次无法再次插入新的数据。

In [None]:
list1=[0,0,0]
list2=[1,1,1]

data_array=[[5,5,5],[1,2,3]]
with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile)
    # 写入多行用writerows
#     writer.writerows(data_array)

#     写入单行用 writerow
    writer.writerow(list1)
    writer.writerow(list2)
    
    # 执行添加数据操作之后，要写close关闭，否则下次无法再次插入新的数据
    csvfile.close()

In [None]:
import csv
with open("test3.csv","r") as csvfile:
    reader = csv.reader(csvfile)
    #这里不需要readlines
    for line in reader:
        print(line)
        
os.remove("test3.csv")

## 实时向txt文件写入数据

实时向txt文件写入内容的过程，与创建csv文件，实时向文件写入内容大致相同，只需要添加一个换行符就行。

In [None]:
with open ('testing.txt','a') as f:
    f.write('%s       %s      %s'%('姓名','国籍','金额'))

再次向txt文件中写入数据：

In [None]:
with open ('testing.txt','a') as f:   
    f.write('\n')     #换行
    f.write('%s       %s      %d' %('张三','中国',2000))

In [None]:
with open("testing.txt","r") as testfile:
    reader = csv.reader(testfile)
    #这里不需要readlines
    for line in reader:
        print(line)
        
os.remove("testing.txt")