# 数据导入导出
数据存在的形式多种多样,有文件(csv、Excel、txt)和数据库(MySQL、Access、SQLServer)等形式。在Pandas中,常用的载入函数是read_csv,除此之外还有read_excel和read_table。read_table函数可以读取txt文件。若是服务器相关的部署,则还会用到read_sql函数,直接访问数据库,但它必须配合MySQL相关的包。

## 数据导入
### 导入txt文件
read_table函数用于导入txt文件。其命令格式如下: 

read_table(file,names＝[列名1,列名2,...],sep＝"",．．．) 

其中:
file为文件路径与文件名； 

names为列名,默认为文件中的第一行作为列名；

sep为分隔符,默认为空。

注意：
(1)txt文本文件要保存成UTF-8格式才不会报错。

(2)查看数据框df前n项数据使用df.head(n)；后m项数据用df.tail(m)。默认均是5项数据。


In [4]:
from pandas import read_table
df=read_table(r'rz.txt',sep='\t')  #sep='\t'
type(df)

  


pandas.core.frame.DataFrame

### 导入csv文件
csv(Comma-SeparatedValues)一般称为逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号,其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含有必须像二进制数字那样被解读的数据。csv文件由任意数目的记录组成,记录间以某种换行符分隔；每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。csv文件格式常见于手机通讯录,可以使用Excel打开。

read_csv函数可以导入csv文件。其命令格式如下:

read_csv(file,names＝[列名1,列名2,..],sep="")

其中:

file为文件路径与文件名；

names为列名,默认为文件中的第一行作为列名；（若设置names参数，则第一行是数据）

sep为分隔符,默认为空,表示默认导入为一列。


In [9]:
from pandas import read_csv
df=read_csv(r'rz.csv',sep=",") #此处也可以使用 read_table命令
df.head()

Unnamed: 0,学号,班级,姓名,性别,英语,体育,军训,数分,高代,解几
0,2308024241,23080242,成龙,男,76,78,77,40,23,60
1,2308024244,23080242,周怡,女,66,91,75,47,47,44
2,2308024251,23080242,张波,男,85,81,75,45,45,60
3,2308024249,23080242,朱浩,男,65,50,80,72,62,71
4,2308024219,23080242,封印,女,73,88,92,61,47,46


In [10]:
df.drop(0,inplace=True)

In [11]:
df

Unnamed: 0,学号,班级,姓名,性别,英语,体育,军训,数分,高代,解几
1,2308024244,23080242,周怡,女,66,91,75,47,47,44
2,2308024251,23080242,张波,男,85,81,75,45,45,60
3,2308024249,23080242,朱浩,男,65,50,80,72,62,71
4,2308024219,23080242,封印,女,73,88,92,61,47,46
5,2308024201,23080242,迟培,男,60,50,89,71,76,71
6,2308024347,23080243,李华,女,67,61,84,61,65,78
7,2308024307,23080243,陈田,男,76,79,86,69,40,69
8,2308024326,23080243,余皓,男,66,67,85,65,61,71
9,2308024320,23080243,李嘉,女,62,作弊,90,60,67,77
10,2308024342,23080243,李上初,男,76,90,84,60,66,60


In [12]:
df.dtypes

学号     int64
班级     int64
姓名    object
性别    object
英语     int64
体育    object
军训    object
数分     int64
高代     int64
解几     int64
dtype: object

### 导入Excel文件
read_excel函数可以导入Excel文件。其命令格式如下:

read_excel(file,sheet_name,header=0)

其中:
	file为文件路径与文件名;
    
	sheet_name为sheet的名称,如sheetl;
    
	header为列名,默认为0,以文件的第一行作为列名;若为None，第一行不作为列名。
注意：


有时可以跳过首行或者读取多个表,例如:

df=pd.read_excel(filefullpath,sheet_name=[0,2],skiprows=[O])

sheetname可以指定为读取几个sheet,sheet数目从O开始,如果sheet_name=[0,2],则代表读取第l页和第3页的sheet;默认是sheetname为0，返回多表使用sheetname=[0,1]，若sheetname=None是返回全表 。注意：int/string返回的是dataframe，而none和list返回的是dict of dataframe。

skiprows=[0]代表读取时跳过第l行。

Excel文件有两种格式的后缀名,即xls和xlsx,对这两种格式的文件read_excel命令:
都能读取,但比较敏感,在读取时注意文件的后缀名。

    

In [14]:
from pandas import read_excel
df=read_excel(r'i_nuc.xls',sheet_name=[0,1],header=0)
df

OrderedDict([(0,
                         日期  优盘  电子表  电脑支架  插座    电池  音箱  鼠标  usb数据线  手机充电线  键盘
              0  2017-01-01  17    6     8  24  13.0  13  18      10     10  27
              1  2017-01-02  11   15    14  13   9.0  10  19      13     14  13
              2  2017-01-03  10    8    12  13   8.0   3   7      11     10   9
              3  2017-01-04   9    6     6   3  10.0   9   9      13     14  13
              4  2017-01-05   4   10    13   8  12.0  10  17      11     13  14
              5  2017-01-06  13   10    13  16   8.0   9  12      11      5   9
              6  2017-01-07   9    7    13   8   5.0   7  10       8     10   7
              7  2017-01-08   9   12    13   6   7.0   8   6      12     11   5
              8  2017-01-12   6    8     8   3   NaN   4   5       5      7  10
              9  2017-01-13   9   11    13   6   8.0   7   6       9      8   9
              10 2017-01-14   6    7     8   9   4.0   7   8       5      3  10
              11 2017-0

## 数据导出
### 导出csv格式
to_csv函数可以导出csv文件。其命令格式如下:

to_csv(file_path,sep=",",index=TRUE,header=TRUE)

其中:
	file_path为文件路径;
    
	sep为分隔符,默认是逗号;
    
    index表示是否导出行序号,默认是TRUE,导出行序号;
    
	header表示是否导出列名,默认是TRUE,导出列名。



In [15]:
from pandas import DataFrame 
from pandas import Series
df=DataFrame({'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])})
df


Unnamed: 0,age,name
0,26,Ben
1,85,John
2,64,Jerry


In [16]:
df.to_csv('e:\\01.csv')	#默认带上Index
df.to_csv('e:\\02.csv',index=False)#无Index

### 导出Excel文件
to_excel函数可以导出Excel文件。其命令格式如下:
    
to_excel(file_path,index=TRUE,header=TRUE)

其中:
    
	file_path表示文件路径；
    
	index表示是否导出行序号,默认是TRUE,导出行序号；
    
    header表示是否导出列名,默认是TRUE,导出列名。


In [18]:
from pandas import DataFrame
from pandas import Series
Df=DataFrame({'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])})
df.to_excel('e:\\01.xlsx')	#默认带上index
df.to_excel('e:\\02.xlsx',index=False)	#无index


## 数据库数据导入导出-以Oracle为例

   访问Oracle需要用到的包：cx_Oracle 
    
    cx_Oracle is a Python extension module that enables access to Oracle Database. 
    It conforms to the Python database API 2.0 specification with a considerable 
    number of additions and a couple of exclusions.
    
    cx_Oracle 8 has been tested with Python versions 3.6 through 3.9. Older versions
    of cx_Oracle may be used with previous Python releases.You can use cx_Oracle with 
    Oracle 11.2, 12, 18, 19 and 21 client libraries.Oracle's standard client-server 
    version interoperability allows connection to both older and newer databases.
    For example Oracle 19c client libraries can connect to Oracle Database 11.2.

### 数据导入

In [1]:
#导入
import pandas as pd
import cx_Oracle
#注：设置环境编码方式，可解决读取数据库乱码问题
import os
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
#实现查询并返回dataframe
def query(table):
    host ="127.0.0.1"    #数据库ip
    port = "1521"     #端口
    sid = "orcl"    #数据库名称
    dsn = cx_Oracle.makedsn(host, port, sid)
    #scott是数据用户名，tiger是登录密码(默认用户名和密码)
    conn = cx_Oracle.connect("scott", "tiger", dsn)
    #SQL语句，可以定制，实现灵活查询
    sql = 'select * from '+ table
    # 使用pandas 的read_sql函数，可以直接将数据存放在dataframe中
    results = pd.read_sql(sql,conn)
    conn.close
    return results
test_table='emp'    
test_data = query(test_table) # 可以得到结果集

In [2]:
print(test_data)

    EMPNO   ENAME        JOB     MGR            HIREDATE     SAL    COMM  \
0    7369     史密斯      CLERK  7902.0 1980-12-17 16:34:00   800.0     NaN   
1    7499   ALLEN   SALESMAN  7698.0 1981-02-20 00:00:00  1600.0   300.0   
2    7521    WARD   SALESMAN  7698.0 1981-02-22 00:00:00  1250.0   500.0   
3    7566   JONES    MANAGER  7839.0 1981-04-02 00:00:00  2975.0     NaN   
4    7654  MARTIN   SALESMAN  7698.0 1981-09-28 00:00:00  1250.0  1400.0   
5    7698   BLAKE    MANAGER  7839.0 1981-05-01 00:00:00  2850.0     NaN   
6    7782   CLARK    MANAGER  7839.0 1981-06-09 00:00:00  2450.0     NaN   
7    7788   SCOTT    ANALYST  7566.0 1987-04-19 00:00:00  3000.0     NaN   
8    7839    KING  PRESIDENT     NaN 1981-11-17 00:00:00  5000.0     NaN   
9    7844  TURNER   SALESMAN  7698.0 1981-09-08 00:00:00  1500.0     0.0   
10   7876   ADAMS      CLERK  7788.0 1987-05-23 00:00:00  1100.0     NaN   
11   7900   JAMES      CLERK  7698.0 1981-12-03 00:00:00   950.0     NaN   
12   7902   

In [3]:
print(test_data[['ENAME','EMPNO']])

     ENAME  EMPNO
0      史密斯   7369
1    ALLEN   7499
2     WARD   7521
3    JONES   7566
4   MARTIN   7654
5    BLAKE   7698
6    CLARK   7782
7    SCOTT   7788
8     KING   7839
9   TURNER   7844
10   ADAMS   7876
11   JAMES   7900
12    FORD   7902
13  MILLER   7934
14      小红   1001
15      小花   1002
16    None   1111


### 数据导出

In [5]:
import pandas as pd
import cx_Oracle
#实现插入功能
def input_to_db(data,table):
    host = "127.0.0.1"    #数据库ip
    port = "1521"     #端口
    sid = "orcl"    #数据库名称
    dsn = cx_Oracle.makedsn(host, port, sid)
    #scott是数据用户名，tiger是登录密码(默认用户名和密码)
    connection = cx_Oracle.connect("scott", "tiger", dsn)
    #建立游标
    cursor = connection.cursor()
    #sql语句,注意%s要加引号，否则会报ora-01036错误
    query = "INSERT INTO "+table+" (empno,ename,job) VALUES ('%d', '%s', '%s')"
    #逐行插入数据
    for i in range(len(data)):
        name= data.iloc[i,0]
        gender= data.iloc[i,1]
        age= data.iloc[i,2]
        # 执行sql语句
        cursor.execute(query % (name,gender,age))
        connection.commit()
        # 关闭游标
    cursor.close()
    connection.close()
#测试插入数据库
#测试数据集
test_data = pd.DataFrame([[1003,'小红','CLERK'],[1004,'小花','MANAGER']],index = [1,2],columns=['empno','ename','job'])
test_table1='emp'
#调用函数实现插入
input_to_db(test_data,test_table1)

### 将Oracle数据写入到Excel

In [8]:
import cx_Oracle
conn=cx_Oracle.connect('scott/tiger@127.0.0.1:1521/ORCL')
cursor=conn.cursor()
result=cursor.execute('select empno,ename,sal from emp') #result 是cursor类型
all_data=cursor.fetchall()

'''写入到excel'''
import xlsxwriter
import datetime

# 定义时间标志变量
sheet_time = datetime.datetime.now()
sheet_mark = sheet_time.strftime('%Y-%m-%d')
book_mark = sheet_time.strftime('%Y%m%d')

# 定义输出excel文件名
workbook = xlsxwriter.Workbook('select_'+book_mark+'.xlsx')

# 定义sheet的名字
worksheet = workbook.add_worksheet(sheet_mark)

# 定义sheet中title的字体format
bold = workbook.add_format({'bold': True})
fields = cursor.description # get column name
for field in range(0,len(fields)):
    worksheet.write(0,field,fields[field][0],bold)

#数据坐标0,0 ~ row,col   row取决于：result的行数；col取决于fields的总数
for row in range(1,len(all_data)+1):
    for col in range(0,len(fields)):
        worksheet.write(row,col,u'%s' % all_data[row-1][col])
cursor.close()
conn.close()
workbook.close()

In [9]:
fields

[('EMPNO', <cx_Oracle.DbType DB_TYPE_NUMBER>, 5, None, 4, 0, 0),
 ('ENAME', <cx_Oracle.DbType DB_TYPE_VARCHAR>, 10, 40, None, None, 1),
 ('SAL', <cx_Oracle.DbType DB_TYPE_NUMBER>, 11, None, 7, 2, 1)]