In [1]:
import pandas as pd
import numpy as np


## DataFrame

DataFrame是一个2维的数据结构，多个**列（Column）**组成，每个列是一个Series，有一个对应的列名标签。

可以将DataFrame看成电子表格或者SQL数据表，也可以看成由列名标签（关键字）和对应的列（Series）组成的字典。

DataFrame的每一行对应一个标签，由这些标签组成的列表称为**Index**。DataFrame和它的所有列Series共用同一个Index。

In [11]:
df = pd.DataFrame(
    {
        "列A": np.array(np.linspace(1,4,4)),
        "列B": pd.Timestamp("20130102"),
        "列C": pd.Series(np.random.default_rng().uniform(0,1,4),
                        index=['a','b','c','d'], dtype="float32"),
        "列D": np.array(np.linspace(1,4,4), dtype="int32"),
        "列E": pd.Categorical(["test", "train", "test", "train"]),
        "列F": "foo",
    }
)
df

Unnamed: 0,列A,列B,列C,列D,列E,列F
a,1.0,2013-01-02,0.726185,1,test,foo
b,2.0,2013-01-02,0.75509,2,train,foo
c,3.0,2013-01-02,0.270368,3,test,foo
d,4.0,2013-01-02,0.956238,4,train,foo


# 数据导入

pandas提供了一系列函数，可以从excel、csv等多种常用格式的数据文件中读取数据得到DataFrame对象。也可以将二维数组、元素为列表或数组的列表、元素为列表或数组的字典转换为DataFrame。

## 从数组/列表/字典导入

使用DataFrame（构造）函数可以由任意形式的二维数据得到DataFrame对象：
 * **columns参数**指定各列的名称。必须和输入数据的列数相同。
 * **index参数**指定Index。Index中的元素个数必须和输入数据的行数相同。
 


In [12]:
# 二维数组
d=np.linspace(1,8,8).reshape(4,2)
print(d)
df=pd.DataFrame(d,columns=['one','two'],index=['a','b','c','d'])
df

[[1. 2.]
 [3. 4.]
 [5. 6.]
 [7. 8.]]


Unnamed: 0,one,two
a,1.0,2.0
b,3.0,4.0
c,5.0,6.0
d,7.0,8.0


In [13]:
# 列表

d=[
    [1,2,3,4],
    [5,6,7,8]
  ]
df=pd.DataFrame(d,columns=['one','two','three','four'])
df

Unnamed: 0,one,two,three,four
0,1,2,3,4
1,5,6,7,8


In [14]:
# 字典

d = {"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]}
df=pd.DataFrame(d)
df

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


## 从文件导入

### csv格式文件

**read_csv**函数从csv格式文件中读取数据组成DataFrame:
 * encoding参数指定文件所用的的编码
 * index_col参数将指定的栏用作行标签（index）

In [15]:
df=pd.read_csv("scores.csv",encoding="GBK",index_col="学号")
df.head()

Unnamed: 0_level_0,姓名,班级,性别,出生年份,籍贯,数学,语文,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
166241101,童绮琴,信管19,男,2001,天津,99,71,65
166241102,酆友容,信管20,女,2002,广西,81,64,52
166241103,端木孤菱,信管21,男,2002,湖南,67,90,98
166241104,闳芳苓,信管22,女,2002,湖北,89,100,90
166241105,温靖易,信管23,女,2002,吉林,80,70,77


### excel格式文件

**read_excel**函数从xls或xlsx文件中读取数据组成DataFrame:
 * **index_col**参数将指定的栏用作行标签（index）
 * **sheet_name**参数指定读入的工作表名。如果未指定，则读入文件中默认的工作表。

In [16]:
df=pd.read_excel("scores.xlsx",index_col="学号")
df.head()

Unnamed: 0_level_0,姓名,班级,性别,出生年份,籍贯,数学,语文,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
166241101,童绮琴,信管19,男,2001,天津,99,71,65
166241102,酆友容,信管19,女,2002,广西,81,64,52
166241103,端木孤菱,信管19,男,2002,湖南,67,90,98
166241104,闳芳苓,信管19,女,2002,湖北,89,100,90
166241105,温靖易,信管19,女,2002,吉林,80,70,77


#### 多工作表excel文件

如果要读取excel文件中包含多个工作表，可以通过read_excel方法的**sheet_name**参数指定要读取的工作表的名称。

In [21]:
df=pd.read_excel("multi-sheet.xlsx", sheet_name="电商19", index_col="学号")
df.head()

Unnamed: 0_level_0,姓名,班级,性别,出生年份,籍贯,数学,语文,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
166241201,析梦菡,电商19,男,2001,浙江,80,60,71
166241202,夕项明,电商19,男,2001,天津,68,95,100
166241203,镜梦桃,电商19,男,2001,西藏,74,56,66
166241204,风凝雁,电商19,男,2001,广东,94,79,81
166241205,毓雨梅,电商19,女,2001,北京,70,65,70


# 数据导出

## 导出成字典

DataFrame对象的**to_dict()**方法可以将其导出成python字典。

In [24]:
# 取dataframe前三项
df1=df.iloc[:3,:]
df1

Unnamed: 0_level_0,姓名,班级,性别,出生年份,籍贯,数学,语文,英语
学号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
166241201,析梦菡,电商19,男,2001,浙江,80,60,71
166241202,夕项明,电商19,男,2001,天津,68,95,100
166241203,镜梦桃,电商19,男,2001,西藏,74,56,66


In [25]:
df1.to_dict()

{'姓名': {166241201: '析梦菡', 166241202: '夕项明', 166241203: '镜梦桃'},
 '班级': {166241201: '电商19', 166241202: '电商19', 166241203: '电商19'},
 '性别': {166241201: '男', 166241202: '男', 166241203: '男'},
 '出生年份': {166241201: 2001, 166241202: 2001, 166241203: 2001},
 '籍贯': {166241201: '浙江', 166241202: '天津', 166241203: '西藏'},
 '数学': {166241201: 80, 166241202: 68, 166241203: 74},
 '语文': {166241201: 60, 166241202: 95, 166241203: 56},
 '英语': {166241201: 71, 166241202: 100, 166241203: 66}}

## 导出到文件

### 导出到csv文件

DataFrame/Series的**to_csv**方法可以将其写入指定的csv格式文件

In [27]:
df1.to_csv("test.csv",encoding="GBK")

### 导出到excel文件

DataFrame/Series的**to_excel**方法可以将其写入指定的excel格式文件

In [28]:
df1.to_excel("test.xlsx")

## 导出到剪贴板

DataFrame的**to_clipboard**方法可以将其复制到系统剪贴板中。然后可以将其粘贴到excel中。

In [29]:
df1.to_clipboard()