### DataFrame
 - DataFrame是一个[表格型]的数据结构.DataFrame由按一定顺序排列的多列数据组成.设计初衷是将Series的使用场景从一维拓展到多维.DataFrame既有行索引,也有列索引
     - 行索引: index
     - 列索引: columns
     - 值: values
 
 
 - DataFrame的创建
     - ndarray 创建
     - 字典创建

In [1]:
from pandas import DataFrame
import numpy as np

In [2]:
df = DataFrame(data=[[1,2,3],[4,5,6]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [3]:
df = DataFrame(data = np.random.randint(0,100,size=(5,5)))
df

Unnamed: 0,0,1,2,3,4
0,7,25,88,43,81
1,60,30,71,1,5
2,50,10,19,50,77
3,83,28,23,58,24
4,34,0,79,16,65


In [4]:
# 字典表单
dic = {
    'name': ['John','Jack','jeny'],
    'salary': [1000,2000,3000]
}
df = DataFrame(data=dic)
df

Unnamed: 0,name,salary
0,John,1000
1,Jack,2000
2,jeny,3000


- DataFrame的属性
 - values
 - columns
 - index
 - shape

In [5]:
df.values # 获取里面所有内容
df.columns # 获取列
df.index # 返回索引
df.shape # 返回形状

(3, 2)

- DataFrame的切片操作
    - 对行进行索引
    - 对列进行索引
    - 对元素进行索引

In [6]:
df = DataFrame(data = np.random.randint(0,100,size=(5,5)),columns=['a','b','c','d','e'])
df

Unnamed: 0,a,b,c,d,e
0,52,24,22,84,34
1,72,87,55,67,75
2,0,41,19,43,95
3,79,27,13,31,95
4,50,41,50,73,71


In [7]:
df['a'] # 取单列
df.iloc[0] # 如果df有索引,可以通过iloc去选择 获取索引为0的行

a    52
b    24
c    22
d    84
e    34
Name: 0, dtype: int64

In [8]:
df[['a','b']] # 取多列

Unnamed: 0,a,b
0,52,24
1,72,87
2,0,41
3,79,27
4,50,41


In [9]:
# 取单行
df.iloc[0] # df.loc[0]

a    52
b    24
c    22
d    84
e    34
Name: 0, dtype: int64

In [10]:
# 取多行
df.iloc[[0,1,2]] # 取出索引为0,1,2的行

Unnamed: 0,a,b,c,d,e
0,52,24,22,84,34
1,72,87,55,67,75
2,0,41,19,43,95


- iloc:
    - 通过隐式索引取行
- loc:
    - 通过显式索引来取行

In [11]:
df.iloc[0,3] # 取出第0行第3列的元素 在这里并没有指定出具体的索引
df.loc[0,'a'] # 取出a列里的第一个元素, ‘a’指定了索引, ‘a’是显式索引

52

In [12]:
df.iloc[[1,2,3],2] # [[1行,2行,3行],2列] 找到索引为2的列(第三列) 索引为1,2,3的行(第二列,第三列,第四列)

1    55
2    19
3    13
Name: c, dtype: int64

- DataFrame的切片操作
    - 对行进行切片
    - 对列进行切片

In [13]:
# 切片iloc 行
df.iloc[:2] #取出前面两行[0,1]

Unnamed: 0,a,b,c,d,e
0,52,24,22,84,34
1,72,87,55,67,75


In [14]:
# 切片loc 行
df.loc[:2] #取出前面三行,[0,1,2]

Unnamed: 0,a,b,c,d,e
0,52,24,22,84,34
1,72,87,55,67,75
2,0,41,19,43,95


In [15]:
#iloc切列
df.iloc[:3,:2] #找到索引为0的列的前三个元素

Unnamed: 0,a,b
0,52,24
1,72,87
2,0,41


In [16]:
#loc切列
df.loc[:3,'b'] #找到显式索引b列,且显示索引为'3'的元素
df.loc[:3,['b','c']] #多列应用

Unnamed: 0,b,c
0,24,22
1,87,55
2,41,19
3,27,13


### 进阶

- 添加列
    - 赋值法
        - 在后面添加列
    - insert()
        - 插入列
    - loc or iloc
        - 可用于添加行

In [17]:
df

Unnamed: 0,a,b,c,d,e
0,52,24,22,84,34
1,72,87,55,67,75
2,0,41,19,43,95
3,79,27,13,31,95
4,50,41,50,73,71


In [26]:
#添加列 赋值
df['after'] = [1,2,3,4,5]
df

Unnamed: 0,a,b,c,d,after_insert,e,after
0,52,24,22,84,1,34,1
1,72,87,55,67,2,75,2
2,0,41,19,43,3,95,3
3,79,27,13,31,4,95,4
4,50,41,50,73,5,71,5


In [25]:
#插入列 insert()  不推荐
df.insert(4,'after_insert',[1,2,3,4,5]) #[插入的位置,列名,内容]

- 删除列 or 行
    - drop()

In [27]:
df.drop('after_insert',axis=1) # axis=1 为0的时候为行

Unnamed: 0,a,b,c,d,e,after
0,52,24,22,84,34,1
1,72,87,55,67,75,2
2,0,41,19,43,95,3
3,79,27,13,31,95,4
4,50,41,50,73,71,5


### 练习:
    - 1.a为其中成绩,b为期末成绩(自由创建), 分别求出John和Jack的整个学期的成绩平均值,如果成绩平均值大于160则为优秀,否则为普通
    - 2.分析 John adn Jack 每科的成绩(期末)单独提取出来,在后面添加一列(Values),如果成绩大于‘60’则为合格,否则为‘不合格’
    - 3.假设Jack作弊,要被记为0分(在原先表格上修改期末成绩0分)
    - 4.John发现了作弊,其中的所有科目为100分(在原先表格上修改期末成绩100分)

In [21]:
#创建表格
Johnc = np.random.randint(80,100,size=5)
Jackc = np.random.randint(90,100,size=5)
dec = {
    'John': Johnc,
    'Jack': Jackc
}
df_z = DataFrame(data=dec,index=['Java','C','Python','Golang','C++'])
df_m = df_z

df_z,df_m

(        John  Jack
 Java      91    95
 C         89    95
 Python    95    98
 Golang    95    99
 C++       89    96,
         John  Jack
 Java      91    95
 C         89    95
 Python    95    98
 Golang    95    99
 C++       89    96)

In [22]:
#平均值
John_sum_z = df_z['John'] + df_m['John']
John_mean= John_sum_z.sum() / 5


Jack_sum_z = df_z['Jack'] + df_m['Jack']
Jack_mean = Jack_sum_z.sum() / 5
print(John_mean,Jack_mean)

for item in John_mean,Jack_mean:
    print("优秀" if item >= 160 else "普通")    

183.6 193.2
优秀
优秀


In [23]:
#添加合格 or 不合格
df_z_John = DataFrame(df_z['John'])
df_z_Jack = DataFrame(df_z['Jack'])

df_z_John_v = df_z_John.loc['Java':]
df_z_Jack_v = df_z_Jack.loc['Java':]

# lambda 匿名函数
df_z_John['Values'] = df_z_John_v.apply(lambda row: "合格" if row['John'] >= 60 else "不合格", axis=1)
df_z_Jack['Values'] = df_z_Jack_v.apply(lambda row: "合格" if row['Jack'] >= 60 else "不合格", axis=1)

df_z_John,df_z_Jack

(        John Values
 Java      91     合格
 C         89     合格
 Python    95     合格
 Golang    95     合格
 C++       89     合格,
         Jack Values
 Java      95     合格
 C         95     合格
 Python    98     合格
 Golang    99     合格
 C++       96     合格)

In [30]:
df_m['Jack'] = 0
df_m['John'] = 100
df_m

Unnamed: 0,John,Jack
Java,100,0
C,100,0
Python,100,0
Golang,100,0
C++,100,0
