In [1]:
print("hello,fenghaoxiang!")

hello,fenghaoxiang!


In [1]:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import matplotlib as mpl

# DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引），DataFrame由按一定顺序排列的多列数据组成。  
设计初衷是将Series的使用场景从一维拓展到多维，DataFrame既有行索引，也有列索引。
  - 行索引：index
  - 列索引：columns
  - 值：values（numpy的二维数组）

## 1）DataFrame的创建

最常用的一个方法是传递一个字典来创建。  
DataFrame会以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。  
此外，DataFrame会自动加上每一列的索引（和Series一样）。  
同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。  


In [6]:
dict_1 = {
    "userid":Series(["001","002","003"]),
    "username":Series(["lucy","mery","tom"]),
    "userpassword":Series([123,456,789])
}
dict_1

{'userid': 0    001
 1    002
 2    003
 dtype: object,
 'username': 0    lucy
 1    mery
 2     tom
 dtype: object,
 'userpassword': 0    123
 1    456
 2    789
 dtype: int64}

In [7]:
DataFrame(dict_1)

Unnamed: 0,userid,username,userpassword
0,1,lucy,123
1,2,mery,456
2,3,tom,789


In [8]:
# DataFrame属性：values,columns.index,shape
dict_2 = {
    "A":np.random.randint(0,100,size=4),
    "B":np.random.randint(0,100,size=4),
    "C":np.random.randint(0,100,size=4),
    "D":np.random.randint(0,100,size=4),
    "E":np.random.randint(0,100,size=4),
}
DataFrame(dict_2,index=list("abcd"))

Unnamed: 0,A,B,C,D,E
a,46,6,96,79,81
b,0,50,90,34,69
c,24,43,25,9,54
d,33,35,41,79,42


从文件中读取DataFrame对象
  - pd.read_csv()
  - pd.read_table()
  - pd.read_excel()
  
pd.read_excel("文件地址",header=0,index_col=0,sheet_name="sheetname")
  - header设置excel中那几行作为列标签，默认值就是第一行
  - index_col设置excel中那几列作为行标签
  - sheet_name指定sheet，可用索引也可用sheet的名称。

In [3]:
dict_3 = {
    "张三":Series([150,150,150,300],index=["语文","数学","英语","理综"]),
    "李四":Series([0,0,0,0],index=["语文","数学","英语","理综"])
}
df_1 = DataFrame(dict_3,index=["语文","数学","英语","理综"])
df_1

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


## 2）对列进行索引

  - 通过类似字典的方式
  - 通过属性的方式
  
  可以将DataFrame的列获取为一个Series,返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。  
  
## 3）对行进行索引

  - 使用 .ix[]来进行行索引
  - 使用 .loc[]加index来进行行索引
  - 使用 .iloc[]加整数来进行行索引
  
  同样返回一个Series,index为原来的columns。
  
## 4）对元素索引空的方法

  - 使用列索引
  - 使用行索引（iloc[3,1]相当于两个参数，iloc[[3,3]]里面的[3,3]看做一个参数。）

In [4]:
df_1['张三']

语文    150
数学    150
英语    150
理综    300
Name: 张三, dtype: int64

In [5]:
df_1

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


In [6]:
# 使用列表的方式访问
df_1[["张三","李四"]]

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


In [9]:
df_1

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


In [15]:
# 访问行必须要有.loc[]
df_1.loc[["理综","数学"]]

Unnamed: 0,张三,李四
理综,300,0
数学,150,0


In [16]:
# .iloc[]隐式访问行，默认index使用即可（0,1,2，...）
df_1.iloc[0]

张三    150
李四      0
Name: 语文, dtype: int64

In [17]:
# 单个元素访问逻辑和numpy访问逻辑一致，即“先行后列”。
df_1.loc["语文","李四"]

0

## 5）切片

  【注意】：直接用中括号时：
  - 索引表示列索引
  - 切片表示的是行切片
  
  
  用标签处理的切片都是闭区间。

In [22]:
df_1.loc[:,"张三":"李四"]

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


In [23]:
# 使用bool列表访问
bool_1 = [True,True,True,False]
df_1[bool_1]

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0


## 6）DataFrame运算

  同时Series一样：
  - 在运算中自动对齐相同索引的数据
  - 如果索引不对应，则补NaN

In [5]:
arr_1 = np.random.randint(0,100,size=(3,5))
arr_1

array([[ 9, 62, 92, 62, 78],
       [79, 17, 61, 48, 16],
       [89, 65, 98, 88, 83]])

In [6]:
arr_1.mean()

63.13333333333333

In [7]:
#求每一行的和（指定轴向的聚合）
arr_1.sum(axis=1)

array([303, 221, 423])

In [8]:
df_2 = DataFrame(data = arr_1,index=["lucy","mery","tom"],columns=list("ABCDE"))
df_2

Unnamed: 0,A,B,C,D,E
lucy,9,62,92,62,78
mery,79,17,61,48,16
tom,89,65,98,88,83


In [11]:
# 求每一行的均值,或者用 axis = 1
df_2.mean(axis="columns")

lucy    60.6
mery    44.2
tom     84.6
dtype: float64

In [12]:
# 求每一列的均值，或者用 axis=0 
df_2.mean(axis="index") 

A    59.000000
B    48.000000
C    83.666667
D    66.000000
E    59.000000
dtype: float64

In [13]:
df_2 > 100

Unnamed: 0,A,B,C,D,E
lucy,False,False,False,False,False
mery,False,False,False,False,False
tom,False,False,False,False,False


In [14]:
df_3 = DataFrame(data=np.random.randint(0,100,size=(3,3)),index=list("abc"),columns=list("ABC"))
df_4 = DataFrame(data=np.random.randint(0,100,size=(4,4)),index=list("abcd"),columns=list("ABCD"))
display(df_3,df_4)

Unnamed: 0,A,B,C
a,38,84,71
b,89,34,36
c,62,51,51


Unnamed: 0,A,B,C,D
a,23,99,0,29
b,52,40,81,55
c,61,10,79,76
d,32,31,21,30


In [16]:
df_3 + df_4

Unnamed: 0,A,B,C,D
a,61.0,183.0,71.0,
b,141.0,74.0,117.0,
c,123.0,61.0,130.0,
d,,,,


In [18]:
df_4.iloc[0]

A    23
B    99
C     0
D    29
Name: a, dtype: int32