# 一、Pandas的数据结构

In [13]:
# 导入数据分析三剑客
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1.Series
- Series是一种类似与一维数组的对象，由下面两部分组成：
    - values:一组数组（ndarray类型）
    - index:相关的数据索引标签
    
### 1.1Series的创建
- 两种创建方式：
- （1）由列表或numpy数组创建
    - 默认索引为0到N-1的整数类型索引

In [15]:
s = pd.Series([x for x in range(1,5)])
s

0    1
1    2
2    3
3    4
dtype: int64

In [17]:
# 通过index指定索引
s.index = list('abcd')
s

a    1
b    2
c    3
d    4
dtype: int64

In [23]:
s1 = pd.Series(['zhangsan','lisi','wangwu','zhaoliu'],index=list('abcd'))
s1

a    zhangsan
b        lisi
c      wangwu
d     zhaoliu
dtype: object

In [24]:
#Series只能存放一维数据
s2 = pd.Series(np.random.randint(0,10,size=5),index=list('abcde'))
s2

a    5
b    2
c    0
d    3
e    5
dtype: int32

- （2）由字典创建

In [26]:
s3 = pd.Series({'zhangsan':23,'lisi':22,'wangwu':24,'zhaoliu':21})
s3

zhangsan    23
lisi        22
wangwu      24
zhaoliu     21
dtype: int64

### 1.2Series的索引和切片
- 可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里面一个列表取多个索引（此时返回的仍然是一个Series类型）。
- 显示索引：
    - 使用index中的元素作为索引值
    - 使用`.loc[]` 推荐
- 注意，此时是闭区间

In [27]:
s4 = pd.Series(np.random.random(10),index=list('abcdefghij'))
s4

a    0.277840
b    0.444141
c    0.968598
d    0.126967
e    0.949309
f    0.869168
g    0.371931
h    0.483768
i    0.408742
j    0.584720
dtype: float64

In [30]:
s4['a']

0.2778400875990814

In [41]:
#显示索引
s4.loc['a':'d']

a    0.277840
b    0.444141
c    0.968598
d    0.126967
dtype: float64

In [33]:
s4[1]

0.4441408006407136

- 隐式索引：
    - 使用整数作为索引值
    - 使用`.ilco[]`推荐
- 注意：此时是半开区间

In [40]:
s4.iloc[0:4]

a    0.277840
b    0.444141
c    0.968598
d    0.126967
dtype: float64

### 1.3Series的基本概念
- 可以把Series看成一个定长的有序字典
- 可以通过shape，size，index，values等得到series的属性

In [43]:
#Series.values就是一个ndarray
display(s4.shape,s4.size,s4.index,s4.values)

(10,)

10

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')

array([0.27784009, 0.4441408 , 0.96859772, 0.12696677, 0.94930858,
       0.86916825, 0.37193067, 0.48376761, 0.40874214, 0.58472009])

- 可以通过head(),tail()快速查看Series对象的样式

In [1]:
#查看Series前几行
import numpy as np
import pandas as pd
df = pd.read_excel('./pydata/people.xlsx')
type(df)

pandas.core.frame.DataFrame

In [2]:
age = df['age']
type(age)

pandas.core.series.Series

In [3]:
age.head(5)

0    43
1    29
2    25
3    50
4    48
Name: age, dtype: int64

In [4]:
age.tail(5)

495    24
496    30
497    57
498    39
499    42
Name: age, dtype: int64

- 可以使用pd.isnull(),pd.notnull()，或自带isnull()，notnull()函数检测缺失数据

In [9]:
s5 = pd.Series([1,2,None,np.nan])
s5

0    1.0
1    2.0
2    NaN
3    NaN
dtype: float64

In [10]:
s5.isnull()

0    False
1    False
2     True
3     True
dtype: bool

In [14]:
s6 = s5.notnull()
s6

0     True
1     True
2    False
3    False
dtype: bool

In [15]:
#notnull相当于过滤，将为false的过滤掉
s5[s6]

0    1.0
1    2.0
dtype: float64

- Series对象本省及其实例都有一个name属性

In [17]:
#name在DateFrame中用于区分,在DateFrame中是指其列名
s5.name = 'Test'
s5

0    1.0
1    2.0
2    NaN
3    NaN
Name: Test, dtype: float64

In [18]:
df

Unnamed: 0,name,city,age,height,weight
0,危琳,兴城市,43,164,156
1,颛春梅,潜江县,29,181,114
2,韶璐,深圳县,25,170,149
3,父想,大冶县,50,172,138
4,逄建国,彬县,48,169,110
5,车静,宁德县,56,177,119
6,俟玉梅,莉县,47,176,125
7,岳博,通辽县,51,162,118
8,璩柳,建县,31,189,154
9,空龙,西宁县,23,179,150


- Series之间进行运算
    - 在Series中自动对齐不同索引的数据
    - 如果索引不对应，则补NaN

In [34]:
s1 = pd.Series([2,4,6,8],index=['a','b','c','d'])
s2 = pd.Series([1,3,5,7],index=['a','b','e','f'])

In [35]:
#Series相加时，是将其索引值相同的进行相加
s1 + s2

a    3.0
b    7.0
c    NaN
d    NaN
e    NaN
f    NaN
dtype: float64

- 注意：想要保留所有的index，则需要使用`.add()`函数

In [39]:
s1.add(s2,fill_value=0)

a    3.0
b    7.0
c    6.0
d    8.0
e    5.0
f    7.0
dtype: float64

## 2.DataFrame
- DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
    - 行索引：index
    - 列索引：columns
    - 值：values（numpy的二维数组）

In [40]:
df.head(5)

Unnamed: 0,name,city,age,height,weight
0,危琳,兴城市,43,164,156
1,颛春梅,潜江县,29,181,114
2,韶璐,深圳县,25,170,149
3,父想,大冶县,50,172,138
4,逄建国,彬县,48,169,110


In [41]:
display(df.index,df.columns,df.values,df.values.shape)

Int64Index([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,
            ...
            490, 491, 492, 493, 494, 495, 496, 497, 498, 499],
           dtype='int64', length=500)

Index(['name', 'city', 'age', 'height', 'weight'], dtype='object')

array([['危琳', '兴城市', 43, 164, 156],
       ['颛春梅', '潜江县', 29, 181, 114],
       ['韶璐', '深圳县', 25, 170, 149],
       ...,
       ['彭凤英', '桂花市', 57, 170, 119],
       ['干阳', '帅县', 39, 173, 149],
       ['雷俊', '柳州县', 42, 175, 116]], dtype=object)

(500, 5)

### 2.1DataFrame的创建
- 最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。此外，DataFrame会自动加上每一行的索引（和Series一样）。
- 同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

In [49]:
df = pd.DataFrame({'name':['zhangsan','lisi','wangwu','zhaoliu'],
                   'age': np.random.randint(20,26,size=4),'sex':['男','女','女','男']},index= list('ABCD'),
                 columns = ['name','age','sex'])
df

Unnamed: 0,name,age,sex
A,zhangsan,23,男
B,lisi,24,女
C,wangwu,22,女
D,zhaoliu,25,男


- DataFrame的属性：values、columns、index、shape

In [50]:
df.shape

(4, 3)

```
#练习
根据以下考试成绩表，创建一个DataFrame,命名为df：
      张三  李四
语文   150   0
数学   150   0
英语   150   0
理综   300   0
```

In [80]:
df = pd.DataFrame({'张三':[150,150,150,300],'李四':[0,0,0,0]},index=['语文','数学','英语','理综'])
df

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


### 2.2DataFrame的索引
- 1.对列进行索引
    - 通过类似字典的方式
    - 通过属性的方式
- 可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [51]:
df = pd.DataFrame({'name':['zhangsan','lisi','wangwu','zhaoliu'],
                   'age': np.random.randint(20,26,size=4),'sex':['男','女','女','男']},index= list('ABCD'),
                 columns = ['name','age','sex'])
df

Unnamed: 0,name,age,sex
A,zhangsan,24,男
B,lisi,23,女
C,wangwu,22,女
D,zhaoliu,22,男


In [55]:
#t通过字典的方式对列进行索引，返回一个Series
name = df['name']
display(type(name),name)

pandas.core.series.Series

A    zhangsan
B        lisi
C      wangwu
D     zhaoliu
Name: name, dtype: object

In [57]:
#通过属性的方式对列进行索引,返回一个Series
age = df.age
display(type(age),age)

pandas.core.series.Series

A    24
B    23
C    22
D    22
Name: age, dtype: int32

- 2.对行进行索引
    - 使用`.ix[]`来进行行索引
    - 使用`.loc[]`加index来进行行索引
    - 使用`.iloc[]`加整数来进行行索引
- 同样返回一个Series，index为原来的columns。

In [63]:
#对行的检索，返回值还是Series
df.loc['A']

name    zhangsan
age           24
sex            男
Name: A, dtype: object

In [64]:
#检索多行返回的数据是DataFrame
df.loc[['A','B']]

Unnamed: 0,name,age,sex
A,zhangsan,24,男
B,lisi,23,女


In [67]:
#对行进行切片索引
df.loc['A':'C']

Unnamed: 0,name,age,sex
A,zhangsan,24,男
B,lisi,23,女
C,wangwu,22,女


-  3.对元素索引的方法
    - 使用列索引
    - 使用行索引（iloc[3,1]相当于两个参数；iloc[[3,3]]里面的[3,3]看做一个参数）
    - 使用values属性（二维numpy数组）

In [68]:
#使用列索引
df['name']['B']

'lisi'

In [69]:
#使用行索引
df.loc['C']['age']

22

In [71]:
df.iloc[3,0]

'zhaoliu'

In [73]:
df.values[0,1]

24

【注意】直接使用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片

In [74]:
df['name']

A    zhangsan
B        lisi
C      wangwu
D     zhaoliu
Name: name, dtype: object

In [75]:
df['name':'sex']

Unnamed: 0,name,age,sex


In [77]:
df['A':'C']

Unnamed: 0,name,age,sex
A,zhangsan,24,男
B,lisi,23,女
C,wangwu,22,女


## 3.DataFrame的运算
### 3.1DataFrame之间的运算
- 同Series一样：
    - 在运算中自动对齐不同索引的数据
    - 如果索引不对应，则补NaN

In [81]:
#创建DataFrame df1 不同人员的各科目成绩，月考一
df1 = pd.DataFrame(np.random.randint(0,150,size=(4,4)),
                   index=['zhangsan','lisi','wangwu','zhaoliu'],
                   columns=['语文','数学','英语','理综'])
df1

Unnamed: 0,语文,数学,英语,理综
zhangsan,115,36,73,49
lisi,33,63,145,142
wangwu,111,111,115,118
zhaoliu,109,96,82,67


In [82]:
#创建DataFrame df2 不同人员的各科目成绩，月考二
#有新生转入
df2 = pd.DataFrame(np.random.randint(0,150,size=(5,4)),
                   index=['zhangsan','lisi','wangwu','zhaoliu','tianqi'],
                   columns=['语文','数学','英语','理综'])
df2

Unnamed: 0,语文,数学,英语,理综
zhangsan,6,57,64,119
lisi,116,143,95,91
wangwu,77,82,64,22
zhaoliu,22,101,3,43
tianqi,147,3,33,143


In [83]:
df1 + df2

Unnamed: 0,语文,数学,英语,理综
lisi,149.0,206.0,240.0,233.0
tianqi,,,,
wangwu,188.0,193.0,179.0,140.0
zhangsan,121.0,93.0,137.0,168.0
zhaoliu,131.0,197.0,85.0,110.0


In [86]:
df3 = df1.add(df2,fill_value=0)
df3

Unnamed: 0,语文,数学,英语,理综
lisi,149.0,206.0,240.0,233.0
tianqi,147.0,3.0,33.0,143.0
wangwu,188.0,193.0,179.0,140.0
zhangsan,121.0,93.0,137.0,168.0
zhaoliu,131.0,197.0,85.0,110.0


In [87]:
df4 = pd.DataFrame(np.random.randint(0,150,size=(5,3)),
                   index=['zhangsan','lisi','wangwu','zhaoliu','tianqi'],
                   columns=['语文','数学','英语'])
df4

Unnamed: 0,语文,数学,英语
zhangsan,131,96,54
lisi,98,9,119
wangwu,123,106,32
zhaoliu,6,149,55
tianqi,62,41,123


In [88]:
df1.add(df4)

Unnamed: 0,数学,理综,英语,语文
lisi,72.0,,264.0,131.0
tianqi,,,,
wangwu,217.0,,147.0,234.0
zhangsan,132.0,,127.0,246.0
zhaoliu,245.0,,137.0,115.0


### 3.2Series与DataFrame之间的运算
- 使用Python操作符：以行位单位操作（参数必须是行），对所有行都有效。（类似与numpy中二维数组与一维数组的运算，但可能出现NaN）
- 使用pandas操作函数：
    - axis=0：以列为单位操作（参数必须是列），对所有列都有效。
    - axis=1：以行位单位操作（参数必须是行），对所有行都有效。

In [93]:
s1 = df3['语文']
s1

lisi        149.0
tianqi      147.0
wangwu      188.0
zhangsan    121.0
zhaoliu     131.0
Name: 语文, dtype: float64

In [97]:
df3+ s1

Unnamed: 0,lisi,tianqi,wangwu,zhangsan,zhaoliu,数学,理综,英语,语文
lisi,,,,,,,,,
tianqi,,,,,,,,,
wangwu,,,,,,,,,
zhangsan,,,,,,,,,
zhaoliu,,,,,,,,,


In [100]:
display(df3.columns,s1.index)

Index(['语文', '数学', '英语', '理综'], dtype='object')

Index(['lisi', 'tianqi', 'wangwu', 'zhangsan', 'zhaoliu'], dtype='object')

In [95]:
s2 = df3.loc['lisi']
s2

语文    149.0
数学    206.0
英语    240.0
理综    233.0
Name: lisi, dtype: float64

In [98]:
df3 + s2

Unnamed: 0,语文,数学,英语,理综
lisi,298.0,412.0,480.0,466.0
tianqi,296.0,209.0,273.0,376.0
wangwu,337.0,399.0,419.0,373.0
zhangsan,270.0,299.0,377.0,401.0
zhaoliu,280.0,403.0,325.0,343.0


In [99]:
display(df3.columns,s2.index)

Index(['语文', '数学', '英语', '理综'], dtype='object')

Index(['语文', '数学', '英语', '理综'], dtype='object')

In [None]:
axis=0：以列为单位操作（参数必须是列），对所有列都有效。
axis=1：以行位单位操作（参数必须是行），对所有行都有效。

In [107]:
ss = df3.语文
display(df3,ss)

Unnamed: 0,语文,数学,英语,理综
lisi,149.0,206.0,240.0,233.0
tianqi,147.0,3.0,33.0,143.0
wangwu,188.0,193.0,179.0,140.0
zhangsan,121.0,93.0,137.0,168.0
zhaoliu,131.0,197.0,85.0,110.0


lisi        149.0
tianqi      147.0
wangwu      188.0
zhangsan    121.0
zhaoliu     131.0
Name: 语文, dtype: float64

In [126]:
#index/0代表行索引
n1 = df3.add(ss,axis='index')
n2 = df3.add(ss,axis=0)
n2

Unnamed: 0,语文,数学,英语,理综
lisi,298.0,355.0,389.0,382.0
tianqi,294.0,150.0,180.0,290.0
wangwu,376.0,381.0,367.0,328.0
zhangsan,242.0,214.0,258.0,289.0
zhaoliu,262.0,328.0,216.0,241.0


In [127]:
ss1 = df3.loc['zhangsan']
display(df3,ss1)

Unnamed: 0,语文,数学,英语,理综
lisi,149.0,206.0,240.0,233.0
tianqi,147.0,3.0,33.0,143.0
wangwu,188.0,193.0,179.0,140.0
zhangsan,121.0,93.0,137.0,168.0
zhaoliu,131.0,197.0,85.0,110.0


语文    121.0
数学     93.0
英语    137.0
理综    168.0
Name: zhangsan, dtype: float64

In [106]:
n3 = df3.add(ss1,axis=1)
n3

Unnamed: 0,语文,数学,英语,理综
lisi,270.0,299.0,377.0,401.0
tianqi,268.0,96.0,170.0,311.0
wangwu,309.0,286.0,316.0,308.0
zhangsan,242.0,186.0,274.0,336.0
zhaoliu,252.0,290.0,222.0,278.0
