#### Series

In [1]:
from pandas import Series
Series(data=[1, 2, 3, 'four'])

0       1
1       2
2       3
3    four
dtype: object

In [4]:
import numpy as np
Series(data=np.random.randint(0, 100, size=(3)))

0    89
1    31
2    95
dtype: int32

In [5]:
s = Series(data=[1, 2, 3, 'four'], index=['a', 'b', 'c', 'd'])
s

a       1
b       2
c       3
d    four
dtype: object

In [9]:
dic = {
    '语文':100,
    '数学':99,
    '英语':98,
    '理综':250
}
s = Series(data=dic)
s

语文    100
数学     99
英语     98
理综    250
dtype: int64

In [None]:
#s.iloc[1] # 通过位置索引访问
#s.语文 # 通过标签索引访问
s.loc['语文':'理综'] # 通过标签索引访问

语文    100
数学     99
英语     98
理综    250
dtype: int64

- 常用属性

In [25]:
s.shape
s.size
s.index
s.values
s.dtype

dtype('int64')

In [None]:
s = Series(data=[1, 2, 3, 'four'], index=['a', 'b', 'c', 'd'])
s.dtype # 数据类型O表示的是Object(字符串类型)

dtype('O')

- 常用方法

In [None]:
s = Series(data=np.random.randint(60, 100, size=(10, )))
s.head(3) # 查看前3行数据
s.tail(3) # 查看后3行数据

7    97
8    86
9    61
dtype: int32

In [None]:
s.unique() # 去重

array([80, 96, 69, 81, 63, 97, 86, 61])

In [None]:
s.isnull() # 判断是否为空

In [None]:
s.notnull() # 判断是否不为空

- 算术运算
    - 法则：索引一致的元素进行算术运算，否则补空

In [None]:
s1 = Series(data=[1, 2, 3], index=['a', 'b', 'c'])
s2 = Series(data=[4, 5, 6], index=['b', 'c', 'd'])
s = s1 + s2 # 索引一致的元素进行算术运算，否则补空
s

In [35]:
s.isnull() # 判断是否为缺失值

a     True
b    False
c    False
d     True
dtype: bool

#### DataFrame
- DataFrame设计初衷是为了将Series的使用场景从一维扩展到多维。DataFrame既有行索引，也有列索引，类似于数据库的表
  - 行索引：index
  - 列索引：colums
  - 值：values

- DataFrame的创建
  - ndarray创建
  - 字典创建

In [36]:
from pandas import DataFrame

In [38]:
df = DataFrame(data=[[1, 2, 3], [4, 5, 6]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [None]:
df = DataFrame(data=np.random.randint(0, 100, size=(6, 5)))
df

Unnamed: 0,0,1,2,3,4
0,65,14,69,86,84
1,62,84,99,32,82
2,87,66,54,23,90
3,33,85,36,64,39
4,36,47,71,29,36
5,56,52,19,38,69


In [None]:
dic = {
    'name':['张三', '李四', '王五'],
    'age':[18, 19, 20],
    'salary':[10000, 20000, 30000]
}
df = DataFrame(data=dic)
df
# 字典的key作为列索引，value作为列数据

Unnamed: 0,name,age,salary
0,张三,18,10000
1,李四,19,20000
2,王五,20,30000


- 属性

In [46]:
df.values
df.columns # 列索引
df.index # 行索引
df.shape # 形状
df.size # 元素个数
df.dtypes # 每一列的数据类型

name      object
age        int64
salary     int64
dtype: object

In [49]:
dic = {
    '张三':[150, 150, 150, 150],
    '李四': [0, 0, 0, 0]
}
df = DataFrame(data=dic, index=['语文', '数学', '英语', '理综'])
df

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,150,0


- 索引操作
  - 对行进行索引
  - 对列进行索引
  - 对元素进行索引

In [50]:
df = DataFrame(data=np.random.randint(60, 100, size=(8, 4)), columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
0,95,63,73,77
1,86,65,86,60
2,92,99,64,94
3,71,73,64,77
4,70,63,84,85
5,82,91,77,81
6,88,95,74,89
7,97,79,92,92


In [None]:
df['a'] # 通过列名索引访问

- iloc:
  - 通过隐式索引取行
- loc
  - 通过显式索引取行

In [56]:
df.iloc[0] # 取单行
df.loc[0]

a    95
b    63
c    73
d    77
Name: 0, dtype: int32

In [58]:
df.iloc[0, 3] # 左行右列

77

In [None]:
df.iloc[0, 2] # 通过隐式索引取行
df.loc[0, 'a'] # 通过显式索引取行

95

In [62]:
df.iloc[[1, 3, 5], 2]

1    86
3    64
5    77
Name: c, dtype: int32

- 切片
  - 对行
  - 对列

In [None]:
df[0: 2] # 切片取行

Unnamed: 0,a,b,c,d
0,95,63,73,77
1,86,65,86,60


In [None]:
df.iloc[:, 0: 2] # 切片取列

Unnamed: 0,a,b
0,95,63
1,86,65
2,92,99
3,71,73
4,70,63
5,82,91
6,88,95
7,97,79


In [65]:
df.loc[:, 'a':'c'] # 通过标签索引切片取列

Unnamed: 0,a,b,c
0,95,63,73
1,86,65,86
2,92,99,64
3,71,73,64
4,70,63,84
5,82,91,77
6,88,95,74
7,97,79,92


- df索引，切片
  - 索引：
    - df[col]:取列
    - df.loc[index]:取行
    - df.iloc[index, col]:取元素
  - 切片
    - df[index: index]:切行
    - df.iloc[:, col1: col2]:切列

- 运算同Series