In [4]:
# 导包
import pandas as pd
import numpy as np

# 数据结构
## series (一维)

### 创建方式一： list参数

In [5]:
ser1 = pd.Series([1, 2, 3, 4, 5])
ser1

0    1
1    2
2    3
3    4
4    5
dtype: int64

### 创建方式二： dist参数，指定了index

In [6]:
ser2 = pd.Series({'red': 1, 'blue': 2, 'green': 3})
ser2

red      1
blue     2
green    3
dtype: int64

### 创建方式三： numpy array创建

In [8]:
ser3 = pd.Series(np.array([1, 2, 3, 4]))
ser3

0    1
1    2
2    3
3    4
dtype: int64

### 创建方式四： numpy arange创建

In [10]:
ser4 = pd.Series(np.arange(1, 5))
ser4

0    1
1    2
2    3
3    4
dtype: int64

### 创建方式五： 快捷创建
- np.random.rand 随机0～1
- np.random.randint 随机int范围
- np.random.uniform 平均分布
- np.random.randn or np.random.normal 正态分布
- np.zeros() or np.zeros_like() 全零
- np.ones() or np.ones_like() 全一

#### np.random.rand(row, column) 创建[0, 1), row行，column列 

In [17]:
np.random.rand(3, 2)

array([[0.61106413, 0.46546788],
       [0.10536486, 0.64774149],
       [0.96685255, 0.51267735]])

#### np.random.randint(min, max, (row, column)) 创建[min,max), row行，column列 

In [19]:
np.random.randint(1, 3, (3, 4))

array([[2, 2, 1, 1],
       [2, 2, 1, 2],
       [2, 1, 1, 1]])

#### np.random.uniform(min, max, (row, column)) 平均分布，创建[min,max), row行，column列 

In [21]:
np.random.uniform(-1, 0, (3, 4))

array([[-0.24273708, -0.63224145, -0.62382778, -0.83854481],
       [-0.50224326, -0.93204154, -0.39393944, -0.64932551],
       [-0.05484918, -0.17801213, -0.4060183 , -0.72913198]])

#### np.random.normal(center, scale, (row, column)) 正态分布 创建center为中心，差值scale, row行，column列 

In [23]:
np.random.normal(3, 1, size=(2, 4))

array([[4.04904234, 2.83087329, 2.5592104 , 4.04759017],
       [3.35438897, 4.48931827, 4.85784192, 2.59238664]])

#### np.zeros((row, col)) 创建全零 row行，column列 

In [25]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

#### np.ones((row, col)) 创建全一 row行，column列 

In [26]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

### 属性
- index 获取所有索引
    - at 根据索引值获取 等同于 loc
    - iat 根据索引获取 等同于 iloc
- values 获取所有值
- shape 形状
- size 元素数量
- dtype 元素数据类型

In [5]:
ser2.index

Index(['red', 'blue', 'green'], dtype='object')

In [36]:
ser2.at['red']

1

In [37]:
ser2.loc['red']

1

In [38]:
ser2.iat[0]

1

In [39]:
ser2.iloc[0]

1

In [6]:
ser2.values

array([1, 2, 3])

In [30]:
ser2.dtype

dtype('int64')

In [31]:
ser2.shape

(3,)

In [32]:
ser2.size

3

## DataFrame（二维）

### 创建 data 数据值

In [40]:
list_data = [[1, 2, 3, 4], [1, 2, 3, 4]]
pd.DataFrame(list_data)

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,1,2,3,4


In [42]:
dist_data = {'col_1':[1,2,3,4],'col_2':[1,2,3,4]}
pd.DataFrame(dist_data)

Unnamed: 0,col_1,col_2
0,1,1
1,2,2
2,3,3
3,4,4


### 创建 指定行名、列名 index，columns

In [43]:
# data : 40~100 分数之间， 10行5列数据
score = np.random.randint(40, 100, (10, 5))

# index : 对应上面说数据函数（每行代表一个学生呢）
index = [f'学生{value}' for value in range(score.shape[0])]

# columns : 固定语数外史地
columns = ['语文', '数学', '英语', '历史', '地理']

# 创建DataFrame
df = pd.DataFrame(score, index, columns)
df

Unnamed: 0,语文,数学,英语,历史,地理
学生0,70,47,95,95,56
学生1,72,86,90,97,74
学生2,45,62,59,51,54
学生3,81,68,41,86,62
学生4,78,91,56,71,84
学生5,60,93,63,97,97
学生6,83,45,93,96,60
学生7,83,41,73,61,89
学生8,96,97,53,48,42
学生9,71,58,46,54,47


### 属性

In [44]:
# 形状
df.shape

(10, 5)

In [45]:
# row
df.index

Index(['学生0', '学生1', '学生2', '学生3', '学生4', '学生5', '学生6', '学生7', '学生8', '学生9'], dtype='object')

In [46]:
# colunms
df.columns

Index(['语文', '数学', '英语', '历史', '地理'], dtype='object')

In [47]:
# data
df.values

array([[70, 47, 95, 95, 56],
       [72, 86, 90, 97, 74],
       [45, 62, 59, 51, 54],
       [81, 68, 41, 86, 62],
       [78, 91, 56, 71, 84],
       [60, 93, 63, 97, 97],
       [83, 45, 93, 96, 60],
       [83, 41, 73, 61, 89],
       [96, 97, 53, 48, 42],
       [71, 58, 46, 54, 47]])

In [49]:
# 转置
df.T

Unnamed: 0,学生0,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9
语文,70,72,45,81,78,60,83,83,96,71
数学,47,86,62,68,91,93,45,41,97,58
英语,95,90,59,41,56,63,93,73,53,46
历史,95,97,51,86,71,97,96,61,48,54
地理,56,74,54,62,84,97,60,89,42,47


In [51]:
# 每列的数据类型
df.dtypes

语文    int64
数学    int64
英语    int64
历史    int64
地理    int64
dtype: object

In [55]:
df

Unnamed: 0,语文,数学,英语,历史,地理
学生0,70,47,95,95,56
学生1,72,86,90,97,74
学生2,45,62,59,51,54
学生3,81,68,41,86,62
学生4,78,91,56,71,84
学生5,60,93,63,97,97
学生6,83,45,93,96,60
学生7,83,41,73,61,89
学生8,96,97,53,48,42
学生9,71,58,46,54,47


In [57]:
# 根据索引值，获取某个具体位置的值，df.at[row, col]
df.at['学生0', '语文']

70

In [62]:
# 根据索引，获取值 df.iat[row, col]
df.iat[0, 0]

70

In [71]:
# 获取指定范围值
df.loc[['学生0', '学生1'],['语文','数学']]

Unnamed: 0,语文,数学
学生0,70,47
学生1,72,86


In [69]:
# 根据索引值，获取一行数据
df.loc['学生0']

70

In [68]:
# 获取一列数据
df['语文']

学生0    70
学生1    72
学生2    45
学生3    81
学生4    78
学生5    60
学生6    83
学生7    83
学生8    96
学生9    71
Name: 语文, dtype: int64

In [72]:
# 获取指定范围的值
df.iloc[[0,1,2], [0,1,2]]

Unnamed: 0,语文,数学,英语
学生0,70,47,95
学生1,72,86,90
学生2,45,62,59


In [75]:
# 获取指定范围的值
df.iloc[:3, :3]

Unnamed: 0,语文,数学,英语
学生0,70,47,95
学生1,72,86,90
学生2,45,62,59
