## 🍕 划分数据

In [None]:
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
labels = np.array([0, 0, 1, 1, 1])

train_data, test_data = np.split(data, [int(0.8 * len(data))])
train_labels, test_labels = np.split(labels, [int(0.8 * len(labels))])
print(train_data, test_data)
print(train_labels, test_labels)

## 🍕 数值的区间映射/离散化

In [8]:
import numpy as np

bins = [15, 16, 22, 25]
labels = [110.6, 110.7, 110.8]

x = 18
y = labels[np.digitize(x, bins) -1]

print(y)

110.7


In [9]:
import bisect

bins = [15, 16, 22, 25]
labels = [110.6, 110.7, 110.8]

x = 18
y = labels[bisect.bisect_left(bins, x) -1]

print(y)

110.7


## 🍕 set 合并

In [30]:
a = set([1, 2])
b = set([3, 4])
c = set([5])
a = list(a)
b = list(b)
c = list(c)
set(a+b+c)

{1, 2, 3, 4, 5}

In [31]:
a = set([1, 2])
b = set([3, 4])
c = set([5])
set(a).union(set(b), set(c))

{1, 2, 3, 4, 5}

In [32]:
a = set([1, 2])
b = set([3, 4])
c = set([5])
set().union(*[a, b, c])

{1, 2, 3, 4, 5}

In [33]:
a = set([1, 2])
b = set([3, 4])
c = set([5])
result_set = set()
result_set.update(a)
result_set.update(b)
result_set.update(c)
result_set

{1, 2, 3, 4, 5}

In [34]:
a = set([1, 2])
b = set([3, 4])
c = set([5])
{x for s in [a, b, c] for x in s}

{1, 2, 3, 4, 5}

In [35]:
a = set([1, 2])
b = set([3, 4])
c = set([5])
set([*a, *b, *c])

{1, 2, 3, 4, 5}

In [36]:
import itertools
a = set([1, 2])
b = set([3, 4])
c = set([5])
set(itertools.chain(a, b, c))

{1, 2, 3, 4, 5}

## 🍕 判断是否包含 x

In [56]:
a = set([1, 2, 3])
b = set([1])
a = list(a)
b = list(b)[0]
if b in a:
    print('1')

1


In [38]:
a = set([1, 2, 3])
b = set([1])

if set(a) & set(b):
    print('1')

1


In [39]:
a = set([1, 2, 3])
b = set([1])

if set(b).issubset(set(a)):
    print('1')

1


In [40]:
a = set([1, 2, 3])
b = set([1])

if all(elem in a for elem in b):
    print('1')

1


## 🍕 筛选 df

### 1. 借助 query 函数

```py
TF_data = TF_ALL.query('15 <= LAT <= 25 and 100 <= LONG <= 126')
```

### 2. 链式操作

```py
TF_data = TF_ALL[(TF_ALL['LAT'] <= 25) & (TF_ALL['LAT'] >= 15) & (TF_ALL['LONG'] <= 126) & (TF_ALL['LONG'] >= 100)]
```

### 3. 借助 between

```py
TF_data = TF_ALL[TF_ALL['LAT'].between(15, 25) & TF_ALL['LONG'].between(100, 126)]
```

### 4. 利用 loc 

```py
TF_data = TF_ALL.loc[(TF_ALL['LAT'] <= 25) & (TF_ALL['LAT'] >= 15) & (TF_ALL['LONG'] <= 126) & (TF_ALL['LONG'] >= 100)]
```

### 5. 

```py
TF_data = TF_ALL
TF_data = TF_data[TF_data['LAT'] <= 25]
TF_data = TF_data[TF_data['LAT'] >= 15]
TF_data = TF_data[TF_data['LONG'] <= 126]
TF_data = TF_data[TF_data['LONG'] >= 100]
```

## 🍕 求差集

### 1. 使用列表推导式

In [41]:
a = [2, 3, 6]
b = [i for i in range(1,10) if i not in a]
print(b)

[1, 4, 5, 7, 8, 9]


### 2. 使用 set 集合

In [42]:
a = [2, 3, 6]
b = list(set(range(1,10)) - set(a))
print(b)

[1, 4, 5, 7, 8, 9]


### 3. 使用 lambda

In [43]:
a = [2, 3, 6]
b = list(filter(lambda x: x not in a, range(1,10)))
print(b)

[1, 4, 5, 7, 8, 9]


## 🍕 df 分组, 然后赋值

### 1. 直接使用循环

```py
for i in range(len(df)):
    if df['LAT'][i] >= 5 and df['LAT'][i] < 16:
        df.loc[i, 'beta'] = 110.6
    elif df['LAT'][i] >= 16 and df['LAT'][i] < 22:
        df.loc[i, 'beta'] = 110.7
    elif df['LAT'][i] >= 22 and df['LAT'][i] < 29:
        df.loc[i, 'beta'] = 110.8
    else:
        df.loc[i, 'beta'] = 110.5
```

### 2. 使用pandas的apply函数和lambda表达式

```py
import pandas as pd

def get_beta(lat):
    if lat >= 5 and lat < 16:
        return 110.6
    elif lat >= 16 and lat < 22:
        return 110.7
    elif lat >= 22 and lat < 29:
        return 110.8
    else:
        return 110.5

df['beta'] = df['LAT'].apply(lambda x: get_beta(x))
```
我们定义了一个名为get_beta的函数，并利用lambda表达式将其应用到df['LAT']这一列上。get_beta函数负责计算每个值对应的beta值，并返回该值。然后，我们将结果赋给df['beta']这一列。由于apply函数会在整个列向量化处理，因此它比循环更快，更Pythonic。

### 3. 使用 numpy

```py
import numpy as np

lat = df['LAT'].values
beta = np.ones_like(lat) * 110.5
beta[(lat >= 5) & (lat < 16)] = 110.6
beta[(lat >= 16) & (lat < 22)] = 110.7
beta[(lat >= 22) & (lat < 29)] = 110.8

df['beta'] = beta
```
我们首先将df['LAT']列转换为numpy数组。然后，我们创建一个与lat大小相同的全1数组，并将其乘以110.5作为初始值。接着，我们利用numpy的布尔索引和切片语法，根据不同条件分别为beta数组的相应位置赋值。最后，我们将结果赋给df['beta']列。

### 4. 使用pandas的cut函数

```py
bins = [0, 5, 16, 22, 29, np.inf]
labels = [110.5, 110.6, 110.7, 110.8, 110.5]
df['beta'] = pd.cut(df['LAT'], bins=bins, labels=labels, ordered=False)
```
我们首先定义了一个离散化的区间bins和对应的标签labels。然后，我们使用pandas的cut函数，将df['LAT']列离散化并标记相应的标签。最后，我们将结果赋给df['beta']列。

因为 labels 中出现了重复的值, 所以需要传递 ordered=False 来允许重复值。

## 🍕 求 df 某列中值为 0 的数量

### 1. 利用 len 函数

```py
len(df[df['a'] == 0])
```

### 2. 利用 sum 函数

```py
(df['a'] == 0).sum()
```

### 3. 利用 value_counts 函数

```py
counts = model_data['gridID'].value_counts()
counts.loc[counts.index == 0].sum()
```

注意使用的是 `loc` 而不是 `[]`, 因为是基于 **索引标签** 进行定位, 而不是基于位置

## 🍕 对有缺失值的 series 进行填充

In [44]:
import pandas as pd
import numpy as np

### 1. 利用 series 的 reindex 函数

In [45]:
# 创建Series对象
s = pd.Series([1, 3]).value_counts()
print(s)

# 按索引对Series对象进行重排，并将空值填充为0
s = s.reindex(range(0,6), fill_value=0)
print(s)

# 将Series对象转换为列表并赋值给数组
arr = s.tolist()

print(arr)

1    1
3    1
dtype: int64
0    0
1    1
2    0
3    1
4    0
5    0
dtype: int64
[0, 1, 0, 1, 0, 0]


### 2. 直接赋值

In [46]:
s = pd.Series([1, 3], index=[1, 3])

# 创建全零数组，长度为5
arr = np.zeros(5)

# 将Series对象赋值给数组对应索引位置
arr[s.index] = s.values

print(arr)

[0. 1. 0. 3. 0.]


### 3. 利用 df 作为中间处理值

In [47]:
# 创建Series对象
s = pd.Series([1, 3], index=[1, 3])

# 创建一个空的DataFrame
df = pd.DataFrame(columns=['col'], index=range(0,6))

# 将Series对象赋值给DataFrame对应索引位置
df.loc[s.index, 'col'] = s.values

# 将DataFrame转换为列表并赋值给数组
arr = df['col'].fillna(0).tolist()

print(arr)

[0, 1, 0, 3, 0, 0]


### 4. 利用字典

In [48]:
# 创建Series对象
s = pd.Series([1, 3], index=[1, 3])

# 将Series对象转换为字典，并且将所有没有对应索引位置的值置为0
d = s.to_dict()
print(d)
d.update({i: 0 for i in range(0, 6) if i not in d})
print(d)

# 列表解析式，按索引位置填充值
arr = [d[i] for i in range(0, 6)]

print(arr)

{1: 1, 3: 3}
{1: 1, 3: 3, 0: 0, 2: 0, 4: 0, 5: 0}
[0, 1, 0, 3, 0, 0]


### 5. 利用列表解析式

In [49]:
# 创建Series对象
s = pd.Series([1, 3], index=[1, 3])

# 列表解析式，按索引位置填充值
arr = [s[i] if i in s.index else 0 for i in range(0, 6)]

print(arr)

[0, 1, 0, 3, 0, 0]


### 6. 利用 put 函数

In [50]:
# 创建Series对象
s = pd.Series([1, 3], index=[1, 3])

# 创建全零数组，长度为5
arr = np.zeros(5)

# 将Series对象赋值给数组对应索引位置
np.put(arr, list(s.index), s.values)

print(arr)

[0. 1. 0. 3. 0.]


### 7. 最简单

In [51]:
# 创建Series对象
s = pd.Series([1, 3], index=[1, 3])

# 创建一个长度为5的数组
arr = [0] * 5

# 将Series对象按索引依次填充到数组中
for i in s.index:
    arr[i] = s[i]

print(arr)

[0, 1, 0, 3, 0]
