`pandas` 读取 CSV 文件, 通常返回 `DataFrame`(二维) 对象或 `Series`(一维) 对象

```py
df = pd.read_csv('your_file.csv')
```

返回一个 `DataFrame` 对象, 该对象常见属性有
- `values` 数据的二维数组。 数据不包含列名
- `columns` 所有列名/列标签
- `index` 行标签 / 索引 的信息。 因为索引通常是连续的数字, 所以只给出信息, 想要查看具体值可调用其 `tolist()`
- `shape` 包含 (行数, 列数) 的元组
- `dtypes` 包含每列数据类型的 `Series` 对象
- `empty` 返回 `True` or `False`
- `T` 返回转置后的 df, 即行列互换

常见的方法有:
- `mean()` 返回 `Series` 对象, 值为每列的均值, 索引为 DataFrame 的列名
- `transpose()` 返回转置后的 df, 即行列互换
- `sample()` 随机获取数据集中的一部分样本, 
  - `frac` 参数指定了需要保留的样本比例
  - `n` 参数指定了需要保留的样本数量
  - `random_state` 随机种子

## 🍕 `pd.DataFrame()` 用于创建 pandas 的数据结构 `DataFrame`（数据帧）

DataFrame 是一个二维表格，可容纳不同类型的数据，并提供了各种方法来处理数据。

函数语法如下: 
```py
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```
其中参数含义为: 
- `data`: 数据输入，可以是各种形式，例如 ndarray、series、map、lists、dict 等等。
- `index`: 索引即行标签，长度必须和数据的行数相等，如果不指定，默认从 0 开始递增。
- `columns`: 数据列的名称，长度必须和数据的列数相等，如果不指定，默认从 0 开始递增。
- `dtype`: 指定数据类型，如果不指定，将自动推断数据类型。
- `copy`: 默认为 False，表示对原数据进行引用，如果为 True，则表示复制一份数据。

## 🍕 loc 和 iloc

`loc`: location. 通过标签来提取对应列。

`iloc`: integer location, 通过整数索引(行号,列号)来提取对应行列

他们都接收两个参数, 第一个参数用于指定行, 第二个参数用于指定列

直接通过 `[columns]` 方式, 是相当于 `loc[:, columns]`, 即直接索引时, `columns` 会被认为是列名

如果同时使用数字和字符串进行定位, 请使用 `loc` 而不是 `iloc`。

`loc` 和 `iloc` 都可以使用数字, 他们的区别在于, `loc` 中的"数字"是标签, 即索引值, 而 `iloc` 中的数字是行号,列号。具体请见下面这个例子:

In [1]:
import pandas as pd

# 将数组转换为数据框架
df = pd.DataFrame([i for i in range(10)]).sample(frac=1)
print(df.iloc[[1,2,3], :]) # 取前三行, 此时前三行的索引不一定是 1,2,3
print(df.loc[[1,2,3], :]) # 取三行, 指定他们的索引为 1,2,3

   0
9  9
0  0
6  6
   0
1  1
2  2
3  3


## 🍕 `pd.cut()` 将一组数据分成多个离散的区间(bin)

pandas 中的 `pd.cut()` 函数是用于将一组数据分成多个离散的区间（bin）的函数。它的作用类似于直方图，可以将连续变量离散化为多个区间，并且在每个区间内统计变量的频数。

pd.cut() 的语法如下: 

```py
pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, 
       include_lowest=False, duplicates='raise', rdered=True)
```
其中，主要参数包括: 

- `x`: 要离散化的数据，必选参数。
- `bins`: 指定划分区间的方式，可传入整数（表示将数据平均分成几个区间）、序列（表示每个区间的范围）或者 Pandas intervalIndex 对象。默认值为 `None`，表示让算法自动选择合适的区间。
- `right`: 是否将右端点设为闭区间。默认为 True，即所有区间都是左开右闭。
- `labels`: 指定离散化后每个区间的标签，可以传入一个列表或数组。
- `retbins`: 是否返回被使用的区间，如果设置为 True，则返回一个元组，第一个元素为离散化后的结果，第二个元素为被使用的区间。
- `precision`: 指定区间的精度，默认为 3，表示小数点后三位。
- `include_lowest`: 是否包含最小值所在的区间，默认为 False，即不包含。
- `duplicates`: 当指定的区间出现重叠时的处理方式，可选参数为 `'raise'`、`'drop'` 和 `'raise'`. 默认值为 `'raise'`.

`pd.cut()` 函数默认返回的是 `pandas.Categorical` 类型的对象，它表示每个元素属于哪个区间。Categorical 对象有很多方便的方法，例如 `value_counts()` 可以统计各个区间中的元素个数。

## 🍕 Series 常见统计函数

- `count()`：返回非缺失值元素的数量。
- `sum()`：返回所有元素的和。
- `mean()`：返回所有元素的平均值。
- `median()`：返回所有元素的中位数。
- `min()`：返回所有元素的最小值。
- `max()`：返回所有元素的最大值。
- `quantile(q)`：返回所有元素的第 q 分位数（0 ≤ q ≤ 1）。
- `var()`：返回所有元素的方差。
- `std()`：返回所有元素的标准差。
- `mad()`：返回所有元素的平均绝对偏差。
- `skew()`：返回所有元素的偏度。
- `kurtosis()`：返回所有元素的峰度。

- `value_counts()`：统计各个元素出现的次数
- `unique()`：返回 Series 中不同元素的值，以 NumPy 数组形式返回。
- `nunique()`：返回 Series 中不同元素的数量。
- `idxmin()` 和 `idxmax()`：返回 Series 最小（最大）值的索引标签。
- `mean()` 和 `median()`：分别返回 Series 的均值和中位数。
- `min()` 和 `max()`：返回 Series 的最小和最大值。
- `describe()`：返回 Series 基本的描述统计信息，包括 count、mean、std、min、25%、50%、75%、max 等。
- `cumsum()` 和 `cumprod()`：分别返回 Series 中元素累积求和和累积求积的结果。
- `sample()`：从 Series 中随机抽取指定数量的元素。
- `apply()`：对每个元素应用自定义函数，返回一个新的 Series。

# 案例

## 1. 使用 `loc` 快捷替换指定行指定列的内容

In [2]:
import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'c': [1],
    'score-1': [10.9],
    'score-2': [10.9],
    'score-3': [10.9],
    'score-4': [10.93],
    'score-5': [10.93],
    'Mean recall scores': [1]
})

print(df)


# 要替换的行和列
index = 0
columns =  [f'score-{i+1}' for i in range(5)]

# 要替换成的新值
scores = [9, 9, 9, 93, 93]
data = {'score-' + str(i+1): scores[i] for i in range(len(scores))}
new_row = pd.Series(data)

# 使用 loc 函数进行替换
df.loc[index, columns] = new_row


print(df)

   c  score-1  score-2  score-3  score-4  score-5  Mean recall scores
0  1     10.9     10.9     10.9    10.93    10.93                   1
   c  score-1  score-2  score-3  score-4  score-5  Mean recall scores
0  1      9.0      9.0      9.0     93.0     93.0                   1


## 2. 使用 `concat` 新增行数据

In [3]:
import pandas as pd
import random as rd

# 创建一个包含数值的数组
scores = [rd.randint(0,10) for i in range(len(scores))]
# 使用字典推导式创建字典
data = {'score-' + str(i+1): scores[i] for i in range(len(scores))}
row = pd.Series(data)

K = 5
o = ['C_parameter', 'Mean recall scores']
n = [f'score-{i}' for i in range(1, K+1)]
columns = o[:1] + n + o[1:]
df = pd.DataFrame(columns=columns)

# row.to_frame() 将 Series 转换为一个 DataFrame 对象
df = pd.concat([df, row.to_frame().T], ignore_index=True)
df.loc[0, 'C_parameter'] = 1
df.loc[0, 'Mean recall scores'] = 1

print(df)

scores = [rd.randint(0,10) for i in range(len(scores))]
data = {'score-' + str(i+1): scores[i] for i in range(len(scores))}
row = pd.Series(data)
df = pd.concat([df, row.to_frame().T], ignore_index=False)

print(df)

df.loc[1, 'C_parameter'] = 2
df.loc[1, 'Mean recall scores'] = 2

print(df)

scores = [rd.randint(0,10) for i in range(len(scores))]
data = {'score-' + str(i+1): scores[i] for i in range(len(scores))}
row = pd.Series(data)
df = pd.concat([df, row.to_frame().T], ignore_index=True)

print(df)

  C_parameter score-1 score-2 score-3 score-4 score-5 Mean recall scores
0           1       0       4       0      10       5                  1
  C_parameter score-1 score-2 score-3 score-4 score-5 Mean recall scores
0           1       0       4       0      10       5                  1
0         NaN       3       4       8       3       2                NaN
  C_parameter score-1 score-2 score-3 score-4 score-5 Mean recall scores
0           1       0       4       0      10       5                  1
0         NaN       3       4       8       3       2                NaN
1           2     NaN     NaN     NaN     NaN     NaN                  2
  C_parameter score-1 score-2 score-3 score-4 score-5 Mean recall scores
0           1       0       4       0      10       5                  1
1         NaN       3       4       8       3       2                NaN
2           2     NaN     NaN     NaN     NaN     NaN                  2
3         NaN       5      10       0       1      

##  获取 A 列的最大值所在行 B 列的值

In [4]:
import numpy as np
import pandas as pd

# 随机生成 5x5 数组
np.random.seed(42)
data = np.random.rand(5, 5)

# 将数组转换为数据框架
df = pd.DataFrame(data, columns=['A', 'B', 'C', 'D', 'E'])

# 显示数据框架
print(df)
print('')

# 方法1
i_max = df['A'].idxmax()
print(i_max)
maxA_B = df.loc[i_max, 'B']
print(maxA_B)
print('')

# 方法2
maxC = df['C'].max()
print(maxC)
row_with_max_c = df.loc[df['C'] == maxC]
print(row_with_max_c)
maxC_D = row_with_max_c.iloc[0]['D']
print(maxC_D)

          A         B         C         D         E
0  0.374540  0.950714  0.731994  0.598658  0.156019
1  0.155995  0.058084  0.866176  0.601115  0.708073
2  0.020584  0.969910  0.832443  0.212339  0.181825
3  0.183405  0.304242  0.524756  0.431945  0.291229
4  0.611853  0.139494  0.292145  0.366362  0.456070

4
0.13949386065204183

0.8661761457749352
          A         B         C         D         E
1  0.155995  0.058084  0.866176  0.601115  0.708073
0.6011150117432088


## pd.cut 案例

In [5]:
import pandas as pd
import numpy as np

# 随机生成一些数据
df = pd.DataFrame({"A": np.random.randint(0, 100, 10)})

# 定义区间范围
bins = [0, 20, 40, 60, 80, 100]

# 使用 pd.cut 进行区间划分
df["category"] = pd.cut(df["A"], bins)

# 打印结果
print(df)

    A  category
0  46  (40, 60]
1  61  (60, 80]
2  50  (40, 60]
3  54  (40, 60]
4  63  (60, 80]
5   2   (0, 20]
6  50  (40, 60]
7   6   (0, 20]
8  20   (0, 20]
9  72  (60, 80]


In [6]:
import pandas as pd
import numpy as np

# 随机生成一些数据
df = pd.DataFrame({"A": np.random.randint(-100, 100, 10)})

# 定义区间范围
bins = [-100, 0, 100]
labels = ['负数-', '正数+']

# 使用 pd.cut 进行区间划分
df["category"] = pd.cut(df["A"], bins=bins, labels=labels)

# 打印结果
print(df)

    A category
0  66      正数+
1 -83      负数-
2  31      正数+
3 -12      负数-
4 -41      负数-
5 -87      负数-
6 -92      负数-
7 -11      负数-
8 -48      负数-
9  29      正数+


将一个 DataFrame 中的 'LAT' 列中的数据按照一定范围分为不同的区间，并为每个区间分配一个标签。

In [7]:
import pandas as pd

# 构造示例 DataFrame
df = pd.DataFrame({'LAT': [40.7128, 37.7749, 51.5074, 35.6895, 52.5200]})

# 定义分割点和标签
bins = [-90, -60, -30, 0, 30, 60, 90]
labels = ['south pole', 'subpolar', 'temperate', 'subtropical', 'warm temperate', 'tropic']

# 使用 pd.cut 进行分段，并为每个区间分配相应的标签
df['LAT_zone'] = pd.cut(df['LAT'], bins=bins, labels=labels)

print(df)

       LAT        LAT_zone
0  40.7128  warm temperate
1  37.7749  warm temperate
2  51.5074  warm temperate
3  35.6895  warm temperate
4  52.5200  warm temperate


In [8]:
import pandas as pd
import numpy as np

# 生成随机经纬度数据
np.random.seed(42)
n = 1000 # 数据量设定为1000
LAT = np.random.uniform(low=-90, high=90, size=n)
df = pd.DataFrame({'LAT': LAT})

# 定义分割点和标签
bins_LAT = [-90, -60, -30, 0, 30, 60, 90]
labels_LAT = ['south pole', 'subpolar', 'temperate', 'subtropical', 'warm temperate', 'tropic']


# 使用 pd.cut 进行分段，并为每个区间分配相应的标签
df['LAT_zone'] = pd.cut(df['LAT'], bins=bins_LAT, labels=labels_LAT)

print(df.head())

         LAT        LAT_zone
0 -22.582779       temperate
1  81.128575          tropic
2  41.758910  warm temperate
3  17.758527     subtropical
4 -61.916645      south pole
