```python
pandas -- 用于处理包含列名的表格型和混杂型数据

安装
pip install pandas

导入
import pandas as pd
```

In [1]:
# 例1. DataFrame
import pandas as pd

# dict的key作为DataFrame的列名称. DataFrame的每一列都是Series
data = {
        'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
df = pd.DataFrame(data)
print(df)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64
state    Nevada
year       2001
pop         2.4
Name: 3, dtype: object
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9


In [6]:
# 例2.DataFrame与Series进行计算
import numpy as np
import pandas as pd

data = pd.DataFrame(np.arange(1, 13).reshape((4, 3)), columns=list('abc'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
ser = data.iloc[0]
print(data.sub(ser, axis='columns'))
ser2 = data['b']
print(data.sub(ser2, axis='index'))

        a  b  c
Utah    0  0  0
Ohio    3  3  3
Texas   6  6  6
Oregon  9  9  9
        a  b  c
Utah   -1  0  1
Ohio   -1  0  1
Texas  -1  0  1
Oregon -1  0  1


In [None]:
# 例3.DataFrame数据处理
import pandas as pd

# 第一步: 数据加载
# 读取数据: read_csv

# 第二步: 数据清洗(特殊值, 缺失数据, 重复行)
# 特殊值处理: replace
# 填充缺失数据: fillna
# 包含缺失数据行/列丢弃: dropna
# 重复行丢弃: drop_duplicates

# 第三步: 数据规整(合并, 重塑)
# 合并: 
#    join - 根据行索引进行列合并
#    merge - 根据列作为key进行列合并
#    concat - 沿行或列进行堆叠
# 重塑: 
#     stack - 将列索引转化为行索引. 默认操作多层索引最里层
#     unstack - 将行索引转化为列索引. 默认操作多层索引最里层
#     set_index - 使用列作为行索引
#     reset_index - 将行索引转化为列
#     swaplevel - 在指定轴上交换多层索引的两个层级
#     combine_first - 使用一个DataFrame上的值, 填充另一个DataFrame同位置的NaN值
#     pivot - 将列分配为index/columns/values, 改造形状            

# 第四步: 数据分组
#    groupby - 获取分组对象

In [52]:
import numpy as np
import pandas as pd

rng = np.random.default_rng()
dates = pd.date_range("20220919", periods=8, freq='D')
df = pd.DataFrame(rng.standard_normal((8, 6)), index=dates, columns=list('ABCDEF'))
df2 = df.copy()
df2["G"] = ["one", "two", "four", "three", "four", "one", "one", "two"]

print("列索引")
print(df['A'])
print()
print(df['A']['2022-09-20'])
print()

print("行切片")
print(df[1:4])
print()
print(df["2022-09-20":"2022-09-24"])
print()

print("label索引:")
print(df.loc["2022-09-21":"2022-09-23", 'A':'C'])
print()
print(df.loc["2022-09-22":"2022-09-26"])
print()

print("position索引")
print(df.iloc[0:3, 2:5])
print()
print(df.iloc[2:5])
print()

print("boolean索引")
print(df[df.index > "2022-09-23"])
print()
print(df[df['A'] > 0])
print()
print(df2[df2['G'].isin(["one", "three"])])

列索引
2022-09-19    0.372131
2022-09-20    1.337532
2022-09-21    1.583368
2022-09-22   -1.438956
2022-09-23    0.162667
2022-09-24   -1.304487
2022-09-25    1.925246
2022-09-26   -1.210647
Freq: D, Name: A, dtype: float64

1.3375323745310288

行切片
                   A         B         C         D         E         F
2022-09-20  1.337532 -0.656736 -1.470523  0.044882 -2.085506  0.735930
2022-09-21  1.583368  0.372595 -0.975597 -1.234598  0.954793 -2.343077
2022-09-22 -1.438956  0.423224 -0.058209 -0.355129  1.545825 -1.050317

                   A         B         C         D         E         F
2022-09-20  1.337532 -0.656736 -1.470523  0.044882 -2.085506  0.735930
2022-09-21  1.583368  0.372595 -0.975597 -1.234598  0.954793 -2.343077
2022-09-22 -1.438956  0.423224 -0.058209 -0.355129  1.545825 -1.050317
2022-09-23  0.162667 -0.011114 -0.275558  0.142912  0.021119  0.587614
2022-09-24 -1.304487 -0.034103  0.729494 -1.545746 -1.134140  0.664423

label索引:
                   A         B   

```python
pandas模块
date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=NoDefault.no_default, inclusive=None, **kwargs) --> DateTimeIndex
    生成日期序列. 参数列表如下:
        start - str/datetime-like类型, 日期的左边界
        end - str/datetime-like类型, 日期的右边界
        periods - int类型, 生成日期的个数
        freq - str/DateOffset类型, 日期的间隔时间. 可选列表:
            'T' - 分钟序列
            'H' - 小时序列
            'B' - 工作日序列
            'D' - 日序列
            'W' - 周序列
            'M' - 月末序列
            'MS' - 月初序列
            'SM' - 半月末序列(15日/月末)
            'Q' - 季度末序列
            'Y' - 年末序列
            'YS' - 年初序列
        tz - str/tzinfo类型, 时区 
        name - str类型, 返回DateTimeIndex的名称
        inclusive - str类型, 是否包含左右边界. 可选列表:
            "both" - 包含左右边界, 默认值
            "neither" - 不包含左右边界
            "left" - 只包含左边界
            "right" - 只包含右边界
            
            
read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, *args)
    从csv格式文件中读取内容. 参数列表如下:
        filepath_or_buffer - str/path/file-like类型, 读取的文件
        sep - str类型, 列之间的分隔符. 默认为','. 当大于一个字符并且不是'\s+'时, 自动使用regular expression进行解释
        delimiter - str格式, 与sep类似
        header - int/list of int/None类型, 作为列名称的行
        names - array_like类型, 指定列名称, 不能有重复项. 此时header应为None, 负责覆盖此选项
        index_col - int/str/list of int/list of str/False格式, 作为行索引的列
        usecols - list-like/callable格式, list-like代表只提取指定列内容, 可使用label或position; callable代表与列数量同等长度, 取对应True的列
        mangle_dupe_cols - bool格式, 是否将列名相同的列重命名为<col_name>, <col_name>.1, ..., <col_name>.N . 默认为True
        dtype - dtype/dict格式, 指定所有元素类型或列元素类型
        engine - str格式, 选择使用的读取转化引擎, 'c'/'pyarrow'速度更快, 'python'支持更完善. 列表: 'c'/'python'/'pyarrow'
```

```python
pandas.DataFrame类
__init__(data=None, index=None, columns=None, dtype=None, copy=None)
    构造DataFrame对象. 参数列表如下:
        data - ndarray/Iterable/dict/DataFrame类型, 初始化DataFrame的内容. data为DataFrame时, 不能指定index/columns参数
        index - Index/array-like类型, 行索引内容
        columns - Index/array-like类型, 列索引内容
        dtype - data type类型, 指定所有内容的数据格式
        copy - bool类型, 对于data为dict时, 默认copy=True; 对于data为ndarray/DataFrame时, 默认copy=False


pandas.DataFrame
corr(method='pearson', min_periods=1, numeric_only=_NoDefault.no_default)
    列之间的相关性. 参数列表如下:
        method - str/callable类型, 列表如下:
            'pearson' - 皮尔森相关系数, 标准相关系数
            'kendall' - 肯德尔秩相关系数
            'spearman' - 斯皮尔曼秩相关系数
            callable - 除了对角线为1, 其他位置为callable返回元素
            ** 相关系数详情参考cell below
        min_periods - int类型, 计算相关系数时观测次数. 当前只能用于pearson/spearman系数
        numric_only - bool类型, 是否只包含float/int/bool能用于计算的列


drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
    丢弃指定行或列. 参数列表如下:
        labels - label或list-like类型, 指定行/列的label名称而非索引
        axis - int或str类型, 列表如下:
            0/'index' - 代表行label
            1/'columns' - 代表列label
        index - label或list-like类型, 使用行的label名称. 等于(labels, axis=0)
        columns - label或list-like类型, 使用列的label名称. 等于(label, axis=1)
        level - int或str类型, 指定多层索引中的指定层级
        inplace - bool类型, 是否为in-place操作
        errors - str格式, 处理异常的方式. 列表如下:
            'ignore' - 不输出error信息, 直接退出
            'raise' - 输出错误信息


drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
    丢弃重复行. 参数列表如下:
        subset - column label/seqence of label类型, 只参考指定列, 测定是否重复. 默认参考全部列
        keep - str/bool格式, 重复行标记类型. 参数列表如下:
            'first' - 除第一个出现, 其他重复出现的标记为重复行
            'last' - 除最后一个出现, 其他出现的标记为重复行
            False - 所有重复的都标记为重复行
        inplace - bool格式, 结果为拷贝或inplace
        ignore_index - bool格式, 是否重置行索引, 结果为0, 1, ..., n-1


dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
    移除missing值. 参数列表如下:
        axis - int或str格式, 列表如下:
            0/'index' - 移除包含nan值的行
            1/'columns' - 移除包含nan值的列
        how - str格式, 移除missing值的方式. 列表如下:
            'any' - 该行/列包含一个或以上nan值就进行移除
            'all' - 该行/列必须所有内容为nan才进行移除
        thresh - int格式, 行/列必须有指定个非nan值才保留. 不能与how一起使用
        subset - label/sequence of labels格式, 从另一个轴的指定label是否包含nan, 确定是否删除当前轴的内容
        inplace - bool格式, 是否为in-place操作

        
fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
    填充nan值. 参数列表如下:
        value - scalar/dict/Series/DataFrame类型, 填充的值
        method - str类型, 填充的方式. 参数列表:
            'backfill'/'bfill' - 使用后续行(列)的值向之前行(列)填充
            'pad'/'ffill' - 使用之前行(列)的值向后续行(列)填充
        axis - int/str类型, 在指定轴上填充. 列表如下:
            0/'index' - 沿着行索引(列)方向填充
            1/'columns' - 沿着列索引(行)方向填充
        inplace - bool类型, 是否为in-place操作
        limit - int类型, 配合method, 限制连续向之前/向后续行填充的行数

            
info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None, null_counts=None)
    DataFrame的汇总信息. 参数列表如下:
        verbose - bool格式, 是否显示列的信息信息. 默认为True
        buf - writable buffer格式, 用于输出内容. 默认为sys.stdout
        max_cols - int格式, info信息最大支持列数
        memory_usage - bool/str格式, 是否显示内存用例, str格式可指定显示用例格式. str列表如下:
            'deep' - 更精确内存用例, 包含'object'类型的列(True不包含'object'类型列)
        show_counts - bool格式, 是否显示non-null计数列 


memory_usage(index=True, deep=False)
    显示内存用例. 参数列表如下:
        index - bool类型, 是否显示索引列的用例
        deep - bool类型, 是否统计'object'格式列的用例


replace(to_replace=None, value=_NoDefault.no_default, inplace=False, limit=None, regex=False, method=_NoDefault.no_default)
    替换DataFrame中的值. 参数列表如下:
        to_replace - int/float/str/regex/list/dict/Series格式, 将要被替换的值. 参数列表如下:
            int/float/str/regex - 指定某个将要被替换的值
            list - item为int/float/str/regex, 指定一系列要被替换的值
            dict - 指定替换映射, key为被替换内容, val为替换后内容. 此时value参数必须为None
            Series - 指定替换映射, index为被替换内容, val为替换后内容. 此时value参数必须为None
        value - int/float/str/regex/list/dict格式, 替换后的内容. 参数列表如下:
            int/float/str/regex - 指定替换后的值
            list - item为int/float/str/regex, 指定一系列替换后的值. 并且与to_replace参数的list长度一致
            dict - 将key指定列的值替换为val
        inplace - bool格式, 结果为拷贝或者inplace
        limit - int格式, 限制连续向之前/向后续行填充的行数
        regex - bool格式, to_replace和value是否使用regular expression
        method - str格式, 当value为None时, 沿行索引(列)方向的填充方式. 列表如下:
            'bfill' - 使用后续行的值向之前行填充
            'pad'/'ffill' - 使用之前行的值向后续行填充


sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None) --> DataFrame/None
    根据label进行排序. 参数列表如下:
        axis - int/str类型, 根据指定轴进行排序. 列表如下:
            0/'index' - 沿着行方向进行排序
            1/'columns' - 沿着列方向进行排序
        level - int/str/list of ints/list of str类型, 根据单/多层进行排序
        ascending - bool/list of bools类型, 是否根据升序进行排序
        inplace - bool类型, 是否in-place排序
        kind - str类型, 排序使用的算法, 只有单层排序可使用. 列表如下:
            'quicksort' - 快速排序, 默认选项
            'mergesort' - 归并排序
            'heapsort' - 堆排序
        sort_remaining - bool类型, 当为True并且为多层排序时, 排序后继续对未排序的层进行排序
        ignore_index - bool类型, 是否将行索引label替换为0,1,...,n-1的格式, 应用于axis为0时


sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None) --> DataFrame/None
    根据行/列的值进行排序. 参数列表如下:
        by - str/list of str类型, 根据行/列label进行排序
        axis - int/str类型, 沿着列或行的值进行排序. 列表如下:
            0/'index' - 沿着行(指定列label)进行排序
            1/'columns' - 沿着列(指定行label)进行排序
        ascending - bool/list of bool类型, 是否按升序进行排序
        inplace - bool类型, 是否执行in-place排序
        kind - str格式, 排序算法. 列表如下:
            'quicksort' - 快速排序, 默认选项
            'mergesort' - 归并排序
            'heapsort' - 堆排序
        ignore_index - bool类型, 是否将索引lable替换为0,1,...,n-1的格式
        
        
to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', lineterminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)
    将内容写入到文件. 参数列表如下:
        path_or_buf - str/path/file-like类型, 保存的文件
        sep - str类型, 指定在文件中的字段分隔符
        na_rep - str类型, 指定在文件中的丢失值的字符串表现形式
        float_format - str/callable类型, 指定浮点数的保存格式, 类似于printf
        columns - sequence类型, 需要写入文件的列
        header - bool/list of str类型, bool代表是否写入已有列名称; list指定原列名称的alias, 长度必须与列数相同
        index - bool类型, 是否写入行名称
```

```python
pandas.Series类
__init__(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
    构造Series对象. 参数列表如下:
        data - array-like/Iterable/dict/scalar类型, Series中的元素
        index - array-like/Index类型, 索引元素. 默认为RangeIndex(0,1,...,n)
        dtype - data type类型, 元素的类型
        name - str类型, Series的名称
        copy - bool类型, 是否对输入数据进行复制操作, 只对输入数据为Series和ndarray时有效


isin(values) --> Series
    Series的元素是否在指定集合中. 参数如下:
        values - set/list-like类型, 元素是否在values中
        

value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
    对不同值进行计数. 参数列表如下:
        normalize - bool类型, 结果以k/(sum(k))的概率形式出现
        sort - bool类型, 是否对结果进行排序
        ascending - bool类型, 排序结果为升/降序
        bins - int类型, 只对numeric value有效, 将值划分为bins份等宽区间进行计数
        dropna - bool类型, 是否不对nan值进行计数


where(cond, other=_NoDefault.no_default, inplace=False, axis=None, level=None, errors=_NoDefault.no_default, try_cast=_NoDefault.no_default)
    替换cond为False的值. 参数列表如下:
        cond - Series/DataFrame/array-like/callable格式, 判定元素是否满足指定条件, 条件为True时, 元素内容不变; 条件为False时, 使用other值替换
        other - scalar/Series/DataFrame/callable格式, 当cond参数为False时, 使用该值替换内容
        inplace - bool格式, 是否进行in-place替换
        axis - int格式, 沿指定轴进行对齐, Series不适用该参数
        level - int格式, 沿指定索引层级对齐
```

#### 皮尔森相关系数
$$r=\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}$$

<br />
<br />

#### 肯德尔秩相关系数
1.$\quad x_i > x_j \quad y_i > y_j$  
2.$\quad x_i < x_j \quad y_i < y_j$  
上述两种情况, 属于一致; 其中情况属于不一致
$$\displaystyle\tau=\frac{C-D}{\frac{1}{2}n(n-1)}$$
其中, $C$为一致的对数, $D$为不一致的对数, $C+D=\frac{1}{2}n(n-1)$

<br />
<br />

#### 斯皮尔曼秩相关系数
$$\displaystyle\rho=1-\frac{6\displaystyle\sum_{i=1}^nd_i^2}{n(n^2-1)}$$
其中, $\ d_i=x_i-y_i$, $x_i$为升序排名,$\ \ y_i$为对应的排名        

In [51]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df.drop_duplicates(subset=['brand', 'style'], keep='last', ignore_index=True)

Unnamed: 0,brand,style,rating
0,Yum Yum,cup,4.0
1,Indomie,cup,3.5
2,Indomie,pack,5.0


```
引用:
[1]official website:
    https://pandas.pydata.org/

[2]python for data analysis:
    https://seancheney.gitbook.io/python-for-data-analysis-2nd/
```