# panads

https://pandas.pydata.org

In [None]:
import sys
sys.executable

In [None]:
import numpy as np
import pandas as pd

import re

%matplotlib inline

In [None]:
data = 'https://www.gairuo.com/file/data/dataset/GDP-China.csv'
ppd = pd.read_csv(data, header=0).head(5)
pdw = pd.DataFrame(pd.read_csv(data, header=0))

## 数据结构

### [Series](https://pandas.pydata.org/docs/reference/series.html)
Series是一个一维标记数组。可以容纳任何数据类型。它类似于DataFrame中的列。序列中的每个元素都被分配了一个称为索引的标签。索引可以是数字索引，也可以是字符串索引。您可以从列表、元组或字典中创建序列。
- 元素可以有不同的数据类型，包括数字、字符串和布尔值。
- 元素由索引标识，该索引可以是数字索引(隐式索引)，也可以是字符串索引(显式索引)。如果没指定显式索引则使用隐式索引。
- 可以使用索引标签对序列进行索引和切片。
- 序列可以用于数学运算和数据操作。

In [None]:
from pandas import Series

#### 生成series对象

In [None]:
# 列表数据生成series对象时创建显示索引
Series(["tom", "lucy", "jack", "mery"], index=["key1", "key2", "key3", "key4"])

In [None]:
# 字段数据生成series对象会吧key当作显示索引
Series({"key1": "tom", "key2": "lucy", "key3": "jack", "key4": "mery", })

In [None]:
# 问题点：如果我定义dict数据是，我想定义其他的索引名称，应该如何设置？答案显然：index优先级高于字典键值对
Series(data={"key1": "tom", "key2": "lucy", "key3": "jack", "key4": "mery", }, index=["k1","key1"])

In [None]:
Series(np.random.rand(5))

#### 复制对象

我们可以先创建一个Python列表，然后将其转换为Pandas的Series对象。当我们修改Python列表中的一个元素时，Series对象并不会改变。这是因为Pandas进行的是数据深度复制。

In [None]:
pl = ["tom", "lucy", "jack", "mery"]
pls = Series(pl)

In [None]:
print(f"变更前数据为：{pls}")
pl[0] = "update -> 1"
print(f"数据中为0索引的数据修改为：update -> 1")
print(f"变更后数据为：{pls}")
del pl, pls  # 删除对象引用

#### 引用对象

我们可以先使用NumPy创建一个一维的数组对象，然后将其转换为Pandas的Series对象。当我们修改NumPy数组中的一个元素时，Series对象数据也会随之发生变化。这是因为Pandas默认情况下进行的是数据引用而非深度复制。

In [None]:
pn = np.random.rand(5)
pns = Series(pn)

In [None]:
print(f"变更前数据为：{pns}")
pn[0] = 0.0001
print(f"数据中为0索引的数据修改为：0.00010")
print(f"变更后数据为：{pns}")
del pn, pns  # 删除对象引用

### [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame)
DataFrame是一个由行和列组成的二维表，DataFrame是一种具有潜在不同类型列的二维标记数据结构。它类似于电子表格或SQL表。DataFrame中的每一列都是一个系列。您可以将DataFrame视为共享同一索引的系列的集合。您可以从各种来源创建DataFrame，包括CSV、Excel、SQL数据库和JSON。当使用Python列表字典时，字典键将用作列标题，每个列表中的值用作DataFrame的列。DataFrame中的每列都是一个Series
- 列可以有不同的数据类型，包括数字、字符串和布尔值。
- 行由索引标识，该索引可以是数字索引，也可以是字符串索引。
- 数据帧可以使用行和列标签进行索引和切片。
- 可以对数据帧进行连接、合并和整形以转换数据。

In [None]:
from pandas import DataFrame

#### 生成DataFrame对象

In [None]:
# 先创建数据源，利用numpy
DataFrame(np.arange(6).reshape((2, 3)))

### Panel
面板是一个三维标记的阵列，可以容纳任何数据类型。它类似于DataFrame，但有一个额外的维度。Panel中的每个项都是一个DataFrame，每个DataFrame代表一个2维的数据切片。您可以将Panel视为共享相同索引和列标签的DataFrames的集合。

### Categorical
范畴是一种表示范畴变量的数据结构。它类似于字符串或整数，但可能的值数量有限。类别用于表示具有有限数量的唯一值的数据，如性别、婚姻状况或产品类别。范畴可以是有序的，也可以是无序的，并且可以有特定的出现顺序。

### Sparse
稀疏数据结构用于表示具有大量缺失值的数据。稀疏数据结构比密集数据结构使用更少的内存，这使得它们对于处理具有许多缺失值的大型数据集非常有用。您可以使用“SparseArray”或“SparseDataFrame”类将密集的DataFrame或Series转换为稀疏的数据结构。

## 数据导入

熊猫可以从各种来源读取数据，包括SQL数据库、Excel电子表格、JSON文件和web API。


### 手动创建

要手动将数据存储在表中，请创建一个DataFrame。当使用Python列表字典时，字典键将用作列标题，每个列表中的值用作DataFrame的列。DataFrame中的每列都是一个Series

In [None]:
pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)["Age"]

### database

#### [read_sql](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html)

### [file](https://pandas.pydata.org/docs/reference/api/)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

#### [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

一般情况下，会将读取到的数据返回一个DataFrame，当然按照参数的要求会返回指定的类型。

支持文件路径或者文件缓冲对象（CSV文件的扩展名不一定是，有可能是.data），还可以使用URL。

In [None]:
pd.read_csv('/content/drive/MyDrive/data/data.csv')

In [None]:
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv')  # 使用URL

可以传数据字符串，即CSV中的数据字符以字符串形式直接传入

In [None]:
from io import StringIO
data = (
    'col1,col2,col3\n'
    'a,b,1\n'
    'a,b,2\n'
    'c,d,3'
    )
pd.read_csv(StringIO(data))
pd.read_csv(StringIO(data), dtype=object)
del data

传入字节数据

In [None]:
from io import BytesIO
data = (b'word,length\n'
        b'Tr\xc3\xa4umen,7\n' 
        b'Gr\xc3\xbc\xc3\x9fe,5')
pd.read_csv(BytesIO(data))
del data

##### 分隔符

sep参数是字符型的，代表每行数据内容的分隔符号，默认是逗号，另外常见的还有制表符（\t）、空格等，根据数据的实际情况传值。

pd.read_csv还提供了一个参数名为delimiter的定界符，这是一个备选分隔符，是sep的别名，效果和sep一样。如果指定该参数，则sep参数失效。

In [None]:
pd.read_csv(data, sep='\t') # 制表符分隔tab
pd.read_table(data) # read_table 默认是制表符分隔tab
pd.read_csv(data, sep='|') # 制表符分隔tab
pd.read_csv(data,sep="(?<!a)\|(?!1)", engine='python') # 使用正则表达式

pd.read_csv还提供了一个参数名为delimiter的定界符，这是一个备选分隔符，是sep的别名，效果和sep一样。如果指定该参数，则sep参数失效。

##### 表头

header参数支持整型和由整型组成的列表，指定第几行是表头，默认会自动推断把第一行作为表头。注意：如果skip_blank_lines=True，header参数将忽略空行和注释行, 因此header=0表示第一行数据而非文件的第一行。

In [None]:
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv', header=0) # 第一行

In [None]:
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv', header=None) # 没有表头

In [None]:
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv', header=[0,1,3]) # 多层索引MultiIndex

##### 列名

names用来指定列的名称，它是一个类似列表的序列，与数据一一对应。如果文件不包含列名，那么应该设置header=None，列名列表中不允许有重复值。

In [None]:
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv', names=['列1', '列2', "列3", "列4", "列5", "列6"]) # 指定列名列表

In [None]:
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv', names=['列1', '列2'], header=None)

#### [read_excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

## 数据导出

导出各种文件，插入到各种数据库

## 数据查看

In [None]:
pdw.info()  # 信息查看

In [None]:
pdw.head(2)  # 查看 DataFrame 的头部可以输入指定查看几行，索引从0开始。

In [None]:
pdw.tail(2)  # 查看 DataFrame 的尾部可以输入指定查看几行，索引从-1开始。

In [None]:
pdw.index  # ⾏标签

In [None]:
pdw.columns  # 列标签

In [None]:
pdw.axes  # 返回一个仅以行轴标签和列轴标签为成员的列表

In [None]:
pdw.values  # 对象值，⼆维ndarray数组

In [None]:
pdw.size  # DataFrame中的元素数量

In [None]:
pdw.ndim  # 轴的数量，也指数组的维数

In [None]:
pdw.T  # 行和列转置

In [None]:
pdw.empty  # DataFrame中没有数据或者任意坐标轴的长度为0，则返回True

#### 序列数

In [None]:
# 布尔型，默认为False
# 下例只取一列，会返回一个Series
pd.read_csv(data, usecols=[0], squeeze=True)

In [None]:
# 有两列则还是df
pd.read_csv(data, usecols=[0, 2], squeeze=True)

#### 数据类型

In [None]:
pdw.dtypes  # 查看数据类型

#### 形状

In [None]:
pdw.shape  # 查看形状（行，列）

#### 缺失值

##### Nan

In [None]:
pdw.isnull()  # 返回bool，True表示缺失值

In [None]:
pdw.isnull().any(axis=1)  # 一个序列中有一个Ture，则返回True，否则返回False

In [None]:
pdw.isnull().sum()

In [None]:
pdw.isna()

In [None]:
pdw.isna().any(axis=1)  # 一个序列中有一个Ture，则返回True，否则返回False

In [None]:
pdw.isna().sum()

In [None]:
pdw[pdw.isnull().values==True]

In [None]:
pdw[pdw.isna().values==True]

In [None]:
# 如果某行有多个值是空值，则会重复次数出现，所以我们可以利用df[df.isnull().values==True].drop_duplicates()来去重。
pdw[pdw.isnull().values==True].drop_duplicates()

In [None]:
pdw[pdw["年份"].notnull()]

##### 空值

空值在Pandas中指的是空字符串""，我们同样可以对数据集进行切片找到空值

In [None]:
pdw[pdw["年份"] == ""]

In [None]:
# 也可以利用空值与正常值的区别来区分两者，比如isnumeric()方法检测字符串是否只由数字组成。
pdw[pdw["年份"].str.isnumeric() == False]

##### 其他

比如它们有可能会使用“*”、“？”、“—”、“！”等等字符来表示缺失值。

In [None]:
pdw[pdw["年份"].apply(lambda x: len(re.findall('NA|[*|?|!|#|-]', x)) != 0)]

#### 统计查看

In [None]:
pl.describe()  # 提取所有数字列统计结果（数值型列的汇总统计,计数、平均值、标准差、最⼩值、四分位数、最⼤值） includ="object" 查看字符串类型， includ ="all" 查看所有的

In [None]:
pl["收入"].mean()  # 数据求均值

In [None]:
pl["收入"].max()  # 数据求最大值

In [None]:
pl["收入"].min()  # 数据求最小值

In [None]:
pl["收入"].unique()  # 普通去重

In [None]:
pd.Series([1, 3, None, 3, 2, 5]).unique()  # 普通去重

In [None]:
pd.Series([1, 3, None, 3, 2, 5]).nunique()  # 去重计数，不包括None

In [None]:
pd.Series([1, 3, None, 3, 2, 5]).nunique(dropna=False)  # 去重计数，包括None

In [None]:
pd.Series(pl["收入"].unique())  # 去重计数

#### 切片查看

支持类似列表的序列和可调用对象

##### 列

In [None]:
pd.read_csv(data, header=0)['年份']

In [None]:
pd.read_csv(data, header=0)[['年份', '国内生产总值']]

##### usecols

In [None]:
# 读取部分列
pd.read_csv(data, usecols=[0, 4, 3]) # 按索引只读取指定列，与顺序无关

In [None]:
pd.read_csv(data, usecols=['年份', '国内生产总值']) # 按列名，列名必须存在

In [None]:
# 指定列顺序，其实是df的筛选功能
pd.read_csv(data, usecols=['年份', '国内生产总值'])[['国内生产总值', '年份']]

In [None]:
# 以下用callable方式可以巧妙指定顺序，in后面的是我们要的顺序
pd.read_csv(data, usecols=lambda x: x.upper() in ['年份', '国内生产总值'])

loc|iloc

读取形状（行列）、列名称、索引、数据类型 loc既能查询，又能覆盖写入！
loc:根据行、列的标签值查询；
iloc:根据行、列的数字位置查询。

使用单个label值查询数据行或者列，都可以只传入单个值，实现精确匹配

.loc[[行], [列]] | .loc[行, 列]

df.loc['2018-01-03°', ['bWendu','yWendu']] 得到Series

使用列表批量查询df.loc[['XX0','XX1','XX2'], ['row1']] 得到Series

使用列表批量查询df.loc[['XX0','XX1','XX2'], ['row1', 'row2', 'row3']] 得到DataFrame

In [None]:
data = 'https://www.gairuo.com/file/data/dataset/GDP-China.csv'

In [None]:
ppd = pd.read_csv(data, header=0)

##### loc

根据行、列的标签值查询

In [None]:
ppd.loc[0].head()  # 查看第一行的数据

In [None]:
ppd.loc[0, ["年份", "国民总收入"]]  # 查看第一行某一项的数据

##### iloc

根据行、列的数字位置查询。

In [None]:
ppd.iloc[0, 0]  # 查看第一行第一列的数据

In [None]:
ppd.iloc[0: 2, 0: 2]  # 查看前两行前两列的数据

In [None]:
ppd.iloc[:, : 2]  # 查看前两列的数据

## 数据选择

In [None]:
data = 'https://www.gairuo.com/file/data/dataset/GDP-China.csv'

In [None]:
ppd = pd.read_csv(data, header=0).head(5)
pdw = pd.DataFrame(pd.read_csv(data, header=0))

### 选择行

In [None]:
pdw["年份"]

### 选择列

#### lable

In [None]:
pdw[["年份"]]  # 简写data.A(只能访问列)

In [None]:
pdw[["年份", "国民总收入"]]  # ----df.loc[["a","b","d"],"B"]

In [None]:
pdw.年份

#### loc

In [None]:
pdw.loc[0, ["年份", "国民总收入"]]  # 不用列表会自动转series

In [None]:
pdw.loc[0:8, ["年份", "国民总收入"]]  # 不用列表会自动转series

#### iloc

In [None]:
pdw.iloc[:, : 2]  # 查看前两列的数据

### 同时选择行列

In [None]:
# 选择行标签为 1 和 3，列标签为 '年份', '国民总收入', '国内生产总值' 的数据
pdw.loc[[1, 3], ['年份', '国民总收入', '国内生产总值']]

In [None]:
# 选择行索引为 1 和 3，列索引为 0 和 2 的数据
pdw.iloc[[1, 3], [0, 2]]

In [None]:
# 选择行中 国民总收入 列值大于 400000，列中列名为 '年份', '国民总收入', '国内生产总值' 的数据
pdw.loc[pdw['国民总收入'] > 400000, pdw.columns.isin(['年份', '国民总收入', '国内生产总值'])]

In [None]:
# 选择行中 A 列值大于 2，列名为 'A' 或 'C' 的数据
pdw.query('国民总收入 > 400000').filter(items=['年份', '国民总收入', '国内生产总值'])

### 条件选择

#### 单条件选择

In [None]:
# 选择 年份 列大于 2015 的行
pdw[pdw['年份'] > 2015]

In [None]:
# 选择 年份 列是偶数的行
pdw[pdw['年份'] % 2 == 0]

In [None]:
# 选择 年份 列不等于 2018 的行
pdw[pdw['年份'] != 2018]

#### 多条件选择

In [None]:
# 选择 年份 列大于 2000 且 年份 列是偶数的行 '年份', '国民总收入', '国内生产总值'
pdw[(pdw['年份'] > 2000) & (pdw['年份'] % 2 == 0)]

In [None]:
# 选择 年份 列大于 2000 或 国民总收入 列小于 400000 的行
pdw[(pdw['年份'] > 2000) | (pdw['国民总收入'] < 400000)]

In [None]:
# 选择 年份 列大于 2000 且 B 列不是偶数的行
pdw[(pdw['年份'] > 2000) & ~(pdw['国民总收入'] % 2 == 0)]

#### isin

In [None]:
# 选择 年份 列值在给定列表中的行
pdw[pdw['年份'].isin([2000, 2002, 2005])]

In [None]:
# 选择 年份 列值不在给定列表中的行
pdw[~pdw['年份'].isin([2000, 2002, 2005])]

#### query

In [None]:
# 选择 年份 列大于 2000
pdw.query('年份 > 2000')

In [None]:
# 选择 年份 列大于 3 且 国民总收入 列是偶数的行
pdw.query('年份 > 2000 and 国民总收入 % 2 == 0')

In [None]:
# 选择 年份 列值在给定列表中的行
values = [2000, 2002, 2005]
pdw.query('年份 in @values')

## 数据新增

### 新增列

#### 直接赋值

In [None]:
# 使用常量值新增列，所有的行都新增数据0
pdw['D'] = 0

In [None]:
# 使用列运算新增列
pdw['E'] = pdw['国内生产总值'] - pdw['国民总收入']

#### assign

In [None]:
# 使用常量值或列运算新增列
pdw.assign(F=0, G=pdw['第一产业增加值'] + pdw['第二产业增加值'] + pdw['第三产业增加值'])

#### insert

In [None]:
# 在指定位置插入新列
pdw.insert(1, 'H', 10)

#### 函数

In [None]:
# 使用 apply() 函数根据已有列的值新增列
pdw['I'] = pdw['人均国内生产总值'].apply(lambda x: x * 2)

In [None]:
# 使用 applymap() 函数对整个 DataFrame 进行逐元素操作并新增列
pdw['J'] = pdw.applymap(lambda x: x + 10).sum(axis=1)

### 新增行

In [None]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
df.append({'A': 10, 'B': 11, 'C': 12}, ignore_index=True)  # 字典新增

In [None]:
df.append(pd.Series({'A': 13, 'B': 14, 'C': 15}), ignore_index=True)  # 使用 Series 形式新增行

In [None]:
# 使用 DataFrame 形式新增行
df.append(pd.DataFrame({'A': [16, 17], 'B': [18, 19], 'C': [20, 21]}), ignore_index=True)

In [None]:
# 使用 concat 函数新增行
pd.concat([df, pd.DataFrame({'A': [22, 23], 'B': [24, 25], 'C': [26, 27]})], ignore_index=True)

In [None]:
# 使用 loc 函数新增行
df.loc[len(df)] = {'A': 28, 'B': 29, 'C': 30}

## 数据修改

In [None]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

### 修改单个值

In [None]:
df.at[1, 'A'] = 10

In [None]:
df.iat[1, 0] = 11

### 修改整列

In [None]:
df['A'] = df['A'] * 2

In [None]:
df['B'] = df['B'].apply(lambda x: x + 1)

### 修改多列

In [None]:
df[['A', 'B']] = df[['A', 'B']].apply(lambda x: x * 2)

In [None]:
df = df.applymap(lambda x: x + 1)

### 修改整行

In [None]:
df.loc[1] = [10, 11, 12]

In [None]:
df.iloc[2] = [13, 14, 15]

### 基于条件修改值

In [None]:
df.loc[df['A'] > 2, 'A'] = 20

In [None]:
df[df['B'] > 4] = 30

In [None]:
df['C'] = df['C'].mask(df['C'] > 7, 40)

### 修改列名

In [None]:
df.columns = ['X', 'Y', 'Z']

In [None]:
df.rename(columns={'X': 'A', 'Y': 'B', 'Z': 'C'})

### 修改行索引

In [None]:
df.index = ['one', 'two', 'three']

In [None]:
df.rename(index={'one': 1, 'two': 2, 'three': 3})

## 数据删除

In [None]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

### 删除列

In [None]:
df = df.drop('A', axis=1)

In [None]:
del df['B']

In [None]:
col_c = df.pop('C')

### 删除行

In [None]:
df = df.drop(1, axis=0)

In [None]:
df = df[df.index != 2]

### 删除特定行和列

In [None]:
df = df.drop(index=0, columns='A')

### 删除缺失值的行或列

In [None]:
# 假设有以下 DataFrame，含有缺失值
df = pd.DataFrame({'A': [1, 2, None], 'B': [4, None, 6], 'C': [7, 8, 9]})

In [None]:
df = df.dropna(axis=0)  # 删除包含缺失值的行

In [None]:
df = df.dropna(axis=1)  # 删除包含缺失值的列

In [None]:
df = df.dropna(axis=0).dropna(axis=1)

## 数据过滤

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [11, 12, 13, 14, 15]})

### 基于列值的过滤

In [None]:
# 过滤 A 列值大于 2 的行
df[df['A'] > 2]

### 基于行索引的过滤

In [None]:
# 过滤索引为偶数的行
df[df.index % 2 == 0]

### 使用布尔索引过滤

In [None]:
# 过滤 A 列值大于 2 且 B 列值小于 10 的行
df[(df['A'] > 2) & (df['B'] < 10)]

### 使用 query 方法过滤

In [None]:
# 过滤 A 列值大于 2 且 B 列值小于 10 的行
df.query('A > 2 and B < 10')

### 使用自定义函数过滤

In [None]:
# 过滤 A 列值和 B 列值之和大于 10 的行
def sum_greater_than_10(row):
    return row['A'] + row['B'] > 10

df[df.apply(sum_greater_than_10, axis=1)]

### where

Where用来根据条件替换行或列中的值。如果满足条件，保持原来的值，不满足条件则替换为其他值（False元素可以改变，True元素保持不变）。
需要注意的是，where 方法在不满足条件的位置填充 NaN。如果你想要过滤掉这些不满足条件的行，可以使用 dropna 方法result.dropna()

默认替换为NaN，也可以指定特殊值。`DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False, raise_on_error=None)`
参数作用：

cond：布尔条件，如果 cond 为真，保持原来的值，否则替换为other

other：替换的特殊值

inplace：inplace为真则在原数据上操作，为False则在原数据的copy上操作

axis：行或列




mask: True元素可以改变，False元素保持不变

In [None]:
data = 'https://www.gairuo.com/file/data/dataset/GDP-China.csv'
ppd = pd.read_csv(data, header=0).head(5)
pdw = pd.DataFrame(pd.read_csv(data, header=0))

In [None]:
pdw.where(pdw['年份'] == 2018) # 查询 年。列中值为 2018 的行 有Nan值
pdw.where(pdw['年份'] == 2018).dropna() # 查询 年。列中值为 2018 的行 无Nan值
pdw.loc[pdw['年份'] == 2018] # 查询 年。列中值为 2018 的行

In [None]:
# 查询 年份 列中值为 2018、2020 或 2017 的行
pdw.where(pdw['年份'].isin([2018, 2020, 2017])).dropna()

In [None]:
# 查询 年份 列中值介于 20185 和 2020 之间（含）的行
pdw.where((pdw['年份'] >= 2015) & (pdw['年份'] <= 2020)).dropna()

In [None]:
# 查询 第一产业增加值 列的值大于 第二产业增加值 列的值的行
pdw.where(pdw['第一产业增加值'] > pdw['第二产业增加值']).dropna()

In [None]:
# 查询 年份 列中值为偶数的行 布尔过滤
def is_even(x):
    return x % 2 == 0

pdw.where(pdw['年份'].apply(is_even)).dropna()

In [None]:
# 创建一个接受两个参数的函数，以过滤 年份 列中值大于某个最小值且小于某个最大值的行。
def is_between(x, min_val, max_val):
    return (x > min_val) & (x < max_val)

min_val = 2013
max_val = 2023
pdw[pdw['年份'].apply(is_between, args=(min_val, max_val))]

In [None]:
# 创建一个接受两个参数的函数，以过滤 A 列中可以被其中一个参数整除的行。
def is_divisible_by(x, divisor1, divisor2):
    return (x % divisor1 == 0) | (x % divisor2 == 0)

divisor1 = 400
divisor2 = 100
pdw[pdw['年份'].apply(is_divisible_by, args=(divisor1, divisor2))]

In [None]:
# 创建一个接受多个参数的函数，以过滤满足某种条件组合的行。
def combined_condition(row, min_val, divisor1, divisor2):
    return (row['年份'] > min_val) & ((row['第一产业增加值'] % divisor1 == 0) | (row['第二产业增加值'] % divisor2 == 0))

min_val = 1999
divisor1 = 2
divisor2 = 3
pdw[pdw.apply(combined_condition, axis=1, args=(min_val, divisor1, divisor2))]

In [None]:
# 查询 第一产业增加值 列中值大于 第二产业增加值 且 第二产业增加值 列中值小于 第三产业增加值 的行
pdw.query('第一产业增加值 > 第二产业增加值 & 第二产业增加值 < 第三产业增加值')

In [None]:
# 查询 第一产业增加值 列中值大于 第二产业增加值 且 年份 列中值小于 2015 的行
pdw.query('第一产业增加值 > 第二产业增加值 & 年份 < 2015')

In [None]:
# 使用 loc 方法 过滤 第一产业增加值 列值大于 第二产业增加值 列值的行。
pdw.loc[pdw.apply(lambda row: row['第一产业增加值'] > row['第二产业增加值'], axis=1)]

In [None]:
# 使用 iloc 方法 过滤 第一产业增加值 列值大于 第二产业增加值 列值的行。
filtered_indices = pdw.apply(lambda row: row['第一产业增加值'] > row['第二产业增加值'], axis=1)
pdw.iloc[filtered_indices[filtered_indices].index]

In [None]:
# 使用 where 方法 过滤 第一产业增加值 列值大于 第二产业增加值 列值的行。
pdw.where(pdw.apply(lambda row: row['第一产业增加值'] > row['第二产业增加值'], axis=1)).dropna()

In [None]:
# 使用 loc 方法过滤 第一产业增加值 列值和 第二产业增加值 列值 和第三产业增加值之和大于 国内生产总值 列值的行。
pdw.loc[pdw.apply(lambda row: row['第一产业增加值'] + row['第二产业增加值'] + row['第三产业增加值'] > row['国内生产总值'], axis=1)]

In [None]:
# 使用 iloc 方法过滤 第一产业增加值 列值和 第二产业增加值 列值 和第三产业增加值之和大于 国内生产总值 列值的行。
filtered_indices = pdw.apply(lambda row: row['第一产业增加值'] + row['第二产业增加值'] + row['第三产业增加值'] > row['国内生产总值'], axis=1)
pdw.iloc[filtered_indices[filtered_indices].index]

In [None]:
# 使用 where 方法过滤 第一产业增加值 列值和 第二产业增加值 列值 和第三产业增加值之和大于 国内生产总值 列值的行。
pdw.where(pdw.apply(lambda row: row['第一产业增加值'] + row['第二产业增加值'] + row['第三产业增加值'] > row['国内生产总值'], axis=1)).dropna()

In [None]:
# 使用 loc 方法过滤 第一产业增加值 列值加上 第二产业增加值 列值 加上 第三产业增加值等于 国民总收入 列值的行。
pdw.loc[pdw.apply(lambda row: row['第一产业增加值'] - row['第二产业增加值'] + row['第三产业增加值'] == row['国民总收入'], axis=1)]

In [None]:
# 使用 iloc 方法过滤 第一产业增加值 列值加上 第二产业增加值 列值 加上 第三产业增加值等于 国民总收入 列值的行。
filtered_indices = pdw.apply(
    lambda row: row['第一产业增加值'] - row['第二产业增加值'] + row['第三产业增加值'] == row['国民总收入'], axis=1)
pdw.iloc[filtered_indices[filtered_indices].index]

In [None]:
# 使用 where 方法过滤 第一产业增加值 列值加上 第二产业增加值 列值 加上 第三产业增加值等于 国民总收入 列值的行。
pdw.where(pdw.apply(lambda row: row['第一产业增加值'] - row['第二产业增加值'] + row['第三产业增加值'] == row['国民总收入'],  axis=1)).dropna()

In [None]:
ppd.loc[ppd["第三产业增加值"] < 400000, "第三产业增加值"] = 400000

In [None]:
ppd.loc[~(ppd["第三产业增加值"] <= 425912.1), "第三产业增加值"] = 0

## 数据值处理

数据处理是一个宽泛的概念，通常包括多个步骤，以便从原始数据中提取有用的信息。

### 缺失值处理

In [None]:
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
        'B': [6, np.nan, 8, 9, 10],
        'C': [11, 12, 13, np.nan, 15]})

#### 使用固定值填充缺失值

In [None]:
# 使用固定值填充缺失值
df_fillna_fixed_value = df.fillna(value=0)

#### 向前填充

In [None]:
# 使用上面一个值填充缺失值
df_fillna_forward = df.fillna(method='ffill')  # pad

#### 向后填充

In [None]:
# 使用下面一个值填充缺失值
df_fillna_backward = df.fillna(method='bfill')

#### 其他填充

In [None]:
# 使用各列的平均值填充缺失值
df_fillna_mean = df.fillna(value=df.mean())

In [None]:
# 使用各列的中位数填充缺失值
df_fillna_median = df.fillna(value=df.median())

In [None]:
df_fillna_forward_pad = df.fillna('100')  # 指定值

### 数据清洗

去除重复值
垃圾数据处理（例如，删除异常值、错误的输入等）
缺失值处理（例如，删除包含缺失值的行/列、填充缺失值等）
数据规范化（例如，将数据转换为统一的度量单位、格式等）
数据类型转换（例如，将字符串转换为数值、日期等）

### 数据转换

特征缩放（例如，归一化、标准化等）
特征构造（例如，从现有特征中生成新的特征）
特征编码（例如，对类别变量进行独热编码或标签编码）

### 数据透视和重塑

（例如，将宽格式数据转换为长格式数据，反之亦然）

### 数据探索与可视化

计算描述性统计（例如，均值、中位数、标准差等）
绘制图表（例如，柱状图、箱线图、散点图等）
分析特征之间的相关性和关系

### 数据预处理

数据划分（例如，将数据集划分为训练集和测试集）
数据抽样（例如，随机抽样、分层抽样等）
数据平衡（例如，在不平衡的分类问题中处理不同类别的样本数量）

### 特征选择与降维

使用过滤方法进行特征选择（例如，基于相关性、信息增益等）
使用包装方法进行特征选择（例如，递归特征消除等）
使用嵌入方法进行特征选择（例如，LASSO、Ridge 回归等）
使用降维技术（例如，主成分分析（PCA）、t-SNE等）

## 数据排序

#### value_counts

sort=True： 是否要进行排序；默认进行排序

ascending=False： 默认降序排列；

normalize=False： 是否要对计算结果进行标准化并显示标准化后的结果，默认是False。 

bins=None：可以自定义分组区间，默认是否；

dropna=True：是否删除缺失值nan，默认删除

注意：缺失值是默认被删除的，也就是不被计算在其中。而且，如果要计数的对象是numpy里的ndarray类型的话，可以用size的方法，同样可以达到上述的效果。

In [None]:
pd.read_csv(data, header=0)["年份"].value_counts().head(5)  # 可以输入指定查看几行，索引从0开始。

In [None]:
pl = pd.DataFrame(
    {
        '城市':['北京','广州', '天津', '上海', '杭州', '成都', '澳门', '南京','北京','北京'],
        '收入':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000,5000,5000],
        '年龄':[50, 43, 34, 40, 25, 25, 45, 32,25,25]}
     )
pl.set_index([["一","二","三","四","五","六","七","八","九","十"]], inplace=True)
pl

In [None]:
pl["城市"].value_counts()  # sort=True 默认进行排序 ascending=False 默认降序排列；

In [None]:
pl["城市"].value_counts(ascending=True)  # ascending=True 升序排列；

In [None]:
pl["收入"].value_counts(ascending=True, normalize=True)  # 是否要对计算结果进行标准化并显示标准化后的结果，默认是False。

#### sort_values

Series的排序参数说明

    ascending：默认为True升序排序，为False降序排序

    inplace：是否修改原始Series

    DataFrame排序参数说明：

In [None]:
pl["城市"].sort_values(ascending=True, inplace=False)  # ascending=True 升序排列

DataFrame的排序参数说明

    by：宇符串或者List<字符串＞，单列排序或者多列排序

    ascending：bool或者List，升序还是降序，如果是list对应by的多列

    inplace：是否修改原始DataFrame

In [None]:
pl.sort_values(by=["城市"], ascending=True, inplace=False).head(5)  # ascending=True 升序排列

## 数据分组

In [None]:
df = pd.DataFrame({'Category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'A'],
        'Value': [10, 20, 30, 40, 50, 60, 70, 80]})

### groupby

In [None]:
grouped = df.groupby('Category')

In [None]:
grouped.plot()

### 聚合函数

In [None]:
# 计算每个分组的平均值
grouped.mean()

In [None]:
# 计算每个分组的计数
grouped.count()

In [None]:
# 计算每个分组的最大值
grouped.max()

In [None]:
# 计算每个分组的最小值
grouped.min()

In [None]:
# 计算每个分组的总和
grouped.sum()

### 自定义聚合函数

In [None]:
# 计算每个分组的值的平均值的平方根
def sqrt_mean(series):
    return np.sqrt(series.mean())

grouped['Value'].agg(sqrt_mean)

### 对多列进行分组

In [None]:
df = pd.DataFrame({'Category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'A'],
        'Subcategory': ['C', 'C', 'D', 'D', 'C', 'C', 'D', 'D'],
        'Value': [10, 20, 30, 40, 50, 60, 70, 80]})

# 对 Category 和 Subcategory 列进行分组
grouped = df.groupby(['Category', 'Subcategory'])

# 计算每个分组的平均值
mean_values = grouped.mean()

### apply

In [None]:
# 计算每个分组的值的范围（最大值 - 最小值）
def value_range(series):
    return series.max() - series.min()

grouped_range = grouped['Value'].apply(value_range)

### transform 分组数据转换

In [None]:
# transform 分组数据转换 将每个分组的值减去其平均值，以获得归一化的值
normalized_values = grouped['Value'].transform(lambda x: x - x.mean())
df['NormalizedValue'] = normalized_values

In [None]:
# 首先，将 A 列值按奇偶性进行分组（odd 或 even），然后计算每组 B 列值的总和：
df['A_group'] = df['A'].apply(lambda x: 'odd' if x % 2 == 1 else 'even')
grouped = df.groupby('A_group')['B'].sum()

## 数据转换

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [6, 7, 8, 9, 10],
    'C': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'D': ['apple', 'banana', 'orange', 'pear', 'grape']
})

In [None]:
# 将 A 列的所有值加上 B 列的对应值，并将结果存储在新的 E 列
df['E'] = df['A'] + df['B']

In [None]:
# 使用 apply 方法将 A 列的所有值乘以 2
df['A'] = df['A'].apply(lambda x: x * 2)

In [None]:
# 将 D 列中的所有字符串转换为大写
df['D'] = df['D'].apply(lambda x: x.upper())

In [None]:
# 将 C 列的日期转换为日期所在的季度，并将结果存储在新的 F 列
df['F'] = df['C'].apply(lambda x: pd.Timestamp(x).quarter)

In [None]:
# transform 分组数据转换 将每个分组的值减去其平均值，以获得归一化的值
normalized_values = grouped['Value'].transform(lambda x: x - x.mean())
df['NormalizedValue'] = normalized_values

In [None]:
# 首先，将 A 列值按奇偶性进行分组（odd 或 even），然后计算每组 B 列值的总和：
df['A_group'] = df['A'].apply(lambda x: 'odd' if x % 2 == 1 else 'even')
grouped = df.groupby('A_group')['B'].sum()

## 数据类型转换

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [6, 7, 8, 9, 10],
    'C': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
    'D': ['apple', 'banana', 'orange', 'pear', 'grape']
})

In [None]:
# 将 C 列的数据类型从字符串转换为 datetime
df['C'] = pd.to_datetime(df['C'])

In [None]:
# 将 B 列的数据类型从整数转换为浮点数
df['B'] = df['B'].astype(float)

In [None]:
# 将 D 列的数据类型从字符串转换为分类数据
df['D'] = df['D'].astype('category')

In [None]:
# 将 F 列的数据类型从整数转换为字符串
df['F'] = df['F'].astype(str)

## 数据合并与拆分

### 合并

#### concat

In [None]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})

In [None]:
# 垂直拼接（按行）
pd.concat([df1, df2], axis=0, ignore_index=True)

In [None]:
# 水平拼接（按列）
pd.concat([df1, df2], axis=1)

#### merge

In [None]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E'], 'value': [4, 5, 6]})

In [None]:
# 使用 merge 进行内连接（inner join）
pd.merge(df1, df2, on='key', how='inner', suffixes=('_left', '_right'))

In [None]:
# 使用 merge 进行左连接（left join）
pd.merge(df1, df2, on='key', how='left', suffixes=('_left', '_right'))

#### join

In [None]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E'], 'value': [4, 5, 6]})

In [None]:
# 使用 join 进行索引连接
df1.set_index('key').join(df2.set_index('key'), lsuffix='_left', rsuffix='_right')

### 拆分

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [11, 12, 13, 14, 15]})

In [None]:
# 按行拆分数据
n = 2
[df.iloc[i:i + n, :] for i in range(0, len(df), n)]

In [None]:
# 按列拆分数据
n = 2
[df.iloc[:, i:i + n] for i in range(0, len(df.columns), n)]

In [None]:
# 使用 groupby 按条件拆分数据
def even_odd(x):
    return 'even' if x % 2 == 0 else 'odd'

grouped = df.groupby(df['A'].apply(even_odd))
even_df = grouped.get_group('even')
odd_df = grouped.get_group('odd')

## 数据统计与计算

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [11, 12, 13, 14, 15]})

### 基本统计

In [None]:
# 计算描述性统计信息
df.describe()

In [None]:
# 计算每列的均值
df.mean()

In [None]:
# 计算每列的中位数
df.median()

In [None]:
# 计算每列的标准差
df.std()

### 累计统计

In [None]:
# 计算每列的累计和
df.cumsum()

In [None]:
# 计算每列的累计积
df.cumprod()

### 滚动统计

In [None]:
# 计算每列的 3 个元素滚动平均
df.rolling(window=3).mean()

In [None]:
# 计算每列的 3 个元素滚动标准差
df.rolling(window=3).std()

### 自定义统计

In [None]:
# 计算每列的平均绝对偏差（Mean Absolute Deviation）
def mad(series):
    return series.mad()

df.apply(mad)

### 相关系数与协方差

是一种统计学方法，用于衡量两个变量之间的线性关系程度。是衡量两个变量之间的线性关系程度统计指标之一。它的值在-1到1之间，取值为-1表示两个变量完全负相关，取值为1表示两个变量完全正相关，如果相关系数的值为0表示两个变量之间没有线性关系，是无关的。

在数据分析中，相关系数通常用于以下几个方面：
1．描述变量之间的线性关系。通过计算相关系数，可以确定两个变量之间的关系是正相关、负相关或无关的。

2.预测变量之间的关系。如果两个变量之问的相关系数很高，那么可以使用一个变量的值来预测另一个变量的值。

3.识别变量之间的复架关系。当变量之间存在多重关系时，相关系数可以帮助我们找到这些关系。

可以使用`corr()`函数计算相关系数（该函数返回一个数据框，表示变量之间的相关性）。语法格式如下：
`DataFrame.corr(method='pearson', min_periods=1)`

其中 method参数指定计算相似度的方法，min_periods 参数指定计算相关系数的最小时间段。

Pandas 中的默认方法是皮尔逊相关系数，不同的系数方法有不同的应用场景，例如：

1.Pearson 相关系数，适用于两个变量都是连续变量的情況。

2.Spearman 相关系数，适用于两个变量都是有序变量的情况

3.Kendall相关系数，适用于两个变量都是有序变量的情况。

在实际应用中，选择合适的相关系数方法非常重要，否则计算结果可能无法准确反映变量之间的关系。
在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数



In [None]:
ppd = pd.DataFrame(np.random.randn(5, 5), columns=['a', 'b', 'c', 'd', 'e'])

In [None]:
ppd.corr()   # 计算任意两款菜式之间的相关系数

In [None]:
ppd.corr()['a']   # 显示第一列于其他列相关系数

In [None]:
ppd['a'].corr(ppd['b'])   # 显示两列之间相关系数

如果我们只对每种变量之间的相关系数计算感兴趣，可以调用 corrwith()函数

In [None]:
ppd1 = pd.DataFrame(np.random.randn(5, 5), columns=['a', 'b', 'c', 'd', 'e'])
ppd2 = pd.DataFrame(np.random.randn(5, 5), columns=['a', 'b', 'c', 'd', 'e'])

In [None]:
ppd1.corrwith(ppd2)

Pandas 的相关系数函数不仅仅可以用来计算连续变量之间的相关系数，还可以用来处理分类变量或将分类变量转化为数字变量的任务。例如，可以使用 get_dummies()函数将分类变量转化为数值变量，然后计算它们之间的相关系数，例如：

In [None]:
ppd = pd.DataFrame({"A":["foo","foo","foo","bar","bar","bar","foo","foo",], "Type":["type1","type1","type2","type2","type1","type2","type1","type1",]})

In [None]:
ppdo = pd.get_dummies(ppd["Type"], prefix="category")

In [None]:
ppd = pd.concat([ppd, ppdo], axis=1)
correlation_matrix = ppd.corr()

## 数据关联分析

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [2, 4, 6, 8, 10], 'C': [5, 4, 3, 2, 1]})

### corr

这将返回一个相关性矩阵，显示每对列之间的 Pearson 相关系数（默认情况下）。

In [None]:
df.corr()

### 分析分类变量之间的关系

In [None]:
df = pd.DataFrame({'Gender': ['M', 'F', 'M', 'F', 'M'], 'Job': ['Engineer', 'Doctor', 'Engineer', 'Doctor', 'Engineer']})

In [None]:
# 可以使用 crosstab 函数创建一个交叉表，以查看 'Gender' 和 'Job' 之间的关系：这将返回一个交叉表，显示每个性别和职业组合的频数
pd.crosstab(df['Gender'], df['Job'])

### 计算列之间的其他相关性度量

In [None]:
df = pd.DataFrame({'Gender': ['M', 'F', 'M', 'F', 'M'], 'Job': ['Engineer', 'Doctor', 'Engineer', 'Doctor', 'Engineer']})

In [None]:
df.corr(method='spearman')

In [None]:
df.corr(method='kendall')

### 使用卡方检验分析分类变量之间的关系

可以对分类变量进行卡方检验，以确定它们之间是否存在统计学上的关联。在这个例子中，我们将使用 scipy.stats 中的 chi2_contingency 函数：这将计算卡方统计量、p 值、自由度和期望频率。根据 p 值，我们可以判断分类变量之间是否存在关联。

In [None]:
from scipy.stats import chi2_contingency

df = pd.DataFrame({'Gender': ['M', 'F', 'M', 'F', 'M'], 'Job': ['Engineer', 'Doctor', 'Engineer', 'Doctor', 'Engineer']})
crosstab = pd.crosstab(df['Gender'], df['Job'])

chi2, p_value, dof, expected_freq = chi2_contingency(crosstab)

## 数据重塑与透视

In [None]:
df = pd.DataFrame({
    "Region": ["North", "South", "West", "East"],
    "Sales": [1000, 1500, 1200, 1800],
    "Quantity": [30, 45, 20, 60]
})

### 重塑

In [None]:
# melt 将宽格式数据转换为长格式数据
melted_df = df.melt(id_vars=["Region"], var_name="Metric", value_name="Value")

In [None]:
# pivot 将长格式数据转换为宽格式数据
pivoted_df = melted_df.pivot(index="Region", columns="Metric", values="Value")

In [None]:
# 使用 stack 将列转换为行
stacked_df = df.set_index("Region").stack().reset_index().rename(columns={"level_1": "Metric", 0: "Value"})

In [None]:
# 使用 unstack 将行转换为列
unstacked_df = stacked_df.set_index(["Region", "Metric"]).unstack().reset_index()

### 透视

In [None]:
# 使用 pivot_table 创建数据透视表
df = pd.DataFrame({
    "Region": ["North", "North", "South", "South", "West", "West", "East", "East"],
    "Product": ["A", "B", "A", "B", "A", "B", "A", "B"],
    "Sales": [1000, 1200, 1500, 1600, 1200, 1300, 1800, 1900],
    "Quantity": [30, 35, 45, 50, 20, 25, 60, 65]
})
# 创建数据透视表
pd.pivot_table(df, index="Region", columns="Product", values=["Sales", "Quantity"], aggfunc="sum")

## 错误

SettingWithCopyWarning 报警复现、原因、解决方案 在pandas中，要么使用loc，要么先copy

忽略报警

In [None]:
import warnings
warnings.filterwarnings ('ignore')