In [1]:
import pandas as pd
import numpy as np

# 利用explode展开操作

In [2]:
# 创建一个 DataFrame，包含列表类型的列  
df = pd.DataFrame({'A': [[1, 2], [3], [4, 5, 6]]})  
df

Unnamed: 0,A
0,"[1, 2]"
1,[3]
2,"[4, 5, 6]"


In [3]:
# 使用 explode 进行爆炸操作，将列表拆分成多行  
result = df.explode('A')  
result

Unnamed: 0,A
0,1
0,2
1,3
2,4
2,5
2,6


# 使用 squeeze 压缩 Series

In [4]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [5]:
# 使用 .loc 筛选数据，返回结果为 Series 类型  
result = df.loc[df['A'] == 1, 'B']  
result

0    4
Name: B, dtype: int64

In [6]:
# 使用 squeeze 方法压缩 Series，返回单个值  
value = result.squeeze()  
value

4

In [8]:
df.loc[df['A'] == 1, 'A'].squeeze()

1

# 使用 between 筛选数值范围

In [9]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]}) 
df

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5


In [10]:
# 使用 between 方法筛选数值范围  
result = df[df['A'].between(2, 4)] 
result

Unnamed: 0,A
1,2
2,3
3,4


In [11]:
# 使用 between 方法筛选数值范围  
result = df[df.A.between(2, 4)] 
result

Unnamed: 0,A
1,2
2,3
3,4


# 使用 assign 添加新列
在 Pandas 中，可以使用 assign 方法方便地添加新列，而无需使用 loc 或 iloc 方法。

In [12]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [13]:
# 使用 assign 添加新列  
result = df.assign(C=df['A'] + df['B']) 
result

Unnamed: 0,A,B,C
0,1,4,5
1,2,5,7
2,3,6,9


# 使用 map 进行字典映射

在 Pandas 中，可以使用 map 方法将 Series 中的每个元素映射到字典中的对应值。

In [14]:
# 创建一个 Series  
s = pd.Series(['foo', 'bar', 'baz'])  

# 创建一个字典  
mapping = {'foo': 1, 'bar': 2, 'baz': 3}  

# 使用 map 进行字典映射  
result = s.map(mapping)
result

0    1
1    2
2    3
dtype: int64

# 使用 apply 进行自定义函数应用

在 Pandas 中，可以使用 apply 方法将自定义函数应用到 Series 或 DataFrame 的每个元素上

In [18]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  

# 定义一个自定义函数，计算平方值并返回新列名  
def square_and_rename(x):  
    return x ** 2, 'squared'

# 使用 apply 进行自定义函数应用，将函数应用到 A 列上，并将结果存储在新列中  
result = df['A'].apply(square_and_rename)  
result

0    (1, squared)
1    (4, squared)
2    (9, squared)
Name: A, dtype: object

In [19]:
df = pd.concat([df, result], axis=1)  
df

Unnamed: 0,A,B,A.1
0,1,4,"(1, squared)"
1,2,5,"(4, squared)"
2,3,6,"(9, squared)"


# 使用apply和lambda函数进行自定义操作

In [21]:
# 创建一个DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 使用apply和lambda函数对A列和B列进行自定义操作，例如将A列的值乘以B列的值
df['C'] = df.apply(lambda row: row['A'] * row['B'], axis=1)
df

Unnamed: 0,A,B,C
0,1,10,10
1,2,20,40
2,3,30,90
3,4,40,160
4,5,50,250


# 使用 groupby 和 transform 进行组内转换

在 Pandas 中，可以使用 groupby 方法将数据分组，并使用 transform 方法对每个组的元素进行转换，并返回与原始数据相同大小的结果。

In [22]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'], 'B': [1, 2, 3, 4]})  
  
# 使用 groupby 和 transform 进行组内转换，计算每个组的 B 列的平均值，并将结果存储在新列中  
result = df.groupby('A')['B'].transform('mean')  
df['B_mean'] = result 
df

Unnamed: 0,A,B,B_mean
0,foo,1,2
1,bar,2,3
2,foo,3,2
3,bar,4,3


# 使用 pipe 进行流式操作

Pandas 中的 pipe 方法可以将多个操作连接在一起，实现流式操作，使代码更加简洁和易于阅读。

In [23]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  

# 定义三个自定义函数，分别用于去重、去异常值和编码转换  
def drop_duplicates(df):  
    return df.drop_duplicates()  
  
def remove_outliers(df, columns):  
    return df[(np.abs(df[columns] - df[columns].mean()) <= 3 * df[columns].std()).all(axis=1)]  
  
def encode_categoricals(df, columns):  
    return pd.get_dummies(df, columns=columns)  
  
# 使用 pipe 进行流式操作，将三个自定义函数连接在一起  
result = (df.pipe(drop_duplicates)  
          .pipe(remove_outliers, ['A', 'B'])  
          .pipe(encode_categoricals, ['A']))  
result

Unnamed: 0,B,A_1,A_2,A_3
0,4,1,0,0
1,5,0,1,0
2,6,0,0,1


# 使用 factorize 进行标签编码
        
Pandas 中的 factorize 方法可以将分类变量转换为数值型变量，实现类别型变量的标签编码。

In [24]:
# 创建一个 Series  
s = pd.Series(['foo', 'bar', 'baz', 'foo', 'bar'])  

# 使用 factorize 进行标签编码  
labels, uniques = s.factorize() 

labels

array([0, 1, 2, 0, 1])

In [25]:
uniques

Index(['foo', 'bar', 'baz'], dtype='object')

# 链式操作

In [26]:
# 创建一个DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 链式操作
result = (df.mul(2) + df.add(1)).dropna()
result

Unnamed: 0,A,B
0,4,13
1,7,16
2,10,19


# 使用query方法进行筛选

In [27]:
# 创建一个DataFrame
data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 使用query方法筛选出A列大于2的行
result = df.query('A > 2')

result

Unnamed: 0,A,B
2,3,30
3,4,40
4,5,50


# 使用shift进行位移操作

DataFrame中的shift方法可以将数据向上或向下位移指定的行数。

In [28]:
# 创建一个包含NaN值的DataFrame  
df = pd.DataFrame({'A': [1, 2, np.nan, 4]})  
print(df)  
  
# 使用shift方法向上位移一行，将NaN值填充到第一行  
result = df['A'].shift(-1) 
result

     A
0  1.0
1  2.0
2  NaN
3  4.0


0    2.0
1    NaN
2    4.0
3    NaN
Name: A, dtype: float64

# 使用resample对数据重采样

DataFrame中的resample方法可以按照指定的时间间隔对数据进行重采样，常用于时间序列数据的处理。

In [29]:
# 创建一个时间序列DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]}, index=pd.date_range('2023-01-01', periods=5))  
df

Unnamed: 0,A
2023-01-01,1
2023-01-02,2
2023-01-03,3
2023-01-04,4
2023-01-05,5


In [33]:
# 使用resample方法按天进行重采样，采用平均值作为采样值  
result = df.resample('D').mean()
result

Unnamed: 0,A
2023-01-01,1
2023-01-02,2
2023-01-03,3
2023-01-04,4
2023-01-05,5


# 使用nlargest和nsmallest进行最大最小值操作

DataFrame中的nlargest和nsmallest方法可以找出最大的N个值和最小的N个值。

In [34]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [3, 1, 2], 'B': [6, 4, 5]})  

  
# 使用nlargest方法找出B列最大的2个值  
result = df['B'].nlargest(2)  
# 输出Series([6, 5]) 
result

0    6
2    5
Name: B, dtype: int64

In [35]:
# 使用nsmallest方法找出A列最小的2个值  
result = df['A'].nsmallest(2)  
result

1    1
2    2
Name: A, dtype: int64

# 使用map和applymap进行映射操作

DataFrame中的map方法可以对一列进行映射，而applymap方法可以对整个DataFrame进行映射。

In [36]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
  
# 使用map方法将A列的值映射为新的值  
mapping_dict = {1: 'one', 2: 'two', 3: 'three'}  
result = df['A'].map(mapping_dict)  
result 

0      one
1      two
2    three
Name: A, dtype: object

In [37]:
# 使用applymap方法将整个DataFrame的值映射为新的值  
mapping_func = lambda x: x * 2  
result = df.applymap(mapping_func)  
result

Unnamed: 0,A,B
0,2,8
1,4,10
2,6,12


# 使用stack和unstack进行堆叠和解堆叠操作

DataFrame中的stack方法可以将数据的列转换为行，而unstack方法可以将数据的行转换为列。

In [41]:
# 创建一个多重索引的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [42]:
# 使用stack方法将数据的列转换为行  
result = df.stack()  
# 输出Series([1, 4, 2, 5, 3, 6], index=MultiIndex([('a', 'x'), ('a', 'y'), ('b', 'x'), ('b', 'y'), ('c', 'x'), ('c', 'y')], names=['index', 'columns']))  
result  

0  A    1
   B    4
1  A    2
   B    5
2  A    3
   B    6
dtype: int64

In [43]:
# 使用unstack方法将数据的行转换为列  
result = df.unstack()  
# 输出DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})
result

A  0    1
   1    2
   2    3
B  0    4
   1    5
   2    6
dtype: int64

# 使用rolling进行滑动窗口操作
        
DataFrame中的rolling方法可以进行滑动窗口操作，常用于数据处理和分析。

In [44]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})  
df

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5


In [45]:
# 使用rolling方法进行滑动窗口操作，窗口大小为3，并计算每个窗口内的平均值  
result = df.rolling(window=3).mean() 
result

Unnamed: 0,A
0,
1,
2,2.0
3,3.0
4,4.0


# 使用replace进行替换操作

DataFrame中的replace方法可以对指定的值进行替换操作。

In [46]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': ['foo', 'bar', 'foo', 'bar', 'foo']})  
df

Unnamed: 0,A,B
0,1,foo
1,2,bar
2,3,foo
3,4,bar
4,5,foo


In [47]:
# 使用replace方法将B列中的'foo'替换为'baz'  
result = df.replace({'B': {'foo': 'baz'}})
result

Unnamed: 0,A,B
0,1,baz
1,2,bar
2,3,baz
3,4,bar
4,5,baz


# 使用melt进行重塑操作
        
DataFrame中的melt方法可以对数据进行重塑操作，将宽格式的数据转换为长格式，常用于数据处理和分析。

In [48]:
# 创建一个宽格式的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})  
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [49]:
# 使用melt方法将数据进行重塑操作，将宽格式的数据转换为长格式  
result = df.melt()  
result

Unnamed: 0,variable,value
0,A,1
1,A,2
2,A,3
3,B,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


# 使用agg进行聚合操作

DataFrame中的agg方法可以对指定的列进行聚合操作，将多个值合并为一个值，常用于数据处理和分析

In [50]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})  
df

Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [51]:
# 使用agg方法将A列和B列分别进行求和和平均值操作  
result = df.agg({'A': 'sum', 'B': 'mean'}) 
result

A    15.0
B    30.0
dtype: float64

# 使用diff计算某列/行的变化值

DataFrame的diff()方法计算（时间）序列的变化值，可用于数据分析和特征开发，同时diff提供periods、axis两个参数，可以自行设置diff步长、以及行/列计算

In [55]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 40, 4, 5], 'B': [5, 4, 3, 2, 1]})  
# 计算相邻元素之间的差异
diff_df = df.diff(periods=1,axis=0)  
''' 参数
  periods：指定计算百分比变化的周期数/步长;可为负数,periods=-1时计算b-c,a-b
  axis：指定计算的轴，0表示按列计算，1表示按行计算。默认为0。
'''
diff_df

Unnamed: 0,A,B
0,,
1,1.0,-1.0
2,38.0,-1.0
3,-36.0,-1.0
4,1.0,-1.0


# 使用pct_change计算某列/行的变化率

DataFrame的pct_change()方法可以用来计算数据的百分比变化，与diff()方法配套

In [56]:
# 创建一个包含时间序列数据的DataFrame  
df = pd.DataFrame({'A': [10, 15, 20, 25], 'B': [5, 7, 10, 15]}, index=pd.date_range('2023-01-01', periods=4))  
  
# 计算DataFrame的百分比变化  
pct_change_df = df.pct_change(periods=1, fill_method='bfill', axis=0)  
''' 参数
  periods：指定计算百分比变化的周期数，默认为1。
  fill_method：指定如何填充缺失值，可选参数包括backfill、bfill、pad、ffill、
               nearest等。默认为pad。
  limit：指定连续缺失值的最大填充数量。默认为None。
  freq：指定时间频率，用于计算时间序列数据的百分比变化。默认为None。
  axis：指定计算的轴，0表示按列计算，1表示按行计算。默认为0。
'''
pct_change_df

Unnamed: 0,A,B
2023-01-01,,
2023-01-02,0.5,0.4
2023-01-03,0.333333,0.428571
2023-01-04,0.25,0.5


# 使用rank对数据进行排名操作
        
DataFrame的rank()方法可以对数据进行排名操作，返回一个新的DataFrame，其中每个元素表示该元素在原始DataFrame中的排名

In [57]:
# 创建一个包含不同类型数据的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 4, 3, 2], 'C': ['a', 'b', 'c', 'd'], 'D': [np.nan, 2, 3, 4]})  
  
# 对DataFrame进行排名操作  
ranked_df = df.rank(axis=0, method='min', ascending=False, numeric_only=True, na_option='bottom', pct=False)  
''' 参数
  method：指定排名的方式，可选参数包括average、min、max、first、dense。默认值为average。
  ascending：指定排名的顺序，True表示升序排名，False表示降序排名。默认值为True。
  axis：指定排名的轴，0表示按列排名，1表示按行排名。默认值为0。
  numeric_only：指定是否只对数值类型的数据进行排名。默认值为True。
  na_option：指定如何对NaN值进行排名，可选参数包括keep、top、bottom。默认值为keep。
  pct：是否以百分位形式显示返回的排名。默认为False。
'''
ranked_df

Unnamed: 0,A,B,D
0,4.0,1.0,4.0
1,3.0,2.0,3.0
2,2.0,3.0,2.0
3,1.0,4.0,1.0


# 使用pivot_table创建数据透视表

DataFrame的pivot_table()方法可以用来创建一个数据透视表，功能基本同excel

In [58]:
# 创建一个包含销售数据的DataFrame  
df = pd.DataFrame({'Product': ['A', 'B', 'C', 'A', 'B', 'C'],  
                   'Date': pd.date_range('2023-01-01', periods=6),  
                   'Sales': [10, 20, 30, 40, 50, 60],  
                   'Discounts': [0.1, 0.2, 0.3, 0.1, 0.2, 0.3]})  
df

Unnamed: 0,Product,Date,Sales,Discounts
0,A,2023-01-01,10,0.1
1,B,2023-01-02,20,0.2
2,C,2023-01-03,30,0.3
3,A,2023-01-04,40,0.1
4,B,2023-01-05,50,0.2
5,C,2023-01-06,60,0.3


In [59]:
# 创建一个数据透视表，按产品和销售日期汇总销售额和折扣额  
pivot_table = df.pivot_table(values=['Sales', 'Discounts'], index='Product', columns='Date', aggfunc=np.sum)  
''' 参数
  values：需要进行汇总的列名，或者是一个列名的列表。如果不指定，则使用所有数值列进行汇总。
  index：透视表的行索引，可以是一个列名或者一个列名的列表。如果不指定，则使用DataFrame的索引作为行索引。
  columns：透视表的列索引，可以是一个列名或者一个列名的列表。如果不指定，则不使用列索引。
  aggfunc：指定汇总函数，可以是一个字符串（如'mean'、'sum'等）或者一个函数（如np.sum、np.mean等）。默认为'mean'。
  fill_value：指定用于填充缺失值的值。默认为None。
  margins：是否添加行/列小计和总计。默认为False。
  dropna：是否删除包含缺失值的行和列。默认为True。
  margins_name：指定行/列小计和总计的名称。默认为'All'。
'''
pivot_table

Unnamed: 0_level_0,Discounts,Discounts,Discounts,Discounts,Discounts,Discounts,Sales,Sales,Sales,Sales,Sales,Sales
Date,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06
Product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
A,0.1,,,0.1,,,10.0,,,40.0,,
B,,0.2,,,0.2,,,20.0,,,50.0,
C,,,0.3,,,0.3,,,30.0,,,60.0


# 使用pivot构建二维交叉表

DataFrame的pivot()方法可以用来根据指定索引/列值重塑数据，生成一个二维交叉表

In [60]:
# 创建一个包含销售数据的DataFrame  
df = pd.DataFrame({'Product': ['A', 'B', 'C', 'A', 'B', 'C'],  
                   'Date': pd.date_range('2023-01-01', periods=6),  
                   'Sales': [10, 20, 30, 40, 50, 60]})  
df

Unnamed: 0,Product,Date,Sales
0,A,2023-01-01,10
1,B,2023-01-02,20
2,C,2023-01-03,30
3,A,2023-01-04,40
4,B,2023-01-05,50
5,C,2023-01-06,60


In [61]:
# 使用pivot方法创建一个新的DataFrame，按产品进行汇总，以销售日期作为列索引  
pivot_df = df.pivot(index='Product', columns='Date', values='Sales')  
''' 参数
  index：新DataFrame的行索引，可以是一个列名或者一个列名的列表。如果不指定，则使用DataFrame的索引作为行索引。
  columns：新DataFrame的列索引，可以是一个列名或者一个列名的列表。如果不指定，则不使用列索引。
  values：需要进行汇总的列名，或者是一个列名的列表。如果不指定，则使用所有数值列进行汇总。
'''
pivot_df

Date,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06
Product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,10.0,,,40.0,,
B,,20.0,,,50.0,
C,,,30.0,,,60.0


# 使用nunique构建二维交叉表统计唯一值的数量
        
DataFrame的unique()方法可以得到唯一值列表，而nunique()方法可以用来统计唯一值的数量。

In [62]:
# 创建一个包含销售数据的DataFrame  
df = pd.DataFrame({'Product': ['A', 'B', 'C', 'A', 'B', 'C'],  
                   'Date': pd.date_range('2023-01-01', periods=6),  
                   'Sales': [10, 20, 30, 40, 50, 60],  
                   'Discounts': [0.1, 0.2, 0.3, 0.1, 0.2, np.nan]})  
  
# 统计DataFrame中每列的唯一值数量  
unique_counts = df.nunique()  
''' 参数
  axis：指定要使用的轴，0或'index'表示按行统计，1或'columns'表示按列统计。默认为0。
  dropna：是否忽略NaN值。默认为True。
'''

unique_counts

Product      3
Date         6
Sales        6
Discounts    3
dtype: int64

# 使用str.cat进行拼接操作

DataFrame的str.cat()方法可以用来将指定列中的字符串连接起来，并返回一个新的DataFrame

In [63]:
# 创建一个包含姓名和年龄的DataFrame  
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]})  
  
# 将姓名和年龄连接起来，并添加到一个新列中  
df['Full_Name'] = df['Name'].str.cat(df['Age'].astype(str), sep='-')  
''' 参数
  sep：指定连接字符串的分隔符。默认为空字符串。
  na_rep：指定用于替换缺失值的字符串。默认为空字符串。
'''
df

Unnamed: 0,Name,Age,Full_Name
0,Alice,25,Alice-25
1,Bob,30,Bob-30
2,Charlie,35,Charlie-35


# 使用str.replace进行替换操作

DataFrame的str.replace()方法可以用来替换指定列中的字符串

In [64]:
# 创建一个包含产品名称和价格的DataFrame  
df = pd.DataFrame({'Product': ['Apple iPhone 13', 'Samsung Galaxy S23', 'Google Pixel 7'], 'Price': [999, 1299, 899]})  
df 

Unnamed: 0,Product,Price
0,Apple iPhone 13,999
1,Samsung Galaxy S23,1299
2,Google Pixel 7,899


In [65]:
# 将产品名称中的"iPhone"替换为"iPhone Pro"  
df['Product2'] = df['Product'].str.replace('iPhone', 'iPhone Pro')  
''' 参数
  old_value：指定要被替换的字符串。可以是一个字符串或者一个正则表达式。
  new_value：指定替换后的新字符串。
  regex：是否将old_value视为正则表达式。默认为False。
  case：是否区分大小写。默认为False。
'''
df

Unnamed: 0,Product,Price,Product2
0,Apple iPhone 13,999,Apple iPhone Pro 13
1,Samsung Galaxy S23,1299,Samsung Galaxy S23
2,Google Pixel 7,899,Google Pixel 7


# 使用str.len进行替换操作
        
DataFrame的str.len()方法可以用来计算指定列中的字符串长度

In [66]:
# 计算产品名称的长度，并添加到一个新列中  
df['Product_Length'] = df['Product'].str.len() 
df

Unnamed: 0,Product,Price,Product2,Product_Length
0,Apple iPhone 13,999,Apple iPhone Pro 13,15
1,Samsung Galaxy S23,1299,Samsung Galaxy S23,18
2,Google Pixel 7,899,Google Pixel 7,14


# 使用interpolate快速线性插值来填充缺失
        
DataFrame.interpolate()用于通过线性或指定的插值方法填充DataFrame中的NaN值。这个方法对于处理包含缺失值的数据非常有用，它可以根据已有数据推测并填充缺失值。

参数：

method：插值技术，可以是‘linear’, ‘time’, ‘index’, ‘values’, ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘spline’, ‘polynomial’等。

axis：沿哪个轴进行插值，默认是0，表示按列插值。如果是1，表示按行插值。

limit：要填充的连续NaN的最大数量。

inplace：是否在原地修改DataFrame，如果是True，则不返回新的DataFrame，直接在原DataFrame上进行修改。

其他参数，如limit_direction, limit_area, downcast等，用于进一步控制插值的方式。

In [2]:
df = pd.DataFrame({'A': [1, np.nan, np.nan, 4], 'B': [5, np.nan, np.nan, 8]})   
df

Unnamed: 0,A,B
0,1.0,5.0
1,,
2,,
3,4.0,8.0


In [3]:
df_interpolated = df.interpolate(method='linear')  
df_interpolated

Unnamed: 0,A,B
0,1.0,5.0
1,2.0,6.0
2,3.0,7.0
3,4.0,8.0


# 使用pop快速删除列

DataFrame.pop() 用于移除指定的列，并返回该列的数据。这个方法非常有用，当你需要在删除列的同时，保留该列的数据以供后续使用时。

参数:

label: 这是你想要从DataFrame中移除的列的标签。

In [4]:
data = {  
    'A': [1, 2, 3, 4],  
    'B': [5, 6, 7, 8],  
    'C': [9, 10, 11, 12]  
}  
  
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


In [5]:
df.pop('C')

0     9
1    10
2    11
3    12
Name: C, dtype: int64

In [6]:
df

Unnamed: 0,A,B
0,1,5
1,2,6
2,3,7
3,4,8


# 使用Align将数据完全对齐
                
Align 是 Pandas 中用于对齐两个或多个 DataFrame 的方法。当你有两个 DataFrame，并且你想要根据某个轴（行或列）上的标签对齐它们时，Align 是非常有用的。Align 的主要目的是确保两个 DataFrame 在指定的轴上具有相同的标签，如有必要，它将引入空值（NaN）来填充缺失的部分。

参数：

other：这是要与调用 DataFrame 对齐的另一个 DataFrame。

axis：要对齐的轴。可以是 0 或 1，默认为 0。0 表示按照行标签对齐，1 表示按照列标签对齐。

method：用于对齐的方法。可以是 'backfill' 或 'bfill'（使用下一个非空值进行填充），'pad' 或 'ffill'（使用前一个非空值进行填充）或 'nearest'（使用最近的值填充）。默认为 'pad'。

limit：对于 method 参数，该参数定义了最大填充量。例如，如果 limit=1，则每个缺口最多填充一个值。

fill_value：用于填充缺失值的值。如果指定了这个参数，它将覆盖 method 参数。

level：在多索引 DataFrame 中，可以指定用于对齐的级别。

In [7]:
df1 = pd.DataFrame({'A': [1, 2, 3],  
                    'B': [4, 5, 6]})  
df2 = pd.DataFrame({'A': [1, 2, 3],  
                    'C': [7, 8, 9]})  
  
# 使用 Align 方法对齐两个 DataFrame  
df1, df2 = df1.align(df2, axis=1)  

df1

Unnamed: 0,A,B,C
0,1,4,
1,2,5,
2,3,6,


In [8]:
df2

Unnamed: 0,A,B,C
0,1,,7
1,2,,8
2,3,,9


# 使用sample随机抽样
        
DataFrame的sample()方法是用于从DataFrame中随机抽取样本的方法。它可以按指定的数量或比例随机选择行，返回一个新的DataFrame

参数：
n：要抽取的样本数量。可以是一个整数，表示要抽取的行数。

frac：抽取样本的比例。可以是一个浮点数，表示要抽取的行数占原始DataFrame的比例。

replace：是否为有放回抽样。默认为False，表示无放回抽样。

weights：为每一行分配一个权重，按权重进行抽样。可以是一个列表或Series，长度与DataFrame的行数相同。

random_state：随机数生成器的种子，用于可重复抽样。可以是一个整数或RandomState对象。

axis：要抽样的轴，默认为0，表示抽取行。

In [9]:
data = {'A': [1, 2, 3, 4, 5],  
        'B': ['a', 'b', 'c', 'd', 'e']}  

df = pd.DataFrame(data)  
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [10]:
# 随机抽取2个样本  
sample_df = df.sample(n=2, random_state=1)  
sample_df

Unnamed: 0,A,B
2,3,c
1,2,b


# 使用isin过滤数据
       
DataFrame.isin() 用于检查DataFrame中的元素是否存在于给定的值或序列中，可以当做判断条件用于数据过滤。

In [11]:
data = {'A': [1, 2, 3, 4, 5],  
        'B': ['a', 'b', 'c', 'd', 'e']}  
df = pd.DataFrame(data)  

df[df['B'].isin(['a','c'])] 

Unnamed: 0,A,B
0,1,a
2,3,c


# 使用where对数据进行过滤

DataFrame.where() 用于根据指定的条件选择DataFrame中的元素。这个方法会返回一个新的DataFrame，其中包含满足条件的元素，不满足条件的元素将被替换为NaN或者指定的值。

参数：

cond：条件。可以是布尔型的DataFrame、Series或者标量。如果为DataFrame，则其形状必须与调用者DataFrame相同。

other：不满足条件时填充的值。默认为NaN。

In [12]:
df = pd.DataFrame({  
    'A': [1, 2, 3, 4, 5],  
    'B': ['a', 'b', 'c', 'd', 'e']  
})
df.where(df['A'] > 2)

Unnamed: 0,A,B
0,,
1,,
2,3.0,c
3,4.0,d
4,5.0,e


# 使用combine合并计算数据
        
DataFrame.combine()方法用于在两个DataFrame之间进行元素级别的组合操作、通过一个函数合并两个DataFrame，例如，你可以使用这个函数来实现两个DataFrame的元素级别的加法、乘法等操作。

参数：

other：要与调用者DataFrame合并的另一个DataFrame。

func：用于组合的函数。这个函数应该接受两个参数（即两个要合并的DataFrame的每一个元素），并返回一个值（即结果DataFrame的对应元素）。

fill_value：用于填充结果DataFrame中的NaN值的值。这个参数是可选的。

overwrite：如果为True，则结果DataFrame中的值将覆盖调用者DataFrame中的值。这个参数是可选的。

In [13]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df2 = pd.DataFrame({'A': [1, 1, 1], 'B': [1, 1, 1]})  
  
result = df1.combine(df2, np.add)  

result

Unnamed: 0,A,B
0,2,5
1,3,6
2,4,7


# 使用combine_first合并数据

DataFrame.combine_first()用于组合两个DataFrame，主要用于处理缺失值。当在一个DataFrame中有缺失值（NaN）时，这个方法会用另一个DataFrame中的对应值来进行填充。如果另一个DataFrame中也没有对应值，那么缺失值将保持不变。这个方法在数据清洗和处理缺失值时非常有用。

参数：

other：另一个DataFrame，用于填充调用者DataFrame中的缺失值。

In [14]:
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, np.nan]})  
df2 = pd.DataFrame({'A': [np.nan, 2, np.nan], 'B': [np.nan, 5, np.nan]})
result = df1.combine_first(df2) 
df1 

Unnamed: 0,A,B
0,1.0,4.0
1,,
2,3.0,


In [15]:
df2

Unnamed: 0,A,B
0,,
1,2.0,5.0
2,,


In [16]:
result

Unnamed: 0,A,B
0,1.0,4.0
1,2.0,5.0
2,3.0,


# 使用update更新数据

DataFrame.update()使用另一个DataFrame的非NA值更新调用者DataFrame中的值。对齐是基于索引进行的。这个方法会直接修改调用者DataFrame。

参数：

other：用于更新的DataFrame。

join：默认为'left'，仅保留原始对象的索引和列。

overwrite：布尔值，默认为True。如果为True，则使用other中的值覆盖原始DataFrame中的值。如果为False，则仅更新原始DataFrame中为NA的值。

In [17]:
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [400, 500, 600]})
new_df = pd.DataFrame({'B': [4, np.nan, 6]})
df

Unnamed: 0,A,B
0,1,400
1,2,500
2,3,600


In [18]:
new_df

Unnamed: 0,B
0,4.0
1,
2,6.0


In [19]:
df.update(new_df)

In [20]:
df

Unnamed: 0,A,B
0,1,4.0
1,2,500.0
2,3,6.0


# 使用equals判断两个df是否等同

DataFrame.equals() 用于检查两个DataFrame是否相等。这个方法会考虑DataFrame的形状、索引、列名以及元素值。如果两个DataFrame在这些方面都相同，那么这个方法将返回True，否则返回False。这个方法和下面的compare配合检验数据一致性简直无敌！

参数：

other：要比较的另一个DataFrame。

check_dtype：布尔值，默认为True。是否检查列的数据类型。

check_index_type：布尔值，默认为False。是否检查索引的类型。

check_column_type：布尔值，默认为False。是否检查列名的类型。

check_frame_shape：布尔值，默认为True。是否检查DataFrame的形状。

check_exact：布尔值，默认为False。是否检查DataFrame完全相同，包括索引和列的顺序。

In [21]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})  
df2 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
result = df1.equals(df2) 
result

True

# 使用compare对比两个df的差异

DataFrame.compare() 用于比较两个DataFrame对象的差异。这个方法将会返回一个新的DataFrame，其中包含了两个DataFrame之间不同的元素。

这个方法非常有用，特别是在你需要找出两个DataFrame之间的差异时，例如一个原始的DataFrame和一个经过修改后的DataFrame，通过compare()方法，你可以轻松地找出它们之间的差异。

参数：

other：另一个DataFrame，用于填充调用者DataFrame中的缺失值。

In [22]:
data1 = {  
    'A': [1, 2, 3, 4],  
    'B': [5, 6, 7, 8],  
    'C': [9, 10, 11, 12]  
}  
  
data2 = {  
    'A': [1, 2, 3, 40],  
    'B': [50, 6, 7, 8],  
    'C': [9, 10, 11, 12]  
}  
  
df1 = pd.DataFrame(data1)  
df2 = pd.DataFrame(data2)

df1

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


In [23]:
df2

Unnamed: 0,A,B,C
0,1,50,9
1,2,6,10
2,3,7,11
3,40,8,12


In [24]:
diff = df1.compare(df2)
diff

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,self,other,self,other
0,,,5.0,50.0
3,4.0,40.0,,


# 使用append进行拼接操作

DataFrame.append()用于将新的DataFrame行附加到调用者DataFrame的末尾。这个方法返回一个新的DataFrame，包含调用者和附加的DataFrame的所有行。

参数：

other：要附加的DataFrame。

ignore_index：布尔值，默认为False。如果为True，则重置索引。

verify_integrity：布尔值，默认为False。如果为True，当新行与现有行具有相同的索引时，将引发ValueError。

In [25]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})  
df2 = pd.DataFrame({'A': [4, 5, 6], 'B': ['d', 'e', 'f']})
result = df1.append(df2)  
result

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
0,4,d
1,5,e
2,6,f


# 使用get_dummies进行独热编码

DataFrame.get_dummies()用于将分类变量转换为虚拟/指标变量，也就是我们通常所说的"独热编码"。这个方法返回一个DataFrame，其中包含原始DataFrame中所有非类别列，以及每个类别列的一个或多个新的二进制列。

参数：

data：array-like，Series或DataFrame。要转换的数据。

prefix：string，默认为None。用于追加DataFrame列名的字符串。

prefix_sep：string，默认为'_'。如果附加前缀，用于分隔前缀和列名的字符串。

dummy_na：bool，默认为False。如果为True，则添加一列以指示NaN，即把NaN也当作一个类别进行编码。

columns：list-like，默认None。要编码的DataFrame中的列名。如果columns为None，则所有具有category dtype的列都将被转换。否则，只对指定的列进行转换。

sparse：bool，默认为False。如果为True，则返回稀疏DataFrame。

drop_first：bool，默认为False。如果为True，则删除每个非NaN列的第一个类别，以避免多重共线性。也就是说，对于每个类别变量，都会删除一个类别（通常是第一个），以便模型能够识别基准类别。

dtype：dtype，默认np.uint8。新列的数据类型。

In [26]:
df = pd.DataFrame({  
    'color': ['red', 'blue', 'green', 'red', 'green'],  
    'value': [1, 2, 3, 4, 5]  
})
df

Unnamed: 0,color,value
0,red,1
1,blue,2
2,green,3
3,red,4
4,green,5


In [27]:
df_dummies = pd.get_dummies(df, columns=['color'])
df_dummies

Unnamed: 0,value,color_blue,color_green,color_red
0,1,0,0,1
1,2,1,0,0
2,3,0,1,0
3,4,0,0,1
4,5,0,1,0


# 使用prod计算乘积

prod 是一个用于计算数据框（DataFrame）或系列（Series）中值的乘积的方法。在 Pandas 库中，prod 函数可用于计算指定轴（默认是列轴）上数值的乘积。这对于数据分析和处理非常有用。

参数：

axis：这个参数定义了你要计算乘积的轴。默认值是 0，表示计算每列的乘积。如果你设置为 1，它将计算每行的乘积。

skipna：布尔值，默认为 True。如果设置为 True，则在计算乘积时将跳过 NaN 值。如果设置为 False，NaN 值将导致整个计算返回 NaN。

numeric_only：布尔值，默认为 None。如果设置为 True，仅计算数字列的乘积。如果设置为 False，将计算所有列的乘积，包括非数字列。当 DataFrame 中既有数字列又有非数字列时，这个参数非常有用。

**kwargs：其他关键字参数。这些参数可以直接传递给底层的 numpy.prod 函数。

In [28]:
data = {'A': [1, 2, 3],  
        'B': [4, 5, 6],  
        'C': [7, 8, 9]}  
df = pd.DataFrame(data)  
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [29]:
result = df.prod() 
result

A      6
B    120
C    504
dtype: int64

# 使用asfreq更改时间序列数据的频率

asfreq 用于更改时间序列数据的频率。这个方法在处理时间序列数据时非常有用，它可以让你将数据重采样到不同的频率，例如，从每日频率更改为每月频率，或者从每小时频率更改为每两分钟频率。

asfreq 方法的基本功能是根据新的频率返回原始数据的重采样版本。如果原始数据在新频率上没有对应的值，那么返回的值将是 NaN，除非你使用了填充方法（如 method='ffill' 或 method='bfill'）来填充这些缺失的值。

参数

freq：用于重采样的频率。例如，'D'表示按天重采样，'M'表示按月重采样等。这个参数是必需的。

method：用于插值的方法，例如'ffill'表示向前填充，'bfill'表示向后填充，'interpolate'表示线性插值等。默认是'ffill'。

how：对于周期性的重采样（例如，将数据从日频率重采样到周频率），这个参数指定了如何聚合数据。可能的值包括'sum'，'mean'，'median'，'first'，'last'等。默认是'mean'。

fill_value：用于填充缺失值的值。默认是NaN。

limit：在向前或向后填充时，限制填充的连续NaN的最大数量。

loffset：偏移量，用于调整重采样后的时间序列的频率。例如，如果设置为'2H'，则每个重采样的时间戳将增加两小时。

In [30]:
# 创建一个简单的时间序列 DataFrame  
date_rng = pd.date_range(start='1/1/2020', end='1/10/2020', freq='D')  
df = pd.DataFrame(date_rng, columns=['date'])  
df['data'] = np.random.randint(0,100,size=(len(date_rng)))  
df.set_index('date', inplace=True)  
df

Unnamed: 0_level_0,data
date,Unnamed: 1_level_1
2020-01-01,4
2020-01-02,69
2020-01-03,44
2020-01-04,86
2020-01-05,59
2020-01-06,63
2020-01-07,46
2020-01-08,22
2020-01-09,20
2020-01-10,47


In [31]:
# 使用 asfreq 方法更改数据的频率为 '3D'（每三天）  
df_resampled = df.asfreq('3D')  
df_resampled

Unnamed: 0_level_0,data
date,Unnamed: 1_level_1
2020-01-01,4
2020-01-04,86
2020-01-07,46
2020-01-10,47


# 使用memory_usage查看数据占用内存

DataFrame.memory_usage()用于返回DataFrame中每列的内存使用量。这个方法可以帮助我们了解DataFrame在内存中的占用情况，特别是当处理大规模数据集时，这可以帮助我们优化数据的存储和处理。

参数：

index：布尔值，默认为True。如果设置为True，返回的内存使用量将包括索引。

deep：布尔值，默认为False。如果设置为True，将深入检查数据，包括对象dtype元素的贡献，来估算系统级内存消耗。

In [32]:
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': ['p', 'q', 'r']}  
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4,p
1,2,5,q
2,3,6,r


In [33]:
memory = df.memory_usage(deep=True) 
memory

Index    128
A         24
B         24
C        174
dtype: int64

# 使用lreshape将宽表转为原始记录表

lreshape 用于将长格式的 DataFrame 重塑为单条记录形式。该函数主要用于处理时间序列数据或其他具有多层索引的数据。通过 lreshape，可以将多层索引的数据转换为扁平化的表格形式，使得数据更易于分析和可视化。

参数

data：需要被重塑的DataFrame对象。

groups：分组方式的字典或Series，提供每个索引级别的新名字。

label：用于结果MultiIndex的名称。

In [34]:
data = pd.DataFrame({'hr1': [514, 573], 'hr2': [545, 526],
                      'team': ['Red Sox', 'Yankees'],
                      'year1': [2007, 2007], 'year2': [2008, 2008]})
data

Unnamed: 0,hr1,hr2,team,year1,year2
0,514,545,Red Sox,2007,2008
1,573,526,Yankees,2007,2008


In [35]:
pd.lreshape(data, {'year': ['year1', 'year2'], 'hr': ['hr1', 'hr2']})

Unnamed: 0,team,year,hr
0,Red Sox,2007,514
1,Yankees,2007,573
2,Red Sox,2008,545
3,Yankees,2008,526


# 使用wide_to_long将宽表转为原始记录表

wide_to_long 是 Pandas 中一个用于将数据从宽格式转换为长格式的函数。在数据处理和分析中，我们经常需要在这两种格式之间进行转换。宽格式是指每个观测值都有单独的行，而长格式则是指每个变量都有单独的列。wide_to_long 函数的基本思想是通过堆叠几个列来创建一个更长的数据框，这在某些统计分析和数据清理任务中很有用。
参数：
df：输入的宽格式 DataFrame。

stubnames：需要被堆叠的列的列名前缀。

i：在宽格式中作为标识符的列名。

j：在长格式中表示变量的列名。

In [36]:
# 创建一个宽格式的 DataFrame  
data = {'id': [1, 2, 3],  
        'value1': [10, 20, 30],  
        'value2': [100, 200, 300]}  
df = pd.DataFrame(data) 
df

Unnamed: 0,id,value1,value2
0,1,10,100
1,2,20,200
2,3,30,300


In [37]:
# 使用 wide_to_long 函数转换为长格式  
df_long = pd.wide_to_long(df, ['value'], i='id', j='time') 
df_long

Unnamed: 0_level_0,Unnamed: 1_level_0,value
id,time,Unnamed: 2_level_1
1,1,10
2,1,20
3,1,30
1,2,100
2,2,200
3,2,300
