In [1]:
import pandas as pd

### 数据位移

In [2]:
import pandas as pd

data = [7532, 3937, 9447, 8765, 4564]
index = ['Jan', 'Feb', 'Mar', 'Apr', 'May']

df = pd.DataFrame(data, index, columns=['OPPO'])
print(df)
print()

df['销量差'] = df['OPPO'] - df['OPPO'].shift()
print(df)

     OPPO
Jan  7532
Feb  3937
Mar  9447
Apr  8765
May  4564

     OPPO     销量差
Jan  7532     NaN
Feb  3937 -3595.0
Mar  9447  5510.0
Apr  8765  -682.0
May  4564 -4201.0


### 数据的转换

#### 将一列数据转换成多列

In [3]:
import pandas as pd 

pd.set_option('display.unicode.east_asian', True)
pd.set_option('display.width', 1000)
pd.set_option('display.max_columns', 500)

df = pd.read_excel('data/快递发货单.xlsx', usecols=['客户名称', '快递地址'])
print(type(df['快递地址']))    # <class 'pandas.core.series.Series'>

new_df = df['快递地址'].str.split(' ', expand=True)       # expand=True 表示将字符串转换为DataFrame
# print(new_df)
df['省'] = new_df[0]
df['市'] = new_df[1]
df['区'] = new_df[2]

print(df)

<class 'pandas.core.series.Series'>
  客户名称                                          快递地址      省         市             区
0   李明玉  陕西省 西安市 长安中路888号 西安音乐学院教研中心  陕西省     西安市  长安中路888号
1   张凤香                河北省 唐山市 乐亭县 财富大街990号  河北省     唐山市         乐亭县
2   王红军   上海市 浦东‭新区 快乐路867 快乐城市1111号8808室  上海市  浦东‭新区      快乐路867
3     牛犇                  河北省 唐山市 开发区 喜庆道100号  河北省     唐山市         开发区
4     马明                  台湾省 台北市 开发区 经济路101号  台湾省     台北市         开发区
5     张刚       湖北省 武汉市 青山区 建设1路特新东方大厦802  湖北省     武汉市         青山区
6   吴尹明      辽宁省 抚顺市 顺城区 太重阳北路1号楼2单元606  辽宁省     抚顺市         顺城区
7   欧阳丽       山东省 临沂市 河东区 正阳北路国科石油分公司  山东省     临沂市         河东区
8   佐成明                 山西省 大同市 城区 吉安里75#9-3-2  山西省     大同市           城区


In [4]:
import pandas as pd

# 创建一个简单的DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 定义一个函数，计算每列的平方和
def square_sum(column):
    return sum(column ** 2)

# 在每列上应用函数
result = df.apply(square_sum)
print(result)


A     14
B     77
C    194
dtype: int64


#### 将元组数据进行分割

In [5]:
import pandas as pd
data = {
        'a':[1, 2,3,4,5],
        'b':[(1,2), (3,4), (5,6), (7,8), (9, 10)]
}

df = pd.DataFrame(data)
print(df)
print()

df[['b1', 'b2']] = df['b'].apply(pd.Series)
# 首先，apply(pd.Series) 将每个元组拆分成一个新的 DataFrame，
# 然后使用 join() 将这个新的 DataFrame 连接到原始 DataFrame 中。

print(df)


   a        b
0  1   (1, 2)
1  2   (3, 4)
2  3   (5, 6)
3  4   (7, 8)
4  5  (9, 10)

   a        b  b1  b2
0  1   (1, 2)   1   2
1  2   (3, 4)   3   4
2  3   (5, 6)   5   6
3  4   (7, 8)   7   8
4  5  (9, 10)   9  10


#### join() 与 apply()

In [6]:
import pandas as pd
data = {
        'a':[1, 2,3,4,5],
        'b':[(1,2), (3,4), (5,6), (7,8), (9, 10)]
}

df = pd.DataFrame(data)
print(df)
print()

df = df.join(df['b'].apply(pd.Series))
print(df)

   a        b
0  1   (1, 2)
1  2   (3, 4)
2  3   (5, 6)
3  4   (7, 8)
4  5  (9, 10)

   a        b  0   1
0  1   (1, 2)  1   2
1  2   (3, 4)  3   4
2  3   (5, 6)  5   6
3  4   (7, 8)  7   8
4  5  (9, 10)  9  10


#### 行列转换stack_unstack

In [7]:
import pandas as pd

df = pd.read_excel('data/grade.xlsx')
# print(df)
df = df.set_index(['班级', '序号'])
print(df.head())
print()

df = df.stack()
print(df.head(6))

            姓名  得分  排名
班级 序号                   
1班  1     王*亮    84    11
     2      杨**    82    17
     3     王*彬    78    37
2班  4     赛*琪    77    51
     5      刘**    76    64

班级  序号    
1班   1     姓名    王*亮
            得分       84
            排名       11
      2     姓名     杨**
            得分       82
            排名       17
dtype: object


In [8]:
import pandas as pd

df = pd.read_excel('data/grade2.xls', sheet_name='英语2')
print(df.head())
print('*************************************************')

df = df.set_index(['班级', '序号', 'Unnamed: 2'])
print(df.unstack())


  班级  序号 Unnamed: 2 Unnamed: 3
0  1班     1       姓名      王*亮
1  1班     1       得分         84
2  1班     1       排名         11
3  1班     2       姓名       杨**
4  1班     2       得分         82
*************************************************
           Unnamed: 3          
Unnamed: 2       姓名 得分 排名
班级 序号                      
1班  1          王*亮   84   11
     2           杨**   82   17
     3          王*彬   78   37
2班  4          赛*琪   77   51
     5           刘**   76   64
     6          刘*彤   74   89


#### 行列转换pivot

In [9]:
import pandas as pd

df = pd.read_excel('data/grade3.xlsx')
# print(df.head())

print(df.pivot(index='序号', columns='班级', values='得分'))


班级  1班  2班  3班  4班  5班
序号                         
1      84   77   72   72   70
2      82   76   72   72   68
3      78   74   72   70   68


In [10]:
import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Alice', 'Bob'],
    'Subject': ['Math', 'Math', 'English', 'English'],
    'Score': [90, 85, 88, 92],
}

df = pd.DataFrame(data)
print('Original df')
print(df)
print()
# 使用 pivot_table() 创建透视表
pivot_table = pd.pivot_table(df, values='Score', index='Name', columns='Subject', aggfunc='mean', fill_value=0)
print('pivot_table')
print(pivot_table)
print()

# 使用 pivot() 创建透视表
pivot_result = df.pivot(index='Name', columns='Subject', values='Score')
print('pivot result:')
print(pivot_result)

Original df
    Name  Subject  Score
0  Alice     Math     90
1    Bob     Math     85
2  Alice  English     88
3    Bob  English     92

pivot_table
Subject  English  Math
Name                  
Alice       88.0  90.0
Bob         92.0  85.0

pivot result:
Subject  English  Math
Name                  
Alice         88    90
Bob           92    85


#### DataFrame转成字典_列表_元组

In [11]:
# DataFrame 转换成 字典

import pandas as pd

df = pd.read_excel('data/电脑配件销售记录.xlsx') 
df1=df.groupby('产品名称')['数量'].sum()     # 根据产品名称分组，统计数量 
dict1 = df1.to_dict()                       # 转换成字典

for item in dict1:
    print(item,':', dict1[item])


DVD光驱 : 150
SD存储卡 : 44
手写板 : 57
无线网卡 : 40
蓝牙适配器 : 322
键盘 : 140
麦克风 : 178
鼠标 : 166


In [12]:
# DataFrame 转换成 列表
import pandas as pd

df = pd.read_excel('data/电脑配件销售记录.xlsx') 
# print(df.head())

df1 = df[['产品名称']]
# print(df1)
print(type(df1))   #   <class 'pandas.core.frame.DataFrame'>
print(type(df1['产品名称'].values))    # <class 'numpy.ndarray'>

lst = df1.values.tolist()  # 1. df1.values 返回一个二维 NumPy 数组  2. tolist() 将 NumPy 数组转换为 Python 列表。
print(lst)
print(type(lst))   # <class 'list'>

lst1 = df1['产品名称'].tolist()   # df1['产品名称'] 返回一个 Pandas Series 对象。
print(type(df1['产品名称']))        # <class 'pandas.core.series.Series'>
print(lst1)
print(type(lst1))   # <class 'list'>

'''
在结果上，两者最终都是得到了一个包含产品名称的列表，
但 df1.values.tolist() 是得到整个 DataFrame 的所有数据，
而 df1['产品名称'].tolist() 是得到指定列的数据。
'''

<class 'pandas.core.frame.DataFrame'>
<class 'numpy.ndarray'>
[['无线网卡'], ['无线网卡'], ['鼠标'], ['鼠标'], ['鼠标'], ['鼠标'], ['鼠标'], ['手写板'], ['手写板'], ['麦克风'], ['麦克风'], ['麦克风'], ['麦克风'], ['麦克风'], ['蓝牙适配器'], ['蓝牙适配器'], ['蓝牙适配器'], ['蓝牙适配器'], ['蓝牙适配器'], ['蓝牙适配器'], ['键盘'], ['键盘'], ['SD存储卡'], ['SD存储卡'], ['SD存储卡'], ['DVD光驱'], ['DVD光驱'], ['DVD光驱'], ['DVD光驱']]
<class 'list'>
<class 'pandas.core.series.Series'>
['无线网卡', '无线网卡', '鼠标', '鼠标', '鼠标', '鼠标', '鼠标', '手写板', '手写板', '麦克风', '麦克风', '麦克风', '麦克风', '麦克风', '蓝牙适配器', '蓝牙适配器', '蓝牙适配器', '蓝牙适配器', '蓝牙适配器', '蓝牙适配器', '键盘', '键盘', 'SD存储卡', 'SD存储卡', 'SD存储卡', 'DVD光驱', 'DVD光驱', 'DVD光驱', 'DVD光驱']
<class 'list'>


"\n在结果上，两者最终都是得到了一个包含产品名称的列表，\n但 df1.values.tolist() 是得到整个 DataFrame 的所有数据，\n而 df1['产品名称'].tolist() 是得到指定列的数据。\n"

In [13]:
# DataFrame 转换成 元组

import pandas as pd

df = pd.read_excel('data/电脑配件销售记录.xlsx') 
# print(df.head())

df1 = df[['产品名称', '销售员', '数量']]
# print(df1)
# print(df1.values)
# print(type(df1.values))   # <class 'numpy.ndarray'>

t = [tuple (x) for x in df1.values]
for item in t:
    print(item)

('无线网卡', '王丽', 10)
('无线网卡', '李桂林', 30)
('鼠标', '李欢', 6)
('鼠标', '李欢', 15)
('鼠标', '李桂林', 16)
('鼠标', '王双', 52)
('鼠标', '李桂林', 77)
('手写板', '华国华', 14)
('手写板', '王丽', 43)
('麦克风', '王丽', 4)
('麦克风', '王丽', 10)
('麦克风', '华国华', 47)
('麦克风', '李桂林', 55)
('麦克风', '李欢', 62)
('蓝牙适配器', '李桂林', 18)
('蓝牙适配器', '李桂林', 39)
('蓝牙适配器', '王丽', 51)
('蓝牙适配器', '李桂林', 58)
('蓝牙适配器', '李桂林', 61)
('蓝牙适配器', '李欢', 95)
('键盘', '华国华', 20)
('键盘', '王丽', 120)
('SD存储卡', '李欢', 9)
('SD存储卡', '李桂林', 15)
('SD存储卡', '李桂林', 20)
('DVD光驱', '王丽', 30)
('DVD光驱', '王丽', 32)
('DVD光驱', '华国华', 40)
('DVD光驱', '华国华', 48)


#### DataFrame转成HTML文件

In [15]:
import pandas as pd

df = pd.read_excel('data/电脑配件销售记录.xlsx') 
print(df.head())
df.to_html('data/电脑配件销售记录.html', header=True)

   产品名称  销售员  数量  标准单价  成交金额
0  无线网卡    王丽    10       178      1780
1  无线网卡  李桂林    30       178      5340
2      鼠标    李欢     6       299      1794
3      鼠标    李欢    15       299      4485
4      鼠标  李桂林    16       299      4784
