In [369]:
import numpy as np
import pandas as pd

In [370]:
df=pd.DataFrame(data=np.random.randint(0,10,size=(5,3)))
df.index

RangeIndex(start=0, stop=5, step=1)

In [371]:
df.index=list('abcde')

In [372]:
df

Unnamed: 0,0,1,2
a,6,1,8
b,7,4,1
c,3,2,4
d,6,1,7
e,0,3,2


In [373]:
df.columns=[1,2,3]
df

Unnamed: 0,1,2,3
a,6,1,8
b,7,4,1
c,3,2,4
d,6,1,7
e,0,3,2


### 代码 `df.columns` 的解释

1. `df.columns` 属性用于获取或设置 DataFrame 的列标签（列名）。
2. 返回值是一个 `Index` 对象，包含所有列的标签。

总结：这段代码返回 DataFrame `df` 的列名列表。

In [374]:
pd.Index(data=[1,2,3])

Index([1, 2, 3], dtype='int64')

### 代码 `pd.Index(data=[1,2,3])` 的解释

1. `pd.Index` 是 pandas 中的一个类，用于创建索引对象。
2. 参数 `data=[1,2,3]` 表示索引的值为 `[1, 2, 3]`。
3. 返回值是一个 `Index` 对象，可以用作 DataFrame 或 Series 的行索引或列索引。

总结：这段代码创建了一个包含 `[1, 2, 3]` 的 pandas 索引对象。

In [375]:
pd.RangeIndex(start=0,stop=10,step=1,name='index')

RangeIndex(start=0, stop=10, step=1, name='index')

### 代码 `pd.RangeIndex(start=0,stop=10,step=1)` 的解释

1. `pd.RangeIndex` 是 pandas 中的一种特殊索引类型，用于表示范围索引。
2. 参数 `start=0` 表示索引的起始值为 `0`。
3. 参数 `stop=10` 表示索引的结束值为 `10`（不包含 `10`）。
4. 参数 `step=1` 表示索引的步长为 `1`。

总结：这段代码创建了一个从 `0` 到 `9`（步长为 `1`）的 pandas 范围索引对象。

In [376]:
np.arange(0,10,step=1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [377]:
df.index = pd.RangeIndex(start=0, stop=len(df), step=1, name='index')
df

Unnamed: 0_level_0,1,2,3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,6,1,8
1,7,4,1
2,3,2,4
3,6,1,7
4,0,3,2


In [378]:
level1=['第一期','第二期']
level2=['A','B','C']
columns=pd.MultiIndex.from_product([level1,level2],names=['期数','产品'])
index=pd.Index(data=['lucy','tom','alex'],name='销售员')
data=np.random.randint(0,100,size=(3,6))
df=pd.DataFrame(data=data,index=index,columns=columns)

In [379]:
df

期数,第一期,第一期,第一期,第二期,第二期,第二期
产品,A,B,C,A,B,C
销售员,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
lucy,26,87,43,80,97,21
tom,93,87,27,77,75,72
alex,0,50,99,26,41,5


### 代码 `pd.MultiIndex.from_product([level1,level2])` 的解释

1. `pd.MultiIndex.from_product` 方法用于创建一个多级索引（MultiIndex）。
2. 参数 `[level1, level2]` 表示两个级别的索引：
   - `level1=['第一期','第二期']` 是第一级索引。
   - `level2=['A','B','C']` 是第二级索引。
3. 该方法会生成两个级别的笛卡尔积，形成所有可能的组合。

总结：这段代码创建了一个多级索引，其中第一级为 `'第一期'` 和 `'第二期'`，第二级为 `'A'`、`'B'` 和 `'C'`，总共包含 6 个组合。

### 代码块的解释

1. 定义两个列表：
   - `level1=['第一期','第二期']` 表示第一级索引的值。
   - `level2=['A','B','C']` 表示第二级索引的值。

2. 使用 `pd.MultiIndex.from_product` 方法创建一个多级列索引：
   - 参数 `[level1, level2]` 生成两个级别的笛卡尔积。
   - 参数 `names=['期数','产品']` 为两个级别的索引命名。

3. 使用 `pd.Index` 创建行索引：
   - 参数 `data=['lucy','tom','alex']` 指定行索引的值。
   - 参数 `name='销售员'` 为行索引命名。

4. 使用 `np.random.randint` 生成一个 3 行 6 列的随机整数数组作为数据。

5. 使用 `pd.DataFrame` 创建一个 DataFrame：
   - 参数 `data=data` 指定数据。
   - 参数 `index=index` 指定行索引。
   - 参数 `columns=columns` 指定多级列索引。

总结：这段代码创建了一个具有多级列索引和命名行索引的 DataFrame，其中列索引表示期数和产品，行索引表示销售员，数据为随机生成的整数。

In [380]:
index=pd.MultiIndex.from_product([['第一期','第二期'],['lucy','tom','alex']])
columns=pd.Index(data=['A','B','C'],name='产品名称')
data=np.random.randint(0,100,size=(6,3))
df=pd.DataFrame(data=data,index=index,columns=columns)
df

Unnamed: 0,产品名称,A,B,C
第一期,lucy,68,14,25
第一期,tom,61,33,72
第一期,alex,77,35,69
第二期,lucy,72,99,8
第二期,tom,40,65,59
第二期,alex,86,98,33


### 代码块的解释

1. 使用 `pd.MultiIndex.from_tuples` 方法创建一个多级列索引：
   - 参数 `tuples` 是一个包含元组的列表，每个元组表示多级索引的一个组合。
   - 例如，`('第一期', 'lucy')` 表示第一级索引为 `'第一期'`，第二级索引为 `'lucy'`。

2. 定义行索引：`index=list('ABC')`，表示行索引为 `'A'`、`'B'` 和 `'C'`。

3. 使用 `np.random.randint` 生成一个 3 行 6 列的随机整数数组作为数据。

4. 使用 `pd.DataFrame` 创建一个 DataFrame：
   - 参数 `data=data` 指定数据。
   - 参数 `index=index` 指定行索引。
   - 参数 `columns=tuples` 指定多级列索引。

总结：这段代码创建了一个具有多级列索引的 DataFrame，其中列索引表示期数和人员，行索引为 `'A'`、`'B'` 和 `'C'`，数据为随机生成的整数。

In [381]:
tuples=pd.MultiIndex.from_tuples([('第一期','lucy'),
                                  ('第一期','tom'),
                                  ('第一期','alex'),
                                  ('第二期','lucy'),
                                  ('第二期','tom'),
                                  ('第二期','alex'),])
index=list('ABC')
data=np.random.randint(0,100,size=(3,6))
pd.DataFrame(data=data,index=index,columns=tuples)

Unnamed: 0_level_0,第一期,第一期,第一期,第二期,第二期,第二期
Unnamed: 0_level_1,lucy,tom,alex,lucy,tom,alex
A,77,78,5,92,3,90
B,0,77,87,3,54,53
C,94,20,18,97,69,30


### 代码块的解释

1. 使用 `pd.MultiIndex.from_tuples` 方法创建一个多级列索引：
   - 参数 `tuples` 是一个包含元组的列表，每个元组表示多级索引的一个组合。
   - 例如，`('第一期', 'lucy')` 表示第一级索引为 `'第一期'`，第二级索引为 `'lucy'`。

2. 定义行索引：`index=list('ABC')`，表示行索引为 `'A'`、`'B'` 和 `'C'`。

3. 使用 `np.random.randint` 生成一个 3 行 6 列的随机整数数组作为数据。

4. 使用 `pd.DataFrame` 创建一个 DataFrame：
   - 参数 `data=data` 指定数据。
   - 参数 `index=index` 指定行索引。
   - 参数 `columns=tuples` 指定多级列索引。

总结：这段代码创建了一个具有多级列索引的 DataFrame，其中列索引表示期数和人员，行索引为 `'A'`、`'B'` 和 `'C'`，数据为随机生成的整数。

创建1个dataframe,表示出lucy,tom,jack,期中期末各科成绩

In [382]:
data1=np.random.randint(0,100,size=(3,3))
data2=np.random.randint(0,100,size=(3,3))
index=pd.Index(data=['lucy','tom','jack'],name='姓名')
columns=pd.Index(data=['python','java','c'],name='学科')
score1=pd.DataFrame(data=data1,index=index,columns=columns)
score2=pd.DataFrame(data=data2,index=index,columns=columns)


In [383]:
display(score1,score2)

学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lucy,46,29,1
tom,22,66,1
jack,81,57,16


学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lucy,75,3,8
tom,81,54,54
jack,75,70,42


获取上学期lucy成绩的最高分是哪门学科

In [384]:
score1.loc['lucy'].max()

46

In [385]:
score1.loc['lucy']==score1.loc['lucy'].max()

学科
python     True
java      False
c         False
Name: lucy, dtype: bool

In [386]:
score1.loc['lucy',score1.loc['lucy']==score1.loc['lucy'].max()]

学科
python    46
Name: lucy, dtype: int64

In [387]:
score1.loc['lucy',score1.loc['lucy']==score1.loc['lucy'].max()].index[0]

'python'

### 代码 `score1.loc['lucy',score1.loc['lucy']==score1.loc['lucy'].max()]` 的解释

1. `score1.loc['lucy']` 提取 DataFrame `score1` 中索引为 `'lucy'` 的行数据。
2. `score1.loc['lucy'].max()` 计算 `'lucy'` 这一行数据的最大值。
3. `score1.loc['lucy']==score1.loc['lucy'].max()` 返回一个布尔 Series，标记 `'lucy'` 行中哪些列的值等于最大值。
4. `score1.loc['lucy', ...]` 使用布尔索引提取 `'lucy'` 行中值等于最大值的列及其对应的值。

总结：这段代码用于获取 `score1` 中 `'lucy'` 行的最大值及其对应的列名和值。

In [388]:
score1.query('python>60')

学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
jack,81,57,16


In [389]:
score1.query('姓名 == "lucy" and python == 58')

学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1


同时获取上学期和下学期tom成绩，计算tom的各科学科平均成绩

In [390]:
columns=pd.MultiIndex.from_product([['上学期','下学期'],['java','python','c']])
index=['lucy','tom','jack']
data=np.random.randint(0,100,size=(3,6))
score=pd.DataFrame(data=data,index=index,columns=columns)
score

Unnamed: 0_level_0,上学期,上学期,上学期,下学期,下学期,下学期
Unnamed: 0_level_1,java,python,c,java,python,c
lucy,12,93,4,54,99,68
tom,93,34,49,1,49,63
jack,6,25,71,71,59,75


In [391]:
score.loc['tom']

上学期  java      93
     python    34
     c         49
下学期  java       1
     python    49
     c         63
Name: tom, dtype: int64

In [392]:
tom_score=score.loc['tom']
tom_score.unstack().mean()

c         56.0
java      47.0
python    41.5
dtype: float64

### 代码 `tom_score=score.loc['tom']; tom_score.unstack().mean()` 的解释

1. `score.loc['tom']` 提取 DataFrame `score` 中索引为 `'tom'` 的行数据，返回一个 Series 对象。
   - 该 Series 的索引是一个 MultiIndex，表示学期和学科的组合。

2. `tom_score.unstack()` 将 Series 转换为一个 DataFrame，其中：
   - 行索引为学期（如 `'上学期'`、`'下学期'`）。
   - 列索引为学科（如 `'java'`、`'python'`、`'c'`）。

3. `tom_score.unstack().mean()` 计算 DataFrame 中每列（即每个学科）的平均值。
   - 返回一个 Series，其中索引为学科，值为对应学科的平均成绩。

总结：这段代码提取 `score` 中 `'tom'` 的所有成绩，按学期和学科重新组织，并计算 `'tom'` 在每个学科上的平均成绩。

获取上学期jack的python成绩,并给他加20分

In [393]:
score.loc['jack',('上学期','python')]+=20
score

Unnamed: 0_level_0,上学期,上学期,上学期,下学期,下学期,下学期
Unnamed: 0_level_1,java,python,c,java,python,c
lucy,12,93,4,54,99,68
tom,93,34,49,1,49,63
jack,6,45,71,71,59,75


In [394]:
score.stack(level=-2).unstack(level=-2).stack(level=-1)

  score.stack(level=-2).unstack(level=-2).stack(level=-1)
  score.stack(level=-2).unstack(level=-2).stack(level=-1)


Unnamed: 0,Unnamed: 1,java,python,c
上学期,jack,6,45,71
上学期,lucy,12,93,4
上学期,tom,93,34,49
下学期,jack,71,59,75
下学期,lucy,54,99,68
下学期,tom,1,49,63


### 代码 `score.stack(level=-2).unstack(level=-2).stack(level=-1)` 的解释

1. `score.stack(level=-2)` 将 DataFrame 的列索引中倒数第二个级别（即学期）转为行索引，
   - 结果是一个新的 DataFrame，其中行索引包含原来的行索引和学期，列索引仅剩下学科。

2. `.unstack(level=-2)` 将刚刚转为行索引的学期重新转回列索引，
   - 恢复到原始的列索引结构。

3. `.stack(level=-1)` 将列索引中最后一个级别（即学科）转为行索引，
   - 结果是一个新的 DataFrame，其中行索引包含原来的行索引、学期和学科，列索引为空。

总结：这段代码通过多次 `stack` 和 `unstack` 操作，重新排列了 DataFrame 的索引和列，最终将学期和学科都转为行索引。