In [1]:
import pandas as pd
import numpy as np

In [3]:
# DataFrame的创建
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([6,7,8,9,10])
df = pd.DataFrame({'第一列':s1,'第二列':s2})
print(df)

   第一列  第二列
0    1    6
1    2    7
2    3    8
3    4    9
4    5   10


In [6]:
# 通过字典创建
df = pd.DataFrame({
    "name":['like','tree'],
    "age":[18,19],
    "score":[90,89]
},index=[1,2])
print(df)

   name  age  score
1  like   18     90
2  tree   19     89


In [7]:
# 属性
import pandas as pd

data = {
    '收盘价': [102.3, 103.5, 105.1, 104.8],
    '成交量': [1000, 1200, 1500, 900],
    '涨跌幅': [0.0117, 0.0155, -0.0029, 0.0134]
}
df = pd.DataFrame(data, index=pd.date_range('2023-01-01', periods=4))

In [None]:
print(f"行索引：{df.index}")
print("---------------------------------------------------------------")
print(f"列标签：{df.columns}")
print("---------------------------------------------------------------")
print(f"形状：{df.shape}")
print("---------------------------------------------------------------")
print(f"数据类型：{df.dtypes}")
print("---------------------------------------------------------------")

行索引：DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'], dtype='datetime64[ns]', freq='D')
---------------------------------------------------------------
列标签：Index(['收盘价', '成交量', '涨跌幅'], dtype='object')
---------------------------------------------------------------
形状：(4, 3)
---------------------------------------------------------------
数据类型：收盘价    float64
成交量      int64
涨跌幅    float64
dtype: object
---------------------------------------------------------------


In [None]:
# 显式索引（标签）
print(f"loc 取单个值：{df.loc['2023-01-01','收盘价']}")
print("---------------------------------------------------------------")
# 隐式索引（位置）
print(f"iloc 取单个值: {df.iloc[0,1]}")
print("---------------------------------------------------------------")
# 快速取单个值df.at['行标签','列标签'] = 新值 df.iat[行位置, 列位置]= 新值 
print("at 取单个值:", df.at['2023-01-01', '成交量'])
print("---------------------------------------------------------------")
print("iat 取单个值:", df.iat[2, 2])
print("---------------------------------------------------------------")
# 转置
print("转置前\n",df)
print("转置后:\n", df.T)

loc 取单个值：102.3
---------------------------------------------------------------
iloc 取单个值: 1000
---------------------------------------------------------------
at 取单个值: 1000
---------------------------------------------------------------
iat 取单个值: -0.0029
---------------------------------------------------------------
转置前
               收盘价   成交量     涨跌幅
2023-01-01  102.3  1000  0.0117
2023-01-02  103.5  1200  0.0155
2023-01-03  105.1  1500 -0.0029
2023-01-04  104.8   900  0.0134
转置后:
      2023-01-01  2023-01-02  2023-01-03  2023-01-04
收盘价    102.3000    103.5000    105.1000    104.8000
成交量   1000.0000   1200.0000   1500.0000    900.0000
涨跌幅      0.0117      0.0155     -0.0029      0.0134


In [26]:
# 常用方法
import pandas as pd
import numpy as np

data = {
    '姓名': ['张三', '李四', '王五', '赵六', '张三', '李四', '王五', np.nan],
    '科目': ['语文', '数学', '语文', '数学', '语文', '数学', '语文', '英语'],
    '成绩': [85, 92, 78, 88, 85, 92, 78, 90],
    '班级': ['一班', '一班', '二班', '二班', '一班', '一班', '二班', '三班']
}
df = pd.DataFrame(data)

In [34]:
# 统计series(单列)每个唯一值出现的次数
print(df['科目'].value_counts)
print("------------------")
# 统计每行或每列的非缺失值
print(df['科目'].count())
print("------------------")
# 判断每行是否为重复行
print(df.duplicated())
print("------------------")
# 去除重复行，保留第一次出现的行
print(df.drop_duplicates())
#从 DataFrame 中随机抽样行
print("------------------")
print(df.sample(n=3))


<bound method IndexOpsMixin.value_counts of 0    语文
1    数学
2    语文
3    数学
4    语文
5    数学
6    语文
7    英语
Name: 科目, dtype: object>
------------------
8
------------------
0    False
1    False
2    False
3    False
4     True
5     True
6     True
7    False
dtype: bool
------------------
    姓名  科目  成绩  班级
0   张三  语文  85  一班
1   李四  数学  92  一班
2   王五  语文  78  二班
3   赵六  数学  88  二班
7  NaN  英语  90  三班
------------------
   姓名  科目  成绩  班级
6  王五  语文  78  二班
5  李四  数学  92  一班
1  李四  数学  92  一班


In [None]:
# 替换指定值为新值
print(df.replace({'成绩':{85:58}}))
print("------------------")
# 按索引排序（行或列）
print(df.sort_index(ascending=False))
print("------------------")
# 按列值排序
print(df.sort_values(by='成绩',ascending=False))
print("------------------")
# 返回某列值最大的 n 条数据
print(df.nlargest(n=3,columns='成绩'))
print("------------------")
# 返回某列值最小的 n 条数据
print(df.nsmallest(n=3,columns='成绩'))

    姓名  科目  成绩  班级
0   张三  语文  58  一班
1   李四  数学  92  一班
2   王五  语文  78  二班
3   赵六  数学  88  二班
4   张三  语文  58  一班
5   李四  数学  92  一班
6   王五  语文  78  二班
7  NaN  英语  90  三班
------------------
    姓名  科目  成绩  班级
7  NaN  英语  90  三班
6   王五  语文  78  二班
5   李四  数学  92  一班
4   张三  语文  85  一班
3   赵六  数学  88  二班
2   王五  语文  78  二班
1   李四  数学  92  一班
0   张三  语文  85  一班
------------------
    姓名  科目  成绩  班级
1   李四  数学  92  一班
5   李四  数学  92  一班
7  NaN  英语  90  三班
3   赵六  数学  88  二班
0   张三  语文  85  一班
4   张三  语文  85  一班
2   王五  语文  78  二班
6   王五  语文  78  二班
------------------
    姓名  科目  成绩  班级
1   李四  数学  92  一班
5   李四  数学  92  一班
7  NaN  英语  90  三班
   姓名  科目  成绩  班级
2  王五  语文  78  二班
6  王五  语文  78  二班
0  张三  语文  85  一班


In [None]:
import pandas as pd
# 案例 1：学生成绩分析
# 场景：某班级的学生成绩数据如下，请完成以下任务：
# 找出数学成绩高于 90 分或英语成绩高于 85 分的学生。
# 计算每位学生的总分和平均分。
# 按总分从高到低排序，并输出前 3 名学生。
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '数学': [85, 92, 78, 88, 95],
    '英语': [90, 88, 85, 92, 80],
    '物理': [75, 80, 88, 85, 90]
}

df = pd.DataFrame(data)
df

Unnamed: 0,姓名,数学,英语,物理
0,张三,85,90,75
1,李四,92,88,80
2,王五,78,85,88
3,赵六,88,92,85
4,钱七,95,80,90


In [7]:
# 计算每位学生的总分和平均分
df['总分'] = df[['数学','英语','物理']].sum(axis=1)
df['平均分'] = df[['数学','英语','物理']].mean(axis=1).round(2)
df

Unnamed: 0,姓名,数学,英语,物理,总分,平均分
0,张三,85,90,75,250,83.33
1,李四,92,88,80,260,86.67
2,王五,78,85,88,251,83.67
3,赵六,88,92,85,265,88.33
4,钱七,95,80,90,265,88.33


In [12]:
# 找出数学成绩高于 90 分或英语成绩高于 85 分的学生。
filtered = df[(df['数学'] > 90) | (df['英语']>85)]
filtered

Unnamed: 0,姓名,数学,英语,物理,总分,平均分
0,张三,85,90,75,250,83.33
1,李四,92,88,80,260,86.67
3,赵六,88,92,85,265,88.33
4,钱七,95,80,90,265,88.33


In [9]:
# 按总分从高到低排序，并输出前 3 名学生。
top3 = df.sort_values(by='总分',ascending=False).head(3)
top3

Unnamed: 0,姓名,数学,英语,物理,总分,平均分
3,赵六,88,92,85,265,88.33
4,钱七,95,80,90,265,88.33
1,李四,92,88,80,260,86.67


In [None]:
import pandas as pd
# 案例 2：销售数据分析
# 场景：某公司销售数据如下，请完成以下任务：
# 计算每种产品的总销售额（销售额 = 单价 × 销量）
# 找出销售额最高的产品。
# 按销售额从高到低排序，并输出所有产品信息。
data = {
    '产品名称': ['A', 'B', 'C', 'D'],
    '单价': [100, 150, 200, 120],
    '销量': [50, 30, 20, 40]
}

df = pd.DataFrame(data)
df

Unnamed: 0,产品名称,单价,销量
0,A,100,50
1,B,150,30
2,C,200,20
3,D,120,40


In [16]:
# 计算每种产品的总销售额（销售额 = 单价 × 销量）
df['销售额'] = df['单价'] * df['销量']
df

Unnamed: 0,产品名称,单价,销量,销售额
0,A,100,50,5000
1,B,150,30,4500
2,C,200,20,4000
3,D,120,40,4800


In [17]:
# 找出销售额最高的产品。
top = df.sort_values(by='销售额',ascending=False).head(1)
top

Unnamed: 0,产品名称,单价,销量,销售额
0,A,100,50,5000


In [None]:
# 按销售额从高到低排序，并输出所有产品信息
print(df.sort_values(by='销售额',ascending=False))

  产品名称   单价  销量   销售额
0    A  100  50  5000
3    D  120  40  4800
1    B  150  30  4500
2    C  200  20  4000
