In [None]:
import pandas as pd

# 1. 创建 DataFrame

## 1.1 通过 Series 创建

In [None]:
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([6,7,8,9,10])
df = pd.DataFrame({'第一列':s1,'第二列':s2})
df

Unnamed: 0,第一列,第二列
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


## 1.2 通过字典创建

In [3]:
df2 = pd.DataFrame(
    {
        'id':[1,2,3,4,5],
        'name':['tom','jack','alice','bob','alan'],
        'age':[15,17,19,20,16],
        'score':[188,90,76,86,92]
    },
    index=[1,2,3,4,5], # 重新设置索引
    columns=['id','age','name','score']  # 更改列的顺序
)
df2

Unnamed: 0,id,age,name,score
1,1,15,tom,188
2,2,17,jack,90
3,3,19,alice,76
4,4,20,bob,86
5,5,16,alan,92


# 2. DataFrame 属性
|属性|说明|属性|说明|
|---|---|---|---|
|`index`|行索引|`loc[]`|显式索引，按行列标签索引或切片|
|`values`|值|`iloc[]`|隐式索引，按行列位置索引或切片|
|`dtypes`|元素类型|`at[]`|使用行列标签访问单个元素|
|`shape`|形状|`iat[]`|使用行列位置访问单个元素|
|`ndim`|维度|`T`|行列转置|
|`size`|元素个数|
|`columns`|列标签|

In [40]:
# 显式索引 获取第4行
df2.loc[4]

id         4
age       20
name     bob
score     86
Name: 4, dtype: object

In [41]:
# 隐式索引 获取第4行
df2.iloc[3]

id         4
age       20
name     bob
score     86
Name: 4, dtype: object

In [45]:
# 显式索引 获取 “name” 列
df2.loc[:,'name']

1      tom
2     jack
3    alice
4      bob
5     alan
Name: name, dtype: object

In [47]:
# 隐式索引 获取 “name” 列
df2.iloc[:,2]

1      tom
2     jack
3    alice
4      bob
5     alan
Name: name, dtype: object

# 3. 访问 DataFrame 数据

In [4]:
# 单列数据：写法一   返回 Series
df2['name']

1      tom
2     jack
3    alice
4      bob
5     alan
Name: name, dtype: object

In [5]:
# 单列数据：写法二   返回 Series
df2.name

1      tom
2     jack
3    alice
4      bob
5     alan
Name: name, dtype: object

In [6]:
# 多列数据   返回 DataFrame
df2[['name','score']]

Unnamed: 0,name,score
1,tom,188
2,jack,90
3,alice,76
4,bob,86
5,alan,92


In [11]:
# 查看头尾部分数据
print(df2.head(2),'\n')
print(df2.tail(2))

   id  age  name  score
1   1   15   tom    188
2   2   17  jack     90 

   id  age  name  score
4   4   20   bob     86
5   5   16  alan     92


In [16]:
# 使用布尔索引筛选数据
print(df2['score'] > 80)
df2[df2['score'] > 80]

1     True
2     True
3    False
4     True
5     True
Name: score, dtype: bool


Unnamed: 0,id,age,name,score
1,1,15,tom,188
2,2,17,jack,90
4,4,20,bob,86
5,5,16,alan,92


In [21]:
# 随机抽样
df2.sample(3)

Unnamed: 0,id,age,name,score
5,5,16,alan,92
1,1,15,tom,188
3,3,19,alice,76


# 4. DataFrame 常用方法
统计描述
|方法|说明|方法|说明|
|---|---|---|---|
|`sum()`|求和（忽略缺失值）|`median()`|中位数|
|`mean()`|平均值|`quantile(num)`|分位数（`q`取0~1之间）|
|`min()`|最小值|`mode()`|众数|
|`max()`|最大值|`count()`|非缺失值数量|
|`var()`|方差|`describe()`|常见统计信息罗列 <br/>（`count` `mean` `std` `min` `25%` `50%` `75%` `max`）|
|`std()`|标准差|

去重与排序
|方法|说明|方法|说明|
|---|---|---|---|
|`duplicated()`|是否重复|`sort_index()`|按索引排序|
|`drop_duplicates()`|去除重复项|`sort_values()`|按值排序|
|`value_counts()`|每个唯一值的出现次数|`nlargest(n)`|返回某列最大的n条数据|
|`sample()`|随机抽样|`replace()`|替换值|

In [23]:
df2.duplicated(subset=['score'])

1    False
2    False
3    False
4    False
5    False
dtype: bool

判断
|方法|说明|
|---|---|
|`isin()`|判断元素是否包含在参数集合中|
|`isna()`|判断是否为缺失值（如 NaN 或 None）|