In [2]:
import pandas as pd, numpy as np
from pandas import Series, DataFrame

# 基础操作series

## 创建series

In [6]:
# 创建series
s1 = Series([1, 2, 3])
s1

0    1
1    2
2    3
dtype: int64

In [7]:
# 创建series指定索引：数据 索引
s2 = Series([1, 2, 3], index=['青菜', '萝卜', '猪肉'])
s2

青菜    1
萝卜    2
猪肉    3
dtype: int64

In [59]:
# 创建series指定索引：字典
s3 = Series({'青菜': 1, '萝卜': 2, '猪肉': 3})
s3

青菜    1
萝卜    2
猪肉    3
dtype: int64

In [60]:
s4 = Series(data=np.random.randint(10, 200, size=4), dtype=np.uint8, index=['a', 'b', 'c', 'd'])
s4

a     20
b    100
c    168
d    150
dtype: uint8

In [61]:
s5 = Series(s3, copy=True)  # 复制数组 独立
s5

青菜    1
萝卜    2
猪肉    3
dtype: int64

In [64]:
s5['猪肉'] = 99
s3

(青菜    1
 萝卜    2
 猪肉    3
 dtype: int64,
 青菜     1
 萝卜     2
 猪肉    99
 dtype: int64)

## series属性

In [12]:
s3.values

array([1, 2, 3], dtype=int64)

In [10]:
s3.index

Index(['青菜', '萝卜', '猪肉'], dtype='object')

In [13]:
s3.dtype

dtype('int64')

In [14]:
s3.size

3

In [15]:
s3.shape

(3,)

In [17]:
s3.name

In [18]:
s3.empty

False

In [19]:
s3.hasnans

False

In [20]:
s3.is_unique

True

In [21]:
s3.nbytes

24

In [23]:
s3.ndim

1

## 获取元素：索引切片、条件筛选

In [24]:
s3[-1]  # 位置索引

3

In [25]:
s3[1:2]  # 位置索引  包前不包后

萝卜    2
dtype: int64

In [27]:
s3['青菜']  # 标签索引

1

In [80]:
s3[['青菜', '猪肉']]  # 标签索引 传入的是列表

青菜    1
猪肉    3
dtype: int64

In [28]:
s3['青菜':'猪肉']  # 标签索引 包含结束值

青菜    1
萝卜    2
猪肉    3
dtype: int64

In [32]:
# 标签索引loc  位置索引iloc
s3.loc['青菜']

1

In [33]:
s3.iloc[2]

3

In [34]:
# 某标签是否存在
'西红柿' in s3

False

In [37]:
# 修改某标签的值
s3.loc['猪肉'] = 100
s3

青菜      1
萝卜      2
猪肉    100
dtype: int64

In [42]:
# 条件筛选
s3[(s3 > 10) | (s3 < 2)]

青菜      1
猪肉    100
dtype: int64

## 数据操作：基本运算

In [43]:
s3 + s2  # 符号运算  + - * /

青菜      2
萝卜      4
猪肉    103
dtype: int64

In [None]:
s3.add(s2, fill_value=0)  # 方法调用  add sub mul div  缺失值有默认值

In [50]:
10 * s2  # 广播机制

青菜    10
萝卜    20
猪肉    30
dtype: int64

## 数据操作：统计学方法

In [44]:
s3.max()  # 最大值

100

In [45]:
s3.min()  # 最小值

1

In [47]:
s3.sum()  # 求和

103

In [48]:
s3.mean()  # 求平均

34.333333333333336

In [49]:
s3.describe()  # 统计信息描述

count      3.000000
mean      34.333333
std       56.871200
min        1.000000
25%        1.500000
50%        2.000000
75%       51.000000
max      100.000000
dtype: float64

## 数据操作：应用函数

In [51]:
# 匿名函数
s3.apply(lambda x: x ** 2)

青菜        1
萝卜        4
猪肉    10000
dtype: int64

In [52]:
# 高阶函数
def get_grade_from_price(price):
    if price <= 1:
        return '便宜'
    elif price <= 2:
        return '还行'
    else:
        return '小贵'


s3.apply(get_grade_from_price)

青菜    便宜
萝卜    还行
猪肉    小贵
dtype: object

# 基础操作dataframe

## 创建df

In [65]:
# 字典形式创建df：拼series
s_id = Series({"小明": "01", "小红": "02", "小杰": "03", "小丽": "04", "小华": "05"})
s_class = Series({"小明": "二班", "小红": "一班", "小杰": "二班", "小丽": "三班", "小华": "一班"})
s_grade = Series({"小明": 92, "小红": 67, "小杰": 70, "小丽": 88, "小华": 76})
df1 = DataFrame({'学号': s_id, '班级': s_class, '成绩': s_grade})
df1

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小红,2,一班,67
小杰,3,二班,70
小丽,4,三班,88
小华,5,一班,76


In [66]:
# 一次性创建df
df2 = DataFrame({
    '学号': {"小明": "01", "小红": "02", "小杰": "03", "小丽": "04", "小华": "05"},
    '班级': {"小明": "二班", "小红": "一班", "小杰": "二班", "小丽": "三班", "小华": "一班"},
    '成绩': {"小明": 92, "小红": 67, "小杰": 70, "小丽": 88, "小华": 76}
})
df2

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小红,2,一班,67
小杰,3,二班,70
小丽,4,三班,88
小华,5,一班,76


In [88]:
# 创建df：指定索引、列名
df3 = DataFrame(data=[
    ['male', 18, 175, 145],
    ['female', 17, 160, 110],
    ['male', 18, 178, 150],
    ['male', 19, 180, 148],
    ['female', 18, 165, 100]
], index=['张三', '李四', 'Jack', 'Henry', 'Merry'], columns=['gender', 'age', 'height', 'weight'])
df3

Unnamed: 0,gender,age,height,weight
张三,male,18,175,145
李四,female,17,160,110
Jack,male,18,178,150
Henry,male,19,180,148
Merry,female,18,165,100


## df属性

In [71]:
df2.index  # 索引

Index(['小明', '小红', '小杰', '小丽', '小华'], dtype='object')

In [72]:
df2.columns  # 列名

Index(['学号', '班级', '成绩'], dtype='object')

In [73]:
df2.values  # 所有值

array([['01', '二班', 92],
       ['02', '一班', 67],
       ['03', '二班', 70],
       ['04', '三班', 88],
       ['05', '一班', 76]], dtype=object)

In [74]:
df2.T  # 转置

Unnamed: 0,小明,小红,小杰,小丽,小华
学号,01,02,03,04,05
班级,二班,一班,二班,三班,一班
成绩,92,67,70,88,76


## 获得元素：索引切片、条件筛选行

In [75]:
# 提取列 用列名
df2.成绩  # 视为属性

小明    92
小红    67
小杰    70
小丽    88
小华    76
Name: 成绩, dtype: int64

In [79]:
df2[['班级', '成绩']]  # 访问多个列 要传入的是列表

Unnamed: 0,班级,成绩
小明,二班,92
小红,一班,67
小杰,二班,70
小丽,三班,88
小华,一班,76


In [81]:
# 提取行 用索引 loc iloc
df2.loc['小明':'小杰']  # 标签索引包含结束值

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小红,2,一班,67
小杰,3,二班,70


In [82]:
df2.loc[['小明', '小杰']]  # 接受的是列表

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小杰,3,二班,70


In [83]:
# 提取某部分数据
df2.loc['小明', '学号']  # 单点

'01'

In [86]:
df2.loc[:'小杰', ['学号', '成绩']]  # 联合使用

Unnamed: 0,学号,成绩
小明,1,92
小红,2,67
小杰,3,70


In [87]:
# 根据条件筛选符合条件的行  放入针对列的条件
df2['成绩'] > 80  # T F F T F

小明     True
小红    False
小杰    False
小丽     True
小华    False
Name: 成绩, dtype: bool