In [1]:
import pandas as pd
import numpy as np
from pandas import DataFrame,Series

### 替换操作
- 替换操作可以同步作用于Series和DataFrame中
- 单值替换
    - 普通替换：  替换所有符合要求的元素:to_replace=15,value='e'
    - 按列指定单值替换： to_replace={列标签：替换值} value='value'
    
    
- 多值替换
    - 列表替换: to_replace=[]  value=[]
    - 字典替换（推荐）  to_replace={to_replace:value,to_replace:value}

In [4]:
df = DataFrame(data=np.random.randint(10,20,size=(5,4)))
df

Unnamed: 0,0,1,2,3
0,12,19,13,10
1,13,15,15,17
2,10,16,13,14
3,14,17,12,13
4,17,18,13,13


In [5]:
df.replace(to_replace=10,value='ten')

Unnamed: 0,0,1,2,3
0,12,19,13,ten
1,13,15,15,17
2,ten,16,13,14
3,14,17,12,13
4,17,18,13,13


In [6]:
df.replace(to_replace={10:'ten'})

Unnamed: 0,0,1,2,3
0,12,19,13,ten
1,13,15,15,17
2,ten,16,13,14
3,14,17,12,13
4,17,18,13,13


In [8]:
#将指定列中的相关数据进行替换
df.replace(to_replace={3:10},value='ten')

Unnamed: 0,0,1,2,3
0,12,19,13,ten
1,13,15,15,17
2,10,16,13,14
3,14,17,12,13
4,17,18,13,13


### 映射操作
- 概念：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定（给一个元素值提供不同的表现形式）

- 创建一个df，两列分别是姓名和薪资，然后给其名字起对应的英文名

In [9]:
dic = {
    'name':['jay','bobo','jay','tom'],
    'salary':[10000,20000,10000,30000]
}
df = DataFrame(data=dic)
df

Unnamed: 0,name,salary
0,jay,10000
1,bobo,20000
2,jay,10000
3,tom,30000


In [11]:
#给英文名起一个中文名
dic = {
    'jay':'周杰伦',
    'bobo':'波波',
    'tom':'张三'
}#字典充当映射关系表
df['c_name'] = df['name'].map(dic)
df

Unnamed: 0,name,salary,c_name
0,jay,10000,周杰伦
1,bobo,20000,波波
2,jay,10000,周杰伦
3,tom,30000,张三


- map是Series的方法，只能被Series调用

### 运算工具

- 超过3000部分的钱缴纳50%的税，计算每个人的税后薪资

In [13]:
def after_sal(s):
    return s - (s-3000)*0.5
df['after_sal'] = df['salary'].map(after_sal)
df

Unnamed: 0,name,salary,c_name,after_sal
0,jay,10000,周杰伦,6500.0
1,bobo,20000,波波,11500.0
2,jay,10000,周杰伦,6500.0
3,tom,30000,张三,16500.0


- Series的方法apply也可以像map一样充当运算工具
    - apply充当运算工具效率要远远高于map

### 排序实现的随机抽样
- take()
- np.random.permutation()

In [14]:
df = DataFrame(data=np.random.randint(0,100,size=(1000,3)),columns=['a','b','c'])
df

Unnamed: 0,a,b,c
0,35,87,60
1,84,16,81
2,27,39,84
3,50,82,55
4,55,36,43
5,39,57,20
6,39,89,46
7,74,47,7
8,12,2,51
9,2,42,82


In [19]:
np.random.permutation(3)

array([1, 0, 2])

In [21]:
#注意：indices只能跟隐式索引
df.take(indices=np.random.permutation(3),axis=1)

Unnamed: 0,a,c,b
0,35,60,87
1,84,81,16
2,27,84,39
3,50,55,82
4,55,43,36
5,39,20,57
6,39,46,89
7,74,7,47
8,12,51,2
9,2,82,42


In [25]:
df.take(indices=np.random.permutation(3),axis=1).take(indices=np.random.permutation(1000),axis=0)

Unnamed: 0,a,b,c
219,46,11,43
524,86,61,0
23,82,28,77
443,22,33,59
633,26,86,94
684,64,75,39
516,30,95,93
620,42,67,45
610,35,9,28
246,62,77,99


In [27]:
df.take(indices=np.random.permutation(3),axis=1).take(indices=np.random.permutation(1000),axis=0)[0:10]

Unnamed: 0,b,c,a
260,8,41,82
246,77,99,62
914,93,67,50
88,72,84,72
299,43,86,54
211,94,62,96
57,99,47,55
750,13,0,66
155,38,39,25
170,96,54,77


### 数据的分类处理
- 数据分类处理的核心：

    - groupby()函数
    - groups属性查看分组情况

In [28]:
df = DataFrame({'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
                'price':[4,3,3,2.5,4,2],
               'color':['red','yellow','yellow','green','green','green'],
               'weight':[12,20,50,30,20,44]})
df

Unnamed: 0,item,price,color,weight
0,Apple,4.0,red,12
1,Banana,3.0,yellow,20
2,Orange,3.0,yellow,50
3,Banana,2.5,green,30
4,Orange,4.0,green,20
5,Apple,2.0,green,44


In [30]:
#想要对水果的种类进行分组，查看分组的情况
df.groupby(by='item').groups

{'Apple': Int64Index([0, 5], dtype='int64'),
 'Banana': Int64Index([1, 3], dtype='int64'),
 'Orange': Int64Index([2, 4], dtype='int64')}

In [35]:
#计算每种水果的平均价钱
s = df.groupby(by='item')['price'].mean()
s

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

In [38]:
#给原始数据df增加一列，这一列表示的是每一种水果的平均价格
dic = s.to_dict()
df['mean_price'] = df['item'].map(dic)
df

Unnamed: 0,item,price,color,weight,mean_price
0,Apple,4.0,red,12,3.0
1,Banana,3.0,yellow,20,2.75
2,Orange,3.0,yellow,50,3.5
3,Banana,2.5,green,30,2.75
4,Orange,4.0,green,20,3.5
5,Apple,2.0,green,44,3.0


In [41]:
#计算每一种颜色水果的平均重量，且将数据进行汇总
s = df.groupby(by='color')['weight'].mean()
s

color
green     31.333333
red       12.000000
yellow    35.000000
Name: weight, dtype: float64

In [44]:
df['mean_weight'] = df['color'].map(s.to_dict())
df

Unnamed: 0,item,price,color,weight,mean_price,mean_weight
0,Apple,4.0,red,12,3.0,12.0
1,Banana,3.0,yellow,20,2.75,35.0
2,Orange,3.0,yellow,50,3.5,35.0
3,Banana,2.5,green,30,2.75,31.333333
4,Orange,4.0,green,20,3.5,31.333333
5,Apple,2.0,green,44,3.0,31.333333


### 高级数据聚合
- 使用groupby分组后，也可以使用transform和apply提供自定义函数实现更多的运算
- df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
- transform和apply都会进行运算，在transform或者apply中传入函数即可
- transform和apply也可以传入一个lambda表达式

In [46]:
df.groupby(by='item')['price']

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x11d085dd8>

In [52]:
def my_mean(s):
    sum = 0
    for i in s:
        sum += i
    return sum/len(s)

In [53]:
df.groupby(by='item')['price'].apply(my_mean)

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

In [54]:
df.groupby(by='item')['price'].transform(my_mean)

0    3.00
1    2.75
2    3.50
3    2.75
4    3.50
5    3.00
Name: price, dtype: float64

- apply和transform的区别：
    - transform返回的是经过映射的结果，而apply返回的是没有经过映射的结果

### 数据加载

- 读取type-.txt文件数据

In [56]:
df = pd.read_csv('./data/type-.txt')
df

Unnamed: 0,你好-我好-他也好
0,也许-大概-有可能
1,然而-未必-不见得


In [57]:
df.shape

(2, 1)

In [58]:
df.columns

Index(['你好-我好-他也好'], dtype='object')

In [62]:
#想要将每一个词作为一部分
df = pd.read_csv('./data/type-.txt',sep='-',header=None)
df

Unnamed: 0,0,1,2
0,你好,我好,他也好
1,也许,大概,有可能
2,然而,未必,不见得


In [63]:
df.shape

(3, 3)

- 读取数据库中的数据

In [64]:
#连接数据库，获取连接对象
import sqlite3
conn = sqlite3.connect('./data/weather_2012.sqlite')

In [65]:
#读取库表中的数据值
sql_df=pd.read_sql('select * from weather_2012',conn)
sql_df

Unnamed: 0,index,Date/Time,Temp (C),Dew Point Temp (C),Rel Hum (%),Wind Spd (km/h),Visibility (km),Stn Press (kPa),Weather
0,0.0,2012-01-01 00:00:00,-1.8,-3.9,86.0,4.0,8.0,101.24,Fog
1,1.0,2012-01-01 01:00:00,-1.8,-3.7,87.0,4.0,8.0,101.24,Fog
2,2.0,2012-01-01 02:00:00,-1.8,-3.4,89.0,7.0,4.0,101.26,"Freezing Drizzle,Fog"
3,3.0,2012-01-01 03:00:00,-1.5,-3.2,88.0,6.0,4.0,101.27,"Freezing Drizzle,Fog"
4,4.0,2012-01-01 04:00:00,-1.5,-3.3,88.0,7.0,4.8,101.23,Fog
5,5.0,2012-01-01 05:00:00,-1.4,-3.3,87.0,9.0,6.4,101.27,Fog
6,6.0,2012-01-01 06:00:00,-1.5,-3.1,89.0,7.0,6.4,101.29,Fog
7,7.0,2012-01-01 07:00:00,-1.4,-3.6,85.0,7.0,8.0,101.26,Fog
8,8.0,2012-01-01 08:00:00,-1.4,-3.6,85.0,9.0,8.0,101.23,Fog
9,9.0,2012-01-01 09:00:00,-1.3,-3.1,88.0,15.0,4.0,101.20,Fog


In [66]:
#将一个df中的数据值写入存储到db
df.to_sql('data_df',conn)

In [67]:
pd.read_sql('select * from data_df',conn)

Unnamed: 0,index,0,1,2
0,0,你好,我好,他也好
1,1,也许,大概,有可能
2,2,然而,未必,不见得


### 透视表
- 透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表，也体会到它的强大功能，而在pandas中它被称作pivot_table。

- 透视表的优点：
    - 灵活性高，可以随意定制你的分析计算要求
    - 脉络清晰易于理解数据
    - 操作性强，报表神器

In [77]:
df = pd.read_csv('./data/透视表-篮球赛.csv')
df

Unnamed: 0,对手,胜负,主客场,命中,投篮数,投篮命中率,3分命中率,篮板,助攻,得分
0,勇士,胜,客,10,23,0.435,0.444,6,11,27
1,国王,胜,客,8,21,0.381,0.286,3,9,27
2,小牛,胜,主,10,19,0.526,0.462,3,7,29
3,灰熊,负,主,8,20,0.4,0.25,5,8,22
4,76人,胜,客,10,20,0.5,0.25,3,13,27
5,黄蜂,胜,客,8,18,0.444,0.4,10,11,27
6,灰熊,负,客,6,19,0.316,0.222,4,8,20
7,76人,负,主,8,21,0.381,0.429,4,7,29
8,尼克斯,胜,客,9,23,0.391,0.353,5,9,31
9,老鹰,胜,客,8,15,0.533,0.545,3,11,29


#### pivot_table有四个最重要的参数index、values、columns、aggfunc

- index参数：分类汇总的分类条件
    - 每个pivot_table必须拥有一个index。如果想查看哈登对阵每个队伍的得分则需要对每一个队进行分类并计算其各类得分的平均值：

- 想看看哈登对阵同一对手在不同主客场下的数据，分类条件为对手和主客场

- values参数：需要对计算的数据进行筛选
    - 如果我们只需要哈登在主客场和不同胜负情况下的得分、篮板与助攻三项数据：

- Aggfunc参数：设置我们对数据聚合时进行的函数操作
    - 当我们未设置aggfunc时，它默认aggfunc='mean'计算均值。


- 还想获得james harden在主客场和不同胜负情况下的总得分、总篮板、总助攻时：

- Columns:可以设置列层次字段
    - 对values字段进行分类

In [83]:
#获取所有队主客场的总得分
df.pivot_table(index='主客场',values='得分',aggfunc='sum')

Unnamed: 0_level_0,得分
主客场,Unnamed: 1_level_1
主,397
客,404


### 交叉表
- 是一种用于计算分组的特殊透视图,对数据进行汇总
- pd.crosstab(index,colums)
    - index:分组数据，交叉表的行索引
    - columns:交叉表的列索引

In [87]:
df = DataFrame({'sex':['man','man','women','women','man','women','man','women','women'],
               'age':[15,23,25,17,35,57,24,31,22],
               'smoke':[True,False,False,True,True,False,False,True,False],
               'height':[168,179,181,166,173,178,188,190,160]})
df

Unnamed: 0,sex,age,smoke,height
0,man,15,True,168
1,man,23,False,179
2,women,25,False,181
3,women,17,True,166
4,man,35,True,173
5,women,57,False,178
6,man,24,False,188
7,women,31,True,190
8,women,22,False,160


- 求出各个性别抽烟的人数

- 求出各个年龄段抽烟人情况