#### 导入包

In [2]:
#大多数情况下，pandas都会配合numpy一起使用，用于对数据进行运算处理
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

Pandas是Python数据分析重要的库，而Series和DataFrame是Pandas中两个重要的数据结构

#### 4.1 Series对象

Series类似一维数组，是由一组数据以及与这组数据相关的标签（即索引）组成

pd.Series(data,index=index)
- data: 表示数据，支持列表、字典、numpy数组、标量值
- index: 表示标签（索引）

In [2]:
s1=pd.Series([88,60,75])
print(s1)

0    88
1    60
2    75
dtype: int64


In [3]:
print([88,60,75])

[88, 60, 75]


In [4]:
#手动设置索引
s1=pd.Series([88,60,75],index=[1,2,3])
s2=pd.Series([90,78,82],index=['小明','小王','小芳'])
print(s1)
print(s2)

1    88
2    60
3    75
dtype: int64
小明    90
小王    78
小芳    82
dtype: int64


#### 索引

In [5]:
s3=pd.Series([100,'gduf','Guangzhou'])
#输出s1的shape，index和values的值
print(s1)
print('s3.shape=',s3.shape)
print('s3.index=',s3.index)
print('s3.values=',s3.values)

1    88
2    60
3    75
dtype: int64
s3.shape= (3,)
s3.index= RangeIndex(start=0, stop=3, step=1)
s3.values= [100 'gduf' 'Guangzhou']


In [6]:
s4=pd.Series([100,'gduf','Guangzhou'],index=['mark','University','city'])
#输出s的shape，index和values的值
print(s4)
print('s4.shape=',s4.shape)
print('s4.index=',s4.index)
print('s4.values=',s4.values)
#使用主动设置的索引项来访问元素，注意单引号与双引号的使用
print('s4["mark"]=',s4['mark'])

mark                100
University         gduf
city          Guangzhou
dtype: object
s4.shape= (3,)
s4.index= Index(['mark', 'University', 'city'], dtype='object')
s4.values= [100 'gduf' 'Guangzhou']
s4["mark"]= 100


In [7]:
import pandas as pd 
s1=pd.Series([88,60,75],index=['明日同学','高同学','七月流火'])
print(s1['明日同学'])
print(s1[['明日同学','七月流火']])

88
明日同学    88
七月流火    75
dtype: int64


切片

In [8]:
s5=pd.Series([88,60,75,34,68])
print('s5=\n',s5)

s5=
 0    88
1    60
2    75
3    34
4    68
dtype: int64


In [9]:
print(s5[1:4])

1    60
2    75
3    34
dtype: int64


In [10]:
print(s5[:3])

0    88
1    60
2    75
dtype: int64


#### 4.2 DataFrame对象

DataFrame是由行列数据组成的二维表数据结构，既有行索引也有列索引

pandas.DataFrame(data,index,columns)
- data:表示数据，可以是ndarray数组、series对象、列表、字典等
- index：表示行标签（索引）
- columns：表示列标签（索引）

通过列表创建DataFrame

In [5]:
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data=[[110,105,99],[105,88,115],[109,120,130]]
index=[0,1,2]
columns=['语文','数学','英语']
#创建DataFrame
df=pd.DataFrame(data=data, index=index,columns=columns)
print(df)

   语文  数学  英语
0   110   105    99
1   105    88   115
2   109   120   130


In [12]:
print(data)

[[110, 105, 99], [105, 88, 115], [109, 120, 130]]


In [13]:
arr=np.array(data)
print(arr)

[[110 105  99]
 [105  88 115]
 [109 120 130]]


In [14]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [15]:
print(type(arr))

<class 'numpy.ndarray'>


In [16]:
print(df)

   语文  数学  英语
0   110   105    99
1   105    88   115
2   109   120   130


In [17]:
print(df.columns)

Index(['语文', '数学', '英语'], dtype='object')


In [4]:
df['数学']

NameError: name 'df' is not defined

In [6]:
#遍历df中的每一列
for col in df.columns:
    series=df[col]
    print(series)

0    110
1    105
2    109
Name: 语文, dtype: int64
0    105
1     88
2    120
Name: 数学, dtype: int64
0     99
1    115
2    130
Name: 英语, dtype: int64


通过字典创建DataFrame

In [20]:
pd.set_option('display.unicode.east_asian_width', True)
data={'语文':[110,105,99],
      '数学':[105,88,1105],
      '英语':[109,120,130],
      '班级':'高一6班'}
index=[0,1,2]
#创建DataFrame
df=pd.DataFrame(data=data, index=index)
print(df)

   语文  数学  英语     班级
0   110   105   109  高一6班
1   105    88   120  高一6班
2    99  1105   130  高一6班


In [21]:
#通过字典data来构造二维表s3
data = {'name':['Python','Java','C++'], 
                'score':[95,85,95], 
                'year':[2018, 2017, 2016]} 
print('字典data:')
print(data)
s3 = DataFrame(data)
print('DataFrame s3:')
print(s3)
print('s3.shape=',s3.shape)
print('s3.index=',s3.index)
print('s3.values=\n',s3.values)

字典data:
{'name': ['Python', 'Java', 'C++'], 'score': [95, 85, 95], 'year': [2018, 2017, 2016]}
DataFrame s3:
     name  score  year
0  Python     95  2018
1    Java     85  2017
2     C++     95  2016
s3.shape= (3, 3)
s3.index= RangeIndex(start=0, stop=3, step=1)
s3.values=
 [['Python' 95 2018]
 ['Java' 85 2017]
 ['C++' 95 2016]]


In [22]:
#生成一个6*3列的DataFrame df
#以日期为主索引，从20180725开始，往后6天
dates=pd.date_range('20180725',periods=6)
#生成6行3列的随机二维DataFrame
#使用日期作为行索引，列名为A，B，C
df = pd.DataFrame(np.random.randn(6,3), index=dates, columns=['A','B','C',])
print('df:')
print(df)

df:
                   A         B         C
2018-07-25  0.966168 -1.213519 -0.904452
2018-07-26  0.056631 -0.981853  0.551567
2018-07-27  1.861576  0.460298 -0.102658
2018-07-28 -2.230507 -0.471772 -2.300363
2018-07-29  0.681612  0.897038 -0.057334
2018-07-30  1.991352 -0.204737  0.482795


In [23]:
#创建特定数据的DataFrame
print('构造新的DataFrame:')
df_1=pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20180310'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo'
                    })
print('df_1:')
print(df_1)
print('各列数据类型:')
print(df_1.dtypes)

构造新的DataFrame:
df_1:
     A          B    C  D      E    F
0  1.0 2018-03-10  1.0  3   test  foo
1  1.0 2018-03-10  1.0  3  train  foo
2  1.0 2018-03-10  1.0  3   test  foo
3  1.0 2018-03-10  1.0  3  train  foo
各列数据类型:
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


#### 数据描述

In [24]:
#数据描述
print('describe()函数输出计数count，均值mean，标准差std')
print('最小值min，25%，50%，75%分位数值，最大值max')
print('df_1.describe():')
print(df_1.describe())

describe()函数输出计数count，均值mean，标准差std
最小值min，25%，50%，75%分位数值，最大值max
df_1.describe():
         A    C    D
count  4.0  4.0  4.0
mean   1.0  1.0  3.0
std    0.0  0.0  0.0
min    1.0  1.0  3.0
25%    1.0  1.0  3.0
50%    1.0  1.0  3.0
75%    1.0  1.0  3.0
max    1.0  1.0  3.0


#### 数据抽取

抽取部分数据，主要使用DataFrame对象中的loc属性和iloc属性  
- loc属性：以列名或者行名作为参数
- iloc属性：以行列位置索引作为参数

In [107]:
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data=[[110,105,99],[105,88,115],[109,120,130],[112,115]]
name=['明日','七月流火','高袁圆','二月二']
columns=['语文','数学','英语']
#创建DataFrame
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [108]:
print(df.loc[['明日','七月流火']])

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0


In [109]:
print(df.iloc[0:2])

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0


In [111]:
print(df.loc[['明日','七月流火'],['语文','数学']])

          语文  数学
明日       110   105
七月流火   105    88


In [113]:
print(df.iloc[:2,:2])

          语文  数学
明日       110   105
七月流火   105    88


In [26]:
df.loc[:,['语文']]

Unnamed: 0,语文
明日,110
七月流火,105
高袁圆,109
二月二,112


In [110]:
print(df.loc['明日'])

语文    110.0
数学    105.0
英语     99.0
Name: 明日, dtype: float64


In [28]:
print(df.loc[['明日','二月二']])

        语文  数学  英语
明日     110   105  99.0
二月二   112   115   NaN


In [29]:
print(df.loc[['明日','二月二']])

        语文  数学  英语
明日     110   105  99.0
二月二   112   115   NaN


In [30]:
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [31]:
print(df.iloc[1:])

          语文  数学   英语
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [32]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [33]:
print(df.loc[['明日','七月流火','高袁圆'],['数学','英语']])

          数学   英语
明日       105   99.0
七月流火    88  115.0
高袁圆     120  130.0


In [34]:
print(df.loc[:,['语文']])

          语文
明日       110
七月流火   105
高袁圆     109
二月二     112


In [35]:
print(df.loc[:,['语文','数学']])

          语文  数学
明日       110   105
七月流火   105    88
高袁圆     109   120
二月二     112   115


In [112]:
print(df.loc[['七月流火','高袁圆'],['语文','数学']])

          语文  数学
七月流火   105    88
高袁圆     109   120


In [37]:
print(df.loc[['七月流火'],['英语']])

           英语
七月流火  115.0


In [38]:
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [39]:
print(df.iloc[1:3,1:])

          数学   英语
七月流火    88  115.0
高袁圆     120  130.0


In [40]:
print(df.iloc[[1],[2]])

           英语
七月流火  115.0


In [41]:
print(df.iloc[1:,[0,2]])

          语文   英语
七月流火   105  115.0
高袁圆     109  130.0
二月二     112    NaN


In [42]:
#按E列的值进行排序
print('按E列的值进行排序:')
print(df_1.sort_values(by='E'))

按E列的值进行排序:
     A          B    C  D      E    F
0  1.0 2018-03-10  1.0  3   test  foo
2  1.0 2018-03-10  1.0  3   test  foo
1  1.0 2018-03-10  1.0  3  train  foo
3  1.0 2018-03-10  1.0  3  train  foo


In [43]:
#单独访问df的B,C列
print('访问df的B,C列:')
print(df[['B','C']])

访问df的B,C列:


KeyError: "None of [Index(['B', 'C'], dtype='object')] are in the [columns]"

In [44]:
#单独访问第2行
print('使用切片访问df前2行:')
print(df[0:2])

使用切片访问df前2行:
          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0


In [45]:
#用loc按照行标签进行选择，精确选择
print('使用loc访问df索引为20180726，第A，B列数据')
print(df.loc['20180726', ['A','B']])

使用loc访问df索引为20180726，第A，B列数据


KeyError: '20180726'

In [46]:
#用iloc进行切片选择
print('使用iloc访问df行号3:5，第0:2列数据')
print(df.iloc[3:5,0:2])

使用iloc访问df行号3:5，第0:2列数据
        语文  数学
二月二   112   115


In [47]:
#筛选出df.A大于0的元素 布尔条件筛选
print('筛选出df的A列大于0的数据')
print(df[df.A > 0])

筛选出df的A列大于0的数据


AttributeError: 'DataFrame' object has no attribute 'A'

#### 数据的增加、修改和删除

In [48]:
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data=[[110,105,99],[105,88,115],[109,120,130],[112,115]]
name=['明日','七月流火','高袁圆','二月二']
columns=['语文','数学','英语']
#创建DataFrame
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [49]:
#增加一列“物理”成绩
df['物理']=[88,79,60,50]
print(df)

          语文  数学   英语  物理
明日       110   105   99.0    88
七月流火   105    88  115.0    79
高袁圆     109   120  130.0    60
二月二     112   115    NaN    50


In [50]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [51]:
#在第1列的后面插入“物理”
w1=[88,79,60,50]
df.insert(2,'物理',w1)
print(df)

          语文  数学  物理   英语
明日       110   105    88   99.0
七月流火   105    88    79  115.0
高袁圆     109   120    60  130.0
二月二     112   115    50    NaN


In [52]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [53]:
#按行增加数据
df.loc['钱多多']=[100,120,99]
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
钱多多     100   120   99.0


In [54]:
#修改“数学”列名
df.columns=['语文','数学（上）','英语']
print(df)

          语文  数学（上）   英语
明日       110         105   99.0
七月流火   105          88  115.0
高袁圆     109         120  130.0
二月二     112         115    NaN
钱多多     100         120   99.0


In [55]:
#修改行标题
df.index=[1,2,3,4,5]
print(df)

   语文  数学（上）   英语
1   110         105   99.0
2   105          88  115.0
3   109         120  130.0
4   112         115    NaN
5   100         120   99.0


In [56]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [57]:
#修改行数据
df.loc['明日']=[120,115,109]
print(df)

          语文  数学   英语
明日       120   115  109.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [58]:
#修改整列数据
df.loc[:,'语文']=[115,108,152,118]
print(df)

          语文  数学   英语
明日       115   115  109.0
七月流火   108    88  115.0
高袁圆     152   120  130.0
二月二     118   115    NaN


In [59]:
#使用iloc属性修改数据
df.iloc[0,0]=125
print(df)

          语文  数学   英语
明日       125   115  109.0
七月流火   108    88  115.0
高袁圆     152   120  130.0
二月二     118   115    NaN


In [60]:
#删除某列数据
# axis=1, 表示按列删除
# inplace=True, 表示原数组将被修改和替换
df.drop(['数学'],axis=1,inplace=True)
print(df)

          语文   英语
明日       125  109.0
七月流火   108  115.0
高袁圆     152  130.0
二月二     118    NaN


In [61]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [62]:
#删除某行数据
df.drop(['明日'],axis=0, inplace=True)
print(df)

          语文  数学   英语
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [63]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)
df.drop(columns='数学',axis=1, inplace=True)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
          语文   英语
明日       110   99.0
七月流火   105  115.0
高袁圆     109  130.0
二月二     112    NaN


In [64]:
df=pd.DataFrame(data=data, index=name,columns=columns)
print(df)
df.drop(index='明日',axis=0, inplace=True)
print(df)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
          语文  数学   英语
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


#### 数据清洗

In [65]:
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_excel('data/TB2018.xls')
print(df)

  买家会员名  买家实际支付金额  宝贝总数量                     宝贝标题   \
0      mr001            143.50         2.0                Python黄金组合   
1      mr002             78.80         1.0                Python编程锦囊   
2      mr003             48.86         1.0                 零基础学C语言   
3      mr004             81.75         NaN  SQL Server应用与开发范例宝典   
4      mr005            299.00         1.0          Python程序开发资源库   
5      mr006             41.86         1.0                零基础学Python   
6      mr007             55.86         1.0            C语言精彩编程200例   
7      mr008             41.86         NaN         C语言项目开发实战入门   
8      mr009             41.86         1.0          Java项目开发实战入门   
9      mr010             34.86         1.0                   SQL即查即用   

   类别        订单付款时间  
0  图书 2018-10-09 22:54:26  
1   NaN 2018-10-09 22:52:42  
2  图书 2018-01-19 12:53:01  
3  图书 2018-06-30 11:46:14  
4   NaN 2018-03-23 18:25:45  
5  图书 2018-03-24 19:25:45  
6  图书 2018-03-25 11:00:45  
7  图书 2018-03-26 23:11:11 

In [66]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   买家会员名     10 non-null     object        
 1   买家实际支付金额  10 non-null     float64       
 2   宝贝总数量     8 non-null      float64       
 3   宝贝标题      10 non-null     object        
 4   类别        8 non-null      object        
 5   订单付款时间    10 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(2), object(3)
memory usage: 608.0+ bytes
None


In [67]:
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data=[[110,105,99],[105,88,115],[109,120,130],[112,115]]
name=['明日','七月流火','高袁圆','二月二']
columns=['语文','数学','英语']
#创建DataFrame
df1=pd.DataFrame(data=data, index=name,columns=columns)
print(df1)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


在Python中，缺失值一般以NaN表示

In [68]:
#缺失值返回True,非缺失值返回False
print(df.isnull())

   买家会员名  买家实际支付金额  宝贝总数量  宝贝标题    类别  订单付款时间
0       False             False       False      False  False         False
1       False             False       False      False   True         False
2       False             False       False      False  False         False
3       False             False        True      False  False         False
4       False             False       False      False   True         False
5       False             False       False      False  False         False
6       False             False       False      False  False         False
7       False             False        True      False  False         False
8       False             False       False      False  False         False
9       False             False       False      False  False         False


In [69]:
df1=pd.DataFrame(data=data, index=name,columns=columns)
print(df1)
print()
print(df1.isnull())

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN

           语文   数学   英语
明日      False  False  False
七月流火  False  False  False
高袁圆    False  False  False
二月二    False  False   True


将NaN填充为0

In [70]:
df['宝贝总数量']=df['宝贝总数量'].fillna(0)
print(df) 

  买家会员名  买家实际支付金额  宝贝总数量                     宝贝标题   \
0      mr001            143.50         2.0                Python黄金组合   
1      mr002             78.80         1.0                Python编程锦囊   
2      mr003             48.86         1.0                 零基础学C语言   
3      mr004             81.75         0.0  SQL Server应用与开发范例宝典   
4      mr005            299.00         1.0          Python程序开发资源库   
5      mr006             41.86         1.0                零基础学Python   
6      mr007             55.86         1.0            C语言精彩编程200例   
7      mr008             41.86         0.0         C语言项目开发实战入门   
8      mr009             41.86         1.0          Java项目开发实战入门   
9      mr010             34.86         1.0                   SQL即查即用   

   类别        订单付款时间  
0  图书 2018-10-09 22:54:26  
1   NaN 2018-10-09 22:52:42  
2  图书 2018-01-19 12:53:01  
3  图书 2018-06-30 11:46:14  
4   NaN 2018-03-23 18:25:45  
5  图书 2018-03-24 19:25:45  
6  图书 2018-03-25 11:00:45  
7  图书 2018-03-26 23:11:11 

In [71]:
df1['英语']=df1['英语'].fillna(0)
print(df1) 

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    0.0


重复值处理

In [72]:
df=pd.read_excel('data/January.xlsx')
print(df)

   买家会员名 买家支付宝账号  买家应付货款  买家实际支付金额  订单状态  \
0       mrhy1       ********         41.86             41.86  交易成功   
1       mrhy2       ********         41.86             41.86  交易成功   
2       mrhy3       ********         48.86             48.86  交易成功   
3       mrhy3       ********         48.86             48.86  交易成功   
4       mrhy3       ********         48.86             48.86  交易成功   
..        ...            ...           ...               ...       ...   
75     mrhy77       ********        268.00            268.00  交易成功   
76     mrhy78       ********        268.00            268.00  交易成功   
77     mrhy79       ********        268.00            268.00  交易成功   
78     mrhy80       ********        268.00            268.00  交易成功   
79     mrhy81       ********        268.00            268.00  交易成功   

   收货人姓名                                       收货地址     联系手机  \
0      周某某                                            *12  1**********   
1      杨某某                                 

In [73]:
#判断每一行数据是否重复，如果返回值为False，表示不重复；返回值为True，表示重复
df.duplicated()

0     False
1     False
2     False
3      True
4      True
      ...  
75    False
76    False
77    False
78    False
79    False
Length: 80, dtype: bool

In [74]:
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
data=[[110,105,99],[105,88,115],[105,88,115],[109,120,130],[112,115]]
name=['明日','七月流火','七月流火','高袁圆','二月二']
columns=['语文','数学','英语']
#创建DataFrame
df1=pd.DataFrame(data=data, index=name,columns=columns)
print(df1)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [75]:
#判断每一行数据是否重复，如果返回值为False，表示不重复；返回值为True，表示重复
df1.duplicated()

明日        False
七月流火    False
七月流火     True
高袁圆      False
二月二      False
dtype: bool

In [76]:
#去掉全部的重复数据
df.drop_duplicates()
print(df)

   买家会员名 买家支付宝账号  买家应付货款  买家实际支付金额  订单状态  \
0       mrhy1       ********         41.86             41.86  交易成功   
1       mrhy2       ********         41.86             41.86  交易成功   
2       mrhy3       ********         48.86             48.86  交易成功   
3       mrhy3       ********         48.86             48.86  交易成功   
4       mrhy3       ********         48.86             48.86  交易成功   
..        ...            ...           ...               ...       ...   
75     mrhy77       ********        268.00            268.00  交易成功   
76     mrhy78       ********        268.00            268.00  交易成功   
77     mrhy79       ********        268.00            268.00  交易成功   
78     mrhy80       ********        268.00            268.00  交易成功   
79     mrhy81       ********        268.00            268.00  交易成功   

   收货人姓名                                       收货地址     联系手机  \
0      周某某                                            *12  1**********   
1      杨某某                                 

In [77]:
print(df1)
print()
#去掉全部的重复数据
df2=df1.drop_duplicates()
print('df1\n',df1)
print('df2\n',df2)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN

df1
           语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN
df2
           语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [78]:
print(df1)
print()
#去掉全部的重复数据
df1.drop_duplicates(inplace=True)
print('df1\n',df1)

          语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN

df1
           语文  数学   英语
明日       110   105   99.0
七月流火   105    88  115.0
高袁圆     109   120  130.0
二月二     112   115    NaN


In [79]:
#保留重复行中的最后一行
df.drop_duplicates(['买家会员名'],keep='last')

Unnamed: 0,买家会员名,买家支付宝账号,买家应付货款,买家实际支付金额,订单状态,收货人姓名,收货地址,联系手机,订单创建时间,订单付款时间,宝贝标题,宝贝种类,订单备注,宝贝总数量,类别,图书编号
0,mrhy1,********,41.86,41.86,交易成功,周某某,*12,1**********,2018-05-16 09:38:00,2018-05-16 09:41:00,Android项目开发实战入门,1,'null,1,全彩系列,B16
1,mrhy2,********,41.86,41.86,交易成功,杨某某,*13,1**********,2018-05-09 15:31:00,2018-05-09 15:31:00,Android项目开发实战入门,1,'null,1,全彩系列,B16
4,mrhy3,********,48.86,48.86,交易成功,刘某某,云南省 红河哈尼族彝族自治州 开远市 乐白道街道,1**********,2018-05-25 15:21:00,2018-05-25 15:21:00,ASP.NET项目开发实战入门,1,'null,1,全彩系列,B17
5,mrhy7,********,104.72,104.72,交易成功,张某某,*14,1**********,2018-05-25 21:31:00,2018-05-25 21:32:00,C语言精彩编程200例,2,'null,2,全彩系列,B14
6,mrhy8,********,55.86,55.86,交易成功,周某某,*15,1**********,2018-05-21 01:25:00,2018-05-21 01:25:00,C语言精彩编程200例,1,'null,1,全彩系列,B14
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75,mrhy77,********,268.00,268.00,交易成功,王某某,*84,1**********,2018-05-10 13:48:00,2018-05-10 13:49:00,明日科技 Java编程词典个人版,1,'中通：493598151449,1,,
76,mrhy78,********,268.00,268.00,交易成功,王某某,*85,1**********,2018-05-06 23:31:00,2018-05-06 23:32:00,明日科技 PHP编程词典个人版,1,'null,1,,
77,mrhy79,********,268.00,268.00,交易成功,柳某某,*86,1**********,2018-05-02 10:18:00,2018-05-02 10:19:00,明日科技 PHP编程词典个人版,1,'中通：492021024200,1,,
78,mrhy80,********,268.00,268.00,交易成功,杨某某,*87,1**********,2018-05-11 13:03:00,2018-05-11 13:03:00,明日科技 Visual C++编程词典个人版,1,'中通：493781830401,1,,


#### 数据排序

In [80]:
df=pd.DataFrame(pd.read_excel('data/mrbook.xlsx'))
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)

#按“销量”排序
df=df.sort_values(by='销量',ascending=False)
print(df)

   序号           书号                 图书名称   定价  销量        类别      大类
1   B02  9787567787421  Android项目开发实战入门   59.8  2355     Android  程序设计
0   B01  9787569204537     Android精彩编程200例   89.8  1300     Android  程序设计
9   B19  9787569208535            零基础学C语言   69.8   888    C语言C++  程序设计
14  B15  9787569222258           零基础学Python   79.8   888      Python  程序设计
13  B21  9787569205688             零基础学Java   69.8   663        Java  程序设计
8   B08  9787567787414    C语言项目开发实战入门   59.8   625    C语言C++  程序设计
15  B26  9787569226607   Python从入门到项目实践   99.8   559      Python  程序设计
4   B05  9787567790988       C#项目开发实战入门   69.8   541          C#  程序设计
19  B20  9787569212709       零基础学HTML5+CSS3   79.8   456  HTML5+CSS3      网页
25  B13  9787567790971      PHP项目开发实战入门   69.8   354         PHP      网站
10  B25  9787569226614              零基础学C++   79.8   333    C语言C++  程序设计
20  B22  9787569210460       零基础学Javascript   79.8   322  Javascript      网页
16  B27  9787569244403   Python项目开发案例集锦  128.0   281      

### 数据计算

In [81]:
import pandas as pd 

In [82]:
data=[[110,105,99],[105,88,115],[1059,120,130]]
index=[1,2,3]
columns=['语文','数学','英语']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

   语文  数学  英语
1   110   105    99
2   105    88   115
3  1059   120   130


#### 求和

In [83]:
#axis=1，按行相加
df['总成绩']=df.sum(axis=1)

In [84]:
print(df)

   语文  数学  英语  总成绩
1   110   105    99     314
2   105    88   115     308
3  1059   120   130    1309


求均值

In [85]:
data=[[110,105,99],[105,88,115],[105,120,130],[112,115]]
index=[1,2,3,4]
columns=['语文','数学','英语']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

   语文  数学   英语
1   110   105   99.0
2   105    88  115.0
3   105   120  130.0
4   112   115    NaN


In [86]:
#axis=1,按行计算均值，axis=0，按列计算均值，默认按列计算
new=df.mean()
df=df.append(new,ignore_index=True)
print(df)

    语文   数学        英语
0  110.0  105.0   99.000000
1  105.0   88.0  115.000000
2  105.0  120.0  130.000000
3  112.0  115.0         NaN
4  108.0  107.0  114.666667


In [87]:
new 

语文    108.000000
数学    107.000000
英语    114.666667
dtype: float64

求最大值

In [88]:
data=[[110,105,99],[105,88,115],[109,120,130],[112,115]]
index=[1,2,3,4]
columns=['语文','数学','英语']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

   语文  数学   英语
1   110   105   99.0
2   105    88  115.0
3   109   120  130.0
4   112   115    NaN


In [89]:
#axis=1,按行计算均值，axis=0，按列计算均值，默认按列计算
new=df.max()
df=df.append(new,ignore_index=True)
print(df)

    语文   数学   英语
0  110.0  105.0   99.0
1  105.0   88.0  115.0
2  109.0  120.0  130.0
3  112.0  115.0    NaN
4  112.0  120.0  130.0


#### 求中位数

In [2]:
data=[[110,120,110],[130,130,130],[130,120,130]]
index=[1,2,3]
columns=['语文','数学','英语']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

    语文   数学   英语
1  110  120  110
2  130  130  130
3  130  120  130


In [4]:
print(df.median())

语文    130.0
数学    120.0
英语    130.0
dtype: float64


In [5]:
print(df["语文"].median())

130.0


In [92]:
data=[[110,120,110],[130,130,130],[130,120,130],[113,123,101]]
index=[1,2,3,4]
columns=['语文','数学','英语']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

   语文  数学  英语
1   110   120   110
2   130   130   130
3   130   120   130
4   113   123   101


In [93]:
print(df.median())

语文    121.5
数学    121.5
英语    120.0
dtype: float64


求众数

In [94]:
data=[[110,120,110],[130,130,130],[130,120,130],[113,123,101]]
index=[1,2,3,4]
columns=['语文','数学','英语']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

   语文  数学  英语
1   110   120   110
2   130   130   130
3   130   120   130
4   113   123   101


In [95]:
print(df.mode())

   语文  数学  英语
0   130   120   130


求方差

In [96]:
pd.set_option('display.unicode.east_asian_width', True)
data=[[110,113,102,105,108],[118,98,119,85,118]]
index=['小黑','小白']
columns=['物理1','物理2','物理3','物理4','物理5']
df=pd.DataFrame(data=data, index=index, columns=columns)
print(df)

      物理1  物理2  物理3  物理4  物理5
小黑    110    113    102    105    108
小白    118     98    119     85    118


In [97]:
#axis=1表示行
print(df.var(axis=1))

小黑     18.3
小白    237.3
dtype: float64


数据分组统计

In [98]:
import pandas as pd 

In [99]:
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)

pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_csv('data/JD.csv',encoding='gbk')
print(df)

                               商品名称            一级分类      二级分类  7天点击量   定价  订单预定
0     ASP.NET项目开发实战入门（全彩版）  编程语言与程序设计       ASP.NET         35   69.8         1
1         PHP项目开发实战入门（全彩版）  编程语言与程序设计           PHP         49   69.8         0
2           Java精彩编程200例（全彩版）  编程语言与程序设计          Java         51   79.8         2
3                 零基础学PHP（全彩版）  编程语言与程序设计           PHP         64   79.8         1
4         JSP项目开发实战入门（全彩版）  编程语言与程序设计   JSP/JavaWeb         26   69.8         0
5             C#精彩编程200例（全彩版）  编程语言与程序设计            C#         60   89.8         1
6               零基础学C语言（全彩版）  编程语言与程序设计     C++/C语言        227   69.8        11
7          零基础学JavaScript（全彩版）    网页制作/Web技术    JavaScript        100   79.8         7
8          C#项目开发实战入门（全彩版）  编程语言与程序设计            C#        122   69.8         3
9       C语言项目开发实战入门（全彩版）  编程语言与程序设计     C++/C语言        111   59.8         5
10            零基础学Android（全彩版）            移动开发       Android         85   89.8         4
11                

In [100]:
df1 = df[['一级分类','7天点击量','订单预定']]
df1

Unnamed: 0,一级分类,7天点击量,订单预定
0,编程语言与程序设计,35,1
1,编程语言与程序设计,49,0
2,编程语言与程序设计,51,2
3,编程语言与程序设计,64,1
4,编程语言与程序设计,26,0
5,编程语言与程序设计,60,1
6,编程语言与程序设计,227,11
7,网页制作/Web技术,100,7
8,编程语言与程序设计,122,3
9,编程语言与程序设计,111,5


In [101]:
#分组统计求和
print(df1.groupby('一级分类').sum())

                    7天点击量  订单预定
一级分类                               
数据库                    186        15
移动开发                  261         7
编程语言与程序设计       4280       192
网页制作/Web技术          345        15


In [102]:
df1 = df[['一级分类','二级分类','7天点击量','订单预定']]
df1

Unnamed: 0,一级分类,二级分类,7天点击量,订单预定
0,编程语言与程序设计,ASP.NET,35,1
1,编程语言与程序设计,PHP,49,0
2,编程语言与程序设计,Java,51,2
3,编程语言与程序设计,PHP,64,1
4,编程语言与程序设计,JSP/JavaWeb,26,0
5,编程语言与程序设计,C#,60,1
6,编程语言与程序设计,C++/C语言,227,11
7,网页制作/Web技术,JavaScript,100,7
8,编程语言与程序设计,C#,122,3
9,编程语言与程序设计,C++/C语言,111,5


In [103]:
#分组统计求和
print(df1.groupby(['一级分类','二级分类']).sum())

                                 7天点击量  订单预定
一级分类           二级分类                         
数据库             Oracle               58         2
                   SQL                 128        13
移动开发           Android             261         7
编程语言与程序设计 ASP.NET              87         2
                   C#                  314        12
                   C++/C语言           724        28
                   JSP/JavaWeb         157         1
                   Java                408        16
                   PHP                 113         1
                   Python             2449       132
                   Visual Basic         28         0
网页制作/Web技术   HTML                188         8
                   JavaScript          100         7
                   WEB前端              57         0


对分组统计结果使用聚合函数

In [104]:
df1 = df[['一级分类','7天点击量','订单预定']]
df1

Unnamed: 0,一级分类,7天点击量,订单预定
0,编程语言与程序设计,35,1
1,编程语言与程序设计,49,0
2,编程语言与程序设计,51,2
3,编程语言与程序设计,64,1
4,编程语言与程序设计,26,0
5,编程语言与程序设计,60,1
6,编程语言与程序设计,227,11
7,网页制作/Web技术,100,7
8,编程语言与程序设计,122,3
9,编程语言与程序设计,111,5


In [105]:
#分组统计求和
print(df1.groupby('一级分类').sum())

                    7天点击量  订单预定
一级分类                               
数据库                    186        15
移动开发                  261         7
编程语言与程序设计       4280       192
网页制作/Web技术          345        15


In [106]:
print(df1.groupby('一级分类').agg(['mean','sum']))

                     7天点击量       订单预定     
                          mean   sum     mean  sum
一级分类                                          
数据库               93.000000   186     7.50   15
移动开发             65.250000   261     1.75    7
编程语言与程序设计  178.333333  4280     8.00  192
网页制作/Web技术    115.000000   345     5.00   15


In [None]:
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
import csv as cs

#读入ch04_case_transRecord.xlsx文件，将其放置在名为transrecord的dataframe中
transrecord = pd.read_excel('ch04_case_transRecord.xlsx','Sheet1')

#读入ch03_case_binNum.txt文件，因为该txt文件内部是用逗号分隔的卡号-卡种数据对，
#因此将其当成符号分隔值文件csv读取，并将其转换成dataframe数据对象bcfile

bcfile=cs.reader(open('ch04_case_binNum.txt','r',encoding='UTF-8'))

carddata=[]
code=[]
card=[]
for item in bcfile:
    carddata.append(item)

#因为ch04_case_binNum.txt没有换行，因此carddata是一个嵌套列表，[[data]]
#其中data本身是一个5556项的列表，然后data是外层列表的唯一列表项
#所以对这5556项的分别访问要使用双重下标。
size = len(carddata[0])
#奇数列表项是卡号的前n位，偶数列表项是发卡行信息
count=0
while(count<size):
    if(count%2==0):
        code.append(carddata[0][count])
    if(count%2==1):
        card.append(carddata[0][count])
    count=count+1

#将carddata和code两个列表组合成一个dataframe用于后续数据处理
code2card =pd.DataFrame({'code':code,'cardinfo':card})

#将transrecord中的卡号数据列提取出前6个字符,用于生成新的first6列数据
#使用lambda函数式编程实现
def extractFirst6(s):
    return s[:6]
    
transrecord['卡号前6位']=transrecord['卡号'].apply(lambda s:extractFirst6(s))

#将前6为卡号与carddata中数据进行匹配查找，确定该笔交易的银行卡信息完成
def cardinfo(s):
    t="".join(list(code2card[code2card.code==s].cardinfo))
    return t
transrecord['卡信息']=transrecord['卡号前6位'].apply(lambda s:cardinfo(s))

#将其转换成字符串添加到dataframe的“匹配发卡行”列
pattern1='行'
pattern2='社'
def matchBank(s):
    t="".join(list(code2card[code2card.code==s].cardinfo))
    loc=t.find(pattern1)
    if(loc<=2):
        loc=t.find(pattern2)
    t1=t[0:loc+1]
    return t1
transrecord['匹配发卡行']=transrecord['卡号前6位'].apply(lambda s:matchBank(s))

#将数据中没有匹配到的空单元格用np.nan填充，然后将其所在行删去
#将数据中没有匹配到的空单元格\所在行删去
transrecord.loc[transrecord['匹配发卡行']=='']=np.nan
transrecord.dropna(inplace=True)

#按照匹配的发卡行结果对消费金额求和，本例中只有“金额”列是浮点数据，可以进行求和运算
#找出刷卡金额排在前10的发卡银行
sumbank=transrecord.groupby('匹配发卡行').sum()
top10bank=sumbank.sort_values(by='金额',ascending=False)[:10].copy()
print(top10bank)

#绘制图表，这里使用到了matplotlib，后续章节将对其有详细介绍
import matplotlib.pyplot as plt
%matplotlib inline 
# notebook使用
plt.rcParams['font.sans-serif']=['SimHei']

fig,ax = plt.subplots(figsize = (15,8) , dpi = 300)
plt.plot(top10bank.index,top10bank['金额'])
plt.xticks(fontsize=15)
plt.savefig("ch04_case_bankcard.png",dpi=300,bbox_inches='tight')
plt.show()

In [None]:
import numpy as np
import pandas as pd
import csv as cs

In [None]:
#读入ch04_case_transRecord.xlsx文件，将其放置在名为transrecord的dataframe中
transrecord = pd.read_excel('data/ch04_case_transRecord.xlsx','Sheet1')

In [None]:
transrecord

In [None]:
transrecord.head()

In [None]:
transrecord.info()

In [None]:
#读入ch03_case_binNum.txt文件，因为该txt文件内部是用逗号分隔的卡号-卡种数据对，
#因此将其当成符号分隔值文件csv读取，并将其转换成dataframe数据对象bcfile

bcfile=cs.reader(open('data/ch04_case_binNum.txt','r',encoding='UTF-8'))

In [None]:
bcfile

In [None]:
carddata=[]
code=[]
card=[]
for item in bcfile:
    carddata.append(item)

In [None]:
carddata

In [None]:
#因为ch04_case_binNum.txt没有换行，因此carddata是一个嵌套列表，[[data]]
#其中data本身是一个5556项的列表，然后data是外层列表的唯一列表项
#所以对这5556项的分别访问要使用双重下标。
size = len(carddata[0])
size

In [None]:
carddata[0]

In [None]:
#奇数列表项是卡号的前n位，偶数列表项是发卡行信息
count=0
while(count<size):
    if(count%2==0):
        code.append(carddata[0][count])
    if(count%2==1):
        card.append(carddata[0][count])
    count=count+1

In [None]:
code

In [None]:
card 

In [None]:
#将carddata和code两个列表组合成一个dataframe用于后续数据处理
code2card =pd.DataFrame({'code':code,'cardinfo':card})

In [None]:
code2card.head()

In [None]:
transrecord.head()

In [None]:
#将transrecord中的卡号数据列提取出前6个字符,用于生成新的first6列数据
#使用lambda函数式编程实现
def extractFirst6(s):
    return s[:6]

In [None]:
transrecord['卡号前6位']=transrecord['卡号'].apply(lambda s:extractFirst6(s))

In [None]:
transrecord.head()

In [None]:
#将前6为卡号与carddata中数据进行匹配查找，确定该笔交易的银行卡信息完成
def cardinfo(s):
    t="".join(list(code2card[code2card.code==s].cardinfo))
    return t

In [None]:
transrecord['卡信息']=transrecord['卡号前6位'].apply(lambda s:cardinfo(s))

In [None]:
transrecord.head() 