In [50]:
import pandas as pd
import numpy as np

Series是一个类似于一维数组的数据对象，可以保存任何类型的数据，比如整数，字符串等，主要由一组数据及值相关的索引构成

创建Series的语法
Pandas.Series(data = None, index = None, dtype:'Dtype | None' = None, name = None, copy:'bool' = False, fastpaty:'bool' = False)  
data: 传入的数据，值  
index：索引， 索引中不要出现重复数据，而且所引长度需要和值的长度相同。如果不传，会自动生产一个0~N（值的长度）的数字  
dtype:类型

常用：  
Pandas.Series(data = None, index = None, dtype =None）

In [3]:
# 不指定索引创建
ser = pd.Series([1,2,3,4])
ser

0    1
1    2
2    3
3    4
dtype: int64

In [4]:
# 指定索引创建
ser1 = pd.Series([1,2,3,4],
                index = ['a','b','c','c'])
ser1

a    1
b    2
c    3
c    4
dtype: int64

In [8]:
# 使用字典创建
# 在使用字典进行创建的时候会自动的将字典的键变为Series对象的索引，对应的值变为Series对象的值
# 如果使用字典的创建，同时指定了index参数的值，那么会根据index中的索引数据去字典中找，如果找到了，那么就会以字典中对应的值为Series的值，否则为nan
ser2 = pd.Series({2018:18,2019:19, 2020:20})
ser2

2018    18
2019    19
2020    20
dtype: int64

In [6]:
ser21 = pd.Series({2018:[18,19],2019:19, 2020:20})
ser21

2018    [18, 19]
2019          19
2020          20
dtype: object

#### 查看Series对象的值和索引

In [10]:
# 查看Seires对象的索引
# Series.index 这里是不需要括号的，得到的数据是一个index的对象
# 可以使用to_list()
ser2.index.to_list()

[2018, 2019, 2020]

In [11]:
# 查看Seires对象的值
# 语法：Series.values
# 得到的是一个数组对象，所以不能使用to_list()，只能用同tolist()
ser2.values.tolist()

[18, 19, 20]

In [13]:
# 切片
ser3 = pd.Series([1,2,3,4,5],index = list('abcde'))
ser3

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [14]:
# 标签索引
ser3['c']

3

In [15]:
# 位置索引
ser3[1]

2

最好在创建Series的时候让标签和索引数据类型不同

In [16]:
list('abcde')

['a', 'b', 'c', 'd', 'e']

In [17]:
# 闭区间
ser3['a':'c']

a    1
b    2
c    3
dtype: int64

In [18]:
# 左闭右开
ser3[1:3]

b    2
c    3
dtype: int64

In [19]:
# 布尔索引
ser3

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [22]:
# 布尔索引，在使用的时候需要将布尔值括起来，表示是第一个参数
ser3[[True,False,False,True,False]]

a    1
d    4
dtype: int64

#### Series常见操作

##### 1.reindex重置索引  
Series.reindex(index,method,fill_value,limit) 
index:新的索引,长度不需要与原索引一致
method：插值填充方式，向前填充（ffill/pad),向后填充（hfill/backfill),最近值填充（nearest）  
fill_value:用于填充缺失值的数据  
limit:指定method的值时的最大填充数

In [23]:
se = pd.Series([1,2,3,4,5],index = list('abcde'))
se

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [25]:
se1 = se.reindex(['a','e','t','g','f','p'])
se1

a    1.0
e    5.0
t    NaN
g    NaN
f    NaN
p    NaN
dtype: float64

In [26]:
se2 = se.reindex(['a','e','t','g','f','p'],fill_value = 13)
se2


a     1
e     5
t    13
g    13
f    13
p    13
dtype: int64

In [28]:
# ffill使用的时前面一个值的数据填充后面的空值数据
ser_obj = pd.Series([1,2,3,4,5],index = list('ACDEF'))
ser_obj

A    1
C    2
D    3
E    4
F    5
dtype: int64

In [30]:

se3 = ser_obj.reindex(['A','B','C','G','E','F'],method = 'ffill')
se3

A    1
B    1
C    2
G    5
E    4
F    5
dtype: int64

#### 增删改查

In [32]:
ser_obj

A    1
C    2
D    3
E    4
F    5
dtype: int64

In [33]:
# 添加数据
# 语法 Series.append(值),字典无法直接添加，需要先转为Series对象
ser_obj1 = ser_obj.append(pd.Series({'B':10}))
ser_obj1

A     1
C     2
D     3
E     4
F     5
B    10
dtype: int64

In [34]:
# 修改数据
# 1.直接赋值
ser_obj1['B'] = 6
ser_obj1

A    1
C    2
D    3
E    4
F    5
B    6
dtype: int64

In [40]:
# 2.Series.replace(原数据，修改后的数据，inplace)
# inplace：表示是否对原数据进行修改，如果为True，则表示对原数据进行更改
# ser_obj1.replace(6,12) 不对原数据进行修改
ser_obj1.replace(6,12,inplace = True)

In [41]:
ser_obj1

A     1
C     2
D     3
E     4
F     5
B    12
dtype: int64

In [42]:
# 删除数据
# 1.使用pop指定标签删除
ser_obj1.pop('B')
ser_obj1

A    1
C    2
D    3
E    4
F    5
dtype: int64

In [43]:
# 2.使用del（需要删除的数据）删除
del(ser_obj1['F'])

In [44]:
ser_obj1

A    1
C    2
D    3
E    4
dtype: int64

In [45]:
# 结合布尔索引进行筛选
ser_obj1[ser_obj1>2]

D    3
E    4
dtype: int64

In [46]:
# 判断数据是否为空
ser_obj1.isnull()

A    False
C    False
D    False
E    False
dtype: bool

In [47]:
# Series算术运算，也会满足矢量运算
ser_obj1*2

A    2
C    4
D    6
E    8
dtype: int64

#### DataFrame的创建  
语法：  
pandas.DataFrame(data= None, index= None, columns=None)  
参数：  
data：数据对象，可以时数组、字典。  
index：行标签，如果没有传入则会默认自动生产一个0-N的整数索引  
columns：列标签，如果没有传入则会默认自动生产一个0-N的整数索引

In [48]:
# 创建空的DataFrame对象
df = pd.DataFrame()
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


In [52]:
# 使用数组创建DataFrame
df1 = pd.DataFrame(np.array([['a','b','c'],['d','e','f']]),
                  # 在创建的时候指定行索引
                  index=['NO1','NO2'],
                  # 指定列索引
                  columns=['A','B','C'])
df1

Unnamed: 0,A,B,C
NO1,a,b,c
NO2,d,e,f


In [54]:
# 使用字典创建DataFrame，在创建的时候会自动将键识别成DataFrame的索引
data_dict = {'name':['独行月球','阿凡达2'],
            'rat':[9.0,8.5]}
df2 = pd.DataFrame(data_dict)
df2

Unnamed: 0,name,rat
0,独行月球,9.0
1,阿凡达2,8.5


In [56]:
# 使用zip去创建DataFrame对象
data_list1 =['五菱宏光','沃尔沃','迈巴赫']
data_list2 =[20,30,500]
# zip第一个数据就是DataFrame的第一列
df3 = pd.DataFrame(zip(data_list1,data_list2))
df3

Unnamed: 0,0,1
0,五菱宏光,20
1,沃尔沃,30
2,迈巴赫,500


In [58]:
# 由字典组成的列表创建DataFrame对象
data = [{'one':1,'two':2},
     {'one':1,'two':2,'three':3} ]
df4 = pd.DataFrame(data)
df4

Unnamed: 0,one,two,three
0,1,2,
1,1,2,3.0


#### DataFrame常用属性

In [59]:
# 查看行和列
df4.shape

(2, 3)

In [60]:
# 获取索引
df4.index.to_list()

[0, 1]

In [61]:
# 获取值
df4.values.tolist()

[[1.0, 2.0, nan], [1.0, 2.0, 3.0]]

In [62]:
# 获取不同列的数据类型
df4.dtypes

one        int64
two        int64
three    float64
dtype: object

In [63]:
# 查看数据的维度
df4.ndim

2

In [67]:
# 查看前x行数据
# 语法DataFrame.head(x)。x表示需要查看前x行，如果不写默认5行
df5 = pd.DataFrame({'A':[1,2,3,4,5,6],'B':[7,8,9,10,11,12]})
df5

Unnamed: 0,A,B
0,1,7
1,2,8
2,3,9
3,4,10
4,5,11
5,6,12


In [68]:
df5.head(3)

Unnamed: 0,A,B
0,1,7
1,2,8
2,3,9


In [69]:
df5.tail(3)

Unnamed: 0,A,B
3,4,10
4,5,11
5,6,12


---

#### 取值

In [70]:
df5

Unnamed: 0,A,B
0,1,7
1,2,8
2,3,9
3,4,10
4,5,11
5,6,12


In [72]:
# 通过列索引取值
df5['A']

0    1
1    2
2    3
3    4
4    5
5    6
Name: A, dtype: int64

In [73]:
df5[0:3]['B']

0    7
1    8
2    9
Name: B, dtype: int64

In [None]:
# 在组合索引时，如果要取多列，那么就需要将多个列索引括起来
df5[0:3][['A','B']]

LOC:  
DataFrame.loc[行索引名称或条件，列索引名称]——这是一个闭区间

In [77]:
df6 = pd.DataFrame({'A':[1,2,3,4,5,6],'B':[7,8,9,10,11,12]},index = list('abcdef'))
df6

Unnamed: 0,A,B
a,1,7
b,2,8
c,3,9
d,4,10
e,5,11
f,6,12


In [80]:
df6.loc[['a','b','c'],['A','B']]

Unnamed: 0,A,B
a,1,7
b,2,8
c,3,9


iloc:  
通过下标索引数据。使用方法：  
DataFrame.iloc[行索引，列索引]——前闭后开区间

In [81]:
df6.iloc[1:3]

Unnamed: 0,A,B
b,2,8
c,3,9


In [83]:
df6

Unnamed: 0,A,B
a,1,7
b,2,8
c,3,9
d,4,10
e,5,11
f,6,12


In [85]:
df6.iloc[1:3,[0,1]] # 建议使用iloc

Unnamed: 0,A,B
b,2,8
c,3,9


#### 排序

1.索引排序df.sort_index(axis,ascending,inplace)参数：   
axis表示对行操作，还是对列操作
ascending表示升序，还是降序操作，如果为True表示的升序
inplace：表示是否对原数据进行修改

In [91]:
df7 = pd.DataFrame({'A':[0,13,10,5,3,1,4],'B':[7,8,10,1,5,1,0]},index=list('afbscpd'))
df7

Unnamed: 0,A,B
a,0,7
f,13,8
b,10,10
s,5,1
c,3,5
p,1,1
d,4,0


In [90]:
df7.sort_index()

Unnamed: 0,A,B
a,0,7
b,13,8
c,10,10
d,5,1
e,3,5
f,1,1
g,4,0


In [92]:
df7.sort_index(axis = 1) #列索引排序

Unnamed: 0,A,B
a,0,7
f,13,8
b,10,10
s,5,1
c,3,5
p,1,1
d,4,0


2.按值排序  
df.sort_values(by,axis,ascending,inplace)  
参数：   
by:指定用于排序的列  
axis表示对行操作，还是对列操作
ascending表示升序，还是降序操作，如果为True表示的升序
inplace：表示是否对原数据进行修改

In [94]:
df7.sort_values(by = 'A',ascending = True)  

Unnamed: 0,A,B
a,0,7
p,1,1
c,3,5
d,4,0
s,5,1
b,10,10
f,13,8


In [95]:
# 当axis为0的时候by的值为列索引，当axis值为1的时候by为行索引
df7.sort_values(by = 'a',ascending = False,axis = 1)  

Unnamed: 0,B,A
a,7,0
f,8,13
b,10,10
s,1,5
c,5,3
p,1,1
d,0,4


In [96]:
# 布尔索引
df7[:]['A']>7

a    False
f     True
b     True
s    False
c    False
p    False
d    False
Name: A, dtype: bool