## pandas


In [2]:
import warnings

In [3]:
warnings.filterwarnings("ignore")

In [3]:
import numpy as np
import pandas as pd

Series 是带有标签的一维数组，可以保存任何数据类型（整数，字符串，浮点数，Python对象等）,轴标签统称为索引

In [7]:
s = pd.Series(np.random.rand(5))

In [9]:
print(s)

0    0.314839
1    0.952569
2    0.767409
3    0.581640
4    0.643048
dtype: float64


In [12]:
print(type(s))

<class 'pandas.core.series.Series'>


In [14]:
print(s.index,type(s.index))

RangeIndex(start=0, stop=5, step=1) <class 'pandas.core.indexes.range.RangeIndex'>


In [16]:
print(s.values,type(s.values))

[0.31483888 0.95256939 0.76740901 0.58163991 0.64304793] <class 'numpy.ndarray'>


【**笔记**】

+ series相比于ndarray，是一个自带索引index的数组 → 一维数组 + 对应索引
+ 所以当只看series的值的时候，就是一个ndarray
+ series和ndarray较相似，索引切片功能差别不大
+ series和dict相比，series更像一个有顺序的字典（dict本身不存在顺序），其索引原理与字典相似（一个用key，一个用index）

## series的创建

method1 :字典创建，字典中的内容与其对应 key->index  value->value

In [18]:
dic = {'a':1 ,'b':2,'c':3}
s = pd.Series(dic)
print(s)

a    1
b    2
c    3
dtype: int64


In [19]:
dic2 = {'a':1 ,'b':'hello' , 'c':3, '4':4, '5':5}
ss = pd.Series(dic2)
print(ss)

a        1
b    hello
c        3
4        4
5        5
dtype: object


method2: 一维数组创建

In [20]:
arr = np.random.randn(5)
s = pd.Series(arr)

[ 2.67729885  0.9331024   1.51171995 -2.34931528  0.74816148]


In [21]:
print(arr)

[ 2.67729885  0.9331024   1.51171995 -2.34931528  0.74816148]


In [22]:
print(s)

0    2.677299
1    0.933102
2    1.511720
3   -2.349315
4    0.748161
dtype: float64


method3：由标量创建

In [23]:
s = pd.Series(10,index = range(4))

In [24]:
print(s)

0    10
1    10
2    10
3    10
dtype: int64


In [26]:
s1 = pd.Series(np.random.randn(5))

In [28]:
print(s1)

0   -0.525796
1   -0.404097
2   -1.374942
3    1.151221
4   -0.984049
dtype: float64


In [31]:
s2 = pd.Series(np.random.randn(5),name = 'test')

In [32]:
print(s2)

0   -0.662761
1   -0.452724
2    1.841427
3    0.465002
4   -1.201470
Name: test, dtype: float64


对比s1和s2，name为Series的一个参数，即创建一个数组的名称。


## Pandas的索引

实际就是数据结构Series的索引，包括位置下标/标签索引/切片索引/布尔型索引

In [34]:
# 位置下标

s = pd.Series(np.random.rand(5))
print(s)
print(s[0],type(s[0]),s[0].dtype)
print(float(s[0]),type(float(s[0])))

0    0.455100
1    0.264361
2    0.830603
3    0.250908
4    0.303198
dtype: float64
0.45510026145066396 <class 'numpy.float64'> float64
0.45510026145066396 <class 'float'>


In [4]:
# 标签索引

s = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
print(s)
print(s['a'],type(s['a']),s['a'].dtype)
# 方法类似下标索引，用[]表示，内写上index，注意index是字符串

sci = s[['a','b','e']]
print(sci,type(sci))
# 如果需要选择多个标签的值，用[[]]来表示（相当于[]中包含一个列表）
# 多标签索引结果是新的数组

a    0.092309
b    0.895398
c    0.034547
d    0.205735
e    0.725185
dtype: float64
0.09230915189898226 <class 'numpy.float64'> float64
a    0.092309
b    0.895398
e    0.725185
dtype: float64 <class 'pandas.core.series.Series'>


In [11]:
# 切片索引

s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
print(s1[1:4])

1    0.889591
2    0.203752
3    0.661439
dtype: float64


In [12]:
s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
print(s1[1:4],s1[4])

1    0.491673
2    0.671560
3    0.215403
dtype: float64 0.9809169069537103


In [13]:
# 注意那个末端

In [8]:
print(s2['a':'c'],s2['c'])

a    0.272013
b    0.939355
c    0.517336
dtype: float64 0.5173364800417259


In [9]:
print(s2[0:3],s2[3])
# 注意：用index做切片是末端包含

a    0.272013
b    0.939355
c    0.517336
dtype: float64 0.11326109254905448


In [10]:
print(s2[:-1])
print(s2[::2])
# 下标索引做切片，和list写法一样

a    0.272013
b    0.939355
c    0.517336
d    0.113261
dtype: float64
a    0.272013
c    0.517336
e    0.669565
dtype: float64


In [16]:
# 布尔型索引

s = pd.Series(np.random.rand(3)*100)
s[4] = None  # 添加一个空值
print(s)
bs1 = s > 50
bs2 = s.isnull()
bs3 = s.notnull()


0    40.714665
1     73.09234
2    61.494283
4         None
dtype: object


In [17]:
print(bs1, type(bs1), bs1.dtype)
print(bs2, type(bs2), bs2.dtype)
print(bs3, type(bs3), bs3.dtype)
print('-----')
# 数组做判断之后，返回的是一个由布尔值组成的新的数组
# .isnull() / .notnull() 判断是否为空值 (None代表空值，NaN代表有问题的数值，两个都会识别为空值)

print(s[s > 50])
print(s[bs3])
# 布尔型索引方法：用[判断条件]表示，其中判断条件可以是 一个语句，或者是 一个布尔型数组！

0    False
1     True
2     True
4    False
dtype: bool <class 'pandas.core.series.Series'> bool
0    False
1    False
2    False
4     True
dtype: bool <class 'pandas.core.series.Series'> bool
0     True
1     True
2     True
4    False
dtype: bool <class 'pandas.core.series.Series'> bool
-----
1     73.09234
2    61.494283
dtype: object
0    40.714665
1     73.09234
2    61.494283
dtype: object


### 基本技巧

数据查看 / 重新索引 / 对齐 / 添加、修改、删除值

In [19]:
# 数据查看

s = pd.Series(np.random.rand(50))
print(s.head(10))
print(s.tail())
# .head()查看头部数据
# .tail()查看尾部数据
# 默认查看5条

0    0.116239
1    0.499781
2    0.233781
3    0.670263
4    0.187421
5    0.219444
6    0.001195
7    0.577055
8    0.812759
9    0.135811
dtype: float64
45    0.610651
46    0.935571
47    0.659877
48    0.227119
49    0.202160
dtype: float64


In [20]:
# 重新索引reindex
# .reindex将会根据索引重新排序，如果当前索引不存在，则引入缺失值

s = pd.Series(np.random.rand(3), index = ['a','b','c'])
print(s)
s1 = s.reindex(['c','b','a','d'])
print(s1)
# .reindex()中也是写列表
# 这里'd'索引不存在，所以值为NaN

s2 = s.reindex(['c','b','a','d'], fill_value = 0)
print(s2)
# fill_value参数：填充缺失值的值

a    0.543052
b    0.557972
c    0.011613
dtype: float64
c    0.011613
b    0.557972
a    0.543052
d         NaN
dtype: float64
c    0.011613
b    0.557972
a    0.543052
d    0.000000
dtype: float64


In [21]:
# Series对齐

s1 = pd.Series(np.random.rand(3), index = ['Jack','Marry','Tom'])
s2 = pd.Series(np.random.rand(3), index = ['Wang','Jack','Marry'])
print(s1)
print(s2)
print(s1+s2)
# Series 和 ndarray 之间的主要区别是，Series 上的操作会根据标签自动对齐
# index顺序不会影响数值计算，以标签来计算
# 空值和任何值计算结果扔为空值

Jack     0.927868
Marry    0.576595
Tom      0.143847
dtype: float64
Wang     0.092869
Jack     0.700244
Marry    0.239781
dtype: float64
Jack     1.628112
Marry    0.816376
Tom           NaN
Wang          NaN
dtype: float64


In [22]:
# 删除：.drop

s = pd.Series(np.random.rand(5), index = list('ngjur'))
print(s)
s1 = s.drop('n')
s2 = s.drop(['g','j'])
print(s1)
print(s2)
print(s)
# drop 删除元素之后返回副本(inplace=False)

n    0.794806
g    0.191842
j    0.594468
u    0.569662
r    0.166968
dtype: float64
g    0.191842
j    0.594468
u    0.569662
r    0.166968
dtype: float64
n    0.794806
u    0.569662
r    0.166968
dtype: float64
n    0.794806
g    0.191842
j    0.594468
u    0.569662
r    0.166968
dtype: float64


In [23]:
# 添加

s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = list('ngjur'))
print(s1)
print(s2)
s1[5] = 100
s2['a'] = 100
print(s1)
print(s2)
print('-----')
# 直接通过下标索引/标签index添加值

s3 = s1.append(s2)
print(s3)
print(s1)
# 通过.append方法，直接添加一个数组
# .append方法生成一个新的数组，不改变之前的数组

0    0.806326
1    0.186228
2    0.344511
3    0.339121
4    0.329818
dtype: float64
n    0.415032
g    0.105471
j    0.497815
u    0.019201
r    0.757879
dtype: float64
0      0.806326
1      0.186228
2      0.344511
3      0.339121
4      0.329818
5    100.000000
dtype: float64
n      0.415032
g      0.105471
j      0.497815
u      0.019201
r      0.757879
a    100.000000
dtype: float64
-----
0      0.806326
1      0.186228
2      0.344511
3      0.339121
4      0.329818
5    100.000000
n      0.415032
g      0.105471
j      0.497815
u      0.019201
r      0.757879
a    100.000000
dtype: float64
0      0.806326
1      0.186228
2      0.344511
3      0.339121
4      0.329818
5    100.000000
dtype: float64


In [24]:
# 修改

s = pd.Series(np.random.rand(3), index = ['a','b','c'])
print(s)
s['a'] = 100
s[['b','c']] = 200
print(s)
# 通过索引直接修改，类似序列


a    0.920579
b    0.189254
c    0.194963
dtype: float64
a    100.0
b    200.0
c    200.0
dtype: float64
