In [None]:
'''
Pandas数据结构Series:基本概念及创建
一维数组:Series
'''

In [1]:
# Series数据结构
# Series是带有标签的一维数组，可以保存任何数据类型(整型，字符串，浮点数，python对象等)，轴标签统称为索引

In [1]:
import numpy as np
import pandas as pd
# 导入numpy、pandas模块

In [6]:
s = pd.Series(np.random.rand(5))
print(s)
print(type(s))
# 查看数据、数据类型

print(s.index, type(s.index))
print(s.values, type(s.values))
# .index查看series的索引，类型为rangeindex
# .values查看series的值，类型为ndarray

# 核心:series相当于ndarray,是一个自带索引index的数组 ——>一维数组+自带索引
# 所以当只看series的值的时候，就是一个ndarray数组
# series和ndarray较相似，索引切片功能差不多
# 索引原理和dict相似

0    0.277536
1    0.531916
2    0.123649
3    0.617291
4    0.490847
dtype: float64
<class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=5, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
[0.27753571 0.53191557 0.12364861 0.61729083 0.4908473 ] <class 'numpy.ndarray'>


In [11]:
# Series创建方法一:由字典创建，字典的key就是index,values就是values
dic = {'a':1, 'b':2, 'c':'3', '4':4, '5':5}
s = pd.Series(dic, dtype=np.int64)
print(s)
# 注意:key肯定是字符串，values类型不一样的话
dic = {'a':1 ,'b':'hello' , 'c':3, '4':4, '5':5}
s = pd.Series(dic)
print(s)

a    1
b    2
c    3
4    4
5    5
dtype: int64
a        1
b    hello
c        3
4        4
5        5
dtype: object


In [14]:
# Series创建方法二:由一维数组创建
arr = np.random.randn(5)  # 创建一个正态分布数组
s = pd.Series(arr)
print(s)
# 索引默认是从0开始，步长为1的数字

s = pd.Series(arr, index=list('abcde'), dtype=np.object)
print(s)
# index参数:设置index,长度和值保持一致
# dtype参数:修改数值类型

0    0.196702
1   -1.289947
2    0.887068
3    1.484359
4   -1.284396
dtype: float64
a    0.196702
b    -1.28995
c    0.887068
d     1.48436
e     -1.2844
dtype: object


In [15]:
# Series创建方法三:由标量创建
s = pd.Series(10, index=range(4))
print(s)
# 如果值是标量，就必须指定index，该值会重复，来匹配索引的长度

0    10
1    10
2    10
3    10
dtype: int64


In [22]:
# Series名称属性:name
s1 = pd.Series(np.random.randn(5))
print(s1)
print(s1.name)
print("-----------")
s2 = pd.Series(np.random.randn(5), name='test')
print(s2)
print(s2.name, type(s2.name))
# name为Series的一个参数，用来创建一个数组的名称
# .name方法:获取数组的名称，输出格式为str,如果没有定义输出名称，输出为None

s3 = s2.rename("hehehe")
print(s3)
print(s3.name, s2.name)
# .rename()重命名一个数组的名称，并且新指向一个数组，原数组不变

0    0.882321
1    0.015010
2    3.086206
3   -0.083458
4   -0.654659
dtype: float64
None
-----------
0   -0.247174
1    1.157963
2    1.189655
3    0.551303
4   -0.161714
Name: test, dtype: float64
test <class 'str'>
0   -0.247174
1    1.157963
2    1.189655
3    0.551303
4   -0.161714
Name: hehehe, dtype: float64
hehehe test


In [None]:
'''
Pandas数据结构Series:索引
位置下标、标签索引、切片索引、布尔型索引
'''

In [30]:
# 位置下标，类似序列
s = pd.Series(np.random.rand(5))
print(s)
print(s[0], type(s[0]), s[0].dtype)
print(float(s[0]), type(float(s[0])))
arr = np.arange(10)
# 位置下标从0开始
# 输出结果为numpy.float64
# 可以通过float()函数转换为python float格式
# s[-1]会报错

0    0.222591
1    0.037298
2    0.964724
3    0.750896
4    0.296671
dtype: float64
0.22259094287615222 <class 'numpy.float64'> float64
0.22259094287615222 <class 'float'>
9


In [35]:
# 标签索引
s = pd.Series(np.random.rand(5), index=list('abcde'))
print(s)
print(s['a'], type(s['a']), s['a'].dtype)
# 标签索引类似于下标索引，用[]表示，内部写上index,index是字符串
sci = s[['a', 'b', 'c']]
print(sci, type(sci))
# 如果需要选择多个标签的值，用[[]]来表示
# 多标签索引结果是新的Series

a    0.192810
b    0.292916
c    0.902982
d    0.457395
e    0.050474
dtype: float64
0.19280978448907027 <class 'numpy.float64'> float64
a    0.192810
b    0.292916
c    0.902982
dtype: float64 <class 'pandas.core.series.Series'>


In [43]:
# 切片索引
s1 = pd.Series(np.random.rand(5))
print(s1)
print("--------------------------")
s2 = pd.Series(np.random.rand(5), index=list('abcde'))
print(s2)
print("--------------------------")
print(s1[1:4], s1[4])
print("--------------------------")
print(s2['a':'c'], s2['c'])
print("--------------------------")
print(s2[0:3], s2[3])
print("--------------------------")
# 注意:用index做切片是末端包含
print(s2[:-1])
print("--------------------------")
print(s2[::2])
# 下标索引做切片，和list写法一样

0    0.815879
1    0.461848
2    0.725755
3    0.765159
4    0.251112
dtype: float64
--------------------------
a    0.839991
b    0.706046
c    0.722757
d    0.518312
e    0.638508
dtype: float64
--------------------------
1    0.461848
2    0.725755
3    0.765159
dtype: float64 0.25111174544723336
--------------------------
a    0.839991
b    0.706046
c    0.722757
dtype: float64 0.7227571544371877
--------------------------
a    0.839991
b    0.706046
c    0.722757
dtype: float64 0.5183124852044844
--------------------------
a    0.839991
b    0.706046
c    0.722757
d    0.518312
dtype: float64
--------------------------
a    0.839991
c    0.722757
e    0.638508
dtype: float64


In [3]:
# 布尔型索引
s = pd.Series(np.random.rand(3)*100)
print(s)
s[4] = None  # 添加一个空值
print(s)
print("---------------")
bs1 = s > 50
bs2 = s.isnull()
bs3 = s.notnull()
print(bs1, type(bs1), bs1.dtype)
print(bs2, type(bs2))

0     2.053912
1    54.582995
2    23.262267
dtype: float64
0    2.05391
1     54.583
2    23.2623
4       None
dtype: object
---------------
0    False
1     True
2    False
4    False
dtype: bool <class 'pandas.core.series.Series'> bool
0    False
1    False
2    False
4     True
dtype: bool <class 'pandas.core.series.Series'>


In [None]:
'''
Pandas数据结构Series:基本技巧
数据查看、重新索引、对齐、添加、修改、删除值
'''

In [5]:
s = pd.Series(np.random.rand(50))
print(s.head(10))
print(s.tail())
# .head()查看头部数据
# .tail()查看尾部数据
# 默认查看5条

0    0.100190
1    0.730007
2    0.604922
3    0.534707
4    0.489465
5    0.748135
6    0.344296
7    0.690388
8    0.662871
9    0.889692
dtype: float64
45    0.023746
46    0.667661
47    0.887057
48    0.632463
49    0.777224
dtype: float64


In [6]:
# 重新索引reindex
# .reindex将会根据索引重新排序，如果当前索引不存在，则引入缺失值
s = pd.Series(np.random.rand(3), index=list('abc'))
print(s)
s1 = s.reindex(['c', 'a', 'b', 'd'])
print(s1)
# .reindex()中也是写列表
# 这里'd'索引不存在，所以值为NaN
print("------------------------")
s2 = s.reindex(['c', 'b', 'a', 'd'], fill_value=0)
print(s2)
# fill_value参数:填充缺失值的值

a    0.165316
b    0.078720
c    0.423619
dtype: float64
c    0.423619
a    0.165316
b    0.078720
d         NaN
dtype: float64
------------------------
c    0.423619
b    0.078720
a    0.165316
d    0.000000
dtype: float64


In [8]:
# Series对齐
s1 = pd.Series(np.random.rand(3), index=['Jack', 'Marry', 'Tom'])
s2 = pd.Series(np.random.rand(3), index=['Wang', 'Jack', 'Marry'])
print(s1)
print("----------------")
print(s2)
print("----------------")
print(s1+s2)
# Series和ndarray之间的主要区别是，Series上的操作会根据标签自动对齐
# index顺序不会影响数值计算，以标签来计算
# 空值和任何值计算结果仍为空值

Jack     0.897859
Marry    0.984295
Tom      0.831593
dtype: float64
----------------
Wang     0.595567
Jack     0.086659
Marry    0.522694
dtype: float64
----------------
Jack     0.984518
Marry    1.506989
Tom           NaN
Wang          NaN
dtype: float64


In [13]:
# 删除:.drop()
s = pd.Series(np.random.rand(5), index=list('ngjur'))
print(s)
s1 = s.drop('n')
print(s1)
s2 = s.drop(['g', 'j'],)
print(s2)
print(s)
# drop删除元素后返回副本(inplace=False)

n    0.913396
g    0.970771
j    0.591171
u    0.740078
r    0.353368
dtype: float64
g    0.970771
j    0.591171
u    0.740078
r    0.353368
dtype: float64
n    0.913396
u    0.740078
r    0.353368
dtype: float64
n    0.913396
g    0.970771
j    0.591171
u    0.740078
r    0.353368
dtype: float64


In [24]:
# 添加
s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index=list('ngjur'))
print(s1)
print(s2)
s1[5] = 100
print(s1)
s2['a'] = 200
print(s2)
print('---------------')
# 直接通过下标索引/标签index添加值
s3 = s1.append(s2)
print(s3)
print(s1)
# 通过.append方法,直接添加一个数组
# .append方法生成一个新的数组，不改变之前的数组

0    0.487641
1    0.816504
2    0.335221
3    0.482751
4    0.178686
dtype: float64
n    0.992714
g    0.342387
j    0.388085
u    0.554190
r    0.102995
dtype: float64
0      0.487641
1      0.816504
2      0.335221
3      0.482751
4      0.178686
5    100.000000
dtype: float64
n      0.992714
g      0.342387
j      0.388085
u      0.554190
r      0.102995
a    200.000000
dtype: float64
---------------
0      0.487641
1      0.816504
2      0.335221
3      0.482751
4      0.178686
5    100.000000
n      0.992714
g      0.342387
j      0.388085
u      0.554190
r      0.102995
a    200.000000
dtype: float64
0      0.487641
1      0.816504
2      0.335221
3      0.482751
4      0.178686
5    100.000000
dtype: float64


In [27]:
# 修改
s = pd.Series(np.random.rand(3), index=['a', 'b', 'c'])
print(s)
s['a'] = 100
s['b', 'c'] = 200
print(s)
# 通过索引直接修改，类似序列

a    0.967406
b    0.167988
c    0.912018
dtype: float64
a    100.0
b    200.0
c    200.0
dtype: float64
