# Pandas数据结构

导入Pandas

In [1]:
import numpy as np
import pandas as pd

## Series

Series是一种类似于一维数组的对象，由下面两个部分组成：
    
    ·values：一组数据(ndarray类型)
    ·index：相关的数据索引标签

#### 1）Series的创建

两种创建方式：
    
    （1)由列表或Numpy数组创建
        
        ·默认索引为0到N-1的整数型索引

In [3]:
list1 = [11,22,33,44]
s = pd.Series(list1)
s

n = np.array(list1)
s = pd.Series(n)
s

0    11
1    22
2    33
3    44
dtype: int32

        
        ·index和values

In [5]:
# 值
s.values
# ndarray的一维数组

array([11, 22, 33, 44])

In [6]:
# 索引
s.index
list(s.index)

[0, 1, 2, 3]

In [10]:
# 修改索引index
s.index = ['A','B','C','D']
s.index = list('BCDE')
s

B    11
C    22
D    33
E    44
dtype: int32

In [11]:
# 通过index获取值
s.B

11

In [12]:
# 通过索引修改值
s.E =100
s

B     11
C     22
D     33
E    100
dtype: int32

    
    (2)由字典创建

In [14]:
d = {
    'a':11,
    'b':22,
    'c':33,
    'd':44
}
s = pd.Series(d)
s
s.index = list('ABCD')
s

A    11
B    22
C    33
D    44
dtype: int64

In [15]:
d={
    'a':np.random.randint(0,10,size=(2,3)),
    'b':np.random.randint(0,10,size=(2,3)),
    'c':np.random.randint(0,10,size=(2,3)),
    'd':np.random.randint(0,10,size=(2,3))
}
s = pd.Series(d)
s

a    [[0, 8, 9], [5, 9, 1]]
b    [[5, 1, 1], [3, 0, 5]]
c    [[6, 2, 1], [5, 1, 9]]
d    [[3, 7, 5], [2, 6, 6]]
dtype: object

In [16]:
s['a']

array([[0, 8, 9],
       [5, 9, 1]])

In [17]:
pd.Series([1,2,3],index=['鲁班','李白','杜甫'])

鲁班    1
李白    2
杜甫    3
dtype: int64

### 2)Series的索引

可以使用中括号单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型），分为显示索引和隐式索引：

（1）显示索引：
    
    ·使用index中的元素作为索引值
    ·使用.loc[]（推荐）

In [20]:
s = pd.Series({'Python':150,'NumPy':100,'Pandas':130})
s

Python    150
NumPy     100
Pandas    130
dtype: int64

In [23]:
# 显示索引：使用索引名字
s['NumPy']

# 使用2个中括号得到的类型：Series
# 一次取多个元素
s[['Python','Pandas']]

# 使用.loc[]
s.loc['Python']

150

（2）隐式索引：
    
    ·使用整数作为索引值
    ·使用.iloc[]（推荐）

In [24]:
s

Python    150
NumPy     100
Pandas    130
dtype: int64

In [30]:
# 隐式索引：使用数字下标
s[0]
s[[0,2]]

# 使用 iloc[]
s.iloc[0]
s.iloc[[0,1,2]]

# 下面这两个写法是错误的
# s.loc['Python']
# s.loc[0]

Python    150
NumPy     100
Pandas    130
dtype: int64

#### Series 的切片

In [32]:
s = pd.Series({
    '语文':100,
    '数学':150,
    '英语':110,
    'Pyhton':130,
    'Pandas':150,
    'NumPy':150
})
s

语文        100
数学        150
英语        110
Pyhton    130
Pandas    150
NumPy     150
dtype: int64

In [36]:
# 切片
# Series是一维数组

#隐式切片：左闭右开
s[1:4]
s.iloc[1:4]

# 显示切片：左闭右闭
s[['数学':'Python']]

SyntaxError: invalid syntax (1185904667.py, line 9)