# pandas的数据结构

  Numpy提供运算基础  
  Pandas提供了业务逻辑的处理方法其两种数据结构：Series（一维）和DataFrame（二维）。  

In [2]:
#导入pandas
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib as mpl

## 1.Series

Series是一种类似于一维数组的对象，一维数组的强化版，增加了像字典一样的key-value的访问机制，同时也保留了数组的访问方式。  
  由以下两个部分组成：  
  （1）value：一组数据（ndarray类型）  
  （2）index：相关的数据索引标签  

### 1）Series的创建

In [3]:
#有列表或numpy数组创建
names = ['tom','lucy','jack','mery']
s = Series(names)

In [4]:
s

0     tom
1    lucy
2    jack
3    mery
dtype: object

In [5]:
arr = np.ones(shape = 5)
s1 = Series(arr)
s1
#特别地，由ndarray创建的是引用，而不是副本。对Series元素的改变也会改变原来ndarray对象中的元素。（列表没有这种情况）

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [6]:
#默认索引为0到N-1的整数索引，还可以通过设置index参数制定索引
names

['tom', 'lucy', 'jack', 'mery']

In [7]:
#如果没有手动指定显示索引，则使用隐式索引自动填充。
2 = Series(data=names,index=["k1","k2","k3","k4"])
s2

k1     tom
k2    lucy
k3    jack
k4    mery
dtype: object

In [9]:
#由字典创建
dict_1 = {
    'k1':'tom',
    'k2':'lucy',
    'k3':'mery'
}
s3 = Series(dict_1)
s3

k1     tom
k2    lucy
k3    mery
dtype: object

In [10]:
#index的优先级要高于字典键值对的优先级
s4 = Series(data=dict_1,index=['k1','k2'])
s4
        

k1     tom
k2    lucy
dtype: object

## 2）Series的索引和切片

  可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型），分为显示索引和隐式索引。

### a.显式索引
  - 使用index中的元素作为索引值
  - 使用.loc[]（推荐）
  注意，此时是闭区间。

### a.隐式索引
  - 使用整数组作为索引值
  - 使用.iloc[]（推荐）
  注意，此时是闭区间。

In [3]:
#显示索引访问，类似于字典的键值对访问。
s4 = Series([10,6,4,3],index = ['tom', 'lucy', 'jack', 'mery'])
s4

tom     10
lucy     6
jack     4
mery     3
dtype: int64

In [4]:
s4[0]

10

In [6]:
s4['mery']

3

In [7]:
#官方推荐
s4.loc[['tom','jack']]

tom     10
jack     4
dtype: int64

In [10]:
#官方推荐，使用iloc隐式访问机制
s4.iloc[3]

3

In [13]:
#使用带索引的bool型的Series列表访问
#注意：如果使用Series的Bool列表，要注意索引对齐，顺序不要求一致，内容要求一致。
#注意：bool列表要和访问的对象长度保持一致。

s_bool=Series(data=[True,True,False,False],index=['tom', 'lucy', 'jack', 'mery'])
s4.loc[s_bool]

tom     10
lucy     6
dtype: int64

In [14]:
s4[1:3]

lucy    6
jack    4
dtype: int64

In [15]:
#所有使用标签（显示索引）切片的都是闭区间
s4['tom':'jack']

tom     10
lucy     6
jack     4
dtype: int64

In [17]:
s4.loc['tom':'jack']

tom     10
lucy     6
jack     4
dtype: int64

In [18]:
s4.iloc[1:3]

lucy    6
jack    4
dtype: int64

## 3）Series的基本概念

可以把Series看成一个定长的有序字段  
可以通过shape，size，index，values等得到series的属性  
可以用head()，tail()分布查看前n个和后n个值  
当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况  
可以使用pd.isnull(),pd.notnull()或自带isnull(),notnull()函数检测缺失数据  
使用bool型的列表访问数组对象  
Series对象本身及其实例都有一个name属性
根据值排序




In [19]:
#一般用于查看数据结构
s4.head(2)

tom     10
lucy     6
dtype: int64

In [22]:
#查看大量数据集中是否存在至少一个空值。
display(s4.isnull().any(),s4.notnull().all())

False

True

In [4]:
s5 = Series(data=[32,58,92,86,85],index=['a','b','c','d','e'])
s5

a    32
b    58
c    92
d    86
e    85
dtype: int64

In [5]:
#根据索引排序，一般用于日期作为索引的数据
s5.sort_index()

a    32
b    58
c    92
d    86
e    85
dtype: int64

In [7]:
#统计值出现的次数，假设这是订单表（Order）所有订单用户的ID字段
user_id = Series(data=np.random.randint(0,10,100))
user_id

0     8
1     1
2     3
3     2
4     4
     ..
95    4
96    7
97    9
98    0
99    8
Length: 100, dtype: int32

In [8]:
#我们现在统计每个用户的订单个数
user_id.value_counts()


6    14
4    13
9    13
7    12
1    11
8     9
5     8
3     7
2     7
0     6
dtype: int64

## 4）Series的运算


In [None]:
#适用于numpy的数组运算也适用于Series

In [9]:
# Series和Series之间运算时，如果索引不对应，则补NaN
s1 = Series(data=np.random.randint(0,10,size=5),index=list('ABCDE'))
s2 = Series(data=np.random.randint(0,10,size=5),index=list('ABCDE'))
display(s1,s2)

A    3
B    7
C    6
D    7
E    8
dtype: int32

A    3
B    2
C    0
D    4
E    3
dtype: int32

In [10]:
s1 + s2

A     6
B     9
C     6
D    11
E    11
dtype: int32

In [11]:
s1.add(s2)

A     6
B     9
C     6
D    11
E    11
dtype: int32

In [13]:
index_1 = ['语文','数学','英语','理综']
index_2 = ['语文','数学','英语','文综']

score_1 = Series(data=np.random.randint(0,150,size=4),index=index_1,name = '理科')
score_2 = Series(data=np.random.randint(0,150,size=4),index=index_2,name = '文科')
display(score_1,score_2)

语文    91
数学    72
英语    68
理综    66
Name: 理科, dtype: int32

语文    121
数学    137
英语     85
文综    127
Name: 文科, dtype: int32

In [14]:
score_1+score_2
#NaN和任何值相加都为空

数学    209.0
文综      NaN
理综      NaN
英语    153.0
语文    212.0
dtype: float64

In [15]:
score_1.add(score_2,fill_value=0)

数学    209.0
文综    127.0
理综     66.0
英语    153.0
语文    212.0
dtype: float64

In [16]:
score_1.loc[score_1<90]

数学    72
英语    68
理综    66
Name: 理科, dtype: int32

In [18]:
score_1.values.mean()

74.25