# Pandas的数据结构


导入pandas： 

数据分析三剑客 numpy pandas matplotlib

In [110]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

### 1、Series

Series是一种类似于一维数组的对象，由下面两个部分组成：

- index：相关的数据索引标签
- values：一组数据（ndarray类型）

In [112]:
s = Series([1,2,3,4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [116]:
s.index  # 索引
s.values  # 内容

array([1, 2, 3, 4], dtype=int64)

#### 1）Series的创建

两种创建方式：

(1) 由列表或numpy数组创建


    默认索引为0到N-1的整数型索引

    还可以通过设置index参数指定索引 （注意：索引的个数和值的个数要对应）

In [117]:
list('abcd')

['a', 'b', 'c', 'd']

In [119]:
s = Series(data=[1,2,3,4],index=list('ABCD'))
s

A    1
B    2
C    3
D    4
dtype: int64

(2) 由字典创建

In [120]:
Series({'A':1,'B':2,'C':3,'D':4})

A    1
B    2
C    3
D    4
dtype: int64

============================================

练习1：

使用多种方法创建以下Series，命名为s1：  
语文 150   
数学 150   
英语 150   
理综 300   

============================================

In [122]:
s1 = Series(data=[150,150,150,300],index=['语文','数学','英语','理综'])
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [123]:
Series({'语文':150,'数学':150})

语文    150
数学    150
dtype: int64

#### 2）Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

(1) 显式索引：

    - 使用index中的元素作为索引值
    - 使用.loc[]（推荐）

 注意，字符索引是闭区间 [start,end]

In [124]:
s

A    1
B    2
C    3
D    4
dtype: int64

In [135]:
s['A']
s.loc['A']
s.loc['A':'C']  # A B C 注意 C 也能取到
# s.loc['A','B']  # 坑： 要想获取A B 不是 A,B 这个表示 最外层的A 里面的B
s.loc[['A','B']]
s.loc[['A','B','C']]
s.loc[['A','A','A']]

A    1
A    1
A    1
dtype: int64

(2) 隐式索引：

    - 使用整数作为索引值
    - 使用.iloc[]（推荐）

 注意，编号索引是左闭右开区间 [start,end)

In [136]:
s

A    1
B    2
C    3
D    4
dtype: int64

In [142]:
s[0]
s.iloc[0]
s.iloc[0:3]  # 字符索引 [start,end] 数值索引 [start,end) end取不到
s.iloc[:]
s.iloc[::2]

A    1
C    3
dtype: int64

#### 根据索引对Series进行切片

============================================

练习2：

使用多种方法对练习1创建的Series s1进行索引和切片：

索引：
数学 150 

切片：
语文 150 
数学 150 
英语 150 

============================================

In [143]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [152]:
s1.loc['数学']
s1.iloc[1]
s1.loc['语文':'英语']  # 包括了英语
s1.iloc[0:3]
s1.iloc[0:-1]
s1.iloc[:-1]
s1.loc[['语文','数学','英语']]  # 取多个要用[]包起来
s1.iloc[[0,1,2]]

语文    150
数学    150
英语    150
dtype: int64

#### 3）Series的常用属性和方法

可以把Series看成一个定长的有序字典

可以通过shape,size,index,values等得到series的属性

In [155]:
s1.shape  # 形状
s1.size  # 内容的个数


4

可以通过head(),tail()快速查看Series对象的样式

s.head(2)看头两个 s.tail(1)看后一个

In [157]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [160]:
s1.head(2)  # 取前面的n个数据 展示 n默认是5
s1.head()
s1.tail(1)  # 取后面的n个数据 展示

理综    300
dtype: int64

Series中如果值是None，会被转成NaN。并且计算时会被当成0（ndarray不会）

In [162]:
s2 = Series([1,2,3,None,np.NAN])
s2

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
dtype: float64

In [163]:
s2.sum()  # series 中 如果有None会被自动转换成NaN 而且 计算的时候会自动把NaN当成0来计算

6.0

In [165]:
nd = np.array([1,2,3,None,np.NAN])
nd

array([1, 2, 3, None, nan], dtype=object)

In [166]:
np.sum
nd.sum()  # 多维数组 如果有None 求和会报错 如果有nan求和 和是nan

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull() 函数检测值为None或NaN的数据

In [167]:
s2.isnull()

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [168]:
s2.notnull()

0     True
1     True
2     True
3    False
4    False
dtype: bool

另外 series对象有一个name属性可以用来区分不同的series

In [178]:
nd1 = np.random.randint(0,150,size=5)
nd1
s1 = Series(data=nd1,index=list('abcde'),name='english')
s1

a     56
b     46
c     75
d    130
e     37
Name: english, dtype: int32

In [189]:
nd2 = np.random.randint(0,150,size=6)
nd2
s2 = Series(data=nd2,index=list('abcdef'),name='python')
s2

a     60
b     15
c     55
d    135
e    101
f     72
Name: python, dtype: int32

#### 4）Series的运算

(1) 适用于numpy的数组运算也适用于Series

In [181]:
s2 + 4
s2 * 2

a    102
b    288
c    262
d    130
e     26
Name: python, dtype: int32

(2) Series之间的运算

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

In [182]:
s1

a     56
b     46
c     75
d    130
e     37
Name: english, dtype: int32

In [183]:
s2

a     51
b    144
c    131
d     65
e     13
Name: python, dtype: int32

In [184]:
s1+s2

a    107
b    190
c    206
d    195
e     50
dtype: int32

In [190]:
s1+s2

a    116.0
b     61.0
c    130.0
d    265.0
e    138.0
f      NaN
dtype: float64

In [None]:
s1.add(s2,fill_value=0)

### 2、DataFrame

DataFrame是一个【表格型】的数据结构；既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values（numpy的二维数组）

#### 1）DataFrame的创建

DataFrame属性：values、columns、index、shape

============================================

练习4：

根据以下考试成绩表，创建一个DataFrame，命名为df：
```
    张三  李四
语文 150  0
数学 150  0
英语 150  0
理综 300  0
```

============================================

#### 2）DataFrame的索引

(1) 对列进行索引

    - 通过类似字典的方式
    - 通过属性的方式

 可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

(2) 对行进行索引

    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    
 同样返回一个Series，index为原来的columns。

(3) 对元素进行索引
    - 使用列索引
    - 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
    - 使用values属性（二维numpy数组）

【注意】
直接用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片

============================================

练习5：

使用多种方法对df进行索引和切片，并比较其中的区别

============================================

#### 3）DataFrame的运算

（1） DataFrame和数值的运算

（2） DataFrame与DataFrame之间的运算

同Series一样：

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

下面是Python 操作符与pandas操作函数的对应表：

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


（3） DataFrame和Series之间的运算

============================================

练习6：

1. 假设df1是期中考试成绩，df2是期末考试成绩，请自由创建df1和df2，并将相加，求期中期末平均值。

2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？

4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

============================================