# Pandas的数据结构


导入pandas： 

数据分析三剑客 numpy pandas matplotlib

In [59]:
import pandas as pd
from pandas import Series,DataFrame

import numpy as np

import matplotlib.pyplot as plt

### 1、Series

Series是一种类似于一维数组的对象，由下面两个部分组成：

- index：相关的数据索引标签
- values：一组数据（ndarray类型）

#### 1）Series的创建

两种创建方式：

(1) 由列表或numpy数组创建

    默认索引为0到N-1的整数型索引

In [6]:
s1 = Series([1,2,3,4])
s1

0    1
1    2
2    3
3    4
dtype: int64

In [24]:
s1.index.tolist() # 索引
# s1.values # 值 值是多维数组

['语文', '数学']

    还可以通过设置index参数指定索引

In [13]:
s2 = Series([1,2,3],index=("a","b","c")) # 通过index可以指定索引 注意：索引的个数和值的个数要对应
s2

a    1
b    2
c    3
dtype: int64

(2) 由字典创建

In [14]:
s3 = Series({"A":10,"B":20,"C":30})
s3

A    10
B    20
C    30
dtype: int64

============================================

练习1：

使用多种方法创建以下Series，命名为s1：  
语文 150   
数学 150   
英语 150   
理综 300   

============================================

In [32]:
s1 = Series([150,150,150,300],index=("语文","数学","英语","理综"))
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [16]:
s1 = Series({'语文': 150, '数学':150})
s1

语文    150
数学    150
dtype: int64

#### 2）Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

(1) 显式索引：

    - 使用index中的元素作为索引值
    - 使用.loc[]（推荐）

 注意，此时是闭区间

In [17]:
s2

a    1
b    2
c    3
dtype: int64

In [25]:
# s2["a"]
s2.loc["a"] # loc location 定位 根据传入的索引去定位值
s2.loc[["a","c"]].to_dict() #用于定位的中括号里面 传入的是一个值或者是列表

{'a': 1, 'c': 3}

(2) 隐式索引：

    - 使用整数作为索引值
    - 使用.iloc[]（推荐）

 注意，此时是半开区间

In [26]:
s2

a    1
b    2
c    3
dtype: int64

In [30]:
s2[1]
s2.iloc[0] # iloc index location 通过索引号去定位元素

1

#### 根据索引对Series进行切片

In [33]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [38]:
s1.loc["语文":"英语"]
s1["语文":"英语"]
s1[0:3]
s1.iloc[0:3]

语文    150
数学    150
英语    150
dtype: int64

============================================

练习2：

使用多种方法对练习1创建的Series s1进行索引和切片：

索引：
数学 150 

切片：
语文 150 
数学 150 
英语 150 

============================================

In [39]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [40]:
s1["数学"]
s1.loc["数学"]
s1[1]
s1.iloc[1]

150

#### 3）Series的常用属性和方法

可以把Series看成一个定长的有序字典

可以通过shape，size，index,values等得到series的属性

In [41]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [54]:
s1.shape
s1.size
s1.index.to_list()
s1.values

array([150, 150, 150, 300], dtype=int64)

可以通过head(),tail()快速查看Series对象的样式

s.head(2)看头两个 s.tail(1)看后一个

In [55]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [57]:
s1.head(2)
s1.tail(3)

数学    150
英语    150
理综    300
dtype: int64

当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况

In [61]:
s2 = Series([1,3,5,7,-2,-4,None,np.nan],index=("a","b","c","d","e","f","g","h"))
s2


a    1.0
b    3.0
c    5.0
d    7.0
e   -2.0
f   -4.0
g    NaN
h    NaN
dtype: float64

In [81]:
ndarr1 = np.array([1,3,5,7,-2,-4,None,np.nan])
ndarr1

array([1, 3, 5, 7, -2, -4, None, nan], dtype=object)

In [84]:
# ndarr1.sum() # 多维数组中 如果有None nan 就没法求和 np.nansum可以求有nan的和
s2.sum() # Series的sum遇到nan可以当做0 然后求和
# np.nansum(ndarr1)

10.0

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull()函数检测缺失数据

In [102]:
s2

a      1.0
b      3.0
c      5.0
d      7.0
e     -2.0
f     -4.0
g   -100.0
h   -100.0
dtype: float64

In [96]:
s2.isnull() # 是nan则返回True
np.any(pd.isnull(s2))

True

In [92]:
s2.notnull() # 不是nan返回True
pd.notnull(s2)

a     True
b     True
c     True
d     True
e     True
f     True
g    False
h    False
dtype: bool

In [101]:
condition = s2.isnull()
condition

a    False
b    False
c    False
d    False
e    False
f    False
g    False
h    False
dtype: bool

In [100]:
s2[condition] = -100
s2

a      1.0
b      3.0
c      5.0
d      7.0
e     -2.0
f     -4.0
g   -100.0
h   -100.0
dtype: float64

In [99]:
s2

a      1.0
b      3.0
c      5.0
d      7.0
e     -2.0
f     -4.0
g   -100.0
h   -100.0
dtype: float64

Series对象本身及其实例都有一个name属性

In [104]:
s3 = Series([1,2,3,4,5],index=("a","b","c","d","e"),name="张三")
s3

a    1
b    2
c    3
d    4
e    5
Name: 张三, dtype: int64

In [105]:
s4 = Series([1,2,3,4,5],index=("a","b","c","d","e"),name="李四")
s4

a    1
b    2
c    3
d    4
e    5
Name: 李四, dtype: int64

#### 4）Series的运算

(1) 适用于numpy的数组运算也适用于Series

In [106]:
s4

a    1
b    2
c    3
d    4
e    5
Name: 李四, dtype: int64

In [108]:
s4 + 50
s4 * 2

a     2
b     4
c     6
d     8
e    10
Name: 李四, dtype: int64

(2) Series之间的运算

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN
- 注意：要想保留所有的index，则需要使用.add()函数

In [275]:
s4

a    1
b    2
c    3
d    4
e    5
Name: 李四, dtype: int64

In [276]:
s3

a    1
b    2
c    3
d    4
e    5
Name: 张三, dtype: int64

In [277]:
s3 + s4 # 索引对应的项目的值会相加

a     2
b     4
c     6
d     8
e    10
dtype: int64

In [278]:
s1

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [279]:
s3

a    1
b    2
c    3
d    4
e    5
Name: 张三, dtype: int64

In [280]:
s1 + s3 # 两个Series进行加和时，如果索引不对应，返回值 nan

a    NaN
b    NaN
c    NaN
d    NaN
e    NaN
数学   NaN
理综   NaN
英语   NaN
语文   NaN
dtype: float64

In [113]:
# 索引不对应 就出NaN 如果不喜欢这样可以调用 series自身的add（）方法
s1.add(s3)
s1.add(s3,fill_value=0)

a       1.0
b       2.0
c       3.0
d       4.0
e       5.0
数学    150.0
理综    300.0
英语    150.0
语文    150.0
dtype: float64

============================================

练习3：

1. 想一想Series运算和ndarray运算的规则有什么不同？
    前者索引不匹配时仍可可以运算，只是会显示nan，后者结构不同时无法运算

2. 新建另一个索引包含“文综”的Series s2，并与s2进行多种算术操作。思考如何保存所有数据。

============================================

### 2、DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values（numpy的二维数组）

#### 1）DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。


DataFrame属性：values、columns、index、shape

============================================

练习4：

根据以下考试成绩表，创建一个DataFrame，命名为df：
```
    张三  李四
语文 150  0
数学 150  0
英语 150  0
理综 300  0
```

============================================

In [117]:
df = DataFrame({'张三':[150,150,150,150], '李四':[0,0,0,0]}, index=['语文','数学','英语','理综'])
df


Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,150,0


#### 2）DataFrame的索引

(1) 对列进行索引

    - 通过类似字典的方式
    - 通过属性的方式

 可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [126]:
df['张三'].to_dict()

{'语文': 150, '数学': 150, '英语': 150, '理综': 150}

(2) 对行进行索引

    - 使用.ix[]来进行行索引
    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    
 同样返回一个Series，index为原来的columns。

In [132]:
df.loc['语文']
df.iloc[1]

张三    150
李四      0
Name: 数学, dtype: int64

(3) 对元素索引的方法
    - 使用列索引
    - 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
    - 使用values属性（二维numpy数组）

In [142]:
df.values

array([[150,   0],
       [150,   0],
       [150,   0],
       [150,   0]], dtype=int64)

In [139]:
df.iloc[1,0]

150

【注意】
直接用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片

============================================

练习5：

使用多种方法对ddd进行索引和切片，并比较其中的区别

============================================

#### 3）DataFrame的运算

（1） DataFrame之间的运算

同Series一样：

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

创建DataFrame df1 不同人员的各科目成绩，月考一

创建DataFrame df2 不同人员的各科目成绩，月考二  
有新学生转入

下面是Python 操作符与pandas操作函数的对应表：

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


（2） Series与DataFrame之间的运算

【重要】

- 使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。（类似于numpy中二维数组与一维数组的运算，但可能出现NaN）

- 使用pandas操作函数：

        axis=0：以列为单位操作（参数必须是列），对所有列都有效。
        axis=1：以行为单位操作（参数必须是行），对所有行都有效。

============================================

练习6：

1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。

2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？

4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

============================================