# 为什么要学习pandas?
### 那么问题来了：
    - numpy已经能够帮助我们处理数据，能够结合matplotlib解决我们数据分析的问题，那么pandas学习的目的在什么地方呢？
    - numpy能够帮我们处理处理数值型数据，但是这还不够， 很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等
        - 比如：我们通过爬虫获取到了存储在数据库中的数据
### 所以，pandas出现了。


## 什么是Pandas? 
- Pandas的名称来自于面板数据（panel data）
- Pandas是一个强大的分析结构化数据的工具集。
- Pandas基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。
    - 一个强大的分析和操作大型结构化数据集所需的工具集
    - 基础是NumPy，提供了高性能矩阵的运算
    - 提供了大量能够快速便捷地处理数据的函数和方法
    - 应用于数据挖掘，数据分析
    - 提供数据清洗功能

### 官网：
- http://pandas.pydata.org/

In [1]:
import pandas as pd

In [2]:
s = pd.Series([1,2,3])
print(s)

0    1
1    2
2    3
dtype: int64


# Pandas的索引操作 
## 索引对象Index 
- Series 和 DataFrame 中的索引都是 Index 对象 

## Series:
- 由索引和数组组成的类似字典的东东

In [3]:
import pandas as pd
import numpy as np

### Series的创建
- 通过列表list创建
- 通过numpy数组创建
- 通过字典dict创建

In [4]:
# 1. 通过list创建
s = pd.Series([1,2,3,4,5])
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [5]:
# 2. 通过numpy中的数组来创建
arr1 = np.arange(1,6)
print(arr1)
s1 = pd.Series(arr1)
print(s1)

[1 2 3 4 5]
0    1
1    2
2    3
3    4
4    5
dtype: int64


In [6]:
# 可以更改索引（索引多了或少了都不行！！！）
s2 = pd.Series(arr1, index=['a', 'b', 'c', 'd', 'e'])# 注意要一一对应，索引数量和数组的元素数量必须一致
print(s2)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [7]:
# 打印值和索引
print(s1.values)
print(s1.index)
print(s2.values)
print(s2.index)

[1 2 3 4 5]
RangeIndex(start=0, stop=5, step=1)
[1 2 3 4 5]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [8]:
# 3 通过字典来创建
dict = {'name':'李宁', 'age':18, 'class':'三班'}
print(dict)
s3 = pd.Series(dict)
print(s3)

{'name': '李宁', 'age': 18, 'class': '三班'}
age      18
class    三班
name     李宁
dtype: object


In [9]:
# 给s3的字典按序输出（这里索引可以多出来，但没有Value值，是NAN值）
dict = {'name':'李宁', 'age':18, 'class':'三班'}
print(dict)
s3 = pd.Series(dict, index=['name', 'age', 'class', 'sex'])# 注意这里索引可以多出来，但只能对应NAN，尽量一一对应！！！
print(s3)

{'name': '李宁', 'age': 18, 'class': '三班'}
name      李宁
age       18
class     三班
sex      NaN
dtype: object


### Series的基本用法

In [10]:
# isnull 和 notnull 检查缺失值 
print(s3.isnull()) # 判断是否为空，空就是True

name     False
age      False
class    False
sex       True
dtype: bool


In [11]:
print(s3.notnull())# 判断是否不为空，不为空是True，空是False

name      True
age       True
class     True
sex      False
dtype: bool


In [12]:
# 通过索引获取数据
print(s3.index)
print(s3.values)

Index(['name', 'age', 'class', 'sex'], dtype='object')
['李宁' 18 '三班' nan]


In [13]:
# 通过下标获取数据
print(s3[1])
print(s3[0])

18
李宁


In [14]:
# 通过标签名获取数据
print(s3['age'])
print(s3['name'])

18
李宁


In [15]:
# 选取多个数据
print(s3[[1, 3]])
print(s3[['age', 'sex']])

age     18
sex    NaN
dtype: object
age     18
sex    NaN
dtype: object


In [16]:
# 切片选取数据
print(s3[1:3])# 注意下标切片还是左包括右不包括
print(s3['name':'class'])# 标签切边是左右都包括的！！！！！

age      18
class    三班
dtype: object
name     李宁
age      18
class    三班
dtype: object


In [17]:
print(s2)

a    1
b    2
c    3
d    4
e    5
dtype: int64


### 布尔索引

In [18]:
print(s2[s2>3])

d    4
e    5
dtype: int64


### 索引与数据的对应关系不被运算结果影响！！！！！

In [19]:
print(s2*2)# Value值会变，但索引不会变而且其与数据的对应关系也不被影响
print(s2>2)

a     2
b     4
c     6
d     8
e    10
dtype: int64
a    False
b    False
c     True
d     True
e     True
dtype: bool


In [20]:
# name属性
s2.name = 'temp'# 对象名
s2.index.name = 'year'# 对象的索引名

print(s2)

year
a    1
b    2
c    3
d    4
e    5
Name: temp, dtype: int64


In [21]:
# 读取头部的几行数据，默认为前5行，可以指定
print(s2.head())
print(s2.head(3))# 只打印前3行

year
a    1
b    2
c    3
d    4
e    5
Name: temp, dtype: int64
year
a    1
b    2
c    3
Name: temp, dtype: int64


In [22]:
# 读取尾部的几行数据，默认为后5行，可以指定
print(s2.tail())
print(s2.tail(3))# 只打印后3行

year
a    1
b    2
c    3
d    4
e    5
Name: temp, dtype: int64
year
c    3
d    4
e    5
Name: temp, dtype: int64


# Series 练习

In [23]:
# 1. 创建一个Series对象
import numpy as np
import pandas as pd
a = np.array([90, 95, 85, 78, np.nan, 96, 94, np.nan, 80, 87, 86,83], dtype=np.float)
s = pd.Series(a, index=range(1,13), name='score')
s.index.name = 'class'
print(s)

class
1     90.0
2     95.0
3     85.0
4     78.0
5      NaN
6     96.0
7     94.0
8      NaN
9     80.0
10    87.0
11    86.0
12    83.0
Name: score, dtype: float64


In [24]:
# 2. 查看1-5班的数据
print(s[0:5])
print(s.head())

class
1    90.0
2    95.0
3    85.0
4    78.0
5     NaN
Name: score, dtype: float64
class
1    90.0
2    95.0
3    85.0
4    78.0
5     NaN
Name: score, dtype: float64


In [25]:
# 3. 查看那个班级的成绩还没有录入
print(s[s.isnull()])
print()
print(s[np.isnan(s)])

class
5   NaN
8   NaN
Name: score, dtype: float64

class
5   NaN
8   NaN
Name: score, dtype: float64


In [26]:
# 4. 获取11班的平均成绩
print(s[11])

86.0


In [27]:
# 5. 有一道题的答案是错误的，所以现在在每一位同学的成绩上都加两分
s += 2
print(s)

class
1     92.0
2     97.0
3     87.0
4     80.0
5      NaN
6     98.0
7     96.0
8      NaN
9     82.0
10    89.0
11    88.0
12    85.0
Name: score, dtype: float64


In [29]:
# 6. 找出平均分在90分以上的班级
print(s[s >= 90])

class
1    92.0
2    97.0
6    98.0
7    96.0
Name: score, dtype: float64
