### 为什么学习pandas
- numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢？
    - numpy能够帮助我们处理的是数值型的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据（字符串，时间序列），那么pandas就可以帮我们很好的处理除了数值型的其他数据！

In [3]:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame

### 什么是pandas？
- 首先先来认识pandas中的两个常用的类
    - Series
    - DataFrame

### Series
- Series是一种类似与一维数组的对象，由下面两个部分组成：
    - values：一组数据（ndarray类型）
    - index：相关的数据索引标签

- Series的创建
    - 由列表或numpy数组创建
    - 由字典创建

In [2]:
Series(data=[1,2,3])

0    1
1    2
2    3
dtype: int64

In [5]:
Series(data=np.random.randint(0,100,size=(3,)))

0    15
1    25
2    79
dtype: int64

- Series的索引
    - 隐式索引：默认形式的索引（0，1，2....）
    - 显示索引:自定义的索引,可以通过index参数设置显示索引

In [6]:
Series(data=[1,2,3],index=['A','B','C'])

A    1
B    2
C    3
dtype: int64

- 显示索引的作用：增加了数据的可读性

- Series的索引和切片

In [7]:
s = Series(data=[1,2,3],index=['A','B','C'])
s

A    1
B    2
C    3
dtype: int64

In [10]:
s[0],s['A'],s.A

(1, 1, 1)

In [13]:
s[0:2],s['A':'B']

(A    1
 B    2
 dtype: int64,
 A    1
 B    2
 dtype: int64)

- Series的常用属性
    - shape
    - size
    - index
    - values

In [14]:
s.shape,s.size,s.index,s.values

((3,), 3, Index(['A', 'B', 'C'], dtype='object'), array([1, 2, 3]))

- Series的常用方法
    - head(),tail()
    - unique()
    - isnull(),notnull()
    - add() sub() mul() div() 

In [16]:
s.head(2),s.tail(2)#显示前后的n个元素

(A    1
 B    2
 dtype: int64,
 B    2
 C    3
 dtype: int64)

In [18]:
s = Series(data=[1,2,2,2,3,4,5,5,5,5,6])
s.unique() #去除重复元素

array([1, 2, 3, 4, 5, 6])

In [20]:
s.isnull(),s.notnull() #可以单独对每一个元素进行是否为空的判断

(0     False
 1     False
 2     False
 3     False
 4     False
 5     False
 6     False
 7     False
 8     False
 9     False
 10    False
 dtype: bool,
 0     True
 1     True
 2     True
 3     True
 4     True
 5     True
 6     True
 7     True
 8     True
 9     True
 10    True
 dtype: bool)

In [21]:
#数据清洗：将series的存在的空值进行过滤
s = Series([1,None,2,None,3,4,5,None])
s

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
5    4.0
6    5.0
7    NaN
dtype: float64

In [24]:
#布尔值可以作为Series的索引使用(只保留True对应的元素)
s[[True,False,True,True,False,True,True,False]]

0    1.0
2    2.0
3    NaN
5    4.0
6    5.0
dtype: float64

In [25]:
#基于下述的布尔值作为索引，就可以清除空值
s[[True,False,True,False,True,True,True,False]]

0    1.0
2    2.0
4    3.0
5    4.0
6    5.0
dtype: float64

In [27]:
s[s.notnull()]  #直接清洗空值

0    1.0
2    2.0
4    3.0
5    4.0
6    5.0
dtype: float64

### DataFrame
- DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
    - 行索引：index
    - 列索引：columns
    - 值：values

- DataFrame的创建
    - ndarray创建
    - 字典创建

In [29]:
df = DataFrame(data=[[1,2],[3,4]],index=('A','B'),columns=['a','b'])
df

Unnamed: 0,a,b
A,1,2
B,3,4


In [35]:
df1 = DataFrame(data=np.random.randint(0,100,size=(7,8)))
df1

Unnamed: 0,0,1,2,3,4,5,6,7
0,73,29,85,21,57,51,41,23
1,77,14,9,1,22,93,81,90
2,44,44,67,71,81,10,94,30
3,47,72,76,98,12,57,66,80
4,62,90,64,74,8,20,5,20
5,17,69,61,45,58,40,33,78
6,88,85,37,35,33,37,27,95


- DataFrame的属性
    - values、columns、index、shape

In [33]:
df.values,df.columns,df.index,df.shape

(array([[1, 2],
        [3, 4]]),
 Index(['a', 'b'], dtype='object'),
 Index(['A', 'B'], dtype='object'),
 (2, 2))

============================================

练习4：

根据以下考试成绩表，创建一个DataFrame，命名为df：
```
    张三  李四  
语文 150  0
数学 150  0
英语 150  0
理综 300  0
```

============================================

In [49]:
dic = {
    '张三':[150,150,150,300],
    '李四':[0,0,0,0]
}
#字典的key会作为df的列索引
df = DataFrame(data=dic,index=['语文','数学','英语','理综'])
df

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


- DataFrame索引操作
    - 对行进行索引
    - 队列进行索引
    - 对元素进行索引

In [54]:
df = DataFrame(data=np.random.randint(0,100,size=(5,7)))
df

Unnamed: 0,0,1,2,3,4,5,6
0,18,3,63,24,38,98,44
1,78,81,91,66,92,11,47
2,48,96,71,71,77,14,2
3,58,30,89,18,10,67,64
4,85,90,73,66,8,65,59


In [40]:
df[0]  #df[col_index],取单列

0    79
1    16
2    80
3     0
4    19
Name: 0, dtype: int64

In [41]:
df[[0,1,2]] #df[[col1,col2]]取多列

Unnamed: 0,0,1,2
0,79,54,79
1,16,33,34
2,80,30,7
3,0,87,80
4,19,90,66


- iloc:
    - 通过隐式索引取行
- loc:
    - 通过显示索引取行

In [48]:
df.iloc[0] #df.iloc[index] 取单行

0    79
1    54
2    79
3    98
4    36
5    45
6    52
Name: 0, dtype: int64

In [43]:
df.iloc[[0,1,2]] #取多行

Unnamed: 0,0,1,2,3,4,5,6
0,79,54,79,98,36,45,52
1,16,33,34,34,36,88,82
2,80,30,7,11,76,98,72


In [57]:
#取元素
df.iloc[2,3] #取单个元素df.iloc[index,col]
df.iloc[[1,2],3] #取多个元素

1    66
2    71
Name: 3, dtype: int64

- DataFrame的切片操作
    - 对行进行切片
    - 对列进行切片
    

In [59]:
df[0:2]  #切行 df[index1:index3]

Unnamed: 0,0,1,2,3,4,5,6
0,18,3,63,24,38,98,44
1,78,81,91,66,92,11,47


In [60]:
df.iloc[:,0:2] #切列

Unnamed: 0,0,1
0,18,3
1,78,81
2,48,96
3,58,30
4,85,90


- DataFrame的运算
    - 同Series

============================================

练习：

1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。

2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？

4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

============================================

In [62]:
dic = {
    '张三':[150,150,150,300],
    '李四':[0,0,0,0]
}
#字典的key会作为df的列索引
df = DataFrame(data=dic,index=['语文','数学','英语','理综'])
qizhong = qimo = df

In [65]:
#计算期中期末平均值
(qizhong + qimo) / 2

Unnamed: 0,张三,李四
语文,150.0,0.0
数学,150.0,0.0
英语,150.0,0.0
理综,300.0,0.0


In [68]:
qizhong.loc['数学','张三'] = 0
qizhong

Unnamed: 0,张三,李四
语文,150,0
数学,0,0
英语,150,0
理综,300,0


In [71]:
#李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？
qizhong['李四'] += 100
qizhong

Unnamed: 0,张三,李四
语文,150,100
数学,0,100
英语,150,100
理综,300,100


- 时间数据类型的转换
    - pd.to_datetime(col)
- 将某一列设置为行索引
    - df.set_index()

In [73]:
dic = {
    'name':['tom','jay','harry'],
    'hire_date':['2020-1-10','2021-12-12','2009-12-11'],
    'salary':[1000,2000,3000]
}
df = DataFrame(data=dic)
df

Unnamed: 0,name,hire_date,salary
0,tom,2020-1-10,1000
1,jay,2021-12-12,2000
2,harry,2009-12-11,3000


In [74]:
df.info() #返回df的基本信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   name       3 non-null      object
 1   hire_date  3 non-null      object
 2   salary     3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [76]:
df['hire_date'] = pd.to_datetime(df['hire_date'])

In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   name       3 non-null      object        
 1   hire_date  3 non-null      datetime64[ns]
 2   salary     3 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 200.0+ bytes


In [80]:
#set_index
new_df = df.set_index('hire_date')
new_df

Unnamed: 0_level_0,name,salary
hire_date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-10,tom,1000
2021-12-12,jay,2000
2009-12-11,harry,3000


In [83]:
df.columns,df.index

(Index(['name', 'hire_date', 'salary'], dtype='object'),
 RangeIndex(start=0, stop=3, step=1))

In [82]:
new_df.columns

Index(['name', 'salary'], dtype='object')

In [84]:
new_df.index

DatetimeIndex(['2020-01-10', '2021-12-12', '2009-12-11'], dtype='datetime64[ns]', name='hire_date', freq=None)