### 为什么学习pandas
- numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢？
    - numpy能够帮助我们处理的是数值型的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据（字符串，时间序列），那么pandas就可以帮我们很好的处理除了数值型的其他数据！

### 什么是pandas？
- 首先先来认识pandas中的两个常用的类
    - Series
    - DataFrame

### Series
- Series是一种类似与一维数组的对象，由下面两个部分组成：
    - values：一组数据（ndarray类型）
    - index：相关的数据索引标签

- Series的创建
    - 由列表或numpy数组创建
    - 由字典创建

In [3]:
from pandas import DataFrame,Series
import pandas as pd
import numpy as np

In [2]:
Series(data=[1,2,3])

0    1
1    2
2    3
dtype: int64

In [4]:
Series(data=np.array([1,2,3]))

0    1
1    2
2    3
dtype: int64

In [6]:
Series(data=np.random.randint(0,100,size=(2,)))

0     7
1    73
dtype: int64

In [7]:
dic = { #字典中的key作为了Series的索引
    'name':'bobo',
    'salary':10000
}
Series(data=dic)

name       bobo
salary    10000
dtype: object

- Series的索引
    - 隐式索引：默认形式的索引（0，1，2....）
    - 显示索引:自定义的索引,可以通过index参数设置显示索引

In [8]:
Series(data=[1,2,3],index=['a','b','c'])

a    1
b    2
c    3
dtype: int64

- Series的索引和切片

In [9]:
s = Series(data=np.linspace(0,20,num=10))
s

0     0.000000
1     2.222222
2     4.444444
3     6.666667
4     8.888889
5    11.111111
6    13.333333
7    15.555556
8    17.777778
9    20.000000
dtype: float64

In [12]:
s[1]
s[[1,3,5]]

1     2.222222
3     6.666667
5    11.111111
dtype: float64

In [13]:
s[0:3]

0    0.000000
1    2.222222
2    4.444444
dtype: float64

- Series的常用属性
    - shape
    - size
    - index
    - values

In [15]:
s.index
s.values

array([ 0.        ,  2.22222222,  4.44444444,  6.66666667,  8.88888889,
       11.11111111, 13.33333333, 15.55555556, 17.77777778, 20.        ])

- Series的常用方法
    - head(),tail()
    - unique()
    - isnull(),notnull()
    - add() sub() mul() div() 

In [18]:
s = Series(data=[1,1,2,2,3,4,5,5,5,5,6,8,10])
s.head(n=3) #只查看前n个元素
s.tail(n=3) #只查看后n个元素

10     6
11     8
12    10
dtype: int64

In [19]:
s.unique() #去重

array([ 1,  2,  3,  4,  5,  6,  8, 10])

In [20]:
s.nunique() #统计去重后元素的个数

8

In [22]:
s.isnull() #判定元素是否为空，如果有空则返回True，否则返回false

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
dtype: bool

In [23]:
s.notnull()

0     True
1     True
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
10    True
11    True
12    True
dtype: bool

- Series的算术运算
    - 法则：索引一致的元素进行算数运算否则补空

In [24]:
s1 = Series(data=[1,2,3],index=['a','b','c'])
s2 = Series(data=[4,5,6],index=['a','d','c'])
display(s1,s2)

a    1
b    2
c    3
dtype: int64

a    4
d    5
c    6
dtype: int64

In [27]:
s1[0]
#显示索引的索引提取方式
s1['a']
s1.a

1

In [28]:
s = s1 + s2
s

a    5.0
b    NaN
c    9.0
d    NaN
dtype: float64

In [29]:
s.isnull()

a    False
b     True
c    False
d     True
dtype: bool

In [30]:
s.notnull()

a     True
b    False
c     True
d    False
dtype: bool

In [33]:
s

a    5.0
b    NaN
c    9.0
d    NaN
dtype: float64

In [34]:
#特殊索引取值的形式(将布尔值作为了索引)(true对应的元素保留，否则删除)
s[[True,False,True,False]]

a    5.0
c    9.0
dtype: float64

In [35]:
#过滤Series中的空值
s[s.notnull()]

a    5.0
c    9.0
dtype: float64

### DataFrame
- DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
    - 行索引：index
    - 列索引：columns
    - 值：values

- DataFrame的创建
    - ndarray创建
    - 字典创建

- df中取出的行或者列都是一个Series

In [36]:
df = DataFrame(data=np.random.randint(0,100,size=(3,2)))
df

Unnamed: 0,0,1
0,41,47
1,19,50
2,89,44


In [38]:
dic = {
    'names':['jay','bobo','tom'],
    'score':[100,99,80]
}
df = DataFrame(data=dic)
df #字典充当数据源，则表示字典的key作为df的列索引

Unnamed: 0,names,score
0,jay,100
1,bobo,99
2,tom,80


In [39]:
dic = {
    'names':['jay','bobo','tom'],
    'score':[100,99,80]
}
df = DataFrame(data=dic,index=['a','b','c'])
df

Unnamed: 0,names,score
a,jay,100
b,bobo,99
c,tom,80


- DataFrame的属性
    - values、columns、index、shape

In [43]:
df.values #返回df的元素值
df.index #返回df的行索引
df.columns
df.shape

(3, 2)

- DataFrame索引操作
    - 对行进行索引
    - 队列进行索引
    - 对元素进行索引

In [47]:
df['names'] #取列df['col']

a     jay
b    bobo
c     tom
Name: names, dtype: object

In [54]:
df.loc['a'] #通过显示索引取行
df.iloc[0] #通过隐式索引取行

names    jay
score    100
Name: a, dtype: object

In [59]:
df.iloc[1,1] #通过隐式索引取出n行n列的元素

99

- DataFrame的切片操作
    - 对行进行切片
    - 对列进行切片
    

In [64]:
df[0:2] #切出前两行df[行切片]
df.iloc[:,0:1] #切列

Unnamed: 0,names
a,jay
b,bobo
c,tom


- 时间数据类型的转换
    - pd.to_datetime(col)
- 将某一列设置为行索引
    - df.set_index()

In [65]:
dic = {
    'date':['2020-1-12','2020-3-3','2020-5-5'],
    'recv_monry':[1000,2000,3000],
    'name':['bobo','jay','tom']
}
df = DataFrame(data=dic)
df

Unnamed: 0,date,recv_monry,name
0,2020-1-12,1000,bobo
1,2020-3-3,2000,jay
2,2020-5-5,3000,tom


In [66]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
date          3 non-null object
recv_monry    3 non-null int64
name          3 non-null object
dtypes: int64(1), object(2)
memory usage: 152.0+ bytes


In [72]:
#将date由str转换成date
df['date'] = pd.to_datetime(df['date'])

In [74]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
date          3 non-null datetime64[ns]
recv_monry    3 non-null int64
name          3 non-null object
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 152.0+ bytes


In [77]:
df

Unnamed: 0,date,recv_monry,name
0,2020-01-12,1000,bobo
1,2020-03-03,2000,jay
2,2020-05-05,3000,tom


In [78]:
#可以将日期列的年月日进行拆分
df['year'] = df['date'].dt.year
df

Unnamed: 0,date,recv_monry,name,year
0,2020-01-12,1000,bobo,2020
1,2020-03-03,2000,jay,2020
2,2020-05-05,3000,tom,2020


In [82]:
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df

Unnamed: 0,date,recv_monry,name,year,month,day
0,2020-01-12,1000,bobo,2020,1,12
1,2020-03-03,2000,jay,2020,3,3
2,2020-05-05,3000,tom,2020,5,5
