# pandas数据分析基础

In [175]:
import pandas as pd
from pandas import DataFrame, Series
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

## 1 pandas的数据结构及常用操作 
pandas的核心是Series和DataFrame两大数据结构，数据分析相关的所有事务都是围绕着这两种结构进行的。其中，Series数据结构用于存储一个序列的一维数组，而DataFrame数据结构则用于存储复杂数据的二维数据结构。

### 1.1 Series对象及常用操作

In [176]:
# 创建Series对象
se1 = pd.Series([1, 3, 5, np.nan, 6, 8])
print(se1)
del se1

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [177]:
se2 = pd.Series([1, 3, 5, np.nan, 6, 8],
                index=['a', 'b', 'c', 'd', 'e', 'f'])
# index参数指定索引
print(se2)

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64


In [178]:
# 用NumPy数组或其他Series对象定义新的Series对象
arr = np.array([1, 3, 5, np.nan, 6, 8])
se3 = pd.Series(arr)
print(se3)
se4 = pd.Series(se2)
print(se4)
del se3, se4, se2, arr

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64


In [179]:
# 用字典定义新的Series对象
dic = {'a': 1, 'b': 3, 'c': 5, 'd': np.nan, 'e': 6, 'f': 8}
se5 = pd.Series(dic)
print(se5)
del dic

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64


In [180]:
# 查看Series值和标签
print(se5.values)
print(se5.index)

[ 1.  3.  5. nan  6.  8.]
Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')


In [181]:
# 选择内部元素
print('---\n', se5['a'])
print('---\n', se5[0])
print('---\n', se5[['a', 'b', 'c']])
print('---\n', se5[[0, 1, 2]])

---
 1.0
---
 1.0
---
 a    1.0
b    3.0
c    5.0
dtype: float64
---
 a    1.0
b    3.0
c    5.0
dtype: float64


In [182]:
# 给元素赋值
print('---\n', se5)
se5['a'] = 10
print('---\n', se5)

---
 a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64
---
 a    10.0
b     3.0
c     5.0
d     NaN
e     6.0
f     8.0
dtype: float64


In [183]:
# 算数运算
print('---\n', se5 * 2)
print('---\n', np.exp(se5))
del se5

---
 a    20.0
b     6.0
c    10.0
d     NaN
e    12.0
f    16.0
dtype: float64
---
 a    22026.465795
b       20.085537
c      148.413159
d             NaN
e      403.428793
f     2980.957987
dtype: float64


In [184]:
# 统计元素重复出现次数
se6 = pd.Series([1, 2, 3, 4, 5, 6, 7, 5, 4, 1])
print('---\n', se6.value_counts())
print('---\n', se6.unique())

---
 1    2
4    2
5    2
2    1
3    1
6    1
7    1
dtype: int64
---
 [1 2 3 4 5 6 7]


In [185]:
# 判断元素是否在Series中
print(se6.isin([2, 4, 6, 8]))
del se6

0    False
1     True
2    False
3     True
4    False
5     True
6    False
7    False
8     True
9    False
dtype: bool


### 1.2 DataFrame对象及常用操作

In [186]:
# 创建DataFrame对象
dates = pd.date_range('20130101', periods=6)
print('---\n', dates)
df1 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print('---\n', df1)
del dates, df1

---
 DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
---
                    A         B         C         D
2013-01-01 -1.736077  0.559856 -0.325183  0.401883
2013-01-02 -0.333584 -2.052491 -2.105905  1.045322
2013-01-03 -1.157804  0.113889  0.950636 -0.317516
2013-01-04 -0.198904  1.624416 -1.300936 -1.857401
2013-01-05 -0.101029 -2.353514 -0.733838 -0.305683
2013-01-06 -0.601559 -0.488923 -0.548419 -0.028804


In [187]:
dt = {'name': {'a': '张艳', 'b': '李明', 'c': '王勇', 'd': '刘晨', 'e': '张sir'},
      'age': {'a': 18, 'b': 20, 'c': 19, 'd': 21}}
df = pd.DataFrame(dt)
print('---\n', df)
del dt

---
    name   age
a    张艳  18.0
b    李明  20.0
c    王勇  19.0
d    刘晨  21.0
e  张sir   NaN


In [188]:
# 利用DataFrame属性选择元素
print('---\n', df['name'])
# 选择所有元素
print('---\n', df[:])
print('---\n', df.values)
# 选择一列元素
print('---\n', df['name'].values)
# 选择一行元素
print('---\n', df[:1].values)
# 选择多行元素
print('---\n', df[0:-1:2].values)

---
 a      张艳
b      李明
c      王勇
d      刘晨
e    张sir
Name: name, dtype: object
---
    name   age
a    张艳  18.0
b    李明  20.0
c    王勇  19.0
d    刘晨  21.0
e  张sir   NaN
---
 [['张艳' 18.0]
 ['李明' 20.0]
 ['王勇' 19.0]
 ['刘晨' 21.0]
 ['张sir' nan]]
---
 ['张艳' '李明' '王勇' '刘晨' '张sir']
---
 [['张艳' 18.0]]
---
 [['张艳' 18.0]
 ['王勇' 19.0]]


In [189]:
# 选择DataFrame实例中的一个元素或一个范围内的元素
print('---\n', df.loc['a'])
print('---\n', df.loc['a':'e':2])

---
 name      张艳
age     18.0
Name: a, dtype: object
---
    name   age
a    张艳  18.0
c    王勇  19.0
e  张sir   NaN


In [190]:
# 给DataFrame实例赋值
print('---\n', df)
df.loc['a'] = ['张艳', 25]
print('---\n', df)
# 添加一列元素
df['sex'] = ['女', '男', '男', '女', '男']
print('---\n', df)
# 添加一行元素
df.loc['f'] = ['六sir', 18, '男']
print('---\n', df)
# 修改一行元素
df.loc['f'] = ['六sir', 18, '女']
print('---\n', df)
# 删除一行元素
df.drop('f', inplace=True)
print('---\n', df)
# 修改一列元素或一个元素
df['age'] = [20, 21, 22, 23, 24]
print('---\n', df)
df.loc['a', 'age'] = 25
print('---\n', df)

---
    name   age
a    张艳  18.0
b    李明  20.0
c    王勇  19.0
d    刘晨  21.0
e  张sir   NaN
---
    name   age
a    张艳  25.0
b    李明  20.0
c    王勇  19.0
d    刘晨  21.0
e  张sir   NaN
---
    name   age sex
a    张艳  25.0   女
b    李明  20.0   男
c    王勇  19.0   男
d    刘晨  21.0   女
e  张sir   NaN   男
---
    name   age sex
a    张艳  25.0   女
b    李明  20.0   男
c    王勇  19.0   男
d    刘晨  21.0   女
e  张sir   NaN   男
f  六sir  18.0   男
---
    name   age sex
a    张艳  25.0   女
b    李明  20.0   男
c    王勇  19.0   男
d    刘晨  21.0   女
e  张sir   NaN   男
f  六sir  18.0   女
---
    name   age sex
a    张艳  25.0   女
b    李明  20.0   男
c    王勇  19.0   男
d    刘晨  21.0   女
e  张sir   NaN   男
---
    name  age sex
a    张艳   20   女
b    李明   21   男
c    王勇   22   男
d    刘晨   23   女
e  张sir   24   男
---
    name  age sex
a    张艳   25   女
b    李明   21   男
c    王勇   22   男
d    刘晨   23   女
e  张sir   24   男


In [191]:
# 删除DataFrame实例中的一列元素
# 拷贝df为df2，格式为DataFrame
df2 = pd.DataFrame(df)
del df2['sex']
print('---\n', df2)
del df2
# 使用pop()方法删除DataFrame实例中的一列元素
df2 = pd.DataFrame(df)
df2.pop('age')
print('---\n', df2)
# 使用drop()方法删除DataFrame实例中的一列元素或一行元素
df2 = pd.DataFrame(df)
df2.drop('age', axis=1, inplace=True)
print('---\n', df2)
df2 = pd.DataFrame(df)
df2.drop(['a','b'], axis=0, inplace=True)
print('---\n', df2)
del df2

---
    name  age
a    张艳   25
b    李明   21
c    王勇   22
d    刘晨   23
e  张sir   24
---
    name sex
a    张艳   女
b    李明   男
c    王勇   男
d    刘晨   女
e  张sir   男
---
    name sex
a    张艳   女
b    李明   男
c    王勇   男
d    刘晨   女
e  张sir   男
---
    name  age sex
c    王勇   22   男
d    刘晨   23   女
e  张sir   24   男


In [192]:
# 筛选元素
# 筛选出df中age列大于23的元素
print('---\n', df[df['age'] > 23])

---
    name  age sex
a    张艳   25   女
e  张sir   24   男


In [193]:
# 判断元素是否在DataFrame实例中
print('---\n', df.isin(['张艳', 25, '女']))

---
     name    age    sex
a   True   True   True
b  False  False  False
c  False  False  False
d  False  False   True
e  False  False  False


In [194]:
# dataframe转置
print('---\n', df.T)

---
        a   b   c   d     e
name  张艳  李明  王勇  刘晨  张sir
age   25  21  22  23    24
sex    女   男   男   女     男


## 2 pandas索引

### 2.1 Index索引对象

In [195]:
# pandas主要的Index对象
# Index对象
ind = pd.Index([1, 2, 3, 4, 5])
print('---\n', ind)
# RangeIndex对象
ind = pd.RangeIndex(1, 6)
print('---\n', ind)
# MultiIndex对象
ind = pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b', 'c'], [1, 2, 1, 2, 1]])
print('---\n', ind)
# DatetimeIndex对象
ind = pd.DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04', '2019-01-05'])
print('---\n', ind)
# PeriodIndex对象
ind = pd.PeriodIndex(['2019-01', '2019-02', '2019-03', '2019-04', '2019-05'], freq='M')
print('---\n', ind)

del ind

---
 Int64Index([1, 2, 3, 4, 5], dtype='int64')
---
 RangeIndex(start=1, stop=6, step=1)
---
 MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1)],
           )
---
 DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05'],
              dtype='datetime64[ns]', freq=None)
---
 PeriodIndex(['2019-01', '2019-02', '2019-03', '2019-04', '2019-05'], dtype='period[M]')


### 2.2 Index对象的属性和方法

In [196]:
# 获取index对象
index = df.T.index
print('---\n', index)

---
 Index(['name', 'age', 'sex'], dtype='object')


In [197]:
# 索引切片
print('---\n', index[0:2])

---
 Index(['name', 'age'], dtype='object')


In [198]:
# 判断索引是否属于Index对象
index = pd.Index(['a','b','c'])
se1 = pd.Series([1,2,3], index=index)
print(se1)
print('---\n','a' in index)
del index, se1

a    1
b    2
c    3
dtype: int64
---
 True


In [199]:
# 连接两个Inedx对象
index1 = pd.Index(['a', 'b', 'c'])
index2 = pd.Index(['c', 'd', 'e', 'f'])
index3 = index1.append(index2)
print('---\n', index3)

---
 Index(['a', 'b', 'c', 'c', 'd', 'e', 'f'], dtype='object')


In [200]:
# 计算差集
index3 = index1.difference(index2)
print('---\n', index3)

---
 Index(['a', 'b'], dtype='object')


In [201]:
# 计算交集
index3 = index1.intersection(index2)
print('---\n', index3)

---
 Index(['c'], dtype='object')


In [202]:
# 计算并集
index3 = index1.union(index2)
print('---\n', index3)

---
 Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')


In [203]:
# 判断索引是否存在
print('---\n', index1.isin(index2))

---
 [False False  True]


In [204]:
# 删除索引
print('---\n', index1)
index3 = index1.delete(1)
print('---\n', index3)

---
 Index(['a', 'b', 'c'], dtype='object')
---
 Index(['a', 'c'], dtype='object')


In [205]:
# 插入元素
index3 = index1.insert(1, 'd')
print('---\n', index3)

---
 Index(['a', 'd', 'b', 'c'], dtype='object')


In [206]:
# 判断索引是否重复
index3 = index1.append(index2)
print('---\n', index1.is_unique)
print('---\n', index2.is_unique)
print('---\n', index3.is_unique)

---
 True
---
 True
---
 False


In [207]:
# 筛选出Index对象去重后的元素
index1 = pd.Index(['a', 'b', 'c', 'c'])
print('---\n', index1.unique())

---
 Index(['a', 'b', 'c'], dtype='object')


In [208]:
# 判断递增或递减
index1 = pd.Index([1, 2, 3, 4, 5])
print('---\n', index1.is_monotonic_decreasing)
print('---\n', index1.is_monotonic_increasing)
del index1, index2, index3,df

---
 False
---
 True


### 2.3 重新索引

In [209]:
se1 = pd.Series([1, 2, 3, 4], index=['e', 'a', 'd', 'b'])
se1.reindex(['a','b','c','d','e'])
# 重新索引
# 重新索引时，如果索引不存在，会引入缺失值
# 重新索引时，如果索引存在，会重新排序
del se1

### 2.4 层级索引

In [210]:
# 创建Series的层级索引
se1 = pd.Series(['电视机',2300,'空调',1980],
                index=[[1,1,2,2],
                       ['product','price','product','price']])
print('---\n', se1)
del se1

---
 1  product     电视机
   price      2300
2  product      空调
   price      1980
dtype: object


In [211]:
# 创建DataFrame的层级索引
## 隐式构造层级索引
data = np.array([[2300,1.00],[1980,1.00],[3600,0.96],[2100,0.98]]) # type: ignore
df = DataFrame(data,columns=['价格','折扣率'],
               index=[['格力','格力','TCL','TCL'],
                      ['电视机','空调','电视机','空调']])
print('---\n', df)

---
              价格   折扣率
格力  电视机  2300.0  1.00
    空调   1980.0  1.00
TCL 电视机  3600.0  0.96
    空调   2100.0  0.98


层级索引（MultiIndex）继承于Index，是多级索引的对象。MultiIndex有levels和labels两个信息。levels表示每个层级中分别有哪些标签，labels是每个标签的下标。利用levels属性可获取索引中每一级的标签，而用labels属性可获取标签的下标。还可以使用get_loc()和get_indexer()来获取单个和多个标签的下标。

In [212]:
mindex = df.index
print('---\n', mindex[0:4])
print('---\n', mindex.levels[0])
print('---\n', mindex.get_loc(('格力','电视机')))
print('---\n', mindex.get_indexer([('格力','电视机'),('TCL','空调'),'nothing']))
del df, mindex

---
 MultiIndex([( '格力', '电视机'),
            ( '格力',  '空调'),
            ('TCL', '电视机'),
            ('TCL',  '空调')],
           )
---
 Index(['TCL', '格力'], dtype='object')
---
 0
---
 [ 0  3 -1]


In [214]:
# 显示构造pd.MultiIndex对象
df_arrays = DataFrame(data,columns=['价格','折扣率'],
    index=pd.MultiIndex.from_arrays([['格力','格力','TCL','TCL'],
    ['电视机','空调','电视机','空调']]))

df_tuples = DataFrame(data,columns=['价格','折扣率'],
    index=pd.MultiIndex.from_tuples([('格力','电视机'),('格力','空调'),
    ('TCL','电视机'),('TCL','空调')]))

df_product = DataFrame(data,columns=['价格','折扣率'],
    index=pd.MultiIndex.from_product([['格力','TCL'],['电视机','空调']]))
print('---\n', df_arrays)
print('---\n', df_tuples)
print('---\n', df_product)

---
              价格   折扣率
格力  电视机  2300.0  1.00
    空调   1980.0  1.00
TCL 电视机  3600.0  0.96
    空调   2100.0  0.98
---
              价格   折扣率
格力  电视机  2300.0  1.00
    空调   1980.0  1.00
TCL 电视机  3600.0  0.96
    空调   2100.0  0.98
---
              价格   折扣率
格力  电视机  2300.0  1.00
    空调   1980.0  1.00
TCL 电视机  3600.0  0.96
    空调   2100.0  0.98
