<a href="https://colab.research.google.com/github/Simon006/python_for_data_analysis_note/blob/main/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%9003_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#series
Series 是一种类似于以为数组的对象，由一组数据（各种numpy数据类型）以及一组与之相关的数据标签（即索引）组成。索引值由**0~N-1**的证书型索引。可以通过Series的values和index属性获取。

In [1]:
import pandas as pd
obj = pd.Series([4,7,-5,3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [2]:
print(obj.values)
print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


- >带标记的索引

In [3]:
obj2 = pd.Series([4,5,6,7],index=['a','b','c','d'])
print(obj2.index)
print(obj2)

#可以通过传入index的键的顺序来改变列表的字典的键顺序

Index(['a', 'b', 'c', 'd'], dtype='object')
a    4
b    5
c    6
d    7
dtype: int64


In [4]:
obj[obj>0]

0    4
1    7
3    3
dtype: int64

In [5]:
import numpy as np
np.exp(obj)

0      54.598150
1    1096.633158
2       0.006738
3      20.085537
dtype: float64

#缺失null
pandas的缺失值检测可以用pd.isnull( ),与pd.notnull( )。

#Series对齐功能
Series对齐功能会管局运算的索引标签自动对齐数据。其中每个Series对象本身及其索引都有一个name属性，该属性和pandas其他的关键功能关系非常密切。

In [6]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
print(obj3)
print(obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


In [7]:
#优秀的合并列表对齐功能
a = obj3+obj4
print(a)

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


#索引值就地更改
可以通过赋值的形式更改

In [8]:
print(obj)
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


#DataFrame
DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以由不同的值：（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

- >（1）包括二维ndarray \\
（2）NumPy结构化/记录数组 \\
（3）由Series组成的字典  \\
（4）由列表或者元组组成的列表 \\
（5）另一个DataFrame \\


In [9]:
#直接传入一个由等长列表或NumPy数组组成的字典：
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

DataFrame会自动加上索引（跟Series一样），且全部列会被有序排列：

In [10]:
print(frame)
print(frame.state)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object


#loc方法
可以通过loc方法来对行的位置或者名字进行检索

In [11]:
#可以通过loc属性访问DataFrame的行
frame.loc[4]
#注意在修改index索引之后需要用相对应的索引值，例如str来进行索引

state    Nevada
year       2002
pop         2.9
Name: 4, dtype: object

In [12]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame2 = pd.DataFrame(data,columns=['year', 'state', 'pop', 'debt'],index=['one', 'two', 'three', 'four','five', 'six'])

print(frame2)

       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN


#列的赋值
可以用向量或者一个标量对列进行赋值

In [13]:
frame2['debt']=12
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5    12
two    2001    Ohio  1.7    12
three  2002    Ohio  3.6    12
four   2001  Nevada  2.4    12
five   2002  Nevada  2.9    12
six    2003  Nevada  3.2    12


In [14]:
import numpy as np
frame2['debt']=np.arange(6,)   
#注意使用的是向量
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5     0
two    2001    Ohio  1.7     1
three  2002    Ohio  3.6     2
four   2001  Nevada  2.4     3
five   2002  Nevada  2.9     4
six    2003  Nevada  3.2     5


#添加列与删除列
del用于删除列，添加列的方式可以参考字典添加键值对的方式。


In [15]:
frame2['estern'] = frame2.state=='Ohio'
print(frame2)

       year   state  pop  debt  estern
one    2000    Ohio  1.5     0    True
two    2001    Ohio  1.7     1    True
three  2002    Ohio  3.6     2    True
four   2001  Nevada  2.4     3   False
five   2002  Nevada  2.9     4   False
six    2003  Nevada  3.2     5   False


In [16]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
print(frame2)
#注意在定义变量的时候虽然val只有定义了三列的函数，但在修改赋值的时候是对整一列进行了赋值和修改

       year   state  pop  debt  estern
one    2000    Ohio  1.5   NaN    True
two    2001    Ohio  1.7  -1.2    True
three  2002    Ohio  3.6   NaN    True
four   2001  Nevada  2.4  -1.5   False
five   2002  Nevada  2.9  -1.7   False
six    2003  Nevada  3.2   NaN   False


In [17]:
#删除列方法 del
del frame2['estern']
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


In [18]:
print(frame2.loc['six'])
#并不可以del loc调取出来的行

year       2003
state    Nevada
pop         3.2
debt        NaN
Name: six, dtype: object


#转置
DataFrame的转置和NumPy转置类似。


In [19]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)

print(frame3)

print('\n')
print("transpose frame 3")
print('\n')
print(frame3.T)


      Nevada  Ohio
2001     2.4   1.7
2002     2.9   3.6
2000     NaN   1.5


transpose frame 3


        2001  2002  2000
Nevada   2.4   2.9   NaN
Ohio     1.7   3.6   1.5


#索引对象
pandas构建Series和DataFrame的时候，所用到的任何数组或者其他序列的标签都会转换为索引对象index，index对象不可变，因子可以在多个数据结构之间安全共享。

- >$\quad{}$类似于数组，index的功能类似一个固定大小的集合。但和集合不同，index索引可以存在**重复的标签**
。 \\
$\quad{}$选择重复的标签的时候，会输出全部的结果

In [20]:
print(frame3.index)
print(frame3.index[1:])


Int64Index([2001, 2002, 2000], dtype='int64')
Int64Index([2002, 2000], dtype='int64')


#重新索引
reindex可以创建新对象，数据符合新索引，根据新索引对原列表进行重排，某个索引值不存在的时候就引入缺失值。

In [21]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
print(obj)

#注意index本身不可变，所以reindex会生成一个新对象
obj2 = obj.reindex(['a','b','c','d','e'])
print(obj2)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64


对于时间序列等有序数据，重新索引是需要一些插值处理，reindex的metheod选项可以实现填充。（例如利用ffill前向值填充）

In [22]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)

print('\n')

obj4 = obj3.reindex(range(6), method='ffill')
print(obj4)

0      blue
2    purple
4    yellow
dtype: object


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


#删除指定轴上指定值的新对象
drop方法需要输入一个索引数组或者列表，丢弃某条轴上的一个或者多个项

In [23]:
obj = pd.Series(np.arange(5,),index=['a','b','c','d','e'])
print(obj)

print("\ndrop:",'\n')
print(obj.drop('c'))

a    0
b    1
c    2
d    3
e    4
dtype: int64

drop: 

a    0
b    1
d    3
e    4
dtype: int64


删除列，只需要传入axis=1或者columns参数

In [24]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),index=['Ohio', 'Colorado', 'Utah', 'New York'],columns=['one', 'two', 'three', 'four'])

print(data)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


In [25]:
data.drop(['one'],axis='columns')

Unnamed: 0,two,three,four
Ohio,1,2,3
Colorado,5,6,7
Utah,9,10,11
New York,13,14,15


- [ ] $\quad{}$inplace参数控制销毁所有被删除的数据

In [26]:
print(obj.drop('c',inplace=True))

None


In [27]:
print(obj)
#可以看到已经删除成功，而上面删除操作返回none，已被销毁。

a    0
b    1
d    3
e    4
dtype: int64


#索引切片操作
于python切片不同，利用标签对索引切片是包含末端的

In [28]:
obj = pd.Series(np.arange(5,),index=['a','b','c','d','e'])
print(obj['b':'c'])
print('\n')
print(obj[0:1])
print('\n')
print(obj[3])

b    1
c    2
dtype: int64


a    0
dtype: int64


3


用切片对Series的相应部分进行设置

In [30]:
obj['b','c']=5
print(obj)

a    0
b    5
c    5
d    3
e    4
dtype: int64


In [31]:
print(data[:2])
#切片类型选取数据，行列页顺序
print(data[data['three'] > 5])
#布尔类型数组选取数据

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


#用loc和iloc进行索引
对于DataFrame的行的标签索引，我引入了特殊的标签运算符loc和iloc。它们可以让你用类似NumPy的标记，使用**轴标签（loc）**或**整数索引（iloc）**，从DataFrame选择行和列的子集。

In [32]:
data.loc['Colorado', ['two', 'three']]


two      5
three    6
Name: Colorado, dtype: int64

注意输出若是之后列输出且只有一行的时候，行向量会变成列向量输出形式

In [34]:
print(data)
print('\n')
print(data.iloc[2, [3, 0, 1]])
#通过输入参数，第一个参数为行，后面参数实为输出的index参数
print('\n')
print(data.iloc[2])
print('\n')
print(data.iloc[[1, 2], [3, 0, 1]])

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


four    11
one      8
two      9
Name: Utah, dtype: int64


one       8
two       9
three    10
four     11
Name: Utah, dtype: int64


          four  one  two
Colorado     7    4    5
Utah        11    8    9


iloc和loc函数可以有两个（多个）索引的值

In [35]:

print(data.loc[:'Utah', 'two'])

print('\n')

print(data.iloc[:, :3][data.three > 5])

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64


          one  two  three
Colorado    4    5      6
Utah        8    9     10
New York   12   13     14


#整数索引
注意整数索引，整数索引的时候不可以和非整数索引的时候用整数作为位置索引，因为这样会有歧义。

In [36]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])

print(ser2[-1])
#非整数索引用整数作为位置查找参数就不会产生歧义

2.0


In [37]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

print(s1)
print('\n')
print(s2)

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64


In [38]:
print(s1+s2)

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64


$\quad{}$pandas最重要的一个功能是，它可以对不同索引的对象进行算术运算。**在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集**。对于有数据库经验的用户，这就像在索引标签上进行自动外连接。 \\
$\quad{}$对于并不是两行都存在数据的行列会**引入缺省值NAN**。DataFrame对象相加，没有共用的列或行标签，结果都会是空

In [39]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
print(df1)
print('\n')


#行列为并集，元素为非交集部分填充NAN
print(df1 - df2)


   A
0  1
1  2


    A   B
0 NaN NaN
1 NaN NaN


#DataFrame的广播机制
- 跟不同维度的NumPy数组一样，DataFrame和Series之间算术运算也是有明确规定的。先来看一个具有启发性的例子，计算一个二维数组与其某行之间的差。 \\
- 当我们从arr减去arr[0]，每一行都会执行这个操作。这就叫做广播（broadcasting），附录A将对此进行详细讲解。DataFrame和Series之间的运算差不多也是如此。

In [41]:
arr = np.arange(12.).reshape((3, 4))
print(arr)
print('\n')
print("arr[0]",arr[0])
print('\n')
#broadcasting
print(arr - arr[0])

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]


arr[0] [0. 1. 2. 3.]


[[0. 0. 0. 0.]
 [4. 4. 4. 4.]
 [8. 8. 8. 8.]]


#DataFrame的函数应用和映射
NumPy的ufuncs（元素级数组方法）也可用于操作pandas对象：

In [43]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),index=['Utah', 'Ohio', 'Texas', 'Oregon'])

print(frame)
print('\n')
print(np.abs(frame))


               b         d         e
Utah   -1.465882 -0.199454  0.927401
Ohio   -0.311030  0.049118  0.645464
Texas   0.903245  0.960516  1.472671
Oregon  0.087308  1.033520  0.443377


               b         d         e
Utah    1.465882  0.199454  0.927401
Ohio    0.311030  0.049118  0.645464
Texas   0.903245  0.960516  1.472671
Oregon  0.087308  1.033520  0.443377


另一个常见的操作是，将函数应用到**由各列或行所形成的一维数组**上。DataFrame的**apply方法**即可实现此功能

In [44]:
f = lambda x: x.max() - x.min()

frame.apply(f)


b    2.369126
d    1.232974
e    1.029294
dtype: float64

In [None]:
#应用到列名的时候需要加入axis=1参数或者下例表示
frame.apply(f, axis='columns')

- 元素级的Python函数也是可以用的。假如你想得到frame中各个浮点值的格式化字符串，使用applymap即可

In [45]:
format = lambda x: '%.2f' % x

frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-1.47,-0.2,0.93
Ohio,-0.31,0.05,0.65
Texas,0.9,0.96,1.47
Oregon,0.09,1.03,0.44


- 之所以叫做applymap，是因为Series有一个用于应用元素级函数的map方法：

In [46]:
frame['e'].map(format)

Utah      0.93
Ohio      0.65
Texas     1.47
Oregon    0.44
Name: e, dtype: object