# pandas学习笔记

## pandas数据结构
### Series  
1. Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成  
   即：数组+标签索引  
   Series对象本身及其索引都有一个name属性,可以在任意时刻赋值定义

In [None]:
import pandas as pd
import numpy as np
obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj)
print("---------")
print(obj.values)  #分别用obj.values和obj.index来获取其数组表示形式和索引对象
print("---------")
print(obj.index)
print("---------")
obj.name = 'my_data'
obj.index.name = 'my_index' #可以通过赋值obj.name和obj.index.name来为其指定一个名字。可以用rename方法来修改
print(obj)  #若有名字，则会被显示出来

2. Series的初始化
   * 使用各种类型的python列表创建
   * 使用numpy数组创建
   * 使用字典创建

In [None]:
import pandas as pd
import numpy as np
#1.使用列表创建Series
obj1 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])  #可以使用数组指定索引
print(obj1)
print("---------")

#2.使用numpy数组创建Series
a = np.arange(1,10,2)
obj2 = pd.Series(a)  #默认索引为0,1,2,3,4
print(obj2)
print("---------")

#3.使用字典创建Series
dict = {'a':1,'b':2,'c':3,'d':4}
obj3 = pd.Series(dict)  #默认索引为字典的键
print(obj3)
print("---------")

#4.使用字典创建Series，并指定索引
dict = {'a':1,'b':2,'c':3,'d':4}
index = ['b','c','d','e']           #指定索引时，只有指定的索引的值会出现在最终的Series中
obj4 = pd.Series(dict,index=index)  #字典中没有的索引，其值为NaN
print(obj4)

3. 访问series元素
   * 通过索引访问值 如obj['a'],obj[1]
   * 也可以通过索引对值进行修改

In [None]:
import pandas as pd
import numpy as np
obj1 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj1['a'])
print("---------")
print(obj1[['a','b','c']])
print("---------")
obj1['a'] = 10  #通过索引修改值
print(obj1['a'])

* 可以通过对obj.index赋值，达成对索引的修改

In [None]:
import pandas as pd
import numpy as np
obj1 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj1.index = ['A','B','C','D']  #通过赋值的方式修改索引
print(obj1)

4. Series运算
   * Series支持类似numpy的运算
   * Series会根据运算的索引标签自动对齐数据

In [None]:
import pandas as pd
import numpy as np
obj1 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

a = np.arange(1,10,2)
obj2 = pd.Series(a)

dict = {'a':1,'b':2,'c':3,'d':4}
obj3 = pd.Series(dict)

print(obj1[obj1>0])  #通过布尔数组进行过滤
print("---------")

print(obj2*2)  #Series支持按位运算
print("---------")

print(np.exp(obj3))  #Series支持numpy的函数
print("---------")

print('b' in obj3)  #类似字典，判断索引是否存在
print('e' in obj3)



In [None]:
import pandas as pd
import numpy as np

dict = {'a':1,'b':2,'c':3,'d':4}
index = ['b','c','d','e']
obj4 = pd.Series(dict,index=index) 
print(obj4)
print("---------")

print(pd.isnull(obj4))  #判断是否为空值
print("---------")

print(pd.isna(obj4))  #判断是否为NaN
print(obj4.isna())  #或者直接使用Series的isna方法，上述及其他函数都可以这样使用

In [None]:
import pandas as pd
import numpy as np
obj1 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])
obj2 = pd.Series([0, -3, 7, 4], index=['b', 'a', 'c', 'e'])
print(obj1+obj2)  #索引不同的Series相加，相同索引的值相加，不同索引的值为NaN,无论索引顺序如何都会自动对齐，类似于数据库的join操作

### DataFrame
DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。  
DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）

1. DataFrame的初始化
   * 传入一个由等长列表或NumPy数组组成的字典
   * 传入一个嵌套字典

In [None]:
#初始化方法一：传入一个由等长列表或NumPy数组组成的字典
import pandas as pd
import numpy as np
#键为标签，值为Series或者其他数组，这个Series和数组可以是不同数据类型的，但长度必须相同
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
print(frame)

#在结果中，每一列的名称即为字典的键（也就是Series的索引/标签），每一行的索引是从0开始的整数，可以通过index参数来指定索引

In [None]:
#初始化方法二：传入一个嵌套字典
import pandas as pd
import numpy as np

pop = {'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame2 = pd.DataFrame(pop)  #如果嵌套字典传给DataFrame，pandas就会被解释为：外层字典的键作为列，内层键则作为行索引：
print(frame2)

* 对于特别大的DataFrame，可以用head方法查看前五行

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
print(frame.head())

* 如果指定了列序列，则DataFrame的列就会按照指定顺序进行排列：

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data,columns=['year', 'state', 'pop'])
print(frame)

* 默认索引是从0开始，可以对索引进行指定
* 同时，如果传入的列在数据中找不到，就会在结果中产生缺失值：

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data,columns=['year', 'state', 'pop','debt'],index=['one', 'two', 'three', 'four', 'five', 'six'])
print(frame)
print("---------")
frame.index = ['first', 'second', 'third', 'fourth', 'fifth', 'sixth']  #通过赋值的方式修改索引
print(frame)


2. 获取DataFrame的数据  
   1. 通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series：
   2. 通过通过位置或名称的方式进行获取行数据

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data,columns=['year', 'state', 'pop','debt'],index=['one', 'two', 'three', 'four', 'five', 'six'])

print(frame['state'])  #通过列名获取列
print("---------")
print(frame.year)  #通过属性的方式获取列

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data,columns=['year', 'state', 'pop','debt'],index=['one', 'two', 'three', 'four', 'five', 'six'])

print(frame.loc['three'])  #通过行索引获取行  这里的three需要是行索引
print("---------")
print(frame.iloc[2])  #通过行号获取行  这里的2需要是行号, 行号是从0开始

3. DataFrame的值的修改

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data,columns=['year', 'state', 'pop','debt'],index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2 = frame.copy()

print(frame)
print("---------")
frame.debt = 10  #通过赋值的方式修改列的值 ,传入单个值则所有值都会被设置为该值，传入数组则会被设置为数组的值
print(frame)
print("---------")
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])  #传入Series则会根据索引对齐,又验证了Series的索引对齐
frame2['debt'] = val
print(frame2)

In [None]:
import pandas as pd
import numpy as np
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data,columns=['year', 'state', 'pop'],index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2 = frame.copy()

frame['eastern'] = frame2.state == 'Ohio' #如果赋值的列不存在，则会创建一个新的列，这里添加了一个boolean列
print(frame)                                #注意：不能用frame.eastern创建新的列。
print("---------")
del frame['eastern'] #del方法 删除列
print(frame)

4. 对DataFrame的操作

In [None]:
#对DataFrame进行转置（交换行和列）：
import pandas as pd
import numpy as np

pop = {'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame2 = pd.DataFrame(pop)

print(frame2.T)  #转置,不是在原DataFrame上进行转置，而是返回一个新的DataFrame
print("---------")

#设置DataFrame的名称和索引
frame2.index.name = 'year'; frame2.columns.name = 'state'
print(frame2)
print("---------")
#values属性也会以二维ndarray的形式返回DataFrame中的数据
print(frame2.values)