# Panda学习(1)
## panda数据结构
panda有两种主要的数据结构，分别是`Series`和`DataFrame`

### Series
Series是一种类似于字典的数据结构
#### Series的创建
使用键值与数据对应的方式，可以使用list或dict创建Series
使用list创建时，索引与list的索引相同。使用dict创建时，保留dict的键值对关系

In [1]:
import pandas as pd
obj_list = pd.Series([0,6,4,7])
obj_dict = pd.Series({'python':0,'java':20,'golang':-5})
print("Series create from list:\n",obj_list)
print("Series create from dict:\n",obj_dict)

Series create from list:
 0    0
1    6
2    4
3    7
dtype: int64
Series create from dict:
 golang    -5
java      20
python     0
dtype: int64


除了使用数据直接创建以外，还可以使用一个需要存入Series数据结构的键值列表来筛选，该列表中不存在与字典中的数据会被赋值为`NaN`

In [2]:
obj = pd.Series({'a':0,'b':1,'c':2},index=['a','b','d'])
obj

a    0.0
b    1.0
d    NaN
dtype: float64

#### Series的访问
Series很大是依赖于numpy，所以大量的numpy的运算与访问方式都可以使用(在运算的时候会保存键值对应关系)。同时，Series也保存了一些列表的访问方法。

使用字典方式访问

In [3]:
print(obj_dict['python'])

0


In [4]:
if 'python' in obj_dict:
    print(obj_dict['python'])
else:
    print('not find')

0


In [5]:
print('javascript' in obj_dict)

False


使用numpy的方法访问/操作Series对象

In [6]:
print(obj_dict[obj_dict > 0])

java    20
dtype: int64


In [7]:
print(obj_dict * 2)

golang   -10
java      40
python     0
dtype: int64


#### Series的一些操作
Series有一些基本的方法，有：
- 检测数据是否缺失：`Series.isnull()/.notnull()`或`Pandas.isnull()/.notnull()`

In [8]:
pd.isnull(obj)

a    False
b    False
d     True
dtype: bool

In [9]:
obj.isnull()

a    False
b    False
d     True
dtype: bool

In [10]:
pd.notnull(obj)

a     True
b     True
d    False
dtype: bool

In [11]:
obj.notnull()

a     True
b     True
d    False
dtype: bool

- 在进行运算时对齐键值，对于不对齐的键直接认为是NaN

In [12]:
obj_dict + pd.Series({'python':1,'java':100})

golang      NaN
java      120.0
python      1.0
dtype: float64

### DataFrame
DataFrame是一种更像数据库中数据表的一种数据结构，也可以将其作为Series为列组成的二维结构
#### DataFrame的创建
DataFrame可以直接通过一个等长的列表组成的字典

In [13]:
data = {
    'name':['python','java','golang'],
    'state':['y','n','y']
}
frame = pd.DataFrame(data)
frame

Unnamed: 0,name,state
0,python,y
1,java,n
2,golang,y


可以看到传入数据字典的key被列为每一列的名称，value对齐的被放入一个表内，每行自动生成从0开始的标签

同时，可以使用`columns`命名关键字传入一个list筛选，若数据中无该列则将该列全部设为NaN

In [14]:
frame_nan = pd.DataFrame(data,columns=['name','a'])
frame_nan

Unnamed: 0,name,a
0,python,
1,java,
2,golang,


在构造函数中使用`index`属性可以修改默认的标签

In [15]:
frame_index = pd.DataFrame(data,index=['one','two','three'])
frame_index

Unnamed: 0,name,state
one,python,y
two,java,n
three,golang,y


#### DataFrame的访问
DataFrame的Series可以使用类-属性的方法访问

In [16]:
frame.name

0    python
1      java
2    golang
Name: name, dtype: object

也可以使用字典的方式访问

In [17]:
frame['name']

0    python
1      java
2    golang
Name: name, dtype: object

使用索引字段`.loc`可以按索引访问一行

In [18]:
frame_index.loc['one']

name     python
state         y
Name: one, dtype: object

#### DataFrame的操作

对某个列赋值可以修改该列的数据，如果该列不存在则创建一个新列

In [29]:
frame_index

Unnamed: 0,name,state
one,python,n
two,java,n
three,golang,y


In [30]:
test = frame_index.state
test['one'] = 'n'
frame_index.state = test
frame_index

Unnamed: 0,name,state
one,python,n
two,java,n
three,golang,y


In [32]:
frame_index['test'] = (frame_index.state == 'n')
frame_index

Unnamed: 0,name,state,test
one,python,n,True
two,java,n,True
three,golang,y,False


使用`del`关键字可以删除一列

In [33]:
del frame_index['test']
frame_index

Unnamed: 0,name,state
one,python,n
two,java,n
three,golang,y


### 索引对象
索引对象是用于表示Series或DataFrame的索引，为不可变对象，构建时建立

In [34]:
print(frame_index.index)

Index(['one', 'two', 'three'], dtype='object')


使用`pd.Index()`可以创建Index对象，可用于在不同表中复用索引

In [41]:
index_test = pd.Index(['a','b','c'])
print('index :',index_test)
test_frame = pd.DataFrame({'name':['golang','python','verilog']},index=index_test)
test_frame

index : Index(['a', 'b', 'c'], dtype='object')


Unnamed: 0,name
a,golang
b,python
c,verilog
