# Pandas基本结构增删改查

## 基本结构 Series 和 DataFrame

In [1]:
# pandas基本结构，Series和DataFrame
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = 'all' #使得独占一行的所有变量或者语句都自动打印显示，默认只显示最后一行
        
series = pd.Series([20,30,40])
series

0    20
1    30
2    40
dtype: int64

In [2]:
stock_data = pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
stock_data

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


## Series的增删改查

In [3]:
#修改索引
series.index=['a','b','c']
# series.reindex(index=['a','b','c'])
series

a    20
b    30
c    40
dtype: int64

In [4]:
#查看索引
series.index

Index(['a', 'b', 'c'], dtype='object')

In [5]:
# 查看
series['a']

20

In [6]:
# 修改
series['a']=100
series['a']

100

In [7]:
# 增加
series_tmp = pd.Series(index=['e','f'],data=[11,12])
series1 = series.append(series_tmp)#返回值是处理后对象，原对象不变
series1
series

a    100
b     30
c     40
e     11
f     12
dtype: int64

a    100
b     30
c     40
dtype: int64

In [8]:
# 删除
series2 = series.drop("c")#返回值是处理后对象，原对象不变
series2
series

a    100
b     30
dtype: int64

a    100
b     30
c     40
dtype: int64

## DataFrame的增删改查

### 索引操作

一般常用的有两个方法：
1、使用DataFrame.index = [newName]，DataFrame.columns = [newName]，这两种方法可以轻松实现。
2、使用rename方法（推荐）：
DataFrame.rename（mapper = None，index = None，columns = None，axis = None，copy = True，inplace = False，level = None ）
参数介绍：
mapper，index，columns：可以任选其一使用，可以是将index和columns结合使用。index和column直接传入mapper或者字典的形式。
axis：int或str，与mapper配合使用。可以是轴名称（‘index’，‘columns’）或数字（0,1）。默认为’index’。
copy：boolean，默认为True，是否复制基础数据。
inplace：布尔值，默认为False，是否返回新的DataFrame。如果为True，则忽略复制值。

In [9]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), index = ['bj', 'sh', 'gz'], columns=['a', 'b', 'c'])
df1
df1.index = pd.Series(['beijing', 'shanghai', 'guangzhou'])# 直接修改

Unnamed: 0,a,b,c
bj,0,1,2
sh,3,4,5
gz,6,7,8


In [10]:
df1
df1.rename(index=str.upper, columns=str.lower,inplace=False) # 返回新DataFrame
df1.rename(index={'beijing':'bj'}, columns = {'a':'aa'},inplace=False) # 改某一个标题，返回新DataFrame

Unnamed: 0,a,b,c
beijing,0,1,2
shanghai,3,4,5
guangzhou,6,7,8


Unnamed: 0,a,b,c
BEIJING,0,1,2
SHANGHAI,3,4,5
GUANGZHOU,6,7,8


Unnamed: 0,aa,b,c
bj,0,1,2
shanghai,3,4,5
guangzhou,6,7,8


In [11]:
def test_map(x):
    return x+'_ABC'
df1.index.map(test_map)
df1.rename(index=test_map,columns=test_map)

Index(['beijing_ABC', 'shanghai_ABC', 'guangzhou_ABC'], dtype='object')

Unnamed: 0,a_ABC,b_ABC,c_ABC
beijing_ABC,0,1,2
shanghai_ABC,3,4,5
guangzhou_ABC,6,7,8


### 数据操作

In [12]:
#增加列
df = pd.DataFrame(data = [['lisa','f',22],['joy','f',22],['tom','m','21']],index = ['a','b','c'],columns = ['name','sex','age'])
df
df.insert(0,'city',['ny','zz','xy']) #在第0列，加上column名称为city列。
df['job'] = ['student','AI','teacher'] #默认在df最后一列加上column名称为job的列
df.loc[:,'salary'] = ['1k','2k','3k'] #在df最后一列加上column名称为salary列
df

Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21


Unnamed: 0,city,name,sex,age,job,salary
a,ny,lisa,f,22,student,1k
b,zz,joy,f,22,AI,2k
c,xy,tom,m,21,teacher,3k


In [13]:
## 增加行
df_insert = pd.DataFrame({'name':['mason','mario'],'sex':['m','f'],'age':[21,22]},index = [4,5])
df_insert   
df = pd.DataFrame(data = [['lisa','f',22],['joy','f',22],['tom','m','21']],index = ['a','b','c'],columns = ['name','sex','age'])
#返回添加后的值，并不会修改df的值。
# ignore_index默认为False，意思是不忽略index值，即生成的新的ndf的index采用df_insert中的index值。
# 若为True，则新的ndf的index值不使用df_insert中的index值，而是自己默认生成。默认会排序
df.append(df_insert,ignore_index = False,sort=False) 
df

Unnamed: 0,name,sex,age
4,mason,m,21
5,mario,f,22


Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21
4,mason,m,21
5,mario,f,22


Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21


In [14]:
# 查改 loc使用index或columns查找，iloc使用对应的数字索引查找。使用loc和iloc查找后可以直接修改
df = pd.DataFrame(data = [['lisa','f',22],['joy','f',22],['tom','m','21']],index = ['a','b','c'],columns = ['name','sex','age'])
df
df.loc['a','name']                      # 选取某个值
df.iloc[1]                              # 选取某一行
df.loc[:,'name']==df.name               # 选取某一列
df.iloc[0:2, [0,2]]                     #选取多行多列，iloc参数[0:2]不包含2
df.loc['a':'b',['name','age']]          #选取多行多列，loc参数['a':'b']包含'b'
df.loc[df['sex']=='m','name']           #选取gender列是m，name列的数据
df.loc[df['sex']=='m',['name','age']]   #选取gender列是m，name和age列的数据

Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21


'lisa'

name    joy
sex       f
age      22
Name: b, dtype: object

a    True
b    True
c    True
Name: name, dtype: bool

Unnamed: 0,name,age
a,lisa,22
b,joy,22


Unnamed: 0,name,age
a,lisa,22
b,joy,22


c    tom
Name: name, dtype: object

Unnamed: 0,name,age
c,tom,21


In [15]:
df = pd.DataFrame(data = [['lisa','f',22],['joy','f',22],['tom','m','21']],index = ['a','b','c'],columns = ['name','sex','age'])
df
df.drop(['a','c'],axis = 0,inplace = False)#删除index值为a和c的两行，

Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21


Unnamed: 0,name,sex,age
b,joy,f,22


In [16]:
df = pd.DataFrame(data = [['lisa','f',22],['joy','f',22],['tom','m','21']],index = ['a','b','c'],columns = ['name','sex','age'])
df
df.drop(['name'],axis = 1,inplace = False)  #删除name列，新返回的DataFrame无name列
df
del df['name']  #删除name列,相当于inplace = True，这一列无输出
df
df.pop('age')  #删除age列，操作后，df丢掉了age列,age列作为返回值返回
df

Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21


Unnamed: 0,sex,age
a,f,22
b,f,22
c,m,21


Unnamed: 0,name,sex,age
a,lisa,f,22
b,joy,f,22
c,tom,m,21


Unnamed: 0,sex,age
a,f,22
b,f,22
c,m,21


a    22
b    22
c    21
Name: age, dtype: object

Unnamed: 0,sex
a,f
b,f
c,m


In [17]:
inp = [{'c1':10, 'c2':100}, {'c1':11, 'c2':110}, {'c1':12, 'c2':123}]
df = pd.DataFrame(inp)
df
#按照行遍历
for index, row in df.iterrows():
    print(index,row['c2']) # 输出每行的索引值

Unnamed: 0,c1,c2
0,10,100
1,11,110
2,12,123


0 100
1 110
2 123


In [18]:
#按照列遍历
for index, row in df.iteritems():
    print(index,row[0], row[2]) # 输出列名

c1 10 12
c2 100 123
