# 创建DataFram

> DataFram（data，index，columns，...）表格型数据
 - data=list/dict/数组...
 - index=None 行索引默认自动添加0,1,2...(行索引推荐使用默认索引)
 - columns=None/list 列索引默认自己添加0,1,2...

## 通过list创建DataFram
> - 行、列会默认添加数字索引
> - 可以有缺失数据

In [12]:
import pandas as pd
import numpy as np

In [11]:
data=[12,13,34] #一维lsist
df=pd.DataFrame(data)
df

Unnamed: 0,0
0,12
1,13
2,34


In [45]:
data=[[3,5,7],[2,4,6]] #二维list
df=pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,3,5,7
1,2,4,6


In [46]:
data=[[3,],[3,6,8]] #二维list,缺失数据会自动填充NaN
df=pd.DataFrame(data)
df

Unnamed: 0,0,1,2
0,3,,
1,3,6.0,8.0


## 通过dict创建DataFram
> - 默认dict键作为列索引，默认数字作为行索引，dict值作为行数据。<u>使用字典创建的DataFrame后，则columns参数将不可被使用。</u>
> - 不能有缺失数据

In [47]:
data={
    '班级':'18计算机',
    '期中':[50,60,70],
    '期末':[80,90,89],

}
df=pd.DataFrame(data)
df

Unnamed: 0,班级,期中,期末
0,18计算机,50,80
1,18计算机,60,90
2,18计算机,70,89


## 通过其他形式数组创建DataFram

In [15]:
data=np.random.randn(10,6)
blist=list('ABCDEF')
alist=np.arange(0,10)
df=pd.DataFrame(data,index=alist,columns=blist)
df

Unnamed: 0,A,B,C,D,E,F
0,-0.872659,-0.122992,2.636123,0.7704,0.892992,-0.374129
1,0.416781,1.256211,0.906888,-0.347465,-0.188241,0.896893
2,-0.352549,1.098094,0.005864,0.877227,0.570165,1.315195
3,0.64944,0.162835,0.502944,0.023251,-1.346971,0.432295
4,-0.179765,-0.066572,1.279274,-0.009821,0.108073,0.25268
5,0.641662,-0.929013,-0.53679,-1.691921,0.542677,0.259854
6,-0.097167,0.759347,-0.916961,1.543035,-0.200398,0.900975
7,1.192595,-0.622756,-1.217379,0.018877,-0.933094,1.769422
8,0.049233,0.664864,1.423301,1.335033,-1.083737,-1.542226
9,0.016577,-0.16428,0.276651,-0.095229,0.023373,-0.224791


## 外部导入数据创建DataFram
> 利用pd.read_excel(),pd.read_csv，...读取外部文件导入数据来创建

In [6]:
df=pd.read_excel('demo.xlsx')
df

Unnamed: 0,班级,学期,姓名,分数,科目
0,17汽车,201704,熊洪林,76.3,哲学与人生
1,17汽车,201704,王索,及格,哲学与人生
2,17汽车,201704,梁诚,68.6,哲学与人生
3,17汽车,201704,徐雨志超,,哲学与人生
4,17汽车,201704,林斌,70.6,哲学与人生
5,17汽车,201704,陈林峰,66.8,哲学与人生


# 索引
> - 行索引，index=None/自定义list索引，默认是数字索引，可也有自定义，行索引推荐使用默认的数字索引。
> - 列索引，columns=None/自定义list索引，默认是数字索引，可以自定义。
> - 用字典创建的DataFram列索引不能被修改,只能用dict的key作为列索引，此时行索引默认为数字索引。

## 默认索引
> 不写index，columns或index=None，columns=None，结果都是默认索引

In [49]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
df=pd.DataFrame(data,index=None,columns=None)
df

Unnamed: 0,0,1,2,3
0,3,5,7,5
1,3,6,8,4
2,11,34,56,23


In [16]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
df=pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,3,5,7,5
1,3,6,8,4
2,11,34,56,23


## 列索引自定义
> 自定义时索引不能有缺失数据，也不能超出总列数（既有几列就定义几个索引），自定义索引可以相同。

In [50]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
list=['A','B','C','年龄']
df=pd.DataFrame(data,columns=list)
df

Unnamed: 0,A,B,C,年龄
0,3,5,7,5
1,3,6,8,4
2,11,34,56,23


## 行索引自定义
> 方法与列索引自定义类似，不能有缺失数据，也不能超出总行数（既有几行就定义几个索引），推荐使用默认的数字索引。

In [51]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
list=['A','B','C']
df=pd.DataFrame(data,index=list)
df

Unnamed: 0,0,1,2,3
A,3,5,7,5
B,3,6,8,4
C,11,34,56,23


In [82]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
list1=['A','B','C']
list2=['name','id','age','home']
df=pd.DataFrame(data,index=list1,columns=list2)
df

Unnamed: 0,name,id,age,home
A,3,5,7,5
B,3,6,8,4
C,11,34,56,23


## 修改索引

### 修改行索引
>- set_index()
>- index_col='列名'，若读取外部数据时可直接使用
>- df.rename(columns=,index=)

In [18]:
df=pd.read_excel('demo.xlsx')
df #修改原先的默认数字索引

Unnamed: 0,班级,学期,姓名,分数,科目
0,17汽车,201704,熊洪林,76.3,哲学与人生
1,17汽车,201704,王索,及格,哲学与人生
2,17汽车,201704,梁诚,68.6,哲学与人生
3,17汽车,201704,徐雨志超,,哲学与人生
4,17汽车,201704,林斌,70.6,哲学与人生
5,17汽车,201704,陈林峰,66.8,哲学与人生


In [28]:
df=pd.read_excel('demo.xlsx')#把班级作为行索引
df=df.set_index('班级') 
df

Unnamed: 0_level_0,学期,姓名,分数,科目
班级,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
17汽车,201704,熊洪林,76.3,哲学与人生
17汽车,201704,王索,及格,哲学与人生
17汽车,201704,梁诚,68.6,哲学与人生
17汽车,201704,徐雨志超,,哲学与人生
17汽车,201704,林斌,70.6,哲学与人生
17汽车,201704,陈林峰,66.8,哲学与人生


In [23]:
df=pd.read_excel('demo.xlsx')#把班级作为行索引
df.set_index('班级',inplace=True) #也可以直接添加inplace=true,来修改源数据，这样就不需要再次赋值了
df

Unnamed: 0_level_0,学期,姓名,分数,科目
班级,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
17汽车,201704,熊洪林,76.3,哲学与人生
17汽车,201704,王索,及格,哲学与人生
17汽车,201704,梁诚,68.6,哲学与人生
17汽车,201704,徐雨志超,,哲学与人生
17汽车,201704,林斌,70.6,哲学与人生
17汽车,201704,陈林峰,66.8,哲学与人生


In [26]:
df=pd.read_excel('demo.xlsx') #行索引修改成其他
list=np.arange(2,14,2)
df.set_index(list,inplace=True) #也可以直接添加inplace=true,来修改源数据，这样就不需要再次赋值了
df

Unnamed: 0,班级,学期,姓名,分数,科目
2,17汽车,201704,熊洪林,76.3,哲学与人生
4,17汽车,201704,王索,及格,哲学与人生
6,17汽车,201704,梁诚,68.6,哲学与人生
8,17汽车,201704,徐雨志超,,哲学与人生
10,17汽车,201704,林斌,70.6,哲学与人生
12,17汽车,201704,陈林峰,66.8,哲学与人生


In [30]:
df=pd.read_excel('demo.xlsx',index_col='班级') #若是读取外部数据时，直接指定外部数据列为行索引
df

Unnamed: 0_level_0,学期,姓名,分数,科目
班级,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
17汽车,201704,熊洪林,76.3,哲学与人生
17汽车,201704,王索,及格,哲学与人生
17汽车,201704,梁诚,68.6,哲学与人生
17汽车,201704,徐雨志超,,哲学与人生
17汽车,201704,林斌,70.6,哲学与人生
17汽车,201704,陈林峰,66.8,哲学与人生


In [37]:
df=pd.read_excel('demo.xlsx')

df

Unnamed: 0,班级,学期,姓名,分数,科目
0,17汽车,201704,熊洪林,76.3,哲学与人生
1,17汽车,201704,王索,及格,哲学与人生
2,17汽车,201704,梁诚,68.6,哲学与人生
3,17汽车,201704,徐雨志超,,哲学与人生
4,17汽车,201704,林斌,70.6,哲学与人生
5,17汽车,201704,陈林峰,66.8,哲学与人生


### 修改列索引
>- df.rename(columns=,index=)

In [40]:
df=pd.read_excel('demo.xlsx') 
df.rename(index={2:'A',3:'B'},inplace=True)
df

Unnamed: 0,班级,学期,姓名,分数,科目
0,17汽车,201704,熊洪林,76.3,哲学与人生
1,17汽车,201704,王索,及格,哲学与人生
A,17汽车,201704,梁诚,68.6,哲学与人生
B,17汽车,201704,徐雨志超,,哲学与人生
4,17汽车,201704,林斌,70.6,哲学与人生
5,17汽车,201704,陈林峰,66.8,哲学与人生


In [36]:
df=pd.read_excel('demo.xlsx') 
df.rename(columns={'班级':'A'},inplace=True)
df

Unnamed: 0,A,学期,姓名,分数,科目
0,17汽车,201704,熊洪林,76.3,哲学与人生
1,17汽车,201704,王索,及格,哲学与人生
2,17汽车,201704,梁诚,68.6,哲学与人生
3,17汽车,201704,徐雨志超,,哲学与人生
4,17汽车,201704,林斌,70.6,哲学与人生
5,17汽车,201704,陈林峰,66.8,哲学与人生


# DataFram属性
>- index，pd.index行索引
>- columns，pd.columns列索引
>- values，pd.values数据表
>- shape，pd.shape维度，可以用于统计总行数和总列数
>- dtypes，pd.dtypes,列数据类型

In [41]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
print(df.index)#行索引
print(df.columns)#列索引
print(df.values)#数据值
print(df.dtypes)#列的数据类型
df.shape#统计行数和列数

RangeIndex(start=0, stop=3, step=1)
Index(['班级', '姓名', '分数'], dtype='object')
[['18计算机' 'makr' 80]
 ['18计算机' 'You' 90]
 ['18计算机' 'Anat' '缺考']]
班级    object
姓名    object
分数    object
dtype: object


(3, 3)

# 查找列/行


## 查找单列
>- 单列：df.自定义列索引  或 df[ '自定义列索引' ] 或 df[ int ]（默认数字索引时只能用 df [ int ]）

全部列：df 或df.values

In [83]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.姓名 #单列

0    makr
1     You
2    Anat
Name: 姓名, dtype: object

In [91]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df['姓名'] #单列

0    makr
1     You
2    Anat
Name: 姓名, dtype: object

In [114]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
df=pd.DataFrame(data)
df[1] #默认数字索引时只能用 df[int]

0     5
1     6
2    34
Name: 1, dtype: int64

## 查找多列
>- 多列：df [ [ '自定义列索引','自定义列索引',... ] ],
>- 若是默认数字索引列，df [ [ int1 , int2, ... ] ]不能用切片

In [55]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
print(df[['班级','姓名']]) #多列df[[列索引，列索引...]]

      班级    姓名
0  18计算机  makr
1  18计算机   You
2  18计算机  Anat


In [103]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
df=pd.DataFrame(data)
df[[0,1,3]] #若是默认数字索引列，df [ [ int1 , int2, ... ] ]

Unnamed: 0,0,1,3
0,3,5,5
1,3,6,4
2,11,34,23


## 查找全部列
>- df 或 df.values

## 查找单行

>- 单行(默认数字索引)：df[n]或 df.loc[n] 第n-1行 
>- 特定值：df.loc[n,列索引] #第n-1行，班级列数据
      df.loc[n,[列索引1,列索引2...]] #第n-1行，列索引1,列索引2数据
      df.loc[n：m,[列索引1,列索引2...]] #第n-1行到第m-1行，列索引1,列索引2数据

In [105]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
print(df[0:1]) #单行第1行

      班级    姓名  分数
0  18计算机  makr  80


In [57]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
print(df[1:2]) #单行第2行

      班级   姓名  分数
1  18计算机  You  90


## 查找多行
>- 多行(默认数字索引)：df[n:m]第n-1行到第m-1行 ，切片方法前提是默认数字行索引。

In [58]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
print(df[0:2]) #多行第1，2行

      班级    姓名  分数
0  18计算机  makr  80
1  18计算机   You  90


## loc函数查找行/列
>- data.loc[index,'colum_names']，第一个参数是行索引(数字索引)，第二个参数为列索引（可选参数，默认为所有列标签）。<u>该函数不能只查找列</u>
>- 可以查找具体的单元格,

### loc查找单行、多行
>- 可以查找单行,data.loc[index]，单个数字行索引（也可以是自定义行索引），
>- 可以查找多行,data.loc[n:m]，切片只能是数字行索引

In [106]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
print(df.loc[0]) #单个数字行索引，单行

班级    18计算机
姓名     makr
分数       80
Name: 0, dtype: object


In [108]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
list=['A','B','C']
df=pd.DataFrame(data,index=list)
df.loc['B'] #单个自定义行索引，单行

0    3
1    6
2    8
3    4
Name: B, dtype: int64

In [118]:
data=[[3,5,7,5],[3,6,8,4],[11,34,56,23]] 
df=pd.DataFrame(data)
df.loc[0:3] #切片多行只能是数字行索引，多行

Unnamed: 0,0,1,2,3
0,3,5,7,5
1,3,6,8,4
2,11,34,56,23


### loc查找单元格

In [130]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.loc[0,'姓名'] #第1行，姓名列

'makr'

In [137]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.loc[0,['班级','姓名']]#第1行，班级列、姓名列数据 

班级    18计算机
姓名     makr
Name: 0, dtype: object

In [136]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.loc[0:2,['班级','姓名']]#第1行到第3行，班级列、姓名列数据 

Unnamed: 0,班级,姓名
0,18计算机,makr
1,18计算机,You
2,18计算机,Anat


# 数据处理

## 列、行从新排序
>- reindex()

In [44]:
df=pd.read_excel('demo.xlsx')
df#默认的

Unnamed: 0,班级,学期,姓名,分数,科目
0,17汽车,201704,熊洪林,76.3,哲学与人生
1,17汽车,201704,王索,及格,哲学与人生
2,17汽车,201704,梁诚,68.6,哲学与人生
3,17汽车,201704,徐雨志超,,哲学与人生
4,17汽车,201704,林斌,70.6,哲学与人生
5,17汽车,201704,陈林峰,66.8,哲学与人生


In [51]:
df=pd.read_excel('demo.xlsx')
df=df.reindex(columns=['姓名','科目','分数','班级','学期'])
df#对列从新排

Unnamed: 0,姓名,科目,分数,班级,学期
0,熊洪林,哲学与人生,76.3,17汽车,201704
1,王索,哲学与人生,及格,17汽车,201704
2,梁诚,哲学与人生,68.6,17汽车,201704
3,徐雨志超,哲学与人生,,17汽车,201704
4,林斌,哲学与人生,70.6,17汽车,201704
5,陈林峰,哲学与人生,66.8,17汽车,201704


In [56]:
df=pd.read_excel('demo.xlsx')
df=df.reindex(columns=['姓名','科目','分数','班级','学期'],index=[1,5,0,3,2,4])
df#对列从新排,对行从新排

Unnamed: 0,姓名,科目,分数,班级,学期
1,王索,哲学与人生,及格,17汽车,201704
5,陈林峰,哲学与人生,66.8,17汽车,201704
0,熊洪林,哲学与人生,76.3,17汽车,201704
3,徐雨志超,哲学与人生,,17汽车,201704
2,梁诚,哲学与人生,68.6,17汽车,201704
4,林斌,哲学与人生,70.6,17汽车,201704


## 增加列 / 更新列
>- 新增（更新）单列，df['新增列名']=int/str/list/dict...，默认在后面增加列，如果新增列名与原来重复，怎替换数据

In [135]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df['科目']='CAD'#新增科目列
df


Unnamed: 0,班级,姓名,分数,科目
0,18计算机,makr,80,CAD
1,18计算机,You,90,CAD
2,18计算机,Anat,缺考,CAD


In [138]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df['科目']=['CAD','EXCEL','PPT'] #元素不能多也不能少，新增一个单列
df


Unnamed: 0,班级,姓名,分数,科目
0,18计算机,makr,80,CAD
1,18计算机,You,90,EXCEL
2,18计算机,Anat,缺考,PPT


In [65]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df['分数']='CAD'#此时新增列变成替换列
df

Unnamed: 0,班级,姓名,分数
0,18计算机,makr,CAD
1,18计算机,You,CAD
2,18计算机,Anat,CAD


# 增加行（替换行）

>- df.loc[M]=['17计算机','EXCEL',54] #顺着行索m引往下增加,若M行在有数据，则替换数据
>- df1=pd.DataFrame([['17计算机','EXCEL',54]],columns=['班级','姓名','分数'])
>- fa=df.append(df1,ignore_index=True)


In [66]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.loc[3]=['17计算机','EXCEL',54] #顺着行索引往下增加,该方法要知道最后行索引值
df

Unnamed: 0,班级,姓名,分数
0,18计算机,makr,80
1,18计算机,You,90
2,18计算机,Anat,缺考
3,17计算机,EXCEL,54


In [61]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.loc[df['班级'].count()+1]=['17汽车','发动机维修',57] #顺着行索引往下增加,df['班级'].count()返回的是一个数字，而df.count()返回的是多个数字
df

Unnamed: 0,班级,姓名,分数
0,18计算机,makr,80
1,18计算机,You,90
2,18计算机,Anat,缺考
4,17汽车,发动机维修,57


In [62]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
fa=df.append(pd.DataFrame([['17计算机','EXCEL',54]],columns=['班级','姓名','分数']),ignore_index=True) 
fa

Unnamed: 0,班级,姓名,分数
0,18计算机,makr,80
1,18计算机,You,90
2,18计算机,Anat,缺考
3,17计算机,EXCEL,54


In [67]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.loc[0]=['17计算机','EXCEL',54] #此时行怎行变成了替换行
df

Unnamed: 0,班级,姓名,分数
0,17计算机,EXCEL,54
1,18计算机,You,90
2,18计算机,Anat,缺考


# 删除行/列

删除列：df.pop（‘列索引’）
删除行：df.drop(df.index[0], inplace=True) 删除第1含


In [69]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.pop('班级')
df

Unnamed: 0,姓名,分数
0,makr,80
1,You,90
2,Anat,缺考


In [70]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df.drop(df.index[0], inplace=True)
df

Unnamed: 0,班级,姓名,分数
1,18计算机,You,90
2,18计算机,Anat,缺考


# 填充NaN

>- df.fillna(value='填充的数据',inplace = True),inplace = True让源数据发生改变,对正个表填充
>- df[列].fillna(value='填充的数据',inplace = True)，对特定列填充

In [71]:
df = pd.DataFrame(data=[[2,3],
                        [1,2,4],
                        [],
                        [1,2,3],
                        [1,2],
                        [1,2,5]],
                 columns=['a','b','c'])
df

Unnamed: 0,a,b,c
0,2.0,3.0,
1,1.0,2.0,4.0
2,,,
3,1.0,2.0,3.0
4,1.0,2.0,
5,1.0,2.0,5.0


In [72]:
df = pd.DataFrame(data=[[2,3],
                        [1,2,4],
                        [],
                        [1,2,3],
                        [1,2],
                        [1,2,5]],
                 columns=['a','b','c'])
df.fillna(value='ok',inplace = True)
df

Unnamed: 0,a,b,c
0,2,3,ok
1,1,2,4
2,ok,ok,ok
3,1,2,3
4,1,2,ok
5,1,2,5


In [68]:
df = pd.DataFrame(data=[[2,3],
                        [1,2,4],
                        [],
                        [1,2,3],
                        [1,2],
                        [1,2,5]],
                 columns=['a','b','c'])
df['a'].fillna(value='ok',inplace = True) #只对a列填充空值
df

Unnamed: 0,a,b,c
0,2,3.0,
1,1,2.0,4.0
2,ok,,
3,1,2.0,3.0
4,1,2.0,
5,1,2.0,5.0


In [77]:
df = pd.DataFrame(data=[[2,3],
                        [1,2,4],
                        [],
                        [1,2,3],
                        [1,2],
                        [1,2,5]],
                 columns=['a','b','c'])
df=df[['b','c']].fillna(value='ok') #只对b列，c列填充空值
df

Unnamed: 0,b,c
0,3,ok
1,2,4
2,ok,ok
3,2,3
4,2,ok
5,2,5


# 创建副本 df.copy()

In [73]:
data={
    '班级':'18计算机',
    '姓名':['makr','You','Anat'],
    '分数':[80,90,'缺考']
}
df=pd.DataFrame(data)
df1=df.copy()
df1

Unnamed: 0,班级,姓名,分数
0,18计算机,makr,80
1,18计算机,You,90
2,18计算机,Anat,缺考


# 计算

In [74]:
df = pd.DataFrame(data=[[1,2,3],
                        [5,2,4],
                        [1,2,4],
                        [1,2,3],
                        [1,2,5],
                        [1,2,5]],
                 columns=['a','b','c'])


print(df)
print(df.a.mean())

   a  b  c
0  1  2  3
1  5  2  4
2  1  2  4
3  1  2  3
4  1  2  5
5  1  2  5
1.6666666666666667


In [75]:
print

<function print>