# 创建DF对象

In [1]:
#导包
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'

In [2]:
#通过字典嵌套列表创建
df1_data={
    '日期':['2021-08-21','2021-08-22','2021-08-23'],
    '温度':[25,26,50],
    '湿度':[81,50,56]
}
df1=pd.DataFrame(df1_data)
df1

Unnamed: 0,日期,温度,湿度
0,2021-08-21,25,81
1,2021-08-22,26,50
2,2021-08-23,50,56


In [3]:
#通过列表加元组创建（自定义索引）
df2_data=[
    ('2021-08-21',25,81),
    ('2021-08-22',26,50),
    ('2021-08-23',50,56)
]
df2=pd.DataFrame(
    data=df2_data,
    columns=['日期','温度','湿度'],
    index=['row_1','row_2','row_3']
)
df2

Unnamed: 0,日期,温度,湿度
row_1,2021-08-21,25,81
row_2,2021-08-22,26,50
row_3,2021-08-23,50,56


## 常用属性和方法

In [4]:
#查看行数
len(df2)
#查看形状
df2.shape
#查看df数据个数（行数*列数）
df2.size
#查看行索引值
df2.index
#查看列名
df2.columns
#查看值
df2.values
#查看数据类型
df2.dtypes
#循环遍历df对象(按行遍历)
for row in df2:
    print(row)
#查看前五行数据
df2.head
#查看后五行
df2.tail
#查看信息
#对象类型 对象索引 列信息（列数） 是否有NaN值 每列类型 类型统计 内存使用
df2.info
#查看描述信息(默认输出数值列描述信息)
df2.describe
#查看所有描述信息
#unique:唯一值个数  top：最多次的值   frep：最多值的个数
df2.describe(include='all')

3

(3, 3)

9

Index(['row_1', 'row_2', 'row_3'], dtype='object')

Index(['日期', '温度', '湿度'], dtype='object')

array([['2021-08-21', 25, 81],
       ['2021-08-22', 26, 50],
       ['2021-08-23', 50, 56]], dtype=object)

日期    object
温度     int64
湿度     int64
dtype: object

日期
温度
湿度


<bound method NDFrame.head of                日期  温度  湿度
row_1  2021-08-21  25  81
row_2  2021-08-22  26  50
row_3  2021-08-23  50  56>

<bound method NDFrame.tail of                日期  温度  湿度
row_1  2021-08-21  25  81
row_2  2021-08-22  26  50
row_3  2021-08-23  50  56>

<bound method DataFrame.info of                日期  温度  湿度
row_1  2021-08-21  25  81
row_2  2021-08-22  26  50
row_3  2021-08-23  50  56>

<bound method NDFrame.describe of                日期  温度  湿度
row_1  2021-08-21  25  81
row_2  2021-08-22  26  50
row_3  2021-08-23  50  56>

Unnamed: 0,日期,温度,湿度
count,3,3.0,3.0
unique,3,,
top,2021-08-21,,
freq,1,,
mean,,33.666667,62.333333
std,,14.153916,16.441817
min,,25.0,50.0
25%,,25.5,53.0
50%,,26.0,56.0
75%,,38.0,68.5


## 布尔值列表获取部分值数据

In [5]:
df2[[False,True,True]]

Unnamed: 0,日期,温度,湿度
row_2,2021-08-22,26,50
row_3,2021-08-23,50,56


In [6]:
#通过判断获取布尔值列表
df2.index != 'row_1'

array([False,  True,  True])

In [7]:
df2[df2.index != 'row_1']

Unnamed: 0,日期,温度,湿度
row_2,2021-08-22,26,50
row_3,2021-08-23,50,56


## DF对象运算

In [8]:
#df对象和数值计算
df2 * 2

Unnamed: 0,日期,温度,湿度
row_1,2021-08-212021-08-21,50,162
row_2,2021-08-222021-08-22,52,100
row_3,2021-08-232021-08-23,100,112


In [9]:
df2 + 2  #报错：非数值列不能和数值类型进行加减除操作

TypeError: can only concatenate str (not "int") to str

In [None]:
#df对象之间的计算
df2+df2   #等同于df*2

In [None]:
df2*df2   #报错：非数值列不能加减乘除操作

In [None]:
#构造部分索引和df2相同的新df
df3=df2[df2.index != 'row_3']
df2+df3    #根据索引匹配，相同计算，不同NaN填充

# DF的增删改

## 加载数据与添加

In [None]:
#加载csv数据集
df=pd.read_csv('datas/1960-2019全球GDP数据.csv',encoding='gbk')
df2=df.head()
df2

In [None]:
#复制一份数据集
df3=df2.copy()

In [None]:
#一列数据都是固定值:df[新列名]=值
df3['new_col_1'] = 10
df3

In [None]:
df3['new_col_2'] = [1,2,3,4,5]
df3

In [None]:
#将s对象运算的结果保存到新列
df2.year+100

In [10]:
df3['new-col-3']=df2.year+100
df3

AttributeError: 'DataFrame' object has no attribute 'year'

## DataFrame的删除

In [None]:
#删除行数据
#df3.drop(索引名或列名)  默认一行一行删除
#axis=1  按列删除        不删除源数据
#inplace=True             删除源数据

df3.drop([1])  #删除索引为零的行，在内存中删除
df3.drop([1],inplace=True)  #删除索引为零的行，在源数据中删除
df3.drop([2,3])#删除多行
df3.drop(['new_col_1'],axis=1)  #删除新增列 

In [None]:
#删除列
#del df[列名] ： 删除某列数据，会修改源数据
del df3['new_col_2']
df3

## 数据去重

In [11]:
#构造重复数据
df4=df2.append(df2).reset_index(drop=True)
df4

  df4=df2.append(df2).reset_index(drop=True)


Unnamed: 0,日期,温度,湿度
0,2021-08-21,25,81
1,2021-08-22,26,50
2,2021-08-23,50,56
3,2021-08-21,25,81
4,2021-08-22,26,50
5,2021-08-23,50,56


In [12]:
#对df对象去重(不会修改源数据)
df4.drop_duplicates()
#inpace=True:源数据去重

Unnamed: 0,日期,温度,湿度
0,2021-08-21,25,81
1,2021-08-22,26,50
2,2021-08-23,50,56


In [13]:
#s对象去重
df4['country'].drop_duplicates()
#unique()去重：返回数组类型
df4['country'].unique()

KeyError: 'country'

## 修改DataFrame中的数据

In [14]:
#直接赋值替换
df5=df.head().copy()
df5['GDP']=[1,2,3,4,5]
df5

NameError: name 'df' is not defined

In [15]:
#replace函数替换数据
df6=df.head().copy()
#s对象实现替换(不修改源数据)
#s.repalce(old，new)
df6['year'].replace(1960,2022)
df6['country'].replace('日本','小日本',inplace=True)
df6
#df对象实现替换(多次出现多次修改)
#df6.replace(old,new,inplace=True)
df6.replace('小日本','日本',inplace=True)
df6

NameError: name 'df' is not defined

In [16]:
#按条件使用布尔值修改数据
df7=df.head().copy()
#获取法国数据行
df7['country']=='法国'
#保留为法国的条目
df7[df7['country']=='法国']
#获取修改GDP（先列在行才能修改）
df7['GDP'][df7['country']=='法国']=12345
df7
#将英国修改为UK
df7['country'][df7['country']=='英国']='UK'
df7

NameError: name 'df' is not defined

In [17]:
#自定义函数修改数据
#s对象的apply方法使用
df8=df.head().copy()

#定义自定义函数->实现将美国修改为美利坚
def foo(x):
    print("x的值为：",x)
    if x == '美国':
        return '美利坚'
    return x

#调用自定义函数，实现修改数据
#s.apply(自定义函数名)
df8['country'].apply(foo)
#修改源数据
df8['country']=df8['country'].apply(foo)

#s对象调用map方法执行自定义函数
df8['country'].map(foo)

#多个参数调用
def fooo(x,a):
    if x == '美国':
        return '美利坚'
    return a
#s.apply(自定义函数名，形参名=值)
df8['country'].apply(fooo,a='其他国家')

NameError: name 'df' is not defined

In [18]:
#自定义函数修改数据
#df对象的apply方法使用
#df.apply(函数名，形参=值，axis=1（按行循环）)  默认按列循环
#自定义函数
#此时x的值是df对象的一列或者一行数据
def foo(x,age1):
    print("x的值为：",x)
    try:
        return x+age1
    except:
        return x
df8
df8.apply(foo,age1=10)

NameError: name 'df8' is not defined

In [19]:
#按行调用apply方法
def fooo(x,a):
    print("x的值为：",x)
    if x['country']==a:    #根据索引值获取数据
        x['GDP']=666
        return x
    return x

df8.apply(fooo,a='法国',axis=1)

NameError: name 'df8' is not defined

In [20]:
#applymap(函数名)：扁平化，不能传参
def foo(x):
    print("x的值为：",x)
    if x == '美国':
        x='大洋彼岸的灯塔国'
        return x
    return x

df8.applymap(foo)

NameError: name 'df8' is not defined

# DataFrame数据查询

In [2]:
#加载csv数据集
df11=pd.read_csv('datas/1960-2019全球GDP数据.csv',encoding='gbk')
#获取前五行
df11.head()
#获取后五行
df11.tail()

NameError: name 'pd' is not defined

In [26]:
#获取一列数据
df11['country']
df11.year

0             美国
1             英国
2             法国
3             中国
4             日本
          ...   
9925    圣多美和普林西比
9926          帕劳
9927        基里巴斯
9928          瑙鲁
9929         图瓦卢
Name: country, Length: 9930, dtype: object

0       1960
1       1960
2       1960
3       1960
4       1960
        ... 
9925    2019
9926    2019
9927    2019
9928    2019
9929    2019
Name: year, Length: 9930, dtype: int64

In [27]:
#获取多列数据
df11[['country','GDP']]

Unnamed: 0,country,GDP
0,美国,543300000000
1,英国,73233967692
2,法国,62225478000
3,中国,59716467625
4,日本,44307342950
...,...,...
9925,圣多美和普林西比,418637388
9926,帕劳,268354919
9927,基里巴斯,194647201
9928,瑙鲁,118223430


In [32]:
#通过布尔向量获取数据
df11[df11['country']=='中国']
df11[df11['year']>2018]

Unnamed: 0,year,country,GDP
9745,2019,美国,21433200000000
9746,2019,中国,14279900000000
9747,2019,日本,5081770000000
9748,2019,德国,3861120000000
9749,2019,印度,2868930000000
...,...,...,...
9925,2019,圣多美和普林西比,418637388
9926,2019,帕劳,268354919
9927,2019,基里巴斯,194647201
9928,2019,瑙鲁,118223430


In [33]:
#索引下标切片取行
df12=df11.head(10)
df12[0:3]   #左闭右开取前三行
df12[:5:2]  #前五行，步长二
df12[1::3]  #第二行开始，步长三

Unnamed: 0,year,country,GDP
0,1960,美国,543300000000
1,1960,英国,73233967692
2,1960,法国,62225478000


Unnamed: 0,year,country,GDP
0,1960,美国,543300000000
2,1960,法国,62225478000
4,1960,日本,44307342950


Unnamed: 0,year,country,GDP
1,1960,英国,73233967692
4,1960,日本,44307342950
7,1960,印度,37029883875


## API

### loc

In [38]:
#loc   传入行名称（索引）
df12.loc[3]       #取一行
df12.loc[[2,3]]     #取多行
df12.loc[0:3]     #取切片

year              1960
country             中国
GDP        59716467625
Name: 3, dtype: object

Unnamed: 0,year,country,GDP
2,1960,法国,62225478000
3,1960,中国,59716467625


0    543300000000
1     73233967692
2     62225478000
3     59716467625
Name: GDP, dtype: int64

In [44]:
df13=df11.loc[[9928,9922,9921,100,33,78,85]]
df14=df13.loc[9928:85:3]
df14

Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
100,1960,圣文森特和格林纳丁斯,13066557
85,1960,巴哈马,169803921


In [45]:
#布尔值向量获取行数据
df14.loc[[False,True,False]]

Unnamed: 0,year,country,GDP
100,1960,圣文森特和格林纳丁斯,13066557


In [51]:
#布尔值向量取行再配合列名取子集
df14.loc[[False,True,False]],['country']

(      year     country        GDP
 9928  2019          瑙鲁  118223430
 100   1960  圣文森特和格林纳丁斯   13066557
 85    1960         巴哈马  169803921,
 ['country'])

In [53]:
#索引值取行再配合列名取子集
df14.loc[[100],['country']]

Unnamed: 0,country
100,圣文森特和格林纳丁斯


In [None]:
#列名取子集
df14.loc[:,['country']]

### iloc

In [58]:
#iloc 传入角标
df14.iloc[1]
df14.iloc[[1,2]]
df14[0:3]
df14.iloc[0:3]
df14.iloc[0:3,1]
df14.iloc[0:3,:]   #前行下标，后列下标
df14.iloc[0:3,[1,2]]
df14.iloc[0:3,1:2]

year             1960
country    圣文森特和格林纳丁斯
GDP          13066557
Name: 100, dtype: object

Unnamed: 0,year,country,GDP
100,1960,圣文森特和格林纳丁斯,13066557
85,1960,巴哈马,169803921


Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
100,1960,圣文森特和格林纳丁斯,13066557
85,1960,巴哈马,169803921


Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
100,1960,圣文森特和格林纳丁斯,13066557
85,1960,巴哈马,169803921


9928            瑙鲁
100     圣文森特和格林纳丁斯
85             巴哈马
Name: country, dtype: object

Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
100,1960,圣文森特和格林纳丁斯,13066557
85,1960,巴哈马,169803921


Unnamed: 0,country,GDP
9928,瑙鲁,118223430
100,圣文森特和格林纳丁斯,13066557
85,巴哈马,169803921


Unnamed: 0,country
9928,瑙鲁
100,圣文森特和格林纳丁斯
85,巴哈马


In [75]:
#查询函数获取子集
df14[df14['country']=='瑙鲁']
df14[(df14['country']=='瑙鲁') | (df14['country']=='巴哈马')]
df14.query('country=="瑙鲁"')
df11.query('country in ["中国","日本","美国"] and year in [2018,2019]')

Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430


Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
85,1960,巴哈马,169803921


Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430


Unnamed: 0,year,country,GDP
9542,2018,美国,20580200000000
9543,2018,中国,13894800000000
9544,2018,日本,4954810000000
9745,2019,美国,21433200000000
9746,2019,中国,14279900000000
9747,2019,日本,5081770000000


In [95]:
#判断是否存在某个值
df14.isin(["瑙鲁"])
df14['country'].isin(["瑙鲁"])
df14[df14['country'].isin(["瑙鲁"])]
df14[df14['country'].isin(["瑙鲁","巴哈马"])]
df14[df14['country'].isin(["瑙鲁","巴哈马"]) & df14['year'].isin([2019])]

Unnamed: 0,year,country,GDP
9928,False,True,False
100,False,False,False
85,False,False,False


9928     True
100     False
85      False
Name: country, dtype: bool

Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430


Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
85,1960,巴哈马,169803921


Unnamed: 0,year,country,GDP
9928,2019,瑙鲁,118223430
