# data100 第三节 pandas

## 1.loc和iloc的对比
loc 是基于标签的，也就是当你使用loc的时候，总是传入的是dataframe的标签(表名)。
iloc 是基于行数或者列数来进行的，也就是当你使用iloc的时候，总是传入的是dataframe的行数或者列数。

但是大多数时间你会选用.loc
1. 在进行数据的处理的时候，经常会移动数据的位置，而此时使用.iloc不方便且不安全，而.loc则不受影响。
2. 除此之外，如果你在demo中使用.iloc，会使你的代码的可读性下降，毕竟我们都希望看到的是能看懂的英文或中文，而不是单独的行数和列数。

但是并不意味着.iloc没用，比如
当你要获取一个dataframe中第一个row或者最后一个row的时候，你就可以使用.iloc。

今天，我们将介绍一个介于.iloc和.loc之间的一种提取方法，下面是例子

In [5]:
import pandas as pd
from django.db.models.signals import pre_init

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})

print(dataframe1)
# 采用文本筛选的方式

print(dataframe1[0:1])

print(dataframe1["Name"])

print(dataframe1[["ID","Sex"]])


   ID     Name Sex
0   1  charlie   男
1   2      tom   男
2   3    alien   女
   ID     Name Sex
0   1  charlie   男
0    charlie
1        tom
2      alien
Name: Name, dtype: object
   ID Sex
0   1   男
1   2   男
2   3   女


从上面的demo，我们可以看出这个新的提取方法的基本模式
dataframeName[],在这个[]中只能接受一个参数，可以是单个值，也可以是一个列表[].
该种方法的特点是：每次只对行或者列其中一个进行筛选，传入的是行的index和列的column的名字。

那好的接下来出一个棘手的难题

In [6]:
import pandas as pd

weired=pd.DataFrame({1:["1.1","1.2"],"1":["2.1","2.2"]})

print(weired)

print(weired[1])

print(weired["1"])

print(weired[1:])

     1    1
0  1.1  2.1
1  1.2  2.2
0    1.1
1    1.2
Name: 1, dtype: object
0    2.1
1    2.2
Name: 1, dtype: object
     1    1
1  1.2  2.2


好的解释一下，当使用这种方式来进行提取时，如果传入的是一个值，或者一个列表，则按照column来提取，pandas会将其按照column名处理，如果是一个切片，则按照row的index来处理。
这种处理方法的好处就是写代码的时候比较快。

## conditional selection 条件选择
第一步：构建bool的列表

第二步：将bool的series与dataframe进行匹配，可以使用[]也可以使用loc
### 1.第一种手动创建bool的切片

In [8]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})

print(dataframe1)

print(dataframe1[[True,False,True]])

print(dataframe1.loc[[True,False,True],:])

   ID     Name Sex
0   1  charlie   男
1   2      tom   男
2   3    alien   女
   ID     Name Sex
0   1  charlie   男
2   3    alien   女
   ID     Name Sex
0   1  charlie   男
2   3    alien   女


### 2.构建bool表达式

In [11]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})

print(dataframe1[dataframe1["Sex"]=="男"])


   ID     Name Sex
0   1  charlie   男
1   2      tom   男


如果你要结合多个bool表达式，你要使用连接符，在pandas里面的连接符和py里面不一样，py是and和or，而pandas里面是&和|,而~代表取反，^这个代表其中一个是true
### pandas的效用函数
#### .isin()
这个是判断这一个column中的值是否在列表中.
例子：

In [13]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})

names=["charlie","tom"]

print(dataframe1[dataframe1["Name"].isin(names)])

   ID     Name Sex
0   1  charlie   男
1   2      tom   男


#### .str.startswith()
这个是判断一个column中是否含有以()中字母为开头的值，并将其输出

In [15]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})

names=["charlie","tom"]

print(dataframe1[dataframe1["Name"].str.startswith("c")])

   ID     Name Sex
0   1  charlie   男


## column的加减


### 增加一个column
1.直接使用[]来添加

***注意***：这是有一定要求的，添加时要注意属性名不能与之前的重复，其次要注意长度和之前的一致

In [17]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})
# 这个函数是获取df中Name列中各个值的长度，并形成一个series
name_length=dataframe1["Name"].str.len()

print(name_length)
dataframe1["name_length"]=name_length
# 直接使用[]添加
print(dataframe1)

0    7
1    3
2    5
Name: Name, dtype: int64
   ID     Name Sex  name_length
0   1  charlie   男            7
1   2      tom   男            3
2   3    alien   女            5


### 重新命名列
***.rename方法：***

例子：



In [18]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})
# 这个函数是获取df中Name列中各个值的长度，并形成一个series
name_length=dataframe1["Name"].str.len()

print(name_length)
dataframe1["name_length"]=name_length
# 直接使用[]添加
print(dataframe1)

# 改变名称
dataframe1=dataframe1.rename(columns={"name_length":"NL"})

print(dataframe1)

0    7
1    3
2    5
Name: Name, dtype: int64
   ID     Name Sex  name_length
0   1  charlie   男            7
1   2      tom   男            3
2   3    alien   女            5
   ID     Name Sex  NL
0   1  charlie   男   7
1   2      tom   男   3
2   3    alien   女   5


### 删除

***.drop()方法：***

_.drop(<name>,axis="columns")

axis是指的是行还是列，如果不写一般是删除行，列的话要注意对axis的赋值。


In [20]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})
# 这个函数是获取df中Name列中各个值的长度，并形成一个series
name_length=dataframe1["Name"].str.len()

print(name_length)
dataframe1["name_length"]=name_length
# 直接使用[]添加
print(dataframe1)

# 改变名称
dataframe1=dataframe1.rename(columns={"name_length":"NL"})

print(dataframe1)

dataframe1=dataframe1.drop("NL",axis="columns")

print(dataframe1)

0    7
1    3
2    5
Name: Name, dtype: int64
   ID     Name Sex  name_length
0   1  charlie   男            7
1   2      tom   男            3
2   3    alien   女            5
   ID     Name Sex  NL
0   1  charlie   男   7
1   2      tom   男   3
2   3    alien   女   5
   ID     Name Sex
0   1  charlie   男
1   2      tom   男
2   3    alien   女


### ***注意***

每次当你使用pandas的时候，pandas都会为你创建一个副本，也就是说如果你不进行赋值，你之前的df是不会进行改变的。特别是删除一列的时候

## 继续学习函数

### .shape()和.size()
.shape()返回的是一个df或者series的行数和列数
.size()返回的是你的df的行数*列数

In [23]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})
# 这个函数是获取df中Name列中各个值的长度，并形成一个series
name_length=dataframe1["Name"].str.len()
dataframe1["name_length"]=name_length
print(dataframe1)
print(dataframe1.shape)
print(dataframe1.size)

   ID     Name Sex
0   1  charlie   男
1   2      tom   男
2   3    alien   女
(3, 3)
9


### .describe()方法

给的是一个df,df中包含你数据中的很多特征，比如中间值，或者最大值等等，因为我这里没有现成的数据所以这里不进行演示，它不止适用于df还适用于series

###  .sample()方法

在你的df中随机取出一个来当做你的sample，下面是例子

In [24]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3})

# 这个函数是获取df中Name列中各个值的长度，并形成一个series
name_length=dataframe1["Name"].str.len()
dataframe1["name_length"]=name_length
# 单个
print(dataframe1.sample())

# 多个
print(dataframe1.sample(2).iloc[:,:])



   ID     Name Sex  name_length
0   1  charlie   男            7
   ID   Name Sex  name_length
1   2    tom   男            3
2   3  alien   女            5


### .value_counts()

新建一个df,统计所给列中相同的值出现的次数

### .unique()

这个是定义在series上的，返回一个数组，其中包含所给列中只有一个的值

### .sort_values()

对所给的df进行排序

In [26]:
import pandas as pd

s1=pd.Series([1,2,3])

s2=pd.Series(["charlie","tom","alien"])

s3=pd.Series(["男","男","女"])

s4=pd.Series([100,12,65])

dataframe1=pd.DataFrame({"ID":s1,"Name":s2,"Sex":s3,"Grade":s4})

# 这个函数是获取df中Name列中各个值的长度，并形成一个series
name_length=dataframe1["Name"].str.len()
dataframe1["name_length"]=name_length

print(dataframe1.value_counts())

print(dataframe1["Name"].unique())

print(dataframe1.sort_values(by = "Grade"))


ID  Name     Sex  Grade  name_length
1   charlie  男    100    7              1
2   tom      男    12     3              1
3   alien    女    65     5              1
Name: count, dtype: int64
['charlie' 'tom' 'alien']
   ID     Name Sex  Grade  name_length
1   2      tom   男     12            3
2   3    alien   女     65            5
0   1  charlie   男    100            7
