# pandas使用教程  1.增删改查

pandas简介：pandas包含了数据结构和数据操作工具，
旨在使得在Python中进行数据清理和分析变得快速且便捷。
pandas通常与数值计算工具如NumPy和SciPy、分析库如scikit-learn，以及数据可视化库如matplotlib一起使用。

要使用pandas库，首先需要导入Pandas库

In [1]:
import pandas as pd
import numpy as np

In [2]:
#import pandas as pd #以后每当使用Pandas库里的函数时都需要先声明pandas，我们在这里将其重命名为pd以方便后续的coding

pandas 有两个核心对象，一个叫Dataframe，一个叫Series,它们将为解决各式各样的数据任务提供坚实的基础。因此，我们还可以这样来导入pandas库：

In [3]:
from pandas import Series, DataFrame

## dataframe：一种表格

DataFrame 表示一个矩形数据表，包含一个有序的、命名的列集合，每个列可以是不同的值类型(数值、字符串、布尔值等)，同时具有行索引和列索引

In [4]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


在本例中，“0，No”条目的值为131。“0，Yes”条目的值为50，以此类推。

In [5]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


看到最左边的数列了吗？它是一个从0开始的升序列表[0,1,2,3…]，这是pandas默认生成的，当我们想自己定义这一列时，通过index来修改：

In [6]:
intro = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
                      'Sue': ['Pretty good.', 'Bland.'],
                      'July':['Awsome!','Just so so.']},
index=['Product A', 'Product B'])
intro

Unnamed: 0,Bob,Sue,July
Product A,I liked it.,Pretty good.,Awsome!
Product B,It was awful.,Bland.,Just so so.


怎么修改列名呢？比如将上表的"Bob"改为"Mike":

In [7]:
intro.rename(columns={'Bob':'Mike'})

Unnamed: 0,Mike,Sue,July
Product A,I liked it.,Pretty good.,Awsome!
Product B,It was awful.,Bland.,Just so so.


要是所有的列名都得改的话，一个一个改会很麻烦（可以用循环），在这里我们提供另外一种方式来修改：

In [8]:
intro.columns = ['p1','p2','p3']#注意这里一定要都写，比如原来有3列，这里就得重写三个列名，否则会报错
intro

Unnamed: 0,p1,p2,p3
Product A,I liked it.,Pretty good.,Awsome!
Product B,It was awful.,Bland.,Just so so.


修改列的排序

In [9]:
order = ['p3','p2','p1']
intro[order]

Unnamed: 0,p3,p2,p1
Product A,Awsome!,Pretty good.,I liked it.
Product B,Just so so.,Bland.,It was awful.


DataFrame的查找

对于很长的DataFrame，我们可以使用head函数或者是tail函数来返回其五行或者最后五行

In [10]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [11]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


查找某个具体的一列(两种方法)

In [12]:
frame.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [13]:
frame['year']

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

使用loc函数或者iloc来查找某一行 注意这里用的是方括号不是圆括号

In [14]:
frame.loc[1]

state    Ohio
year     2001
pop       1.7
Name: 1, dtype: object

In [15]:
frame.iloc[2]

state    Ohio
year     2002
pop       3.6
Name: 2, dtype: object

可以通过赋值修改列

In [16]:
frame["year"] = 2023
frame

Unnamed: 0,state,year,pop
0,Ohio,2023,1.5
1,Ohio,2023,1.7
2,Ohio,2023,3.6
3,Nevada,2023,2.4
4,Nevada,2023,2.9
5,Nevada,2023,3.2


增加列

In [17]:
frame["eastern"] = frame["state"] == "Ohio"#出现不存在的索引时，会自动添加这一列
frame

Unnamed: 0,state,year,pop,eastern
0,Ohio,2023,1.5,True
1,Ohio,2023,1.7,True
2,Ohio,2023,3.6,True
3,Nevada,2023,2.4,False
4,Nevada,2023,2.9,False
5,Nevada,2023,3.2,False


移除列（del函数）

In [18]:
print(frame.columns)
del frame['eastern']
frame

Index(['state', 'year', 'pop', 'eastern'], dtype='object')


Unnamed: 0,state,year,pop
0,Ohio,2023,1.5
1,Ohio,2023,1.7
2,Ohio,2023,3.6
3,Nevada,2023,2.4
4,Nevada,2023,2.9
5,Nevada,2023,3.2


# Series:列表

相比之下，Series 是一个数据值序列。如果 DataFrame 是表，则 Series 是列。事实上，你只需要一个列表就可以创建一个Series。

In [19]:
fruit = pd.Series(['apple', 'banana', 'pear', 'grapes', 'Strawberry'])
fruit

0         apple
1        banana
2          pear
3        grapes
4    Strawberry
dtype: object

查看Series的索引起始、结束和步长

In [20]:
fruit.index

RangeIndex(start=0, stop=5, step=1)

查看Series的列表元素和长度以及数据类型

In [21]:
fruit.array

<PandasArray>
['apple', 'banana', 'pear', 'grapes', 'Strawberry']
Length: 5, dtype: object

In [22]:
number = pd.Series([1,2,3,4,5])
number.array

<PandasArray>
[1, 2, 3, 4, 5]
Length: 5, dtype: int64

自定义索引名和列表名

In [23]:
lovefruit = pd.Series(['Banana', 'Watermelon', 'Lemon'], index=['Mike', 'Jane', 'Peter'])
lovefruit

Mike         Banana
Jane     Watermelon
Peter         Lemon
dtype: object

Series的索引，通过索引（index）来找出对应的值

In [24]:
lovefruit['Mike']

'Banana'

In [25]:
lovefruit[['Mike', 'Jane', 'Peter']]

Mike         Banana
Jane     Watermelon
Peter         Lemon
dtype: object

我们来创建一个以int为数据类型的Series，来讲讲运算。

In [26]:
obj = pd.Series([4,7,5,-4,0],index = ['a','b','c','d','e'])
obj

a    4
b    7
c    5
d   -4
e    0
dtype: int64

找出大于0的元素（查）

In [27]:
obj[obj>0]

a    4
b    7
c    5
dtype: int64

以此类推，可以找出obj内的偶数、奇数、不为0的数...等等...

In [28]:
print(obj[obj%2==0])
print(obj[obj!=0])

a    4
d   -4
e    0
dtype: int64
a    4
b    7
c    5
d   -4
dtype: int64


对Series内部的数据进行运算

In [29]:
obj = obj * 2
obj

a     8
b    14
c    10
d    -8
e     0
dtype: int64

两个不同的列表相加：(索引相同)

In [30]:
obj1 = pd.Series([0.3,7.2,-1,0,6],index = ['a','b','c','d','e'])

In [31]:
obj + obj1

a     8.3
b    21.2
c     9.0
d    -8.0
e     6.0
dtype: float64

两个列表相加(索引不同),会对应索引相加，而找不到成对索引的索引会显示NaN

In [32]:
obj2 = pd.Series([1,2,3,4,5,6],index = ['c','b','a','d','e','f'])
obj2+obj

a    11.0
b    16.0
c    11.0
d    -4.0
e     5.0
f     NaN
dtype: float64